OpenAI 大手一挥，向量资料库也成韭菜？

AI与大数据 11分钟前 0

▼

到底需不需要向量资料库（Vector Database），好像又变成问题了。

一年前OpenAI拿出ChatGPT大手一挥，奥特曼（Sam Altman）成了〈回到未来〉背后的罗伯辛密克斯，AGI广告牌突然踏进滚滚红尘，沾上喜气的万物开始生长，也包括向量资料库这半新不旧的概念股。开始冠上“AI时代技术基底”的概念，变成Pinecone、Chroma和Weviate等向量资料库新创上半年融资进展，有的融资额高达上亿美元。

几个月后，AI时代还没到来，OpenAI就亲手浇熄了火苗。

争议

刚散场的第一届OpenAI开发者大会，每句话都奉若圭臬。历史重演猝不及防，大家都害怕了。

1879年洛帕克街第一次电灯点亮时爱迪生那件大衣你错过了，2007年拿着初代iPhone时贾伯斯身上三宅一生高领毛衣你错过了，现在Sam Altman纯色针织衫总不能再错过了吧？

后验历史脉络这次还没发生前就把“第N次工业革命”、“下个iPhone时刻”的时间点告诉你了。第一届OpenAI开发者大会门槛比柏林Berghain还高。Altman用GPTS泼了追着他创业又好不容挤进去的应用开发者一盆冷水，又拿着叫Assistants的API朝挤不进去的向量资料库开发者泼另一盆水。

Assistants API允许开发者在应用程式建立Al助理，支援解码器、检索和函数呼叫三类工具。OpenAI“检索”解释是，如果有资料库可直接扔进来，会自动最佳化数据，也就是向量化，然后原地后续储存和处理。

有手快开发者已试过并判断说现在GPTS有种没用向量资料库的感觉，但长久下去，Assistants API更完整后就没必要另外用其他向量资料库处理数据了。如果最终开发者还是要经ChatGPT开发应用。

什么是向量资料库？

向量资料库的数据以向量形式储存和处理，需将原始非向量资料转成向量。资料向量化是指将非向量型资料转为向量的过程，透过资料向量化后就可高效率相似性计算和查询。

向量资料库概念相对于传统关系型资料库，两者有结构化和非结构化资料概念。如在Word找一词，网络书店找某作者所有书，就是结构化程度非常高的资料。关键字、指标、字串和JSON都是高度结构化类型。

但现实更混乱。现代人可能一个月看不完一本书，但每天可在网络浏览50篇文章开头，加上仔细研究Facebook、X或Reddit贴文，加上各种通讯软件聊天。相对一板一眼的纸书，大部分资讯来自杂七杂八的资讯网。零碎化，代表结构化程度非常低，难以找到关连。

再延伸，文字本就是世界讯息的压缩。从世界接收的所有讯息，文字分量微不足道，大部分讯息是以画面（图片、影片）或声音等更直觉形式呈现。聊天纪录、图片或影片就是非结构化资料。统计显示，非结构化资料占全世界资料总量不断上升，2025年将达八成。

资讯爆炸的年代，不只烧脑，也烧AI。向量资料库就是要为非结构化资料建立连结，并储存下来。

“狡猾”的OpenAI

回到GPTS，Assistants API的意思不是向量资料库不重要，更像说向量资料库本身不是目的。OpenAI讨论的是位置问题。原本向量资料库可靠LandChain等中间体搭建，现在过程由ChatGPT完成，减少操作步骤，对开发者来说，资料向量化门槛降低不少。

但OpenAI仍有狡猾那面。公开的大模型训练资料会越来越少，大量碰不到的资料存在各公司保险箱里，或更零散存在个人使用者资料无法离境的社群平台。Altman看起来愿意多走一步，野心可能是为了让你多走一步──分享你的数据。当然这只是揣测，但很多公司不买帐，仍想要确保资料安全的中立向量资料库。

分层

从GPTS开始，向量资料库出现新趋势。最初向量资料库从大模型中间层窜出，如上半年拿到热钱的Chroma和Qdrant，然后像OpenAI掌握大模型转至应用程式终端的公司，开始把向量资料库放上台面，另一派是从云端服务切入探索向量资料库。

有趣现象是，全世界有做资料库的公司都在美国和内地，但有明显世代差距。美国资料库产业重心已是非结构化资料，内地还以结构化资料为主；前者建立在更完善的开源生态上，内地以商业资料库为多。

生成式AI是全球竞争，资料库是基础要素。追赶下塑造技术领域，首先需要产业发展标准，近日内地信通院与大数据研究所联合腾讯、阿里巴巴等50家企业专家设定的标准《向量资料库技术要求》，含基本功能、维运管理、安全性、相容性、扩展性、高可用及工具生态七大能力域共47个测试项目，分成27个必选项和20个可选项。算是业界首个向量资料库标准，可为向量资料库研发、测试及选型提供参考。

首批“可信任资料库”向量资料库产品测试中，腾讯云向量资料库Tencent Cloud VectorDB成为第一个通过基准测试的向量资料库产品。C端业务宽而厚实的腾讯要怎么做向量资料库，可为内地向量资料库发展的参考。

样本

下图展示腾讯云向量资料库架构。

API 层：允许与其他软件元件互动。使用者透过这层与向量资料库互动，有Web控制台，使用者可直接管理资料库；软件开发工具包（SDK），支援多种程式语言，让应用程式直接整合资料库功能

Compute Layer（计算层）：负责处理资料和执行，包括多种资料库操作，如 Upsert（更新或插入）、Delete（删除）、Update（更新）、Query（查询）、KNN（最近邻搜寻）、Range（范围查询）、Filter（过滤），还有 AI 操作如Embedding、Split、Index Training。

Storage Layer（储存层）：负责资料持久化与储存，有RocksDB资料库（一个键值储存），以Raft协定确保多副本一致性，每副本分成Leader和Follower。还有搜寻和索引，如HNSW、IVF、反向索引（Inverted Index）及对象储存（支援 pdf、word、txt 等档案格式）。

向量资料库不是最终目的地

通常向量资料库只专注储存和检索向量数据，准备（如向量化）和索引训练往往在资料库以外应用程式或服务负责。腾讯云向量资料库直接将Embedding整合进运算层。加上KNN和Index Training，可能比其他向量资料库更紧密，提供点到点资料处理和机器学习，使用者可用资料库模型训练和向量化，无需靠外部工具。

如果把现在OpenAI看成以GPTS为主的公司，选择将向量资料库功能收进末端应用程式，以云端厂商视角看，本来就离用户原始资料更近，资料向量化是云端服务框架下的概念。还是那句话，向量资料库不是最终目的。

腾讯云选择包办向量化过程（Embedding），并当成独立产品推出，减少用户将数据从一系统（如数据处理或机器学习平台）转至另一个系统（如向量资料库）。单一系统做完工作，也可提高效率并减少错误。使用者资料保护顾虑，可交给私有化部署。

资料库不是开发完成，是使用完成

这框架使用多种索引结构，如HNSW和IVF。HNSW（Hierarchical Navigable Small World）是基于图片的索引法，创建多层级图结构，近似最近邻搜寻能以较低成本快速执行，尤其高维度空间。即便高度复杂资料库也能提供高品质搜寻结果。

IVF（Inverted File Index）是量化索引法，透过量化向量空间减少储存需求并加速搜寻。由于IVF可将向量空间量化成较小编码，大大减少储存需求，也更适合大规模资料库。且可透过寻找预先计算的量化中心减少比较向量数，IVF提供速度优势。

复合索引结构在需快速回应时间和高精确度的应用程式非常有效，如影像辨识、推荐系统和线上广告。资料库不是开发完成，是使用完成。这种索引结构的组合也反映了腾讯云向量资料库独特的生长脉络。

腾讯云向量资料库2019年开始孵化，2020年接入腾讯音乐、腾讯视频和QQ浏览器等产品，现在腾讯云向量资料库服务腾讯业务数量达40多个，日请求量有1,600亿次。近日腾讯第三季财报，广告业务营收年增20%，腾讯也提到AI相关技术的贡献。

AI笔记本

2015年Google尝试用RankBrain将纯文字转成“词向量”开始，资料向量化优越性更明显，向量资料库角色不会太快消失。资料库演化代表人类刻画世界资讯的能力更进步，只要完全驾驭AI，AI进步就还是建立在人类如何理解和记忆世界资讯逻辑基础上。向量资料库是提供AI记忆能力的海马回，但AI远比人类自由，海马回的位置和形态可不断改变。就像人类最初在大脑外的“海马回”可能只是笔记本，到现在变成笔电。

（本文由品玩授权转载；首图来源：shutterstock）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

争议

什么是向量资料库？

“狡猾”的OpenAI

分层

样本

向量资料库不是最终目的地

资料库不是开发完成，是使用完成

AI笔记本

相关文章