OpenAI 大手一挥,向量资料库也成韭菜?
▼
到底需不需要向量资料库(Vector Database),好像又变成问题了。
一年前OpenAI拿出ChatGPT大手一挥,奥特曼(Sam Altman)成了〈回到未来〉背后的罗伯辛密克斯,AGI广告牌突然踏进滚滚红尘,沾上喜气的万物开始生长,也包括向量资料库这半新不旧的概念股。开始冠上“AI时代技术基底”的概念,变成Pinecone、Chroma和Weviate等向量资料库新创上半年融资进展,有的融资额高达上亿美元。
争议
刚散场的第一届OpenAI开发者大会,每句话都奉若圭臬。历史重演猝不及防,大家都害怕了。
1879年洛帕克街第一次电灯点亮时爱迪生那件大衣你错过了,2007年拿着初代iPhone时贾伯斯身上三宅一生高领毛衣你错过了,现在Sam Altman纯色针织衫总不能再错过了吧?
后验历史脉络这次还没发生前就把“第N次工业革命”、“下个iPhone时刻”的时间点告诉你了。第一届OpenAI开发者大会门槛比柏林Berghain还高。Altman用GPTS泼了追着他创业又好不容挤进去的应用开发者一盆冷水,又拿着叫Assistants的API朝挤不进去的向量资料库开发者泼另一盆水。
Assistants API允许开发者在应用程式建立Al助理,支援解码器、检索和函数呼叫三类工具。OpenAI“检索”解释是,如果有资料库可直接扔进来,会自动最佳化数据,也就是向量化,然后原地后续储存和处理。
有手快开发者已试过并判断说现在GPTS有种没用向量资料库的感觉,但长久下去,Assistants API更完整后就没必要另外用其他向量资料库处理数据了。如果最终开发者还是要经ChatGPT开发应用。
什么是向量资料库?
向量资料库的数据以向量形式储存和处理,需将原始非向量资料转成向量。资料向量化是指将非向量型资料转为向量的过程,透过资料向量化后就可高效率相似性计算和查询。
向量资料库概念相对于传统关系型资料库,两者有结构化和非结构化资料概念。如在Word找一词,网络书店找某作者所有书,就是结构化程度非常高的资料。关键字、指标、字串和JSON都是高度结构化类型。
但现实更混乱。现代人可能一个月看不完一本书,但每天可在网络浏览50篇文章开头,加上仔细研究Facebook、X或Reddit贴文,加上各种通讯软件聊天。相对一板一眼的纸书,大部分资讯来自杂七杂八的资讯网。零碎化,代表结构化程度非常低,难以找到关连。
再延伸,文字本就是世界讯息的压缩。从世界接收的所有讯息,文字分量微不足道,大部分讯息是以画面(图片、影片)或声音等更直觉形式呈现。聊天纪录、图片或影片就是非结构化资料。统计显示,非结构化资料占全世界资料总量不断上升,2025年将达八成。
资讯爆炸的年代,不只烧脑,也烧AI。向量资料库就是要为非结构化资料建立连结,并储存下来。
“狡猾”的OpenAI
回到GPTS,Assistants API的意思不是向量资料库不重要,更像说向量资料库本身不是目的。OpenAI讨论的是位置问题。原本向量资料库可靠LandChain等中间体搭建,现在过程由ChatGPT完成,减少操作步骤,对开发者来说,资料向量化门槛降低不少。
但OpenAI仍有狡猾那面。公开的大模型训练资料会越来越少,大量碰不到的资料存在各公司保险箱里,或更零散存在个人使用者资料无法离境的社群平台。Altman看起来愿意多走一步,野心可能是为了让你多走一步──分享你的数据。当然这只是揣测,但很多公司不买帐,仍想要确保资料安全的中立向量资料库。
分层
从GPTS开始,向量资料库出现新趋势。最初向量资料库从大模型中间层窜出,如上半年拿到热钱的Chroma和Qdrant,然后像OpenAI掌握大模型转至应用程式终端的公司,开始把向量资料库放上台面,另一派是从云端服务切入探索向量资料库。
有趣现象是,全世界有做资料库的公司都在美国和内地,但有明显世代差距。美国资料库产业重心已是非结构化资料,内地还以结构化资料为主;前者建立在更完善的开源生态上,内地以商业资料库为多。
生成式AI是全球竞争,资料库是基础要素。追赶下塑造技术领域,首先需要产业发展标准,近日内地信通院与大数据研究所联合腾讯、阿里巴巴等50家企业专家设定的标准《向量资料库技术要求》,含基本功能、维运管理、安全性、相容性、扩展性、高可用及工具生态七大能力域共47个测试项目,分成27个必选项和20个可选项。算是业界首个向量资料库标准,可为向量资料库研发、测试及选型提供参考。
首批“可信任资料库”向量资料库产品测试中,腾讯云向量资料库Tencent Cloud VectorDB成为第一个通过基准测试的向量资料库产品。C端业务宽而厚实的腾讯要怎么做向量资料库,可为内地向量资料库发展的参考。
样本
下图展示腾讯云向量资料库架构。
API 层:允许与其他软件元件互动。使用者透过这层与向量资料库互动,有Web控制台,使用者可直接管理资料库;软件开发工具包(SDK),支援多种程式语言,让应用程式直接整合资料库功能
Compute Layer(计算层):负责处理资料和执行,包括多种资料库操作,如 Upsert(更新或插入)、Delete(删除)、Update(更新)、Query(查询)、KNN(最近邻搜寻)、Range(范围查询)、Filter(过滤),还有 AI 操作如Embedding、Split、Index Training。
Storage Layer(储存层):负责资料持久化与储存,有RocksDB资料库(一个键值储存),以Raft协定确保多副本一致性,每副本分成Leader和Follower。还有搜寻和索引,如HNSW、IVF、反向索引(Inverted Index)及对象储存(支援 pdf、word、txt 等档案格式)。
向量资料库不是最终目的地
通常向量资料库只专注储存和检索向量数据,准备(如向量化)和索引训练往往在资料库以外应用程式或服务负责。腾讯云向量资料库直接将Embedding整合进运算层。加上KNN和Index Training,可能比其他向量资料库更紧密,提供点到点资料处理和机器学习,使用者可用资料库模型训练和向量化,无需靠外部工具。
如果把现在OpenAI看成以GPTS为主的公司,选择将向量资料库功能收进末端应用程式,以云端厂商视角看,本来就离用户原始资料更近,资料向量化是云端服务框架下的概念。还是那句话,向量资料库不是最终目的。
腾讯云选择包办向量化过程(Embedding),并当成独立产品推出,减少用户将数据从一系统(如数据处理或机器学习平台)转至另一个系统(如向量资料库)。单一系统做完工作,也可提高效率并减少错误。使用者资料保护顾虑,可交给私有化部署。
资料库不是开发完成,是使用完成
这框架使用多种索引结构,如HNSW和IVF。HNSW(Hierarchical Navigable Small World)是基于图片的索引法,创建多层级图结构,近似最近邻搜寻能以较低成本快速执行,尤其高维度空间。即便高度复杂资料库也能提供高品质搜寻结果。
IVF(Inverted File Index)是量化索引法,透过量化向量空间减少储存需求并加速搜寻。由于IVF可将向量空间量化成较小编码,大大减少储存需求,也更适合大规模资料库。且可透过寻找预先计算的量化中心减少比较向量数,IVF提供速度优势。
复合索引结构在需快速回应时间和高精确度的应用程式非常有效,如影像辨识、推荐系统和线上广告。资料库不是开发完成,是使用完成。这种索引结构的组合也反映了腾讯云向量资料库独特的生长脉络。
腾讯云向量资料库2019年开始孵化,2020年接入腾讯音乐、腾讯视频和QQ浏览器等产品,现在腾讯云向量资料库服务腾讯业务数量达40多个,日请求量有1,600亿次。近日腾讯第三季财报,广告业务营收年增20%,腾讯也提到AI相关技术的贡献。
AI笔记本
2015年Google尝试用RankBrain将纯文字转成“词向量”开始,资料向量化优越性更明显,向量资料库角色不会太快消失。资料库演化代表人类刻画世界资讯的能力更进步,只要完全驾驭AI,AI进步就还是建立在人类如何理解和记忆世界资讯逻辑基础上。向量资料库是提供AI记忆能力的海马回,但AI远比人类自由,海马回的位置和形态可不断改变。就像人类最初在大脑外的“海马回”可能只是笔记本,到现在变成笔电。
(本文由 品玩 授权转载;首图来源:shutterstock)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。