OpenAI大手一挥,向量数据库也成韭菜啦?

2023-11-17 19:10:14 字數 4713 閱讀 5914

到底需不需要向量数据库,好像又变成了问题。

一年前openai拿出chatgpt大手一挥,奥特曼成了《回到未来》背后的罗伯特·泽米吉斯,agi的广告牌突然直眉瞪眼的踏进滚滚红尘,沾到喜气的万物开始生长,也包括向量数据库这个新也不新的概念股。

这个开始被冠以“ai时代的技术基座”的概念,变成了pinecone、chroma和weviate这些向量数据库初创公司在今年上半年的融资进展,有的融资额高达上亿美元。

几个月后,ai时代还没真的来,openai好像亲手浇灭了它。

刚散场的第一届openai开发者大会,每一句话都要被奉若圭臬。

历史进程的推进猝不及防,大家都怕了。

2023年洛帕克街第一次点亮时爱迪生的那件大衣你错过了,2023年拿着初代iphone时乔布斯身上那件三宅一生设计的高领毛衣你错过了,现在山姆奥特曼这件纯色针织衫你总不能再错过了吧。后验的历史脉络这次在还没发生之前就把“第x次工业革命”、“下一个iphone时刻”的时间点告诉你了,人得有点数。

图源:openai第一届openai开发者大会的准入门槛比柏林berghain还要难琢磨。会上奥特曼用gpts给面朝自己创业又好不容挤进去的应用开发者们泼了一盆冷水后,又拿着一个叫assistants的api朝着可能没挤进去的向量数据库开发者泼了另一盆。

assistants api允许开发者在自己的应用程序中构建al助手,并且支持**解释器、检索和函数调用三种类型的工具。openai对于“检索”的解释是,如果你有自己的知识库,现在你可以直接扔进来,我们会自动来对这些数据进行优化,也就是向量化,然后就在原地进行后续的存储和处理。

虽然有手快的开发者已经试过并且下了判断说现在的gpts有一种没用向量数据库的感觉,但长久下去,assistants api完善了以后好像就没必要另外去用一个向量数据库处置自己的数据了。如果最终开发者还是要在chatgpt上做应用的话。

在向量数据库中,数据以向量的形式进行存储和处理,因此需要将原始的非向量型数据转化为向量表示。 数据向量化是指将非向量型的数据转换为向量形式的过程。 通过数据向量化,实现了在向量数据库中进行高效的相似性计算和查询。

向量数据库的概念是相对于传统关系型数据库而言的,两者之间有一个结构化和非结构化数据的相对概念。

打个比方。在一个word文档里找一个词,在豆瓣里找一个作者的所有书,这就是结构化程度非常高的数据。关键字、指标、字符串和json都是高度结构化的对象类型。

但现实远比这混乱。一个现代人可能一个月看不完一本书,但每天可以在网上看万50篇文章的开头,加上仔细研究的200条小红书、推特或者reddit的帖子。再加上他要在各种社交软件上参与的聊天。相对于一板一眼的书本,一个人大部分的信息来字是后面这些杂七杂八的信息网络。碎片化,也就意味着结构化程度非常低,难以找到其中相关的联系。

再进一步展开,文字本来就是一种对世界信息的有损压缩。我们从这个世界上接收的所有信息里,以文字呈现的信息微不足道,绝大部份的信息是以画面(**或者声音这些更自然的形式呈现出来的。

这些聊天记录、**或者**就是非结构化数据。一份统计显示,这些非结构化数据再全世界数据总量中的占比仍然在不断上升,预计2023年将达到八成以上。

图源:medium信息**的年代,烧人的脑子也烧ai的。向量数据库就是要为这些非结构化的数据建立联系,并且存储下来。

回到gpts,assistants api的意思并不是向量数据库不重要,它更像是在说,向量数据库本身不是目的。

openai在讨论的是个位置问题。本来向量数据库可以依靠landchain等中间件来搭建,现在把这个过程放在chatgpt内部来完成,减少了操作步骤,对于开发者来说,数据向量化的门槛进一步被降低了。

这里面仍然有openai狡猾的一面。公开可供大模型训练的数据会越来越少,大量未被触碰到的数据存放在公司自己的保险柜里,或者更零散的,在更多个人用户数据不能离境的社交平台上。奥特曼看起来愿意为你多走一步,背后的野心可能是为了让你多走一步——把你的数据贡献出来。

当然这只是一种恶意揣测,但其中要表达的意思是,很多公司不会买这个账,他们仍然需要一个能够保证自己数据安全的中立的向量数据库。

从gpts开始,向量数据库出现了新的趋势。

最初向量数据库从大模型的中间层繁荣起来,比如在今年上半年拿到热钱的chroma和qdrant,然后像openai这样掌握着大模型向应用程序转化终端的公司开始把向量数据库的能力放到台前。还有另一派则是从云服务切入对向量数据库开始的探索。

一个有趣的现象是,全世界做数据库的公司,基本只在美国和中国。但当下两者之间仍然有着明显的代际差。比如美国的数据库行业已经把重心放在非结构化数据上,国内仍然是以结构化数据为主。前者建立在一个更完善的开源生态上,国内则更多以商业数据库面貌呈现。

生成式ai是一场全球竞争,数据库是其中基础能力要素。这种在追赶中塑造一个技术领域的场面,首先需要一个行业的发展标准。正巧近日中国信通院与大数据研究所联合腾讯、阿里巴巴等50家企业专家一起设定的标准《向量数据库技术要求》发布了。

这一套技术标准包含基本功能、运维管理、安全性 、兼容性、扩展性、高可用以及工具生态七大能力域共47个测试项,其中分为27个必选项和20个可选项。作为业内首个向量数据库技术标准,可为向量数据库的研发、测试以及选型提供参考。

首批“可信数据库”向量数据库产品正在测试中。腾讯云的向量数据库tencent cloud vectordb成为首个通过这个基准测试的向量数据库产品。c端业务宽而厚实的腾讯要怎么做向量数据库,可做国内向量数据库发展的一个参考样本。

图源:品玩这张图展示的是腾讯云向量数据库的整体架构。

api 层:允许与其他软件组件进行交互。用户通过这一层与向量数据库进行交互。它提供了一个 web 控制台,供用户直接管理数据库;提供了软件开发工具包(sdk),支持多种编程语言,这样开发人员可以在他们的应用程序中直接集成数据库功能。

compute layer(计算层):负责处理数据和执行操作。这一层包括了多种数据库操作,如 upsert(更新或插入)、delete(删除)、update(更新)、query(查询)、knn(最近邻搜索)、range(范围查询)、filter(过滤),还包括 ai 相关的操作如 embedding、split、index training。

storage layer(存储层):负责数据的持久化和存储。这一层包括 rocksdb 数据库(一个键值存储),它使用了raft 协议来确保多副本之间的一致性,每个副本分为 leader 和 follower。还包括搜索和索引机制,比如hnsw、ivf、倒排索引(inverted index),以及对象存储(支持 pdf、word、txt 等文件格式)。

有趣的地方是,通常向量数据库只专注于存储和检索向量数据,而数据的准备(如向量化)和索引的训练往往在数据库之外的应用程序或服务中进行。这次腾讯云的向量数据库直接将embedding集成进了计算层。

再加上knn和 index training,这种集成可能比其他向量数据库更紧密,提供了端到端的数据处理和机器学习操作,这意味着用户可以在数据库内部进行模型训练和向量化,而无需依赖外部工具。

如果把现在的openai的未来看作一个以gpts展开的产品公司,它选择将向量数据库的能力折叠进末端的应用程序里;而以云厂商的视角来看,它天然离用户的原始数据更近,数据的向量化是云服务框架下的概念。

还是那句话,向量数据库本身不是目的。

腾讯云选择将向量化这个过程(也就是embedding)也包揽下来,并作为独立产品推出,减少了用户将数据从一个系统(如数据处理或机器学习平台)转移到另一个系统(如向量数据库)的需要。而在单个系统中完成所有工作,也会提高效率并可能减少错误的发生。

对于用户在数据保护方面的顾虑,仍然可以交给私有化部署。

这个框架使用了多种索引结构,比如hnsw和ivf。

hnsw(hierarchical n**igable small world)是一种基于图的索引方法,通过创建多层级的图结构,使得近似最近邻搜索能够在较低成本下快速进行,尤其是在高维空间中。即便是在高度复杂的数据集中也能提供高质量的搜索结果。

ivf(inverted file index)是一种量化索引方法,通过量化向量空间来减少存储需求和加速搜索。由于ivf可以将向量空间量化成较小的编码,大大减少了存储需求,也就更适合于大规模数据集。并且由于可以通过查找预先计算的量化中心来减少需要比较的向量数量,ivf提供了速度上的优势。

这种复合索引结构在一些需要快速响应时间和高精确度的应用场景中非常有效,最直白的场景就是图像识别、推荐系统和**广告。数据库不是开发出来的,是用出来的。这种索引结构的组合也反映了腾讯云向量数据库独特的生长脉络。

腾讯云向量数据库从2023年开始在内部进行孵化,2023年开始接进腾讯**、腾讯**和qq浏览器等内部产品,现在腾讯云向量数据库服务腾讯内部的业务数量达到40多个,日请求量有1600亿次。在近日发布的腾讯三季度财报中,广告业务收入同比增长20%,腾讯也提到其中有ai相关技术的贡献。

从2023年谷歌开始尝试用rankbrain将纯文本转化成“词向量”开始,数据向量化的优越性就鲜明起来,未来向量数据库的角色显然也不会消失。

数据库的演进代表着人类刻画世界信息的能力进步。只要人类对ai仍然有完全的驾驭能力,ai的进步就仍然建立在人类如何理解和记忆世界信息的逻辑基础上。向量数据库是为ai提供记忆能力的海马体,但ai的形态远比人体自由,这个海马体的位置和形态可以不断变化。就像对于人类来说,最初外置在大脑外的“海马体”可能仅仅是一本笔记本,到现在变成一台手边的手提电脑。

但你仍然会叫它“笔记本”。

向量数据库失宠了?OpenAI 力捧检索增强生成(RAG)技术

作者 冬梅 核子可乐。在刚刚过去的首届 openai 开发者大会上,openai 不仅公布了新的 gpt turbo 模型,还推出了多项对现有功能的升级和融合,一系列新产品和新功能的发布让外界大呼过瘾。虽然其中重要内容很多,但一条具有革命性意义的消息让人很难不注意到 消除在某些用例中对纯向量数据库的...

三大开源向量数据库大比拼

译者 布加迪。向量数据库具有一系列广泛的好处,特别是在生成式人工智能方面,更具体地说,是在大语言模型 llm 方面。这些好处包括先进的索引和精确的相似度搜索,有助于交付强大的先进项目。本文将对三种开源向量数据库 chroma milvus和we iate进行如实的比较。我们将 它们的用例 关键特性 ...

一文读懂向量数据库和Embedding,ChatGPT外挂,Agent的记忆中枢

当下最火的llm和agent,由于长下文的限制,都绕不开embedding和向量数据库这个话题,但什么是向量数据库,什么是embedding,希望读完本文,各位就可以从到,实现对embedding和向量数据库的入门到精通。一 引言 向量数据库 数据世界的新维度向量数据库,这种特殊类型的数据库不仅拓宽...