李开复创办的零一万物发布大模型Yi 34B 估值超10亿美元

2023-11-06 23:30:17 字數 5520 閱讀 3492

雷递网 乐天 11月6日

创新工场董事长李开复博士带队创办的ai 2.0公司零一万物,今日正式开源发布首款预训练大模型 yi-34b。

yi” 系列大模型:命名来自“一”的拼音,“yi”中的“y”上下颠倒,巧妙形同汉字的 “人”,结合ai里的 i,代表 human + ai。

零一万物创始人及ceo李开复博士表示:“零一万物坚定进军全球第一梯队目标,从招的第一个人,写的第一行**,设计的第一个模型开始,就一直抱着成为‘world's no.1’的初衷和决心。我们组成了一支有潜力对标 openai、google等一线大厂的团队,经历了近半年的厚积薄发,以稳定的节奏和全球齐平的研究工程能力,交出了第一张极具全球竞争力的耀眼成绩单。yi-34b可以说不负众望,一鸣惊人。”

李开复在接受**采访时表示,零一万物(01.ai)经过一轮融资后,估值已超过10亿美元。

据介绍,李开复于2023年3月开始组建零一万物的团队,并于6月开始运营。零一万物开源的基础大型语言模型yi-34b现已向全球开发者提供中英文版本。

hugging face最新评估结果显示,yi-34b在所谓的预训练基础大语言模型中排名第一,在一些关键指标上优于包括meta公司llama 2在内的领先开源模型。这也是迄今为止唯一成功登顶 hugging face 全球开源模型排行榜的国产模型。

发布34b和6b两个版本

零一万物此次开源发布的yi系列模型,包含34b和6b两个版本。

在hugging face 英文测试公开榜单 pretrained 预训练开源模型排名中,yi-34b以70.72的分数位列全球第一,超过llama2-70b和 falcon-180b等众多大尺寸模型。

hugging face是全球最受欢迎的大模型、数据集开源社区,被认为是大模型领域的github,在大模型英文能力测试中具有相当权威性。

作为国产优质大模型, yi-34b主打更“懂”中文。对比大模型标杆gpt-4,在cmmlu、e-eval、gaokao 三个主要的中文指标上,yi-34b 也具有优势,凸显中文世界的优异能力,更好地满足国内市场需求。

c-eval 排行榜:公开访问的模型,yi-34b 全球第一(2023年11月5日)

各评测集得分:yi 模型 v.s. 其他开源模型。

但和 llama2一样,yi系列模型在gsm8k、mbpp 的数学和**评测表现略逊gpt模型。由于零一万物的技术路线倾向于在预训练阶段尽可能保留模型的通用能力,因此没有加入过多的数学和**数据。

研究团队此前在《mammoth: building math generalist models through hybrid instruction tuning》等研究工作中针对数学方向进行过深度探索,在未来,零一万物的系列开源计划中将推出**能力和数学能力专项的继续训练模型。

全球最长200k上下文窗口,40万字文本极速处理,直接开源

此次开源的yi-34b模型,将发布全球最长、可支持200k 超长上下文窗口(context window)版本,可以处理约40万汉字超长文本输入。相比之下,openai的gpt-4上下文窗口只有32k,文字处理量约2.5万字。

2023年三月,硅谷知名 ai 2.0 创业公司anthropic的claude2-100k 将上下文窗口扩展到了100k规模,零一万物直接加倍,并且是第一家将超长上下文窗口在开源社区开放的大模型公司。

在语言模型中,上下文窗口是大模型综合运算能力的金指标之一,对于理解和生成与特定上下文相关的文本至关重要,拥有更长窗口的语言模型可以处理更丰富的知识库信息,生成更连贯、准确的文本。

此外,在文档摘要、基于文档的问答等下游任务中,长上下文的能力发挥着关键作用,行业应用场景广阔。在法律、财务、传媒、档案整理等诸多垂直场景里,更准确、更连贯、速度更快的长文本窗口功能,可以成为人们更可靠的ai助理,让生产力提升。然而,受限于计算复杂度、数据完备度等问题,上下文窗口规模扩充从计算、内存和通信的角度存在各种挑战,因此大多数发布的大型语言模型仅支持几千tokens的上下文长度。

为了解决这个限制,零一万物技术团队实施了一系列优化,包括:计算通信重叠、序列并行、通信压缩等。通过这些能力增强,实现了在大规模模型训练中近100倍的能力提升,也为yi系列模型上下文规模下一次跃升储备了充足“电力”。

yi-34b的200k上下文窗口直接开源,不仅能提供更丰富的语义信息,理解超过1000页的pdf文档,让很多依赖于向量数据库构建外部知识库的场景,都可以用上下文窗口来进行替代。yi-34b的开源属性也给想要在更长上下文窗口进行微调的开发者提供了更多的可能性。

ai infra 是大模型核心护城河,实测实现40%训练成本下降

ai infra(ai infrastructure 人工智能基础架构技术)主要涵盖大模型训练和部署提供各种底层技术设施,包括处理器、操作系统、存储系统、网络基础设施、云计算平台等等,是模型训练背后极其关键的“保障技术”,这是大模型行业至今较少受到关注的硬技术领域。

李开复曾经表示,“做过大模型infra的人比做算法的人才更稀缺”。在打造“world's no.1"梯队时,超强的infra 能力是大模型研发的核心护城河之一。如果说训练大模型是登山,infra的能力定义了大模型训练算法和模型的能力边界,也就是“登山高度”的天花板。在芯片、gpu等算力资源紧缺的当下,安全和稳定成为大模型训练的生命线。

零一万物的 infra 技术通过“高精度”系统、弹性训和接力训等全栈式解决方案,确保训练高效、安全地进行。

凭借强大的 ai infra 支撑,零一万物团队能实现超越行业水平的训练效果,yi-34b模型训练成本实测下降40%,实际训练完成达标时间与**的时间误差不到一小时,进一步模拟上到千亿规模训练成本可下降多达50%。截至目前,零一万物infra能力实现故障**准确率超过90%,故障提前发现率达到99.9%,不需要人工参与的故障自愈率超过95%,保障了模型训练的顺畅进行。

在 yi 开源模型的全球首发日,零一万物ceo李开复也宣布,在完成 yi-34b 预训练的同时,已经旋即启动下一个千亿参数模型的训练。“零一万物的数据处理管线、算法研究、实验平台、gpu 资源和 ai infra 都已经准备好,我们的动作会越来越快”。

深研“规模化训练实验平台”,从“粗放炼丹”进阶到 “科学训模”

众所周知,大模型效果依赖于更多、更高质量的数据,零一万物在数据处理管线上可谓“不惜成本”。由前google大数据和知识图谱专家领衔的数据团队,凭对数据的深度理解与认知,结合大量数据处理实验,建设了高效、自动、可评价、可扩展的智能数据处理管线。

不仅如此,经过几个月大量的建模和实验,零一万物自研出一套“规模化训练实验平台”,用来指导模型的设计和优化。数据配比、超参搜索、模型结构实验都可以在小规模实验平台上进行,对34b模型每个节点的**误差都可以控制在0.5%以内。掌握了更强的模型**能力,从而大大减少了进行对比实验需要的资源,也减少了训练误差对于计算资源的浪费。

数据处理管线和加大规模**的训练能力建设,把以往的大模型训练碰运气的“炼丹”过程变得极度细致和科学化,不仅保证了目前发布yi-34b、yi-6b模型的高性能,也为未来更大规模模型的训练压缩了时间和成本,有能力以领先于行业的速度,将模型规模“丝滑”扩大到数倍。

零一万物团队首度亮相。

零一万物的团队卧虎藏龙,成员来自google、微软、阿里巴巴、、字节跳动、腾讯等国内外顶级企业背景,并持续延揽全球范围内最优秀的华人ai精英。

零一万物算法和模型团队成员,有**曾被gpt-4引用的算法大拿,有获得过微软内部研究大奖的优秀研究员,曾获得过阿里ceo特别奖的超级工程师。总计在iclr、neurips、cvpr、iccv等知名学术会议上发表过大模型相关学术**100余篇。

零一万物技术副总裁及ai alignment负责人是 google bard/assistant 早期核心成员,主导或参与了从 bert、lamda 到大模型在多轮对话、个人助理、ai agent 等多个方向的研究和工程落地;首席架构师曾在google brain与jeff dean、samy bengio等合作,为tensorflow的核心创始成员之一。

首次发布的背后主力战将,零一万物技术副总裁及 pretrain 负责人黄文灏是通用人工智能 agi 的信仰者,他曾先后任职于微软亚洲研究院和智源研究院。在微软从事ai agent研究工作时,得到微软创始人比尔·盖茨和ceo 萨提亚·纳德拉的高度赞扬。

而支持 yi 模型训练保障交付的零一万物技术副总裁及ai infra负责人戴宗宏,是前华为云 ai cto 及技术创新部长、前阿里达摩院 ai infra 总监。infra核心团队主要来自于阿里、华为、微软、商汤,是ai 多领域具有高水平研究及系统研发能力的顶尖专家,曾经参与支持了4个千亿参数大模型规模化训练,管理过数万张gpu卡,夯实了端到端的全栈ai技术能力,零一万物可说是具备一支行业内少有的 ai infra “技术天团”。

打造更多toc super app,培育新型“ai-first”创新生态。

零一万物认为,34b的模型尺寸在开源社区属于稀缺的“**比例”尺寸。相比目前开源社区主流的7b、13b等尺寸,34b模型具备更优越的知识容量、下游任务的容纳能力和多模态能力,也达到了大模型 “涌现”的门槛。

在精度上,不少开发者都表示7b、13b开源模型在很多场景下无法满足需求,追求更好的性能需要使用30b以上的模型,但一直没有合适的选择,高质量的yi-34b的出现,顺利解决了开源社群这一刚性需求。

而比起更大的 50b至70b,34b是单卡推理可接受的模型尺寸的上限,训练成本对开发者更友好,经过量化的模型可以在一张消费级显卡(如4090)上进行高效率的推理,对开发者操作服务部署有很大的优势。

接下来,零一万物将基于yi系列大模型,打造更多to c超级应用。李开复强调,“ai 2.0是有史以来最大的科技革命,它带来的改变世界的最大机会一定是平台和技术,正如pc时代的微软office,移动互联网时代的微信、抖音、美团一样,商业化爆发式增长概率最高的一定是toc应用。零一万物邀请开发者社群跟我们一起搭建yi开源模型的应用生态系,协力打造ai 2.0时代的超级应用。”

目前,yi系列模型已在 hugging face、modelscope、github 三大全球开源社区平台正式上线,同时开放商用申请,给开发者在使用llm的过程中提供更多、更优质的选择。

本次开源的基座模型包括200k上下文窗口的基座模型,基座模型进行了比较均衡的iq和eq的配置,保留了后续进行不同方向微调的可能性。为了能让语言模型有更好的应用效果,广大开发者可以基于基座模型进行微调,github 01yi 开源网页上已经提供了简单的微调**,同时模型和主流语言模型微调框架兼容,开发者可以自行进行适配。

零一万物称,将基于yi 基座模型,快节奏开源发布一系列的量化版本、对话模型、数学模型、**模型和多模态模型等,邀请开发者积极投入,共同促进语言模型开源社区的繁荣发展,培育新型“ai-first”创新生态体系。

雷递由**人雷建平创办,若**请写明**。

李开复 于丹都推荐的一本关于说话之道的好书,你看过吗?

李开复曾表示,说话之道,也是为人之道,更是人生的一门艺术。强烈推荐这本书给那些不太会说话的人。于丹也评价这本书说,说话的魅力并不在于你说的是否对,而在于你是否认真地在表达。康永哥的这本书,让我再次体会到言之有物,句句温暖。说话是一门艺术,更是一门学问,同样的事,在不同人嘴里说出来,味道千差万别,有的...

第一次开深夜食堂,零基础创业,小白店主容易踩哪些坑

深夜食堂,这个充满魅力和温馨的场所,吸引了无数创业者的目光。尤其是一些热爱日料的餐饮创业者一直有一个梦想,那就是拥有一家属于自己的深夜食堂。这个梦想源于对美食的热爱,以及对那种深夜食堂独特氛围的向往。有的人毫无开店经验,但还是决定勇敢地追求自己的梦想。比如在上海,就有不少创业者选择位于市中心的小巷子...

开一家3D打印真人手办照相馆,复杂吗?看完你就知道

为何说在当地开设一家d打印真人手办照相馆变得轻而易举呢?首先,线下城市门店只需要进行数据采集就大功告成了。顾客光临店内,只需短短分钟就能完成扫描过程,当然,如果现场人数较多,所需时间会有所延长。扫描完成后,顾客马上就能在屏幕上 到扫描后的虚拟建模,如果对数据不满意,可以随时重新扫描,并将扫描完成的数...