文心大模型4 0赶超GPT 4?我们安排了一场硬核PK

2023-10-25 20:13:29 字數 2897 閱讀 6449

国内的大模型已经冲到了业界最强水平?10 月 17 日,世界大会上文心大模型 4.0 的发布引来了一大波关注。现场嘉宾、**和很多业内专家提前获得了评测资格,对新版本进行了第一时间的上手评测。

在文心一言的**上,现在已经出现了文心大模型 4.0 的标签,表面看起来和 3.5 版没有太大区别:

在这里我们要引入一点前置知识:上个版本文心大模型 3.5 已经有了插件(现有 8 种)、多模态理解、生成等能力,通过知识点增强技术实现了对世界知识的熟练掌握。因此,既然说 4.0 版是「迄今为止最强大模型」,我们就不能再用以前过于简单的问题来考验它了。

第1轮pk:理解能力

先看理解能力,这道「中文十级题」目测连网友都会翻车,文心大模型 4.0 的回答简洁明了:

换业界标杆 gpt-4 来回答,它理解并解释了其中幽默的意味,但表示无法确定小明最后买的是几等座:

下面这段话是在一档直播节目上出现的,那时人们评价道:全中国没人听得懂白岩松在说什么。

两个大模型都认为说话人想表达的是:人们都喜爱足球这项运动,不应该因为一小部分人的不喜欢而影响到这种喜爱。不过作为人类,还是得说一句 ai 没有理解「想说声喜爱很难」这种感情。

看起来理解问题的水准上,两种模型水平相近,文心大模型在一小部分问题上有点优势。

第2轮pk:逻辑能力

再看逻辑推理能力,输入一个高考试卷中的物理选择题,文心大模型 4.0 和 gpt-4 都给出了正确的回答:

看起来文心能给出的答案更详细一些,另外还显示了几个进一步解释概念的引导选项,似乎它对做题进行了专门的优化?

我们继续问了很多高考的数学题目,结果各有对错,也有些是都答不上来的。总体来看文心 4.0 和 gpt-4 的水平相近。

第3轮pk:生成能力

还有多模态生成,我们直接用同样的指令让两个大模型生成一段**,文心一言调用「一镜留影」插件,直接输出了结果:

gpt-4 则是调用 capcut(字节的剪映)插件生成**内容。需要注意的是,它提示要想生成**,就必须要与你进行多轮对话,逐步确定好**脚本(英文的)、屏幕比例等等:

在不断的测试中我们还能看出,如果你prompt得越仔细,说 ai 话的格式越规整,gpt-4 的表现就相对越好,不过最终也并没有产生决定性的差距。

第4轮pk:记忆能力

为了测试四大能力中的长期记忆能力,我们让文心大模型 4.0 阅读一篇贴吧的帖子:在崩铁更新了 1.4 版本之后,有人从自己专业的角度对剧情进行了一长段吐槽,那么这评价合理吗?

文心认为游戏剧情不需要完全按照现实世界的逻辑来展开。我不是很认同,我就是想要符合现实逻辑的剧情:

能不能再跌宕起伏一点?

再尝试替换其中的一个人物:

看起来,文心大模型4.0可以在保持原始知识的情况下,与人在不断对话的过程中生成、提炼出你想要的内容。

还有一些我们经常会用得到的功能。在chatgpt出现后,越来越多的人开始尝试使用大模型帮忙来润色**,据说 ai 写**看起来很有功底,一般人还真比不上。我们用一段著名的发言试一下:

文心大模型 4.0 把它改写成了这样:

与之相对的是,gpt-4 更多地使用了原文的信息:

不过在更多测试中,gpt-4 生成的内容偶尔会出现夹杂英文的现象。

另外,文心一言目前为保证获取实时信息,默认接入了搜索插件,也在理解网络新趋势的时候能帮得上忙。比如,我们最近都在反思自己有没有努力工作:

相比之下,gpt-4 给出了似乎是基于大模型幻觉的回答。

如果多点一步选择使用 bing 联网版的 gpt-4 则可以得到正确回复,不过再次出现了语言问题,偶尔会获得全英文的回答。

看起来,文心大模型4.0在四大核心能力上的提升的确明显,和gpt-4比毫不逊色的说法也并不是夸张,特别是在中文领域里,水平是经得起考验的。

仅仅距离chatgpt正式发布十个多月,中国通用的生成式ai力量已经迅速崛起。展望未来,ai 原生的智能化终将改变所有人的生活和工作方式,可喜的是,在这个过程中,文心一言已成功跻身领潮者,已开始提笔擘画中国式智能化的美好未来。

一周AIGC丨文心大模型 4 0 正式发布

李彦宏表示,文心大模型 . 是迄今为止最强大的文心大模型,实现了基础模型的全面升级,在理解 生成 逻辑和记忆能力上都有着明显提升,综合水平 与 gpt 相比毫不逊色 智谱 ai 已完成超 亿人民币融资,社保 美团 蚂蚁 阿里 腾讯 小米 金山等参投,百川智能获 亿美元 a 轮融资,阿里 腾讯 小米参...

偏偏不信文心大模型4 0比肩GPT 4!我为它们安排了一场龙虎斗!

在阅读此文前,诚邀您点击一下 关注 既方便您进行讨论与分享,又给您带来不一样的参与感,感谢您的支持。文心大模型. 中学数学,集合论。gpt 高中数学,函数。本题是一个中文语言理解题,难度系数相对较低。但对于机器来说,要同时理解文本中的数学概念和语言表达,难度还是不小的。不过,文心大模型.和gpt 都...

今日AI 星火大模型 超越GPT4?欧盟AI法案通过希望渺茫

中国电信 ai 算力服务器 年 集中采购项目 中标结果日前公布,烽火通信中标。其中,训练型风冷服务器 g 系列 训练型液冷服务器 g 系列 中标份额占比 总额 . 亿元,位列前三。以 matthew cost 为首的摩根士丹利分析师在一份报告中写道,ai 工具可能会将 aaa 级游戏的成本降低多达 ...