ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路

【目的】剖析chatgpt的基础技术原理，**其对大语言模型发展产生的影响，以及对多模态大模型发展思路产生的影响。【方法】通过分析chatgpt的发展过程和技术原理，**指令微调、数据采集与标注、基于人类反馈的强化学习等模型构建方法对大语言模型产生的影响。分析当前多模态大模型构建过程中遇到的关键科学问题，并借鉴chatgpt的技术方案，**多模态大模型未来的发展发展思路。【结论】chatgpt为预训练大模型向下游任务的发展提供了良好的参考技术路径，未来的多模态大模型构建以及下游任务实现过程中，可以充分利用高质量的指令微调等技术来显著提升多模态大模型的下游任务性能。

图灵奖获得者yann lecun在演讲时表示，如果智能是一块蛋糕，那么蛋糕的主体是无监督学习，蛋糕上的糖衣是监督学习，蛋糕上的樱桃是强化学习，而人类对世界的理解主要来自于大量未标记的信息。同时不可忽视的是，无监督/自监督学习这类方法已经革新了自然语言处理的通用范式，如bert、gpt系列在大规模语料上进行无监督预训练，在各类下游任务中均取得了令人惊艳的效果。因此，无监督/自监督学习将是实现人类智能的关键，被广泛认为是通往通用人工智能的重要途径之一。

1）语言大模型。

随着elmo、gpt-1、bert、gpt-2与gpt-3等预训练语言模型的发布，预训练技术这场革新正在自然语言处理领域悄然展开，并迅速影响各个子领域。顾名思义，预训练指的是使用通用性的任务和大规模的无标注数据进行第一阶段的训练，让机器学习模型学习到具有较强泛化性的参数。对于特定的下游任务，模型仅需对学习好的参数进行微小的调整（或训练）就能够完成高效迁移，达到显著的性能表现。上述方法被称作“预训练+微调”，该范式逐步覆盖自然语言处理的各大任务并带来了显著改进，如文本分类、阅读理解、序列标注和文本生成等，图1给出了预训练语言模型的主要发展脉络。

预训练语言模型的发展呈指数型增强，参数规模的增长也呈现出这种规律。gpt-3是首个发布的超大规模语言模型，使用自回归的方法和超大规模的数据进行训练，呈现出了强大的通用性和少样本学习的能力，为通用人工智能的实现打开了一个窗口。在国内，清华大学和智源研究院合作发布悟道大模型，是中文超大规模预训练的排头兵；华为云由底层向上逐步研发，开源了盘古大模型；中国科学院自动化研究所提出千亿规模的多模态预训练模型，应用场景广泛。参数量的增加不仅显著提升了模型通用能力，也彰显了中国人工智能发展的速度和水平。

chatgpt是openai公司在gpt系列模型的基础上，历经四年迭代而来的生成式大语言模型。gpt-1诞生于2023年6月，侧重生成式任务，一经问世就证明了其在语言推理、文本生成、问答等任务中的优异表现。gpt-1以1.17亿参数展现了gpt系列模型的特点：以生成式的方法，在庞大的数据及上通过无监督的方式训练大型语言模型。2023年，gpt-2采用更大的网络容纳更大的数据量，同时引入文本提示（prompt）的输入方式。2023年发布的gpt-3将gpt系列模型提升到了实用的高度，其能够将网页描述转换为相应**、模仿人类叙事、创作定制是个、生成游戏剧本等，几乎可以完成大多数的nlp任务，但对生成内容的偏好性缺乏有效控制。2023年发布的webgpt以及2023年发布的instructgpt使得模型逐步具备学习人类回答问题方式的能力。研究人员在模型的训练过程中引入人类作为“教师”，对模型训练进行反馈和指导，以此提高模型针对人类问题的理解能力。在此基础上，chatgpt进一步通过改进模型多输出的能力，进一步获得更加优异的上下文学习、对话能力，在生成的内容中，更加复合人类期待的反馈。图2给出了人类反馈学习的一个典型的处理流程。

图2 基于人类反馈学习的chatgpt训练范式示意图

2）视觉大模型。

近些年，自监督学习越来越受到广大研究人员的关注，其设计与思想天生就适合训练视觉大模型：利用大量的无标记数据训练模型构建通用的视觉表征，使得所有类型的下游任务受益。如图3所示，自监督学习常用方法是提出不同的上游任务（pretext task）。网络可以通过学习上游任务的目标函数来训练，视觉特征也在这一过程中获得。在自监督的上游任务训练阶段，自监督方法首先根据数据的某些属性自动生成该前置任务的伪标签，以此训练神经网络获得预训练模型。在自监督的训练完成之后，可以将学习到的视觉特征迁移到下游任务（downstream task），使用少量带标签的数据进行微调，以提高性能并克服过度拟合的情况。

根据**目标的不同，可以将该类方法大致分为4个主要类别。①生成式，本质是损坏输入图像的部分特征，让神经网络重建回原本的特征，仅在某些任务中有效；②上下文式，利用图像的上下文特征，如上下文相似性、空间结构等信息进行模型预训练；③对比学习式，建立在语义一致性的假设之上：对于同一图像的不同视角（正样本，通常由数据増广获得），网络应该提取相似的特征，对于不同图像（负样本，从数据集中重采样获得），网络提取的特征要尽量远离。此类方法典型代表为moco系列、simclr系列、simsiam、byol等；④多任务学习式。

3）语音大模型。

随着语音技术的发展，在有标注训练数据充足的情况下，使用深度神经网络训练语音识别等任务上已经能够取得非常好的性能；但是现实中有标注的训练数据获取的成本很高，在一些低资源的任务场景也很难获取足够多的有标注训练数据。基于此背景，近年来研究者们致力于从大量没有标签的数据中预先学习有效的语音特征，使模型学习到语音更深层次的特征表达，从而在低资源的下游语音任务中摆脱对训练数据量的依赖，并且获取更好的性能。近些年来研究者们常用的语音预训练方法主要包括：基于自回归重构自监督特征学习方法、掩码重构方法、对比**编码方法、掩码**方法、多任务学习方法等。

随着输入数据源模态的扩展，多模态大模型的构建思路通样按照网络架构的不同，可以分为基于理解模型的范式、基于生成式模型的范式，以及基于编解码的模型构建方法。基于transformer encoder的多模态理解模型主要借鉴bert方法，采用transformer的encoder部分作为模型架构，学习理解多模态数据的语义及其关联。当前研究方法可以分为单流和双流两类。单流类方法将视觉和文本模态一起输入到编码器，代表性工作包括 vl-bert、videobert、uniter等。

随着gpt系列模型的发展，其强大的文本生成能力受到越来越多的关注。该系列模型采用transformer的解码部分。gpt-3表明，语言可以用来指导大型神经网络执行各种文本生成任务。受此启发，研究者开始研究大规模预训练的多模态生成模型。近期，openai机构发布基于大规模预训练的文本到图像生成模型——dall-e。该模型使用gpt-3的120亿参数版本，可以通过文本直接生成对应图像，被称作图像版gpt。虽然dall-e在一定程度上提供了对少量物体属性和位置的可控性，但成功率取决于文字的措辞。当引入更多的对象时，dall-e容易混淆对象及其颜色之间的关联，成功率会急剧下降。同期，清华大学和智源研究院提出co**iew模型，采用与dall-e类似的结构（vqvae+gpt），只需微调就能执行超分辨率、风格迁移等一系列任务。

基于transformer编解码（encoder-decoder）的多模态模型通过引入解码器结构实现生成式预训练，更好地学习不同模态之间的关联，提升理解判别能力。代表性工作有vl-t5、e2e-vlp、m6等。

从算法框架上看，chatgpt是在gpt3的基础上进行微调得到的。gpt3在超过3 000亿单词的语料上预训练拥有1 750亿参数的模型，得到了三个重要的能力：

1）语言生成能力：模型能够遵循提示词（prompt）生成补全提示词的句子；

2）上下文学习能力（in-context learning）:遵循给定任务的示例，为新的测试用例生成解决方案；

3）世界知识（world knowledge）获取能力：包括事实性知识和常识。

一方面，gpt3能够合理地回应某些特定的查询，并在许多数据集中取得了较好的性能；另一方面，它在许多任务上的表现不及t5这样的小模型。虽然初代的gpt-3可能表面上看起来很弱，但后来的实验证明，初代gpt-3有着非常强的潜力。这些潜力后来被**训练、指令微调（instruction tuning）和基于人类反馈的强化学习（rlhf）解锁，最终展示出极为强大的泛化表现能力。从gpt3到gpt3.5的模型进化过程如图4所示。

可以看到，在gpt3的基础上，openai通过引入**训练和指令微调对模型进行增强，指令微调很可能降低了模型的上下文学习能力，但是增强了模型的零样本能力，使得模型拥有了与人类获取知识相对齐（alignment）的能力，使得模型生成的答案更加符合人类期待的反馈，如零样本问答、生成安全和公正的对话回复、拒绝超出模型知识范围的问题，即得到gpt3.5模型。

本文针对预训练基础模型的发展状态进行了回顾，并分析了chatgpt对大语言模型研究工作产生的影响。在当前主流的大模型发展路线中，针对多模态数据的基础预训练大模型构建工作将是其中的一个重要路径，chatgpt的成功所指明的针对有效数据的获取方法、指令微调等研究思路，将对多模态大模型的构建产生积极的作用，为多模态大模型未来在下游任务中的应用前景带来更多的启发。

以上内容已发表在《数据分析与知识发现》，本文为**，原为链接：

新手帮扶计划#

ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路

chatGPT等大模型带来了效率提升，但无法替代创造力

大语言模型与AI Agent合力推动AI发展

大语言模型的魅力 Amazon Bedrock 初体验

ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路

chatGPT等大模型带来了效率提升，但无法替代创造力

大语言模型与AI Agent合力推动AI发展

大语言模型的魅力 Amazon Bedrock 初体验

相關推薦