GPT-4要来了！一文看尽大型言语模型的曩昔、现在、未来，状况详细介绍

本文系网易新闻•网易号特征内容鼓励计划签约账号【智东西】原创内容，未经账号授权，制止随意转载。

作者 | ZeR0

批改 | 漠影

智东西3月13日报导，昨日，由中国人民大学高瓴人工智能学院主办的AIGC论坛在北京举办，本次会议以“AIGC：从不存在到存在”为议题，讨论对话生成模型、多媒体内容生成等人工智能（AI）前沿技能的开展趋势。

在对话与言语生成模型专场，哈尔滨工业大学核算机学院教授车万翔、中国科学院主动化研讨所研讨员张家俊、中国人民大学高瓴人工智能学院长聘副教授严睿、新浪微博资深算法专家张俊林别离作陈述。

这场学术盛会干货满满，不只体系性地回忆了天然言语处理（NLP）的五个开展阶段，对大型言语模型研讨的三个首要技能途径进行解读，并拆解了ChatGPT的四项关键技能，还就大型言语模型研讨重心的变迁与未来趋势进行讨论。

一、NLP五级进阶路：从依据规矩到遵从人的价值观

新浪微博资深算法专家张俊林以为，要想探寻大型言语模型未来怎样走，需要先回忆此前是怎样一路变迁的。他将天然言语处理开展到大型言语模型的进程分为五个阶段：规矩、核算机器学习、深度学习、预练习、大型言语模型。

机器翻译是NLP中难度最高、归纳性最强的使命。因而张俊林以机器翻译使命为例来比照不同阶段的特色以及技能栈、数据的改变，以此展现NLP如何一步步演进。

规矩阶段大致从1956年到1992年，依据规矩的机器翻译体系是在内部把各种功用的模块串到一起，由人先从数据中获取知识，概括出规矩，写出来教给机器，然后机器来履行这套规矩，然后完结特定使命。

核算机器学习阶段大致从1993年到2012年，机器翻译体系可拆成言语模型和翻译模型，这儿的言语模型与现在的GPT-3/3.5的技能手段如出一辙。该阶段比较上一阶段突变性较高，由人转述知识变成机器主动从数据中学习知识，干流技能包含SVM、HMM、MaxEnt、CRF、LM等，其时人工标示数据量在百万级左右。

深度学习阶段大致从2013-2018年，相对上一阶段突变性较低，从离散匹配开展到embedding接连匹配，模型变得更大。该阶段典型技能栈包含Encoder-Decoder、LSTM、Attention、Embedding等，标示数据量提高到千万级。

预练习阶段是从2018年到2022年，比较之前的最大改变是参加自监督学习，张俊林以为这是NLP范畴最出色的奉献，将可运用数据从标示数据拓宽到了非标示数据。该阶段体系可分为预练习和微调两个阶段，将预练习数据量扩展3到5倍，典型技能栈包含Encoder-Decoder、Transformer、Attention等。

大型言语模型阶段从2023年起，意图是让机器能听懂人的指令、遵从人的价值观。其特性是在第一个阶段把曩昔的两个阶段缩成一个预练习阶段，第二阶段转换成与人的价值观对齐，而不是向范畴搬迁。这个阶段的突变性是很高的，现已从专用使命转向通用使命，或是以天然言语人机接口的办法呈现。

随后他介绍了一个研讨工作的定论：在高资源言语上，ChatGPT机器翻译作用与商用MT体系作用挨近；在低资源言语上，现在ChatGPT机器翻译作用与商用MT体系比较差得比较远。

从这些阶段中数据、算法、人机联系的改变，可以观察到NLP的开展趋势。

数据方面，从少数标示数据、许多标示数据、海量非标示数据+少数标示数据到海量非标示数据，越来越大都据被运用起来，人的介入越来越少，未来会有更多文本数据、更多其它形状的数据被用起来，更远的未来是任何咱们能见到的电子数据，都应该让机器自己从中学到知识或才能。

算法方面，表达才能越来越强，规划越来越大，自主学习才能越来越强，从专用向通用，沿着这个趋势往后，未来Transformer估计够用，一同也需要代替Transformer的新式模型，逐步迈向通用人工智能。

人机联系方面，人的人物逐步从教训者转向监督者，未来或许会从人机协作、机器向人学习，开展成人向机器学习，最终由机器拓宽人类。

二、大型言语模型的三大技能道路：Bert、GPT、混合形式

张俊林分享道，近5年来，大型言语模型研讨的开展有三条技能道路：Bert形式、GPT形式、混合形式。其中国内大多选用混合形式，大都干流大型言语模型走的是GPT技能道路，直到2022年末在GPT-3.5的根底上发生了ChatGPT。

可以看到，到2019年后，Bert道路基本上就没有什么标志性的新模型呈现了，而GPT技能道路趋于昌盛。从Bert往GPT走，模型越来越大，做的事越来越通用。

大型言语模型依照从数据到知识来区分，数据可分为通用数据和范畴数据，知识分为言语知识和世界知识；从使命类型来区分，可以分为单一使命和多使命、了解类和生成类。

Bert形式有两阶段（双向言语模型预练习+使命Fine-tuning），适用于了解类、做了解类、某个场景的具体使命，专而轻。

GPT形式是由两阶段到一阶段（单向言语模型预练习+zero shot prompt/Instruct），比较合适生成类使命、多使命，重而通。

T5形式将两者的办法结合，有两阶段（单向言语模型预练习+Fine-tuning）。张俊林称这种形式“形似GPT，神似Bert”，生成和了解都行，从作用上看较合适了解类使命，国内许多大型言语模型选用这种形式。

现在的研讨定论是，如果模型规划不是特别大，面向单一范畴的了解类使命，合适用T5形式。做生成类使命时，用GPT形式作用最好。

如果独自考虑zero-shot，GPT形式作用最好；如果在预练习后引进多使命fine-tuning，则T5形式作用好。不过张俊林以为这个定论存疑，由于现在的试验Encoder-Decoder都是Decoder-only参数量的两倍。

归纳来看，其时简直一切参数规划超越千亿的大型言语模型都采纳GPT形式。张俊林分析或许的原因有三点：1、Encoder-Decoder里的双向attention，危害zero shot才能；2、Encoder-Decoder结构在生成Token时，只能对Encoder高层做attention，Decoder-only结构在生成Token时可以逐层Attention，信息更细粒度；3、Encoder-Decoder练习“中心填空”，生成最终单词Next Token，存在不共同性，Decoder-only结构练习和生成办法共同。

三、用提示学习办法，触发大模型通用才能

从GPT的生长途径来看，哈尔滨工业大学核算机学院教授车万翔谈道，2018年第一代GPT实在敞开NLP预练习模型年代，但没有引起特别大的关注，其风头被Bert盖住。2019年GPT-2模型的参数变得更多，但仍未引起很大颤动。

2020年GPT-3模型发布，2022年3月InstructGPT模型面世，其时重点是用1%参数到达1750亿参数的GPT-3的作用，也没有特别令人兴奋，直到ChatGPT诞生，直接推向市场和面向终端用户，并凭仗冷艳的作用在社会上引起广泛关注。

为什么GPT-3面世两年了，还没有遭到满足广泛的关注？车万翔以为，这是由于它只处理了知识存储问题，没有很好处理“知识怎样调用”的问题，而ChatGPT适当于处理了这一部分。两块打通后，就发生了十分好的运用作用。

中国科学院主动化研讨所研讨员张家俊介绍了ChatGPT的通用才能基座。OpenAI在2020年用45T文本数据，经过自监督练习取得根底大模型GPT-3，完结了流畅性、知识性；2021年在GPT-3根底上运用179G代码数据，经过自监督练习取得逻辑编程模型Codex；2022年运用更多更新文本数据和代码数据的混合学习，得到了更强的根底大模型GPT-3.5，这成为ChatGPT的根底模型，完结了流畅性、知识性和逻辑性。

据他分享，大模型的通用才能由根底模型决议，GPT-3用提示学习办法触发通用才能。

参数微调经过使命相关的监督数据批改模型参数，能够最大极限激起预练习大模型完结特定使命的才能，但面对数据稀、灾祸忘记、资源糟蹋、通用性差等难题。

提示学习经过规划提示信息批改输入形式，能够触发预练习大模型完结特定使命，可是单一的外部提示信号难以最大极限地激起预练习大模型的才能，然后高质量完结具体使命。

将两者结合，经过若干使命相关的经过提示增强的监督数据批改模型参数，有助于激起模型的通用才能。

OpenAI延聘数据标示团队，依据各笔直范畴问题指令编撰人工答案，并从敞开的GPT-3、InstructGPT等API接口搜集全球用户的问题指令，对其依照问答、摘要等范畴进行分类；一同凭仗指令学习，在GPT-3.5的根底上运用各范畴人工编撰的指令与答案对模型进行微调。

当模型参数规划到达百亿以上时，几十个使命联合指令学习可以处理没有见过的使命。

张家俊着重说，任何大模型都有其才能鸿沟，简直不或许完结面向无限使命的通用才能，但可以经过让大模型学会与其他模型、东西和环境进行交互，完结大模型通用才能的拓宽。

紫东太初多模态大模型便测验模型交互完结通用多模态对话。这是一个具有千亿参数规划的图文音三模态大模型，经过学会API的运用，让较小的言语大模型具有通用的多模态对话才能。3月24日，张家俊将在「GTIC 2023中国AIGC立异峰会」上宣布讲演，分享紫东太初大模型的更多开展。

四、解读ChatGPT四大关键技能

下图是车万翔分享的从GPT-3到ChatGPT的技能演化途径。

整体而言，ChatGPT有四个关键技能：

1、大规划预练习模型：只要模型规划满足大，才或许具有推理才能。中国人民大学高瓴人工智能学院长聘副教授严睿谈道，智能呈现不是故意规划出来的，而是大模型规划大到必定程度后，天然具有这样的特性。

2、在代码上进行预练习：或许代码把处理一个大的问题分解成若干个小的问题，这种散布处理问题的办法有助于天然言语推理。和天然言语模型比较，代码言语模型需要更长的上下文的依靠。

3、Prompt/Instruction Tuning：GPT-3模型太大，现已没办法去精调了，只能用prompt，可是如果不精调，模型适当于仍是一个言语模型，没办法习惯人，只能由人去习惯模型。让人习惯模型只能用指令的办法，再进行精调，这比较预练习价值要小的多。所以指令上精调就可以把一些不太多的数据，把言语模型的使命掰到习惯人类的答复问题。

4、依据人类反应的强化学习（RLHF）：这对于成果好坏的影响不是特别大，甚至会约束言语模型生成的才能，但这种办法或许更好地和人类在安全性、无毒无害等等方面的价值观对齐。当模型上线后，它可以搜集到更多用户的反应。

严睿以为Human-in-the-Loop或许是大型言语模型成功的一个重要因素，经过RLHF不断取得人类反应，将人的指令与机器的了解逐步对齐，完结智能的不断演化。

展望未来，ChatGPT能开展多久？车万翔发现了一个有意思的规则。如图所示，每个箭头长短代表技能开展的时刻长度，可以看到，新技能的开展时刻大约是旧技能的一半，以此推演，预练习模型或许开展五年到2023年，再往后或许到2025年左右会有新技能发生。

五、大模型的未来：多模态、具身智能、社会外交

车万翔以为，ChatGPT可以说是继数据库和搜索引擎后的全新一代知识表明和检索的办法。

从知识表明和运用视点来看，知识在核算机内如何表明是人工智能最中心的问题之一。前期是经过联系型数据库的办法，精度较高，由于数据库中每行每列的语义都十分清晰，问题是调用的天然度极低，有必要由人去学习机器的言语，前期这些存储办法发生了Oracle、微软等科技巨子。

后来互联网上存储了人类全部的知识，这种知识表达办法不如数据库准确，但存储量大、信息多，调取这些知识需要凭仗搜索引擎、经过关键词的办法，关键词和SQL句子比起来就更为广阔用户所承受，表达天然度更好，但仍然不及天然言语，发生谷歌、百度等科技巨子。

到大模型年代，可以以为大模型也是一种知识存储的办法，不是以人能看懂的办法来存储，而是以参数的办法来存储，可读性、精度相对较低，但调用办法十分天然，经过天然言语就能调出大模型中的知识。车万翔相信和前两次革新相同，大模型年代会呈现新的科技巨子，现在看来OpenAI十分具有这样的潜力，抢先优势显着。

谈到大型言语模型研讨的重心，车万翔和张俊林都以为除了言语外，还需要更多知识。

关于NLP的曩昔、现在、未来，科学家们在2020年提出了一个world scope概念，将NLP的开展进程分为语料库、互联网、多模态、具身智能、社会外交这五个world scope。

前期NLP依据文本，再往后开展要走向多模态、具身认知、社会外交。ChatGPT现已好像有与人类社会互动的意思，适当所以跳过了中心两步，但车万翔以为，要实在完结通用人工智能，中心这两步是不能跳的，否则就像瞎子在学言语。据传GPT-4会是一个多模态大模型，如果处理了多模态这一步，那就只剩下具身了。

多模态大型言语模型的方针是增强更多的实际环境感知才能，包含视觉输入（图片、视频）、听觉输入（音频）、触觉输入（压力）等等。张俊林以为，现在阻止多模态大模型开展的一个妨碍是其很大程度上依靠于人工整理的大数据集，图画处理的自监督技能道路没有走通，如果走通或许会是又一大技能打破，一些图画了解类使命大概率会被融入大型言语模型，不再独自存在。

多模态大模型是具身智能的根底，适当于大脑，它还需要身体，才能与物理世界的交互。因而下一步便是将大脑与身体（如机器人等）结合的具身智能，运用强化学习，从实在世界取得实在反应、学习新的知识。

另一个值得讨论的论题是大型言语模型的规划，做大仍是做小？

张俊林谈道，一方面，Scaling Law说明晰模型规划越大，数据越多，练习越充沛，大型言语模型的作用越好；另一方面，练习本钱太高了，Chinchilla证明晰如果在数据足够的前提下，现在大型言语模型的规划比应有的合理巨细更大些，好像存在参数空间糟蹋。因而应该是：先把模型做小，充沛运用模型参数后，再将模型做大。

除此之外，张俊林以为大型言语模型的杂乱推理才能未来将进一步提高。大型言语模型如何与专用东西结合也是十分有远景的方向，但技能尚不老练，他判别OpenAI应该不会走这条路。

大型言语模型还有许多问题有待战胜，包含构建中文评测数据集、优化新知识的获取、优化旧知识的批改、探究私域范畴知识的融入、优化更好了解指令的才能、下降练习推理本钱等等。

六、结语：大模型与生成式AI驶入快车道

天然言语处理被誉为人工智能皇冠上的明珠，而其最新代表之作ChatGPT凭仗杰出的多轮对话和内容生成才能，正掀起新一轮人工智能研讨、商用及创业热潮。

ChatGPT仍有许多问题，比方现实检干脆和杂乱核算性作用差，无法完结一些实时性、动态改变性的使命等。但优化这些问题以及提高大模型才能的研讨正在飞速推动。

如果上星期微软德国公司CTO兼AI部分主管Andreas Braun泄漏的信息为真，那么本周OpenAI将发布更强壮的GPT-4多模态大模型，打通认知与感知的衔接。百度依据文心大模型研制的生成式对话产品“文心一言”也将于本周四3月16日正式发布。微软将在周五举办主题为“与AI一起工作的未来”的在线活动。大模型与生成式AI范畴正变得益发热烈。

GPT-4要来了！一文看尽大型言语模型的曩昔、现在、未来，状况详细介绍

相关推荐：

最近发表

previous