服务项目

SERVICE PROJECT

产品&解决方案

产品技术

解决方案

详细内容

大语言模型

近5年来，大型语言模型研究的发展有三条技术路线：Bert模式、GPT模式、混合模式。其中国内大多采用混合模式，多数主流大型语言模型走的是GPT技术路线，直到2022年底在GPT-3.5的基础上产生了ChatGPT。

超曲速公司目前使用的技术路线是GPT模式。

到2019年后，Bert路线基本上就没有什么标志性的新模型出现了，而GPT技术路线趋于繁荣。从Bert往GPT走，模型越来越大，做的事越来越通用。

大型语言模型按照从数据到知识来划分，数据可分为通用数据和领域数据，知识分为语言知识和世界知识；从任务类型来划分，可以分为单一任务和多任务、理解类和生成类。

Bert模式有两阶段（双向语言模型预训练+任务Fine-tuning），适用于理解类、做理解类、某个场景的具体任务，专而轻。

GPT模式是由两阶段到一阶段（单向语言模型预训练+zero shot prompt/Instruct），比较适合生成类任务、多任务，重而通。

T5模式将两者的方法结合，有两阶段（单向语言模型预训练+Fine-tuning）。张俊林称这种模式“形似GPT，神似Bert”，生成和理解都行，从效果上看较适合理解类任务，国内很多大型语言模型采用这种模式。

目前的研究结论是，如果模型规模不是特别大，面向单一领域的理解类任务，适合用T5模式。做生成类任务时，用GPT模式效果最好。

如果单独考虑zero-shot，GPT模式效果最好；如果在预训练后引入多任务fine-tuning，则T5模式效果好。不过张俊林认为这个结论存疑，因为目前的实验Encoder-Decoder都是Decoder-only参数量的两倍。

综合来看，当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式。张俊林分析可能的原因有三点：1、Encoder-Decoder里的双向attention，损害zero shot能力；2、Encoder-Decoder结构在生成Token时，只能对Encoder高层做attention，Decoder-only结构在生成Token时可以逐层Attention，信息更细粒度；3、Encoder-Decoder训练“中间填空”，生成最后单词Next Token，存在不一致性，Decoder-only结构训练和生成方式一致。

AI智能体应用开发平台

服务项目

大语言模型