|
大语言模型近5年来,大型语言模型研究的发展有三条技术路线:Bert模式、GPT模式、混合模式。其中国内大多采用混合模式,多数主流大型语言模型走的是GPT技术路线,直到2022年底在GPT-3.5的基础上产生了ChatGPT。 超曲速公司目前使用的技术路线是GPT模式。 到2019年后,Bert路线基本上就没有什么标志性的新模型出现了,而GPT技术路线趋于繁荣。从Bert往GPT走,模型越来越大,做的事越来越通用。 大型语言模型按照从数据到知识来划分,数据可分为通用数据和领域数据,知识分为语言知识和世界知识;从任务类型来划分,可以分为单一任务和多任务、理解类和生成类。 Bert模式有两阶段(双向语言模型预训练+任务Fine-tuning),适用于理解类、做理解类、某个场景的具体任务,专而轻。 GPT模式是由两阶段到一阶段(单向语言模型预训练+zero shot prompt/Instruct),比较适合生成类任务、多任务,重而通。 T5模式将两者的方法结合,有两阶段(单向语言模型预训练+Fine-tuning)。张俊林称这种模式“形似GPT,神似Bert”,生成和理解都行,从效果上看较适合理解类任务,国内很多大型语言模型采用这种模式。 目前的研究结论是,如果模型规模不是特别大,面向单一领域的理解类任务,适合用T5模式。做生成类任务时,用GPT模式效果最好。 如果单独考虑zero-shot,GPT模式效果最好;如果在预训练后引入多任务fine-tuning,则T5模式效果好。不过张俊林认为这个结论存疑,因为目前的实验Encoder-Decoder都是Decoder-only参数量的两倍。 综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式。张俊林分析可能的原因有三点:1、Encoder-Decoder里的双向attention,损害zero shot能力;2、Encoder-Decoder结构在生成Token时,只能对Encoder高层做attention,Decoder-only结构在生成Token时可以逐层Attention,信息更细粒度;3、Encoder-Decoder训练“中间填空”,生成最后单词Next Token,存在不一致性,Decoder-only结构训练和生成方式一致。 |