GPT图解:大模型是怎样构建的
上QQ阅读APP看书,第一时间看更新

前言

写作时,时间流淌得很快。不知不觉,月已上中天,窗外灯火阑珊。

仰望苍穹,月色如水,宇宙浩瀚。每每想起人类已在月球上留下脚印,而今再度出发,就不由在心中感慨——如此有幸,能生活在这个时代。

其实,从来没有任何一种技术的突破,未经历过一次次失败,就能直接“降临”到人类的眼前。

人工智能(Artificial Intelligence,AI)技术,从诞生至今,其发展并不是一帆风顺的:盛夏与寒冬交错,期望和失望交融。

自然语言处理(Natural Language Processing,NLP)技术是如此。

ChatGPT和GPT-4亦是如此。

从N-Gram和Bag-of-Words开始,自然语言处理技术和模型在不断发展和演进,逐渐引入了更强大的神经网络模型(如 RNN、Seq2Seq、Transformer 等)。现代预训练语言模型(如 BERT和GPT[1])则进一步提高了 NLP 任务的处理性能,成为目前自然语言处理领域的主流方法。


[1] RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training [EB/OL]. [2023-04-15]. https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf.

这一本小书,希望从纯技术的角度,为你梳理生成式语言模型的发展脉络,对从N-Gram、词袋模型(Bag-of-Words,BoW)、Word2Vec(Word to Vector,W2V)、神经概率语言模型(Neural Probabilistic Language Model,NPLM)、循环神经网络(Recurrent Neural Network,RNN)、Seq2Seq(Sequence-to-Sequence,S2S)、注意力机制(Attention Mechanism)、Transformer、BERT到GPT的技术一一进行解码,厘清它们的传承关系。

这些具体技术的传承关系如下。

N-Gram和Bag-of-Words:都是早期用于处理文本的方法,关注词频和局部词序列。

Word2Vec:实现了词嵌入方法的突破,能从词频和局部词序列中捕捉词汇的语义信息。

NPLM:基于神经网络的语言模型,从此人类开始利用神经网络处理词序列。

RNN:具有更强大的长距离依赖关系捕捉能力的神经网络模型。

Seq2Seq:基于 RNN 的编码器-解码器架构,将输入序列映射到输出序列,是Transformer架构的基础。

Attention Mechanism:使Seq2Seq模型在生成输出时更关注输入序列的特定部分。

Transformer:摒弃了RNN,提出全面基于自注意力的架构,实现高效并行计算。

BERT:基于Transformer 的双向预训练语言模型,具有强大的迁移学习能力。

初代GPT:基于 Transformer 的单向预训练语言模型,采用生成式方法进行预训练。

ChatGPT:从GPT-3开始,通过任务设计和微调策略的优化,尤其是基于人类反馈的强化学习,实现强大的文本生成和对话能力。

GPT-4:仍基于Transformer架构,使用前所未有的大规模计算参数和数据进行训练,展现出比以前的AI模型更普遍的智能,不仅精通语言处理,还可以解决涉及数学、编码、视觉、医学、法律、心理学等各领域的难题,被誉为“通用人工智能的星星之火”(Sparks of Artificial General Intelligence)。

今天,在我们为ChatGPT、GPT-4等大模型的神奇能力而惊叹的同时,让我们对它们的底层逻辑与技术做一次严肃而快乐的探索。对我来说,这也是一次朝圣之旅,一次重温人工智能和自然语言处理技术70年间艰辛发展的旅程。

因此,我为一个轻松的序章取了一个略微沉重的标题:看似寻常最奇崛,成如容易却艰[2]


[2] 出自宋代王安石的《题张司业诗》,意思是看似寻常的作品其实最不同凡俗,好像很容易做成,实则需要艰辛付出。

格物致知,叩问苍穹,直面失败,勇猛前行。

向伟大的、不断探索未知领域的科学家们致敬!

黄佳

2023年春末夏初月夜