【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论
欢迎大家收看重制版,链接地址:https://youtu.be/bOlVx5zeHLM
语言大模型内部究竟是如何工作的?本文用最少的数学知识和术语进行解释。如今,几乎每个人都听说过LLM,并有数千万人用过它们,但是,了解工作原理的人并不多。你可能听说过,训练LLM是用于“预测下一个词”,而且它们需要大量的文本来实现这一点。但是,解释通常就止步于此。它们如何预测下一个词的细节往往被视为一个深奥的谜题。
其中一个原因是,这些系统的开发方式与众不同。一般的软件是由人类工程师编写,他们为计算机提供明确的、逐步的指令。相比之下,ChatGPT是建立在一个使用数十亿个语言词汇进行训练的神经网络之上。
因此,地球上没有人完全理解LLM的内部工作原理。研究人员正在努力尝试理解这些模型,但这是一个需要数年甚至几十年才能完成的缓慢过程。
然而,专家们确实对这些系统的工作原理已有不少了解。本文的目标是将这些知识开放给广大受众。我们将努力解释关于这些模型内部工作原理的已知内容,而不涉及技术术语或高级数学。
我们将从解释词向量(word vector)开始,它是语言模型表示和推理语言的一种令人惊讶的方式。然后,我们将深入探讨构建ChatGPT等模型的基石Transformer。最后,我们将解释这些模型是如何训练的,并探讨为什么要使用庞大的数据量才能获得良好的性能。
本视频参考资料及相关论文:
https://www.understandingai.org/p/large-language-models-explained-with
https://arxiv.org/abs/1905.05950
https://arxiv.org/abs/2012.14913
https://arxiv.org/abs/2305.16130
https://arxiv.org/pdf/2001.08361.pdf
https://arxiv.org/abs/2302.02083
https://arxiv.org/abs/2302.08399
https://openreview.net/forum?id=e5Yky8Fnvj
https://onlinelibrary.wiley.com/doi/full/10.1111/cogs.13309
https://arxiv.org/abs/2303.12712
https://arxiv.org/abs/2211.00593
https://dl.acm.org/doi/abs/10.1145/3442188.3445922
#人工智能 #llm #transformer #attention