✅怎么理解大模型？

Documentation

AI&大模型

✅怎么理解大模型？

所谓的大模型通常指基于深度学习的大规模人工智能模型，尤其是像 GPT-4这样的大语言模型（LLM, Large Language Model）

相比于传统模型，大模型的"大"主要体现在就是参数规模大。传统深度学习模型的参数规模通常在百万级到千万级，而大模型的参数量达到了 百亿级、千亿级，甚至万亿级。以 GPT-4 为例，参数规模可能达 万亿级。

如我们通常说的7B模型，指的就是他的参数量达到了70亿。

另外大模型的核心是基于 深度学习 和 神经网络，通常采用 Transformer 架构。

Transformer 通过 “自注意力机制（Self-Attention）” 和 “多头注意力机制（Multi-Head Attention）” 实现高效的信息处理，相比于传统的 RNN（循环神经网络）和 CNN（卷积神经网络）具有更强的并行计算能力和更长的上下文理解能力。（了解即可，不用背）

但是不要简单的认为大模型就只是AI对话，他的应用方向非常广泛，涵盖 自然语言处理（NLP）、计算机视觉（CV）、语音识别、科学计算、自动驾驶等 领域。

目前，大模型遇到的一些关键问题有以下几个：