LLM 学习(1) 一些基本概念

一些基本概念

LLM 全称是 Large Language Model，即为大语言模型，简称大模型。基本上现在所有的大模型都是基于 Transformer 架构训练的。LLM 本质上是在做词语接龙，根据上一个词来输出下一个词。接下来我们来看一些有关 LLM 的基本概念：

Token
大模型本质上是一个复杂的数学函数，输入是数字，输出也是数字。因此我们需要将文字翻译成数字，才能输入给大模型。Tokenizer 可以编码（文字 -> 数字）和解码（数字 -> 文字）。

编码的过程有以下几两：**切分、映射。**切分负责将用户输入的话拆分成一个个最小单元，这个最小单元就叫做 Token，映射就是将 Token 转化成数字，这些数字叫做 Token ID，这两者是一对一绑定的。解码只需要映射就可以了，只要将 Token ID 转换成 Token 即可。但是需要注意的是 Token != 词语。

Context
大模型只是一个数学函数，它是怎么拥有记忆的呢？context 就是大模型在每次处理任务时所接收的信息总和。Context Window 就表示了 context 能够容纳的最大 Token 数量。

Prompt
Prompt 意思是提示词，就是你发给模型的输入。通常，我们不仅要告诉大模型要完成的任务，还要告诉大模型它的人设、做事规则等等，所以这里引出两种不同的 prompt，分别为 User Prompt 和 System Prompt。User Prompt 就是你发送给大模型的内容，System Prompt 就是系统后台设定好的基本提示词。

Tool
大模型有一个缺点是它无法感知外部环境，只能基于训练库中的资料来回答你的问题，这时候就引入了 Tool 的概念。Tool 本质上还是一个函数，你给它输入，Tool 就给你输出。比如一个天气查询工具，其输入包含城市和天气，在它内部可能会调用气象局的接口，然后给你返回对应的天气。

MCP
对于不同的平台，Tool 需要按照不同公司的方法来接入，因此我们就使用 MCP 来作为统一的接入规范。MCP 全称为 Model Context Protool，其含义为模型上下文协议。有了 MCP 之后，工具的开发者只需要按照 MCP 的规范开发一次工具，这个工具就可以被所有支持 MCP 的平台所使用。

Agent Skill
Agent Skill 是提前写好并塞给 Agent 的一份说明文档(.md 文件)，本质上还是提示词。Agent Skill 分为元数据层和指令层，元数据层包括名字和描述，指令层就是告诉大模型具体应该干的事。

在接下来的学习中我们会进一步深入学习各个概念。