0%

LLM 学习(1) 一些基本概念

一些基本概念

  LLM 全称是 Large Language Model,即为大语言模型,简称大模型。基本上现在所有的大模型都是基于 Transformer 架构训练的。LLM 本质上是在做词语接龙,根据上一个词来输出下一个词。接下来我们来看一些有关 LLM 的基本概念:

  Token
  大模型本质上是一个复杂的数学函数,输入是数字,输出也是数字。因此我们需要将文字翻译成数字,才能输入给大模型。Tokenizer 可以编码(文字 -> 数字)和解码(数字 -> 文字)。

  编码的过程有以下几两:**切分、映射。**切分负责将用户输入的话拆分成一个个最小单元,这个最小单元就叫做 Token,映射就是将 Token 转化成数字,这些数字叫做 Token ID,这两者是一对一绑定的。解码只需要映射就可以了,只要将 Token ID 转换成 Token 即可。但是需要注意的是 Token != 词语

  Context
  大模型只是一个数学函数,它是怎么拥有记忆的呢?context 就是大模型在每次处理任务时所接收的信息总和。Context Window 就表示了 context 能够容纳的最大 Token 数量。

  Prompt
  Prompt 意思是提示词,就是你发给模型的输入。通常,我们不仅要告诉大模型要完成的任务,还要告诉大模型它的人设、做事规则等等,所以这里引出两种不同的 prompt,分别为 User Prompt 和 System Prompt。User Prompt 就是你发送给大模型的内容,System Prompt 就是系统后台设定好的基本提示词。

  Tool
  大模型有一个缺点是它无法感知外部环境,只能基于训练库中的资料来回答你的问题,这时候就引入了 Tool 的概念。Tool 本质上还是一个函数,你给它输入,Tool 就给你输出。比如一个天气查询工具,其输入包含城市和天气,在它内部可能会调用气象局的接口,然后给你返回对应的天气。

  MCP
  对于不同的平台,Tool 需要按照不同公司的方法来接入,因此我们就使用 MCP 来作为统一的接入规范。MCP 全称为 Model Context Protool,其含义为模型上下文协议。有了 MCP 之后,工具的开发者只需要按照 MCP 的规范开发一次工具,这个工具就可以被所有支持 MCP 的平台所使用。

  Agent Skill
  Agent Skill 是提前写好并塞给 Agent 的一份说明文档(.md 文件),本质上还是提示词。Agent Skill 分为元数据层和指令层,元数据层包括名字和描述,指令层就是告诉大模型具体应该干的事。

  在接下来的学习中我们会进一步深入学习各个概念。