前言

在AI成为了当下最热话题之后，你有没有发现，不管你是做什么的，出门在外，与人聊天，总是会聊到与AI相关的话题。

在AI这个话题下，如果你只知道ChatGPT，只知道DeepSeek，其实是很难深入探讨下去的。同所有的新鲜事物一样，这个领域里也引申出来了很多新的术语。

接下来，我就整理了一些时下AI领域中，你不能不知道的一些黑话术语

具体的名词解释

Tokens（标记）

黄橙色描边插画社交公众号标题

Tokens 是自然语言处理（NLP）和人工智能领域中一个非常重要的概念。它指的是将文本分割成一个个有意义的单元，这些单元可以是单词、子词、字符或其他具有特定意义的片段。

在自然语言处理中：Tokens 是文本分析的基本单元，用于将文本数据分割成计算机可以处理的最小单位。

在计算机科学中：Tokens 也指身份验证和授权的令牌，用于验证用户身份和控制访问权限。

Token作为语言模型中的基础单元，扮演着至关重要的角色，其作用及应用主要体现在以下几个方面：

文本分割：将原始文本拆解为模型可理解的离散单元，例如单词、子词或标点符号。

数值映射：每个 Token 被赋予唯一的数字标识符，形成模型内部的“词汇表”，便于数学运算。

上下文建模：通过自注意力机制，模型能够捕捉 Token 之间的关联性，生成连贯文本。

计费单位：在大模型服务中，Tokens 也作为计费单位，用于衡量产品服务的使用量。

既然提到了计费单位，我们都知道大模型产品的收费是根据Token来计算的。比如0.0008元 /千Tokens，那么，这一千个Tokens是怎么计算出来的。

这是与要处理的文字编码有关的。

对于英文， 通常以子词为单位，例如“learning”可能拆分为“learn”和“##ing”。

对于中文：多采用字或词作为 Token，例如“人工智能”可能被拆分为“人工”和“智能”。

如果是混合语言：Unicode 编码支持多语言兼容，例如中英混合句“Hello世界”可能切分为["Hello", "世", "界"]。

完成了分词之后，是不是一个词就是一个Token呢？了解了一下，发现和我想的不太一样，计算规则是下面这样的：

英文：1个 Token 约等于3-4个字母。
中文：1个 Token 约等于1-2个汉字。
数字：1-3位数字通常算作1个 Token。

了解了切分规则，当大家再说到大模型产品的收费标准的时候，我就再也不迷糊了。

Tokens 是自然语言处理和人工智能领域中不可或缺的基本单位。它不仅用于文本的分割和处理，还在身份验证、API 调用和计费中发挥重要作用。理解 Tokens 的定义、作用和应用场景，对于使用大模型产品和优化性能至关重要。

RPM（Requests Per Minute）

黄橙色描边插画社交公众号标题1

我们在使用这些大模型的时候，一定会看到RPM和TPM发的说明。具体是什么意思呢？

RPM 是“Requests Per Minute”的缩写，表示每分钟的请求次数。它用于衡量模型在单位时间内能够处理的请求数量。

在大模型服务中，RPM 通常用于定义 API 的速率限制。例如，某些模型服务可能会设置每分钟最多处理 300 个请求（RPM=300），以确保服务的稳定性和公平性。

RPM 可以反映模型的并发处理能力。较高的 RPM 表示模型能够同时处理更多的请求，适合高流量的应用场景，如在线客服、实时问答等。

为什么要有这个指标呢？

一是为了防止用户滥用，通过设置 RPM 限制，可以防止用户恶意发送大量请求，导致服务过载或中断。

二是可以帮助平台合理分配计算资源，确保每个用户都能获得公平的服务体验。

有朋友说，这段话太技术了，看不懂。不要急，我来举一个例子

假设一个大模型服务的 RPM 限制为 300，这意味着每分钟最多可以处理 300 个请求。如果用户在短时间内发送超过 300 个请求，可能会触发速率限制，导致部分请求被拒绝。

因为一个服务器的处理能力是有限的，在访问量很大的情况下，限流是一定要采取的手段。服务提供方为了减轻自己的服务压力，做了RPM限制，那作为用户的我们，该怎么应对呢？

通常情况下，大家是不需要担心的。但是如果真的使用频繁，超出了频率限制，我们至少可以从下面这两方面进行优化

合理分配请求：根据应用的实际需求，合理分配请求频率，避免超过 RPM 限制。

升级服务套餐：如果需要更高的 RPM，可以考虑升级到更高性能的服务套餐。

TPM（Tokens Per Minute）

黄橙色描边插画社交公众号标题2

同RPM一样，TPM（Tokens Per Minute） 也是大模型铲平中一个重要的性能指标，用于衡量模型在单位时间内能够处理的 Tokens 数量。它表示每分钟处理的 Tokens 数量。

TPM指标，能够反映出来一个模型产品在单位时间内能够处理的文本量，包括输入和输出的 Tokens 数量。所以，它会被作为计费和资源管理的重要指标，帮助平台合理分配计算资源。

大家可能还是不太好理解上面这段话的含义。我还是举一个实例来说明

假设一个大模型服务的 TPM 限制为 300,000（30万），这意味着每分钟最多可以处理 30 万个 Tokens。如果每个请求平均包含 1000 个 Tokens，那么该服务每分钟最多可以处理 300 个请求。超出了这个请求数量，模型产品就会将超出的请求数量丢掉，不予处理。

有时候，大家在访问的时候，会看到服务器请求失败的提示，大概率就是这个原因。

那么，我们应该如何来规避它呢？可以从这三方面进行：

合理控制输入长度：避免发送过长的文本，以减少 Tokens 的使用量。

升级服务套餐：如果需要更高的 TPM，可以考虑升级到更高性能的服务套餐。

分批处理：将长文本拆分为多个较短的请求，分批发送以避免触发 TPM 限制。

Prompt（提示词）

黄橙色描边插画社交公众号标题3

自从ChatGPT横空出世以来，我相信大家听说的最多的关于大模型的概念，应该就是Prompt了。

在ChatGPT之前，我从来没有听说过这个概念，但是现在，所有对AI有所了解的人，都开始讲提示词。甚至还一度传出，很多公司招人，专门设立了一个岗位，就叫提示词工程师。

在我看来，简直匪夷所思。

提示词（Prompt）是指在与大语言模型（LLM）交互时，用户输入的文本指令，用于引导模型生成特定方向的内容或执行特定任务。它是用户与模型之间沟通的桥梁，帮助模型理解用户的意图，并生成符合需求的输出。

举例来说，你需要让模型生成一篇关于气候变化对农业影响的文章，可以设计如下提示词：

身份：环境科学家
背景：研究气候变化对全球农业的影响
目标：请生成一篇关于气候变化对全球农业影响的综述文章

这种结构化的提示词能够帮助模型更好地理解任务要求，从而生成高质量的内容。

通过掌握提示词的概念和设计技巧，用户可以更高效地利用大语言模型的能力，实现更精准、更高效的交互。

不可否认，大家使用大模型产品的时候，提示词是非常重要的

有效的提示词能够引导模型朝着用户期望的方向生成内容；

用户可以根据不同场景调整提示词，以适应多种任务；

合理的提示词设计可以显著提高模型的响应速度和准确性；

这就同人与人之间交流是一样的，有的人表达清晰，条理清晰，让人很快就能明白他要表达的意思。但是有的人就不行，表达没有重点，说了很多或者说的太少，让人听完之后，也不知道他到底要干什么。

所以，大家在使用大模型产品，向其提问发起请求的时候，也就是在输入框中输入内容的时候，要想非常快速的得到自己想要的结果，就一定要清晰详尽的表达自己的诉求。

如果你不知道该怎么更好的表达，可以看下我整理出来的这几个原则

清晰性：确保提示词清晰无误地描述了请求或问题，避免使用含糊不清的语言。
精准性：明确指出期望的结果类型或格式，提供足够的细节。
上下文关联：为模型提供必要的背景信息，以便更好地理解任务要求。
逻辑连贯：保持提示词的逻辑连贯性，特别是在多轮对话中。

我始终认为，提示词就是每个人表达的能力。区别是，说话表达是与人交流；提示词是与机器交流。通过掌握提示词的概念和设计技巧，用户可以更高效地利用大语言模型的能力，实现更精准、更高效的交互。

CoT（Chain of Thought，思维链）

黄橙色描边插画社交公众号标题4

我是从什么时候开始了解到CoT这个概念的呢？大致应该是DeepSeek爆火之后。

DeepSeek的深度推理模型，就是CoT技术的体现。

CoT（Chain of Thought，思维链）是一种改进的提示技术，旨在通过引导大语言模型（LLM）逐步推理，显著提升其在复杂推理任务中的表现。它通过要求模型在输出最终答案之前，显式输出中间的推理步骤，从而增强模型的推理能力。

CoT 的核心在于将复杂问题分解为一系列有逻辑关系的子问题，并引导模型逐步推导出中间步骤，最终得出正确答案。这种方法模仿了人类的思考方式，使得模型在推理过程中更加透明和可解释。

还是举一个实例，来说明一下CoT

我要解下面这道数学题

小明有5个苹果，吃掉2个后买了3个，现在有多少？

虽然我们都知道，答案是6个。但这是依据我们多年来的所学，经过了一系列的思考过程之后得出来的结果。

我们来看下DeepSeek是怎么推导出来的

有没有很震撼。是不是同我们自己的思维过程一致，甚至比我们能想到的还要全面。

这就是CoT，这就是思维链。这也是大家为之疯狂的具体原因。

有了CoT，至少在下面几个方面，人工智能将会有更大的突破：

数学问题解决：通过逐步推理，模型能够解决需要精确计算的复杂数学问题。

逻辑推理：帮助模型更好地理解问题的上下文和复杂性，从而得出更准确的结论。

编程问题：通过逐步推理，模型能够更准确地生成代码。

多模态任务：例如分析图像和文本信息，完成复杂的推理任务。

通过理解和应用 CoT 技术，可以显著提升大模型在复杂任务中的表现，同时增强其推理过程的透明度和可解释性。

AGI和ANI

黄橙色描边插画社交公众号标题5

AGI，应该也是AI领域中出镜率很高的一个名词了。

AGI，即通用人工智能（Artificial General Intelligence），也被称为强人工智能（Strong AI），是指一种能够像人类一样在多种领域中学习、推理、解决问题并执行任务的人工智能系统。

既然有强人工智能，肯定也会有弱人工智能。弱人工智能（Artificial Narrow Intelligence，简称 ANI），也被称为“狭义人工智能”或“窄人工智能”，是指被设计和训练来执行特定任务或狭窄范围内任务的人工智能系统。

通过定义，大家已经可以看出来分别了。

ANI 系统仅限于在预定义的参数内解决特定问题；AGI 不仅能够处理特定任务，还能在未接受训练的领域中自主学习和适应。

ANI 是目前最常见的人工智能形式，广泛应用于多个领域：

语音助手：如 Siri、Google Assistant 等，用于执行语音命令、提供信息和设置提醒。
图像识别：用于人脸识别、物体检测和医学图像分析。
推荐系统：如 Netflix 的电影推荐系统，根据用户历史行为提供个性化推荐。
自动驾驶：现代自动驾驶系统能够在特定道路环境下进行决策。
自然语言处理：包括文本分析、情感分析等，用于处理和理解大量文本数据。

AGI则是大模型技术，不局限于单一领域。它的研究方向和现状，总结起来大致如下：

认知架构研究：包括 SOAR、ACT-R、CLARION 等在内的多个认知架构正在不断发展，以更好地模拟人类的思考和学习过程。
类脑计算：借鉴人脑结构和工作机制的类脑计算是 AGI 研究的重要方向之一。例如，清华大学的天机芯片展示了类脑计算的潜力。
伦理与安全：AGI 的发展需要解决伦理、安全和社会影响等问题。例如，确保 AGI 的行为符合人类价值观、防止 AGI 产生意外行为或被恶意利用。

AGI 作为人工智能领域的终极目标，代表着机器智能发展的最高愿景。尽管其实现仍然是一个长期的目标，但近年来在相关领域的进展为 AGI 的研究奠定了坚实的基础

AIGC（Artificial Intelligence Generated Content，人工智能生成内容）

黄橙色描边插画社交公众号标题6

了解了AGI和ANI，肯定有人会问，那么现在火热的ChatPGT以及DeepSeek这些技术，术语那一类。

这就要说到另外一个名词了，AIGC。

AIGC 是指通过人工智能技术自动生成各种类型的内容，包括文本、图像、音频、视频等。它是继用户生成内容（UGC）和专业生成内容（PGC）之后的新型内容创作方式。AIGC 的核心在于利用深度学习、自然语言处理（NLP）、计算机视觉等技术，使机器能够理解、生成和优化内容。

当下，最热最出圈的技术，话题度最高的技术，应该都是属于这个领域中的。

AIGC 在多个领域展现出了巨大的应用潜力，包括但不限于：

内容创作：生成文章、小说、剧本、音乐、绘画等。

广告营销：快速生成广告文案、海报、视频等。

教育：生成教学材料、个性化学习内容。

娱乐：生成游戏剧情、虚拟角色、动画。

新闻媒体：自动生成新闻报道。

AIGC正在改变这个时代，正在重塑这个社会分工，但是它也正在面临着一些挑战。比如

内容质量：生成的内容可能存在事实性或科学性错误。

版权问题：生成内容的版权归属和使用限制。

伦理问题：可能被用于生成虚假信息或误导性内容。

这些问题，都给这个领域带来着一定的风险和不确定性。

但是不论如何，这项技术的推出，确实给AI领域的发展指明了方向。通过了解 AIGC 的定义、技术原理、应用场景和挑战，我们可以更好地把握这一前沿技术的发展趋势及其对社会的深远影响。

Multimodal（多模态）

黄橙色描边插画社交公众号标题7

多模态，虽然不像上面所提到的那些概念，那么出名。可能只有真正关注AI技术发展的人，才会了解。但是它在整个AI领域里的重要性绝对排的上前列。而且随着AIGC的发展，多模态也将会变得越发重要。

多模态技术是指通过融合多种信息模态（如文本、图像、音频、视频等），以增强数据理解和处理能力的技术。它模拟了人类通过多种感官（视觉、听觉、触觉等）感知世界的方式，使机器能够更全面地理解和处理复杂信息。

多模态技术的核心在于数据融合，包括以下几个关键步骤：

数据预处理：对不同模态的数据进行清洗和标准化处理。

特征提取：利用深度学习模型（如卷积神经网络、Transformer等）从各个模态中提取有用特征。

模态对齐：通过时序对齐、语义对齐等技术，确保不同模态数据在时间和语义上的一致性。

多模态融合：将不同模态的数据在特征层面或决策层面进行融合，以实现更全面的理解。

多模态技术在多个领域展现了广泛的应用潜力，包括但不限于：

视觉问答（VQA） ：用户根据图像提出问题，系统结合图像和问题给出准确回答。

图像描述生成：根据输入图像自动生成文字描述。

多模态情感分析：综合分析文本、语音、表情等多模态数据，识别用户情感。

医学影像分析：结合医学影像和临床文本记录，辅助疾病诊断。

自动驾驶：融合摄像头、激光雷达等传感器数据，进行环境感知和决策。

智能客服与虚拟助手：通过语音、文本和视觉信息，提供更自然的人机交互

多模态技术通过融合多种模态信息，极大地拓展了人工智能的应用范围，正成为推动未来科技进步的重要力量

Inference（推理）

黄橙色描边插画社交公众号标题8

在大模型（LLM）领域，推理（Inference）是指模型在训练完成后，利用所学知识处理新输入数据并生成输出结果的过程。

推理是大模型应用的核心环节，直接影响模型的性能和用户体验。

我们可能不了解这个技术，但是肯定听说过这个名词。推理，单就这两个字，你很难将其认定是一门技术。但，它确实整个大模型领域的核心。我们若想更好的理解大模型，就一定要深刻的理解推理。

推理技术有几个关键要素：

高效性：推理过程需要快速响应，尤其是在实时应用中，如智能客服和自动驾驶。

准确性：模型需要准确理解输入并生成高质量的输出。

资源优化：通过量化、蒸馏等技术减少模型的计算和存储需求。

发展至今，推理技术正在飞速发展，当下推出的DeepSeek-R1模型，就是推理模型的最新成果。

此外，还有新型的推理技术BoT（Boosting of Thoughts） ，正在通过自我迭代优化推理链条，相比传统的 CoT（Chain of Thought）更具灵活性。CoT竟然已经是传统技术了，我的天。

推理技术是大模型应用的核心，随着技术的不断进步，推理将变得更加高效、准确和资源友好，为人工智能的广泛应用提供更强大的支持。

结语

以上内容，就是今天的全部分享内容。

通过这篇文章的介绍，我们了解到了当下大模型领域中，出镜率非常高的名词。本文不涉及复杂的原理，更多就是名词解释。

所以大家在阅读本文的时候，即使没有技术基础，我们仍然有可能看的明白，学的轻松。

感谢您的观看，喜欢请关注，赞同请收藏。期待您的反馈，欢迎来交流。

‍

前言