AI

认识AI

目前为止我大概三次认识了 AI,以后还有多少次就不晓得了。

第一次:ChatGPT(约 2022–2023)

ChatGPT 问世大概在 22–23 年,在编程界掀起了一波热潮。第一次体验 ChatGPT,哇趣,真神奇。

第二次:DeepSeek(约 2024 过年 / 2025 年初)

第二次应该是 24 年过年期间,也就是 25 年初左右,我明显感受到 DeepSeek 把 AI 在国内推向了一个新高潮。当时我不太理解它为什么会引起这么大的轰动。

老高和小沫一期关于 DeepSeek 的视频里大概得到了答案,总结一下:

  • DeepSeek 出现前,基本上 ChatGPT 一家独大,费用昂贵;DeepSeek 拉低了企业成本。
  • DeepSeek 代码开源,并且在推理模型里直接把推理过程放开,打破了外界「抄袭、AI 套 AI」的质疑。

第三次:OpenClaw(约 2026 年初)

OpenClaw 的问世再度将 AI 热潮推到一个高点。一时间各种“🦞”火遍全网,人尽皆知。 我理解 OpenClaw 标志着 AI 从“动口”到“动手”的范式转变,想一想《钢铁侠》中的场景:

Tony: “贾维斯,启动Mark II。”

J.A.R.V.I.S.: “Shall I render the suit, sir?”(需要我准备战衣吗,先生?)

Tony: “贾维斯,圣诞节快乐。”

J.A.R.V.I.S.: “Thank you, sir. Shall I activate the ‘family gathering’ protocol?”(谢谢您,先生。需要我启动“家庭聚会”协议吗?)

未来将一一变为现实。

从小就喜欢看科幻片。看过一篇文章提到,欧美的一些科幻片通常都基于科幻小说展开,而科幻小说本质上也是作者对未来的推演。 由此可见,现实世界正在向这一方向发展。

对AI的浅薄理解

AI 这个词很大。记得还在大学时候,各种《人工智能》《基于人工智能的 xxx》这类名词就已经大量出现。 但在我的体感里,直到 2026 年,AI 才真正出现在我们身边的各个角落。

AI 背后依靠的是大模型、大数据与工程化系统。 简单来说:构造一个庞大的神经网络(算法),不断给“它”喂数据;在处理海量数据的同时,对算力的要求越来越高。而算力背后又是电力与能源。大致可以把 AI 分成三层:

第一层:电力、能源

庞大的算力意味着巨额电力消耗。前段时间电力相关板块都起飞了,可惜没赶上趟,还是认知不够😂。

第二层:大模型 => 算法、算力、数据

这一层可以理解为提供基础模型能力的厂商与工程体系,比如 OpenAI、DeepSeek、通义千问等。它们拥有庞大的算力集群和核心算法能力。

第三层:应用层

第一层基本上是国家级战略能力;第二层一般是头部公司,拥有顶尖科研技术与资金实力,负责提供 AI 基础能力。 第三层就很广泛了。应用层可以分为两类:框架类应用实际的 AI 产品

框架类应用

头部公司提供的基础模型很强,但不一定贴合所有垂直业务,因此很多框架和工程范式应运而生,比如 Dify、LangChain、RAGFlow 等。

注:下表是我基于当前认知的主观选择,具体还要看团队技术栈、成本和稳定性要求。

场景推荐工具主要原因
企业知识库问答(上传 PDF 回答问题)RAGFlow > DifyRAGFlow 在文档解析与检索链路上通常更细致
客服机器人(FAQ + 简单工具)Dify快速上线,支持多渠道接入
自动写周报 + 发飞书OpenClaw可以执行“生成 -> 发送”的完整流程
AI 数据分析师(查 DB -> 画图 -> 解释)LangGraph + OpenClawLangGraph 负责流程编排,OpenClaw 负责执行动作
多 Agent 协作(辩论、分工)LangGraph对状态流转和流程控制支持较好
小红书自动发布系统OpenClaw需要模拟登录、截图、上传等执行能力
实际的AI产品

基于大模型和上述框架产出的具体 AI 应用,比如:xx 智能助手xx 聊天机器人

名词解释

分类术语(中文)术语(英文)定义与通俗解释关键特点 / 注意事项
基础模型大语言模型Large Language Model (LLM)基于海量文本训练的 AI 模型,能理解并生成人类语言(如 Qwen、GPT-4、Claude)。不具备实时知识;可能产生“幻觉”;需结合外部知识提升准确性。
TokenToken模型处理文本的最小单位。中文通常一字 ≈ 1~2 个 token,英文按词或子词切分。API 调用计费、上下文长度限制均以 token 为单位。
上下文窗口Context Window模型单次能处理的最大 token 数量(如 32768 tokens ≈ 2 万汉字)。超出部分会被截断;长文档需分段或使用 RAG。
TransformerTransformer当前主流 LLM 的底层神经网络架构,基于自注意力机制。支持并行计算,擅长捕捉长距离语义依赖。
人机交互提示词Prompt用户输入给 AI 的指令或问题。质量直接影响输出效果。好提示 = 明确目标 + 约束格式 + 提供示例(Few-shot)。
温度Temperature控制模型输出的随机性。值越低越确定,越高越有创意。常用值:0.0(确定性)、0.7(平衡)、1.0+(发散)。
Top-p / Top-kTop-p / Top-k限制模型在生成下一个词时只从高概率候选集中选择。避免低质量或荒谬输出;常与 temperature 配合使用。
知识增强检索增强生成Retrieval-Augmented Generation (RAG)先从私有知识库检索相关信息,再让 LLM 基于真实资料生成答案。有效减少幻觉;适用于企业知识库、客服等场景。
微调Fine-tuning使用特定领域数据对预训练模型进行进一步训练。成本高、需大量标注数据;2026 年多数场景优先用 RAG。
重排序Rerank对初步检索结果用更强模型重新打分排序,提升相关性。常用于 RAG 后处理,提高 Top-K 结果质量。
智能体系统智能体Agent能自主规划、记忆、调用工具完成复杂任务的 AI 系统。代表未来方向:从“问答”到“执行”。
工具调用Function CallingLLM 调用外部 API、数据库或代码函数的能力。构建 Agent 的核心能力之一。
MCP 协议Model Context Protocol新兴的 AI 工具通信标准协议,类似“AI 版 HTTP”。目标是实现跨平台、跨工具的 Agent 互操作。
其他关键概念幻觉HallucinationLLM 自信地生成错误、虚构或不存在的信息。是 LLM 最大风险之一;RAG 是主要缓解手段。
多模态Multimodal模型能同时处理文本、图像、音频等多种模态输入。如 GPT-4V、Qwen-VL 可“看图说话”。
嵌入 / 向量化Embedding将文本转换为高维数字向量,用于表示语义。是 RAG 中“检索”阶段的基础。
向量数据库Vector Database专门用于存储和高效搜索 embedding 向量的数据库。常见系统:Weaviate、Milvus、Chroma、PGVector。