AI

认识AI

目前为止我大概三次认识了 AI，以后还有多少次就不晓得了。

第一次：ChatGPT（约 2022–2023）

ChatGPT 问世大概在 22–23 年，在编程界掀起了一波热潮。第一次体验 ChatGPT，哇趣，真神奇。

第二次：DeepSeek（约 2024 过年 / 2025 年初）

第二次应该是 24 年过年期间，也就是 25 年初左右，我明显感受到 DeepSeek 把 AI 在国内推向了一个新高潮。当时我不太理解它为什么会引起这么大的轰动。

在老高和小沫一期关于 DeepSeek 的视频里大概得到了答案，总结一下：

DeepSeek 出现前，基本上 ChatGPT 一家独大，费用昂贵；DeepSeek 拉低了企业成本。
DeepSeek 代码开源，并且在推理模型里直接把推理过程放开，打破了外界「抄袭、AI 套 AI」的质疑。

第三次：OpenClaw（约 2026 年初）

OpenClaw 的问世再度将 AI 热潮推到一个高点。一时间各种“🦞”火遍全网，人尽皆知。我理解 OpenClaw 标志着 AI 从“动口”到“动手”的范式转变，想一想《钢铁侠》中的场景：

Tony: “贾维斯，启动Mark II。”

J.A.R.V.I.S.: “Shall I render the suit, sir?”（需要我准备战衣吗，先生？）

Tony: “贾维斯，圣诞节快乐。”

J.A.R.V.I.S.: “Thank you, sir. Shall I activate the ‘family gathering’ protocol?”（谢谢您，先生。需要我启动“家庭聚会”协议吗？）

未来将一一变为现实。

从小就喜欢看科幻片。看过一篇文章提到，欧美的一些科幻片通常都基于科幻小说展开，而科幻小说本质上也是作者对未来的推演。由此可见，现实世界正在向这一方向发展。

对AI的浅薄理解

AI 这个词很大。记得还在大学时候，各种《人工智能》《基于人工智能的 xxx》这类名词就已经大量出现。但在我的体感里，直到 2026 年，AI 才真正出现在我们身边的各个角落。

AI 背后依靠的是大模型、大数据与工程化系统。简单来说：构造一个庞大的神经网络（算法），不断给“它”喂数据；在处理海量数据的同时，对算力的要求越来越高。而算力背后又是电力与能源。大致可以把 AI 分成三层：

第一层：电力、能源

庞大的算力意味着巨额电力消耗。前段时间电力相关板块都起飞了，可惜没赶上趟，还是认知不够😂。

第二层：大模型 => 算法、算力、数据

这一层可以理解为提供基础模型能力的厂商与工程体系，比如 OpenAI、DeepSeek、通义千问等。它们拥有庞大的算力集群和核心算法能力。

第三层：应用层

第一层基本上是国家级战略能力；第二层一般是头部公司，拥有顶尖科研技术与资金实力，负责提供 AI 基础能力。第三层就很广泛了。应用层可以分为两类：框架类应用 和 实际的 AI 产品。

框架类应用

头部公司提供的基础模型很强，但不一定贴合所有垂直业务，因此很多框架和工程范式应运而生，比如 Dify、LangChain、RAGFlow 等。

注：下表是我基于当前认知的主观选择，具体还要看团队技术栈、成本和稳定性要求。

场景	推荐工具	主要原因
企业知识库问答（上传 PDF 回答问题）	RAGFlow > Dify	RAGFlow 在文档解析与检索链路上通常更细致
客服机器人（FAQ + 简单工具）	Dify	快速上线，支持多渠道接入
自动写周报 + 发飞书	OpenClaw	可以执行“生成 -> 发送”的完整流程
AI 数据分析师（查 DB -> 画图 -> 解释）	LangGraph + OpenClaw	LangGraph 负责流程编排，OpenClaw 负责执行动作
多 Agent 协作（辩论、分工）	LangGraph	对状态流转和流程控制支持较好
小红书自动发布系统	OpenClaw	需要模拟登录、截图、上传等执行能力

实际的AI产品

基于大模型和上述框架产出的具体 AI 应用，比如：xx 智能助手、xx 聊天机器人。

名词解释

分类	术语（中文）	术语（英文）	定义与通俗解释	关键特点 / 注意事项
基础模型	大语言模型	Large Language Model (LLM)	基于海量文本训练的 AI 模型，能理解并生成人类语言（如 Qwen、GPT-4、Claude）。	不具备实时知识；可能产生“幻觉”；需结合外部知识提升准确性。
	Token	Token	模型处理文本的最小单位。中文通常一字 ≈ 1~2 个 token，英文按词或子词切分。	API 调用计费、上下文长度限制均以 token 为单位。
	上下文窗口	Context Window	模型单次能处理的最大 token 数量（如 32768 tokens ≈ 2 万汉字）。	超出部分会被截断；长文档需分段或使用 RAG。
	Transformer	Transformer	当前主流 LLM 的底层神经网络架构，基于自注意力机制。	支持并行计算，擅长捕捉长距离语义依赖。
人机交互	提示词	Prompt	用户输入给 AI 的指令或问题。质量直接影响输出效果。	好提示 = 明确目标 + 约束格式 + 提供示例（Few-shot）。
	温度	Temperature	控制模型输出的随机性。值越低越确定，越高越有创意。	常用值：0.0（确定性）、0.7（平衡）、1.0+（发散）。
	Top-p / Top-k	Top-p / Top-k	限制模型在生成下一个词时只从高概率候选集中选择。	避免低质量或荒谬输出；常与 temperature 配合使用。
知识增强	检索增强生成	Retrieval-Augmented Generation (RAG)	先从私有知识库检索相关信息，再让 LLM 基于真实资料生成答案。	有效减少幻觉；适用于企业知识库、客服等场景。
	微调	Fine-tuning	使用特定领域数据对预训练模型进行进一步训练。	成本高、需大量标注数据；2026 年多数场景优先用 RAG。
	重排序	Rerank	对初步检索结果用更强模型重新打分排序，提升相关性。	常用于 RAG 后处理，提高 Top-K 结果质量。
智能体系统	智能体	Agent	能自主规划、记忆、调用工具完成复杂任务的 AI 系统。	代表未来方向：从“问答”到“执行”。
	工具调用	Function Calling	LLM 调用外部 API、数据库或代码函数的能力。	构建 Agent 的核心能力之一。
	MCP 协议	Model Context Protocol	新兴的 AI 工具通信标准协议，类似“AI 版 HTTP”。	目标是实现跨平台、跨工具的 Agent 互操作。
其他关键概念	幻觉	Hallucination	LLM 自信地生成错误、虚构或不存在的信息。	是 LLM 最大风险之一；RAG 是主要缓解手段。
	多模态	Multimodal	模型能同时处理文本、图像、音频等多种模态输入。	如 GPT-4V、Qwen-VL 可“看图说话”。
	嵌入 / 向量化	Embedding	将文本转换为高维数字向量，用于表示语义。	是 RAG 中“检索”阶段的基础。
	向量数据库	Vector Database	专门用于存储和高效搜索 embedding 向量的数据库。	常见系统：Weaviate、Milvus、Chroma、PGVector。