认识AI
目前为止我大概三次认识了 AI,以后还有多少次就不晓得了。
第一次:ChatGPT(约 2022–2023)
ChatGPT 问世大概在 22–23 年,在编程界掀起了一波热潮。第一次体验 ChatGPT,哇趣,真神奇。
第二次:DeepSeek(约 2024 过年 / 2025 年初)
第二次应该是 24 年过年期间,也就是 25 年初左右,我明显感受到 DeepSeek 把 AI 在国内推向了一个新高潮。当时我不太理解它为什么会引起这么大的轰动。
在老高和小沫一期关于 DeepSeek 的视频里大概得到了答案,总结一下:
- DeepSeek 出现前,基本上 ChatGPT 一家独大,费用昂贵;DeepSeek 拉低了企业成本。
- DeepSeek 代码开源,并且在推理模型里直接把推理过程放开,打破了外界「抄袭、AI 套 AI」的质疑。
第三次:OpenClaw(约 2026 年初)
OpenClaw 的问世再度将 AI 热潮推到一个高点。一时间各种“🦞”火遍全网,人尽皆知。 我理解 OpenClaw 标志着 AI 从“动口”到“动手”的范式转变,想一想《钢铁侠》中的场景:
Tony: “贾维斯,启动Mark II。”
J.A.R.V.I.S.: “Shall I render the suit, sir?”(需要我准备战衣吗,先生?)
Tony: “贾维斯,圣诞节快乐。”
J.A.R.V.I.S.: “Thank you, sir. Shall I activate the ‘family gathering’ protocol?”(谢谢您,先生。需要我启动“家庭聚会”协议吗?)
未来将一一变为现实。
从小就喜欢看科幻片。看过一篇文章提到,欧美的一些科幻片通常都基于科幻小说展开,而科幻小说本质上也是作者对未来的推演。 由此可见,现实世界正在向这一方向发展。
对AI的浅薄理解
AI 这个词很大。记得还在大学时候,各种《人工智能》《基于人工智能的 xxx》这类名词就已经大量出现。 但在我的体感里,直到 2026 年,AI 才真正出现在我们身边的各个角落。
AI 背后依靠的是大模型、大数据与工程化系统。 简单来说:构造一个庞大的神经网络(算法),不断给“它”喂数据;在处理海量数据的同时,对算力的要求越来越高。而算力背后又是电力与能源。大致可以把 AI 分成三层:
第一层:电力、能源
庞大的算力意味着巨额电力消耗。前段时间电力相关板块都起飞了,可惜没赶上趟,还是认知不够😂。
第二层:大模型 => 算法、算力、数据
这一层可以理解为提供基础模型能力的厂商与工程体系,比如 OpenAI、DeepSeek、通义千问等。它们拥有庞大的算力集群和核心算法能力。
第三层:应用层
第一层基本上是国家级战略能力;第二层一般是头部公司,拥有顶尖科研技术与资金实力,负责提供 AI 基础能力。 第三层就很广泛了。应用层可以分为两类:框架类应用 和 实际的 AI 产品。
框架类应用
头部公司提供的基础模型很强,但不一定贴合所有垂直业务,因此很多框架和工程范式应运而生,比如 Dify、LangChain、RAGFlow 等。
注:下表是我基于当前认知的主观选择,具体还要看团队技术栈、成本和稳定性要求。
| 场景 | 推荐工具 | 主要原因 |
|---|---|---|
| 企业知识库问答(上传 PDF 回答问题) | RAGFlow > Dify | RAGFlow 在文档解析与检索链路上通常更细致 |
| 客服机器人(FAQ + 简单工具) | Dify | 快速上线,支持多渠道接入 |
| 自动写周报 + 发飞书 | OpenClaw | 可以执行“生成 -> 发送”的完整流程 |
| AI 数据分析师(查 DB -> 画图 -> 解释) | LangGraph + OpenClaw | LangGraph 负责流程编排,OpenClaw 负责执行动作 |
| 多 Agent 协作(辩论、分工) | LangGraph | 对状态流转和流程控制支持较好 |
| 小红书自动发布系统 | OpenClaw | 需要模拟登录、截图、上传等执行能力 |
实际的AI产品
基于大模型和上述框架产出的具体 AI 应用,比如:xx 智能助手、xx 聊天机器人。
名词解释
| 分类 | 术语(中文) | 术语(英文) | 定义与通俗解释 | 关键特点 / 注意事项 |
|---|---|---|---|---|
| 基础模型 | 大语言模型 | Large Language Model (LLM) | 基于海量文本训练的 AI 模型,能理解并生成人类语言(如 Qwen、GPT-4、Claude)。 | 不具备实时知识;可能产生“幻觉”;需结合外部知识提升准确性。 |
| Token | Token | 模型处理文本的最小单位。中文通常一字 ≈ 1~2 个 token,英文按词或子词切分。 | API 调用计费、上下文长度限制均以 token 为单位。 | |
| 上下文窗口 | Context Window | 模型单次能处理的最大 token 数量(如 32768 tokens ≈ 2 万汉字)。 | 超出部分会被截断;长文档需分段或使用 RAG。 | |
| Transformer | Transformer | 当前主流 LLM 的底层神经网络架构,基于自注意力机制。 | 支持并行计算,擅长捕捉长距离语义依赖。 | |
| 人机交互 | 提示词 | Prompt | 用户输入给 AI 的指令或问题。质量直接影响输出效果。 | 好提示 = 明确目标 + 约束格式 + 提供示例(Few-shot)。 |
| 温度 | Temperature | 控制模型输出的随机性。值越低越确定,越高越有创意。 | 常用值:0.0(确定性)、0.7(平衡)、1.0+(发散)。 | |
| Top-p / Top-k | Top-p / Top-k | 限制模型在生成下一个词时只从高概率候选集中选择。 | 避免低质量或荒谬输出;常与 temperature 配合使用。 | |
| 知识增强 | 检索增强生成 | Retrieval-Augmented Generation (RAG) | 先从私有知识库检索相关信息,再让 LLM 基于真实资料生成答案。 | 有效减少幻觉;适用于企业知识库、客服等场景。 |
| 微调 | Fine-tuning | 使用特定领域数据对预训练模型进行进一步训练。 | 成本高、需大量标注数据;2026 年多数场景优先用 RAG。 | |
| 重排序 | Rerank | 对初步检索结果用更强模型重新打分排序,提升相关性。 | 常用于 RAG 后处理,提高 Top-K 结果质量。 | |
| 智能体系统 | 智能体 | Agent | 能自主规划、记忆、调用工具完成复杂任务的 AI 系统。 | 代表未来方向:从“问答”到“执行”。 |
| 工具调用 | Function Calling | LLM 调用外部 API、数据库或代码函数的能力。 | 构建 Agent 的核心能力之一。 | |
| MCP 协议 | Model Context Protocol | 新兴的 AI 工具通信标准协议,类似“AI 版 HTTP”。 | 目标是实现跨平台、跨工具的 Agent 互操作。 | |
| 其他关键概念 | 幻觉 | Hallucination | LLM 自信地生成错误、虚构或不存在的信息。 | 是 LLM 最大风险之一;RAG 是主要缓解手段。 |
| 多模态 | Multimodal | 模型能同时处理文本、图像、音频等多种模态输入。 | 如 GPT-4V、Qwen-VL 可“看图说话”。 | |
| 嵌入 / 向量化 | Embedding | 将文本转换为高维数字向量,用于表示语义。 | 是 RAG 中“检索”阶段的基础。 | |
| 向量数据库 | Vector Database | 专门用于存储和高效搜索 embedding 向量的数据库。 | 常见系统:Weaviate、Milvus、Chroma、PGVector。 |