理性看待大语言模型：能力、局限与应用

最近观察到一些现象，例如有人使用 DeepSeek 进行占卜算命等活动，甚至将其拟人化（视其为人）。这种用法虽然不一定完全无效（取决于人们如何解读其输出），但确实反映了一种有趣的现象。这引出了一个问题：大型语言模型的训练数据中是否真的包含了《易经》、八卦、梅花易数等相对小众的知识？它们庞大的数据源究竟涵盖了哪些内容，以至于能对这类问题生成看似合理的回答？

我深度使用大型语言模型已有一段时间，作为一名技术工程师，我自然希望理解其运作原理。毕竟，了解其基本原理，有助于理解其生成回答的机制，进而把握其能力边界——哪些是它的强项，哪些是它的短板。这样，我们才能最大化地发挥其优势，同时避免不切实际的期待和误用。

AI 发展历史与当前模型的局限性

回顾 AI 的发展历程有助于我们理解当前技术的定位与局限：：

符号主义 AI (Symbolic AI / GOFAI) - 大约 1950s - 1980s：
- 依赖专家显式编码只是规则。
早期连接主义与统计机器学习 - 大约 1980s - 2010s：
- 贝叶斯网络、特征工程、决策树、支持向量机（SVM）、随机森林、聚类等技术得到应用
深度学习革命 - 大约 2010s - 至今：
- 卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）、门控循环单元（GRU）、深度强化学习等技术推动了显著进步，模型复杂度与参数量急剧增加
大模型 / 基础模型时代 - 大约 2018/2019 - 至今
- Transformer 架构（2017 提出）: 基于自注意力机制，有效解决了长距离依赖问题，成为当前主流模型的基石
- 范式统一: 大语言模型（LLM）、多模态模型以及“预训练-微调”范式逐渐成为主流。
- 代表模型: BERT、GPT 系列、Llama 等相继问世。DeepSeek 等模型的普及，则让国内普通用户也能便捷地接触到强大的 AI 助手。

从技术发展脉络中可以看出，当前大模型的核心是 Transformer 架构，其本质是基于数据统计相关性进行模式匹配。它可以高效地发现“水”、“游泳”、“鸭子”之间的高度相关性，以及它们与“飞机”、“航天”的低相关性。然而，它生成下一个词元（token）主要是基于训练数据中的统计相关性模式，而非真正意义上的语义理解或对话理解。模型学到的是相关性而非因果性，普遍缺乏强大的常识推理能力和真实的世界模型。 其决策过程也常被视为“黑箱”，业内不乏“调参如炼丹”的戏称。

简而言之，当前的 AI 并不具备人类水平的意识、理解或独立思考能力。其能力完全源于海量的训练数据。数据中越是包含确定性高、共识性强的信息，模型的表现通常越好；相应地，对于训练数据截止日期之后的新信息、或本质上不确定的问题，它的表现往往不佳，甚至可能产生“幻觉”（Hallucination）。

因此，我们应清晰地认识到，至少在现阶段，AI 大模型本质上是一种强大的工具或软件。它在诸多方面能力卓越，但其局限性同样显著。我们需要以务实的态度看待和使用它，明确其能力边界，不盲从，不拟人化，专注于发挥其长处。

AI 训练数据的关键性与私有化

正如前述，数据是 AI 能力的核心。训练数据的质量、覆盖范围和偏差，对模型的表现起着决定性作用。精准、干净且多样化的数据至关重要。然而，公开的互联网数据质量良莠不齐，甚至存在大量噪声和污染，直接将其不加处理地用作训练数据面临巨大挑战，需要复杂的清洗和筛选流程。

各大 AI 研发机构的训练数据集通常是其核心竞争力之一，具体构成往往保密。这个数据源在很大程度上影响了 AI 的知识范围、价值倾向甚至偏见。（至于是否包含《易经》等，完全取决于训练数据是否有意或无意收录了相关文本。考虑到互联网上存在大量此类内容，模型接触到并学习其语言模式是可能的，但这不代表它理解了其哲学内涵）

虽然像 DeepSeek 等一些公司开源了其算法模型，但其详细的训练数据集和具体的训练过程（包括数据配比、清洗策略等）通常是商业机密。

对于需要整合私有知识库的应用场景，目前主流的技术路径包括：

从头预训练/继续预训练： 使用私有知识库（可能结合通用数据）从零开始训练模型，或在一个基础模型上进行持续预训练
微调（Fine-tuning）： 基于一个预训练好的大模型，使用私有数据进行针对性训练，调整模型参数以适应特定任务或知识领域
检索增强生成（RAG）： 将私有文档通过 embedding 模型（如 bge-m3）转化为向量数据库。用户提问时，先从数据库中检索相关文本片段，再将其作为上下文信息注入给大模型，引导其生成回答
RAG + 重排（Reranker）： 在 RAG 的基础上，增加一个重排模型（如 bge-reranker-large），对初步检索到的文本片段进行二次排序，选取最相关的部分注入上下文，进一步提升信息质量

可以将前两种（模型训练/微调）归为模型内在知识增强方法，后两种（RAG / RAG+Rerank）归为外部知识检索增强方法。通常认为，模型内在知识增强方法在深度融合知识方面潜力更大，但成本（计算资源、数据量、时间）也更高。在数据量不足的情况下，微调（方法 2）通常比从头预训练（方法 1）更具可行性。而外部知识检索增强方法成本相对较低，部署更灵活，其中加入重排（方法 4）能显著提升基础 RAG（方法 3）的效果。

个人常用的范围

基于对 AI 能力边界的理解，我目前主要在以下几个方面使用模型进行辅助：

翻译：对于日常的文本翻译，只需要 gemma3-4b 这样的小模型。通过 ollama 在本地部署，结合沉浸式翻译插件，已能满足大部分场景；对于本地视频的双语字幕，也可以通过 potplayer 插件系统去实现；更复杂的撰写和语言组织工作，可以使用 cherry studio 完成
深度搜索（Deep Search / Search-Augmented Generation）：结合了搜索引擎的实时信息获取能力和 AI 的内容理解与整合能力，像 Grok、Gemini 的网页浏览功能、秘塔 AI、夸克等，能提供比传统搜索更直接、结构化的答案，便于快速获取和初步理解信息
编程辅助：
- 代码审计与理解：利用 VS Code 的 Copilot，对新代码进行初步审查，识别潜在问题
- 代码可视化与文档：要求 AI 将代码逻辑生成 Mermaid 流程图，帮助梳理思路
- 代码生成与测试：生成单元测试用例等
- 学习与查询：快速查询不熟悉的概念、库用法、API 文档、命令行参数等。类似 DeepWiki 这样基于代码库生成文档的项目，对快速入门非常有帮助
概念科普：对于不熟悉的领域或概念（如核聚变原理、特定宗教教义等），先通过 AI 获取基础解释和框架性认识，为后续通过搜索引擎、书籍（图书馆或者购买）、文献等进行深入学习打下基础

这些应用场景的共同特点是，它们大多利用了 AI 在处理结构化信息、模式识别、文本生成和信息整合方面的优势，涉及的问题相对明确，规则性较强，较少依赖实时动态信息或复杂的、需要深度理解的推理。

畅想的应用点

许多场景下，中小型模型已足够胜任：

游戏 NPC 扮演：为模型注入特定背景知识进行角色扮演，创造更生动灵活的 NPC 形象，增强玩家在游戏世界中的沉浸感和互动体验，实现与 NPC 的逼真对话
辅助导航：医院、商场、酒店等场景的智能导航或导购系统
产品说明/导览系统：通过问答形式，帮助用户理解和使用产品，或提供展馆导览
教学辅导系统：构建一个对已有知识体系近乎全能、全天候在线的知识问答与学习辅导助手

结语

总而言之，当前的大型语言模型是软件工程发展中的一项杰出成就，是极其强大的生产力工具。然而，我们必须清醒地认识到，它仍处于快速进化阶段，其能力核心是基于海量数据的统计学习，尚未达到真正意义上的通用智能，并不具备真正的理解与思考。尽管在庞大数据规模下，“涌现”出了一些令人惊叹的能力，但理解其内在机制和核心局限性至关重要。只有这样，我们才能避免对其能力的夸大和不切实际的幻想，实事求是地将其应用于合适的场景，让它成为我们工作和生活中的得力助手，而不是误导性的“先知”或盲目信赖的“伙伴”。

AI 发展历史与当前模型的局限性

AI 训练数据的关键性与私有化

个人常用的范围

畅想的应用点

结语

评论区