藏川线前段

--- 摄于 2017 年 9 月 藏川线前段

最近观察到一些现象,例如有人使用 DeepSeek 进行占卜算命等活动,甚至将其拟人化(视其为人)。这种用法虽然不一定完全无效(取决于人们如何解读其输出),但确实反映了一种有趣的现象。这引出了一个问题:大型语言模型的训练数据中是否真的包含了《易经》、八卦、梅花易数等相对小众的知识?它们庞大的数据源究竟涵盖了哪些内容,以至于能对这类问题生成看似合理的回答?

我深度使用大型语言模型已有一段时间,作为一名技术工程师,我自然希望理解其运作原理。毕竟,了解其基本原理,有助于理解其生成回答的机制,进而把握其能力边界——哪些是它的强项,哪些是它的短板。这样,我们才能最大化地发挥其优势,同时避免不切实际的期待和误用。

AI 发展历史与当前模型的局限性

回顾 AI 的发展历程有助于我们理解当前技术的定位与局限::

  • 符号主义 AI (Symbolic AI / GOFAI) - 大约 1950s - 1980s

    • 依赖专家显式编码只是规则。
  • 早期连接主义与统计机器学习 - 大约 1980s - 2010s

    • 贝叶斯网络、特征工程、决策树、支持向量机(SVM)、随机森林、聚类等技术得到应用
  • 深度学习革命 - 大约 2010s - 至今

    • 卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)、深度强化学习等技术推动了显著进步,模型复杂度与参数量急剧增加
  • 大模型 / 基础模型时代 - 大约 2018/2019 - 至今

    • Transformer 架构(2017 提出): 基于自注意力机制,有效解决了长距离依赖问题,成为当前主流模型的基石
    • 范式统一: 大语言模型(LLM)、多模态模型以及“预训练-微调”范式逐渐成为主流。
    • 代表模型: BERT、GPT 系列、Llama 等相继问世。DeepSeek 等模型的普及,则让国内普通用户也能便捷地接触到强大的 AI 助手。

从技术发展脉络中可以看出,当前大模型的核心是 Transformer 架构,其本质是基于数据统计相关性进行模式匹配。它可以高效地发现“水”、“游泳”、“鸭子”之间的高度相关性,以及它们与“飞机”、“航天”的低相关性。然而,它生成下一个词元(token)主要是基于训练数据中的统计相关性模式,而非真正意义上的语义理解或对话理解。模型学到的是相关性而非因果性,普遍缺乏强大的常识推理能力和真实的世界模型。 其决策过程也常被视为“黑箱”,业内不乏“调参如炼丹”的戏称。

简而言之,当前的 AI 并不具备人类水平的意识、理解或独立思考能力。其能力完全源于海量的训练数据。数据中越是包含确定性高、共识性强的信息,模型的表现通常越好;相应地,对于训练数据截止日期之后的新信息、或本质上不确定的问题,它的表现往往不佳,甚至可能产生“幻觉”(Hallucination)。

因此,我们应清晰地认识到,至少在现阶段,AI 大模型本质上是一种强大的工具或软件。它在诸多方面能力卓越,但其局限性同样显著。我们需要以务实的态度看待和使用它,明确其能力边界,不盲从,不拟人化,专注于发挥其长处。

AI 训练数据的关键性与私有化

正如前述,数据是 AI 能力的核心。训练数据的质量、覆盖范围和偏差,对模型的表现起着决定性作用。精准、干净且多样化的数据至关重要。然而,公开的互联网数据质量良莠不齐,甚至存在大量噪声和污染,直接将其不加处理地用作训练数据面临巨大挑战,需要复杂的清洗和筛选流程。

各大 AI 研发机构的训练数据集通常是其核心竞争力之一,具体构成往往保密。这个数据源在很大程度上影响了 AI 的知识范围、价值倾向甚至偏见。(至于是否包含《易经》等,完全取决于训练数据是否有意或无意收录了相关文本。考虑到互联网上存在大量此类内容,模型接触到并学习其语言模式是可能的,但这不代表它理解了其哲学内涵)

虽然像 DeepSeek 等一些公司开源了其算法模型,但其详细的训练数据集和具体的训练过程(包括数据配比、清洗策略等)通常是商业机密。

对于需要整合私有知识库的应用场景,目前主流的技术路径包括:

  • 从头预训练/继续预训练: 使用私有知识库(可能结合通用数据)从零开始训练模型,或在一个基础模型上进行持续预训练
  • 微调(Fine-tuning): 基于一个预训练好的大模型,使用私有数据进行针对性训练,调整模型参数以适应特定任务或知识领域
  • 检索增强生成(RAG): 将私有文档通过 embedding 模型(如 bge-m3)转化为向量数据库。用户提问时,先从数据库中检索相关文本片段,再将其作为上下文信息注入给大模型,引导其生成回答
  • RAG + 重排(Reranker): 在 RAG 的基础上,增加一个重排模型(如 bge-reranker-large),对初步检索到的文本片段进行二次排序,选取最相关的部分注入上下文,进一步提升信息质量

可以将前两种(模型训练/微调)归为模型内在知识增强方法,后两种(RAG / RAG+Rerank)归为外部知识检索增强方法。通常认为,模型内在知识增强方法在深度融合知识方面潜力更大,但成本(计算资源、数据量、时间)也更高。在数据量不足的情况下,微调(方法 2)通常比从头预训练(方法 1)更具可行性。而外部知识检索增强方法成本相对较低,部署更灵活,其中加入重排(方法 4)能显著提升基础 RAG(方法 3)的效果。

个人常用的范围

基于对 AI 能力边界的理解,我目前主要在以下几个方面使用模型进行辅助:

  • 翻译:对于日常的文本翻译,只需要 gemma3-4b 这样的小模型。通过 ollama 在本地部署,结合沉浸式翻译插件,已能满足大部分场景;对于本地视频的双语字幕,也可以通过 potplayer 插件系统去实现;更复杂的撰写和语言组织工作,可以使用 cherry studio 完成
  • 深度搜索(Deep Search / Search-Augmented Generation):结合了搜索引擎的实时信息获取能力和 AI 的内容理解与整合能力,像 Grok、Gemini 的网页浏览功能、秘塔 AI、夸克等,能提供比传统搜索更直接、结构化的答案,便于快速获取和初步理解信息
  • 编程辅助
    • 代码审计与理解:利用 VS Code 的 Copilot,对新代码进行初步审查,识别潜在问题
    • 代码可视化与文档:要求 AI 将代码逻辑生成 Mermaid 流程图,帮助梳理思路
    • 代码生成与测试:生成单元测试用例等
    • 学习与查询:快速查询不熟悉的概念、库用法、API 文档、命令行参数等。类似 DeepWiki 这样基于代码库生成文档的项目,对快速入门非常有帮助
  • 概念科普:对于不熟悉的领域或概念(如核聚变原理、特定宗教教义等),先通过 AI 获取基础解释和框架性认识,为后续通过搜索引擎、书籍(图书馆或者购买)、文献等进行深入学习打下基础

这些应用场景的共同特点是,它们大多利用了 AI 在处理结构化信息、模式识别、文本生成和信息整合方面的优势,涉及的问题相对明确,规则性较强,较少依赖实时动态信息或复杂的、需要深度理解的推理。

畅想的应用点

许多场景下,中小型模型已足够胜任:

  • 游戏 NPC 扮演:为模型注入特定背景知识进行角色扮演,创造更生动灵活的 NPC 形象,增强玩家在游戏世界中的沉浸感和互动体验,实现与 NPC 的逼真对话
  • 辅助导航:医院、商场、酒店等场景的智能导航或导购系统
  • 产品说明/导览系统:通过问答形式,帮助用户理解和使用产品,或提供展馆导览
  • 教学辅导系统:构建一个对已有知识体系近乎全能、全天候在线的知识问答与学习辅导助手

结语

总而言之,当前的大型语言模型是软件工程发展中的一项杰出成就,是极其强大的生产力工具。然而,我们必须清醒地认识到,它仍处于快速进化阶段,其能力核心是基于海量数据的统计学习,尚未达到真正意义上的通用智能,并不具备真正的理解与思考。尽管在庞大数据规模下,“涌现”出了一些令人惊叹的能力,但理解其内在机制和核心局限性至关重要。只有这样,我们才能避免对其能力的夸大和不切实际的幻想,实事求是地将其应用于合适的场景,让它成为我们工作和生活中的得力助手,而不是误导性的“先知”或盲目信赖的“伙伴”。

评论区

加载更多

登录后评论