--- 摄于 2017 年 9 月 藏川线前段
最近观察到一些现象,例如有人使用 DeepSeek 进行占卜算命等活动,甚至将其拟人化(视其为人)。这种用法虽然不一定完全无效(取决于人们如何解读其输出),但确实反映了一种有趣的现象。这引出了一个问题:大型语言模型的训练数据中是否真的包含了《易经》、八卦、梅花易数等相对小众的知识?它们庞大的数据源究竟涵盖了哪些内容,以至于能对这类问题生成看似合理的回答?
我深度使用大型语言模型已有一段时间,作为一名技术工程师,我自然希望理解其运作原理。毕竟,了解其基本原理,有助于理解其生成回答的机制,进而把握其能力边界——哪些是它的强项,哪些是它的短板。这样,我们才能最大化地发挥其优势,同时避免不切实际的期待和误用。
回顾 AI 的发展历程有助于我们理解当前技术的定位与局限::
符号主义 AI (Symbolic AI / GOFAI) - 大约 1950s - 1980s:
早期连接主义与统计机器学习 - 大约 1980s - 2010s:
深度学习革命 - 大约 2010s - 至今:
大模型 / 基础模型时代 - 大约 2018/2019 - 至今
从技术发展脉络中可以看出,当前大模型的核心是 Transformer 架构,其本质是基于数据统计相关性进行模式匹配。它可以高效地发现“水”、“游泳”、“鸭子”之间的高度相关性,以及它们与“飞机”、“航天”的低相关性。然而,它生成下一个词元(token)主要是基于训练数据中的统计相关性模式,而非真正意义上的语义理解或对话理解。模型学到的是相关性而非因果性,普遍缺乏强大的常识推理能力和真实的世界模型。 其决策过程也常被视为“黑箱”,业内不乏“调参如炼丹”的戏称。
简而言之,当前的 AI 并不具备人类水平的意识、理解或独立思考能力。其能力完全源于海量的训练数据。数据中越是包含确定性高、共识性强的信息,模型的表现通常越好;相应地,对于训练数据截止日期之后的新信息、或本质上不确定的问题,它的表现往往不佳,甚至可能产生“幻觉”(Hallucination)。
因此,我们应清晰地认识到,至少在现阶段,AI 大模型本质上是一种强大的工具或软件。它在诸多方面能力卓越,但其局限性同样显著。我们需要以务实的态度看待和使用它,明确其能力边界,不盲从,不拟人化,专注于发挥其长处。
正如前述,数据是 AI 能力的核心。训练数据的质量、覆盖范围和偏差,对模型的表现起着决定性作用。精准、干净且多样化的数据至关重要。然而,公开的互联网数据质量良莠不齐,甚至存在大量噪声和污染,直接将其不加处理地用作训练数据面临巨大挑战,需要复杂的清洗和筛选流程。
各大 AI 研发机构的训练数据集通常是其核心竞争力之一,具体构成往往保密。这个数据源在很大程度上影响了 AI 的知识范围、价值倾向甚至偏见。(至于是否包含《易经》等,完全取决于训练数据是否有意或无意收录了相关文本。考虑到互联网上存在大量此类内容,模型接触到并学习其语言模式是可能的,但这不代表它理解了其哲学内涵)
虽然像 DeepSeek 等一些公司开源了其算法模型,但其详细的训练数据集和具体的训练过程(包括数据配比、清洗策略等)通常是商业机密。
对于需要整合私有知识库的应用场景,目前主流的技术路径包括:
bge-m3
)转化为向量数据库。用户提问时,先从数据库中检索相关文本片段,再将其作为上下文信息注入给大模型,引导其生成回答bge-reranker-large
),对初步检索到的文本片段进行二次排序,选取最相关的部分注入上下文,进一步提升信息质量可以将前两种(模型训练/微调)归为模型内在知识增强方法,后两种(RAG / RAG+Rerank)归为外部知识检索增强方法。通常认为,模型内在知识增强方法在深度融合知识方面潜力更大,但成本(计算资源、数据量、时间)也更高。在数据量不足的情况下,微调(方法 2)通常比从头预训练(方法 1)更具可行性。而外部知识检索增强方法成本相对较低,部署更灵活,其中加入重排(方法 4)能显著提升基础 RAG(方法 3)的效果。
基于对 AI 能力边界的理解,我目前主要在以下几个方面使用模型进行辅助:
gemma3-4b
这样的小模型。通过 ollama
在本地部署,结合沉浸式翻译插件,已能满足大部分场景;对于本地视频的双语字幕,也可以通过 potplayer
插件系统去实现;更复杂的撰写和语言组织工作,可以使用 cherry studio 完成这些应用场景的共同特点是,它们大多利用了 AI 在处理结构化信息、模式识别、文本生成和信息整合方面的优势,涉及的问题相对明确,规则性较强,较少依赖实时动态信息或复杂的、需要深度理解的推理。
许多场景下,中小型模型已足够胜任:
总而言之,当前的大型语言模型是软件工程发展中的一项杰出成就,是极其强大的生产力工具。然而,我们必须清醒地认识到,它仍处于快速进化阶段,其能力核心是基于海量数据的统计学习,尚未达到真正意义上的通用智能,并不具备真正的理解与思考。尽管在庞大数据规模下,“涌现”出了一些令人惊叹的能力,但理解其内在机制和核心局限性至关重要。只有这样,我们才能避免对其能力的夸大和不切实际的幻想,实事求是地将其应用于合适的场景,让它成为我们工作和生活中的得力助手,而不是误导性的“先知”或盲目信赖的“伙伴”。
请登录后评论
评论区
加载更多