DeepSeek V3.1「极」字幽灵：一场AI模型的集体癔症还是数据炼金术的副作用？

当AI开始“执念书写”：一场诡异的汉字入侵

2025年8月下旬，全球AI开发者社区的注意力被一个看似荒诞的现象点燃——DeepSeek最新发布的V3.1模型，像被施了某种神秘咒语，在几乎所有类型的文本生成任务中，高频且随机地插入汉字「极」。无论是整理物理试卷、编写代码，还是翻译多语言文本，这个本应与上下文无关的字眼，却如同幽灵般顽固地渗透进模型的输出流。

最早发现问题的是知乎用户Fun10165。她在调用火山引擎版DeepSeek V3.1整理物理试卷时，发现模型生成的答案中莫名穿插着“极”字，例如原本严谨的题干解析突然冒出一句“这个现象极”。更诡异的是，当她尝试通过官方API修复这一问题时，修复后的文本中依然会出现同样的错误。随后，其他用户陆续反馈：在Trae开发工具中调用模型时，“极”字同样频繁现身；甚至有开发者声称，在R1版本中观察到模型会在代码里插入“极客园”这类完整词组，而另一位用户则提到旧版V3-0324会输出“极速赛车开奖直播”这种明显无关的内容。

国际社区的讨论更为激烈。Reddit用户u/notdba贴出了关键证据：在贪婪解码模式下，模型优先输出的token不仅包含中文“极”（ID:2577），还包括英文“extreme”（ID:15075）和繁体“極”（ID:16411）。这些词汇共享相似的语义内核，且在不同解码策略下频繁“潜伏”于输出序列的第二、三位候选位置——这意味着问题并非偶然，而是模型底层对特定语义单元产生了异常偏好。

数据炼金术的阴影：从“极长数组”到电子水印的猜想

面对这场“极字风暴”，开发者与研究者的第一反应指向了AI训练的经典痛点：数据污染。

阶跃星辰技术负责人黄哲威在知乎分析称，问题可能源于预训练或监督微调（SFT）阶段的数据合成缺陷。“如果训练数据中混入了大量诸如‘极长的数组’‘极限条件’等非常规短语，模型可能将这些片段错误关联为某种语法标记或语义终止符。”他进一步推测，DeepSeek在强化学习（RL）阶段可能将“极”字强化为一种“通用填充符”——类似于人类写作时无意识重复某个口头禅，AI可能在缺乏足够高质量数据约束的情况下，将高频出现的字符误认为“安全选项”。

另一种更具戏剧性的猜想来自知乎用户“去码头整点薯条”。他指出，R1版本曾多次输出“极客园”（国内知名技术社区），怀疑模型在训练时“吃进了带有电子水印的数据”，导致对特定商业品牌或平台名称产生异常绑定。类似地，用户“琪洛”发现旧版V3-0324会输出“极速赛车开奖直播”，认为这可能是未彻底清洗的彩票类低质数据残留，而“极”“极速”等字眼正是这类污染的“残余痕迹”。

Reddit上的技术讨论则从工程实现角度提供了新线索。用户u/nekofneko注意到，“极”的token ID（2577）与省略号“…”的ID（2576）相邻，推测模型可能在解码时因数值相近发生了token混淆——就像人类打字时容易按错相邻键盘键位。此外，支持多token预测（MTP）的官方API（如DeepSeek原生服务）出现问题的概率较低，而依赖单token贪婪解码的第三方部署（如llama.cpp）则更容易触发“极字bug”，这暗示问题可能与模型对输出序列的概率分布优化不足有关。

多语言混用的冰山一角：AI的“巴别塔困境”

值得注意的是，“极字bug”并非DeepSeek V3.1唯一的数据异常表现。Reddit用户u/Kitano_o反馈，在使用V3.1进行中文到俄语翻译时，模型会随机插入英文单词或保留中文词汇，导致译文出现“5%的混乱率”——有时是一句俄语中夹杂“The data is 极 important”，有时则是中文成语与俄语动词混搭。这种多语言混用现象进一步暴露了模型在跨语言对齐训练中的缺陷：当预训练数据包含大量未严格清洗的平行语料（如机翻文本、低质量双语网页），模型可能无法准确区分语言边界，转而将不同语言的token视为可互换的“语义替代品”。

事实上，这类问题在AI领域并非孤例。此前GPT系列曾被曝在生成法律文书时插入随机西班牙语短语，Claude模型则在数学解题过程中无意识重复“根据牛顿定律”（即使题目与力学无关）。研究者普遍认为，这是模型在海量数据训练中“过度泛化”的结果——当数据分布本身存在噪声（如网络文本中的随意拼贴、多语言混杂内容），模型会试图从噪声中提取“统计规律”，最终将无关模式内化为生成逻辑的一部分。

反思与启示：数据质量才是AI的“根目录”

此次事件为整个AI行业敲响了警钟：在追求模型参数规模、推理速度或多模态能力的竞赛中，数据质量的优先级正在被严重低估。

DeepSeek官方虽未公开承认具体原因，但其对社区反馈的快速响应（包括开源V3.1-Base模型供研究者排查）已体现出对问题的重视。而从技术逻辑看，解决此类问题需要多维度干预：

数据清洗的精细化：需建立更严格的数据过滤规则，不仅剔除明显低质内容（如广告、乱码），还需通过规则引擎与人工审核结合，识别并删除潜在的“污染片段”（如高频无意义短语、商业品牌词）。
解码策略的优化：针对贪婪解码模式下token选择的偏差，可通过调整温度参数（temperature）、引入top-k/top-p采样约束，或升级多token预测算法，降低异常token的优先级。
持续监控与反馈闭环：建立用户报告-模型迭代-效果验证的正向循环，尤其是对高频出现的“诡异输出”建立专项日志分析，避免小概率问题演变为大规模故障。

结语：当AI学会“写错别字”，我们该恐慌吗？

“极字bug”或许只是AI发展史上的一个小插曲，但它折射出的深层矛盾不容忽视：我们期待模型成为精准的知识载体，却不得不面对它们从人类数据中继承的“瑕疵基因”。正如一位开发者调侃：“如果AI开始执着于某个汉字，或许说明它真的在‘思考’——只是思考的方式还带着数据的泥土味。”

对于普通用户而言，遇到“极字入侵”时不妨多试几次生成，或切换至官方API获取更稳定的输出；而对于行业参与者，这场风波更应成为一次反思契机：在打造“更强大AI”的路上，或许我们首先需要学会如何清洗数据中的“杂质”，让模型的每一次输出，都更接近人类期待的“纯净逻辑”。

当AI开始“执念书写”：一场诡异的汉字入侵

数据炼金术的阴影：从“极长数组”到电子水印的猜想

多语言混用的冰山一角：AI的“巴别塔困境”

反思与启示：数据质量才是AI的“根目录”

结语：当AI学会“写错别字”，我们该恐慌吗？

为您推荐

浙江衢州酒店惊现西晋古墓：千年衣冠冢成特色景观，文物保护与游客体验如何平衡？

九号公司发布凌波OS：两轮车迎来专属”智能大脑”，行业竞争从硬件转向生态

96 万 “熊猫专列” 之旅引争议：宣传精致餐食实为摆拍道具，游客质疑货不对板

一觉醒来心率仅 40，这是生命倒计时的信号？

马路 “僵局”：外卖小哥与男子四小时对峙背后

《哪吒2》引爆业绩狂飙！光线传媒上半年净利超22亿暴增372%，全球票房势如破竹