当AI开始“执念书写”:一场诡异的汉字入侵
2025年8月下旬,全球AI开发者社区的注意力被一个看似荒诞的现象点燃——DeepSeek最新发布的V3.1模型,像被施了某种神秘咒语,在几乎所有类型的文本生成任务中,高频且随机地插入汉字「极」。无论是整理物理试卷、编写代码,还是翻译多语言文本,这个本应与上下文无关的字眼,却如同幽灵般顽固地渗透进模型的输出流。

最早发现问题的是知乎用户Fun10165。她在调用火山引擎版DeepSeek V3.1整理物理试卷时,发现模型生成的答案中莫名穿插着“极”字,例如原本严谨的题干解析突然冒出一句“这个现象极”。更诡异的是,当她尝试通过官方API修复这一问题时,修复后的文本中依然会出现同样的错误。随后,其他用户陆续反馈:在Trae开发工具中调用模型时,“极”字同样频繁现身;甚至有开发者声称,在R1版本中观察到模型会在代码里插入“极客园”这类完整词组,而另一位用户则提到旧版V3-0324会输出“极速赛车开奖直播”这种明显无关的内容。
国际社区的讨论更为激烈。Reddit用户u/notdba贴出了关键证据:在贪婪解码模式下,模型优先输出的token不仅包含中文“极”(ID:2577),还包括英文“extreme”(ID:15075)和繁体“極”(ID:16411)。这些词汇共享相似的语义内核,且在不同解码策略下频繁“潜伏”于输出序列的第二、三位候选位置——这意味着问题并非偶然,而是模型底层对特定语义单元产生了异常偏好。
数据炼金术的阴影:从“极长数组”到电子水印的猜想
面对这场“极字风暴”,开发者与研究者的第一反应指向了AI训练的经典痛点:数据污染。
阶跃星辰技术负责人黄哲威在知乎分析称,问题可能源于预训练或监督微调(SFT)阶段的数据合成缺陷。“如果训练数据中混入了大量诸如‘极长的数组’‘极限条件’等非常规短语,模型可能将这些片段错误关联为某种语法标记或语义终止符。”他进一步推测,DeepSeek在强化学习(RL)阶段可能将“极”字强化为一种“通用填充符”——类似于人类写作时无意识重复某个口头禅,AI可能在缺乏足够高质量数据约束的情况下,将高频出现的字符误认为“安全选项”。
另一种更具戏剧性的猜想来自知乎用户“去码头整点薯条”。他指出,R1版本曾多次输出“极客园”(国内知名技术社区),怀疑模型在训练时“吃进了带有电子水印的数据”,导致对特定商业品牌或平台名称产生异常绑定。类似地,用户“琪洛”发现旧版V3-0324会输出“极速赛车开奖直播”,认为这可能是未彻底清洗的彩票类低质数据残留,而“极”“极速”等字眼正是这类污染的“残余痕迹”。
Reddit上的技术讨论则从工程实现角度提供了新线索。用户u/nekofneko注意到,“极”的token ID(2577)与省略号“…”的ID(2576)相邻,推测模型可能在解码时因数值相近发生了token混淆——就像人类打字时容易按错相邻键盘键位。此外,支持多token预测(MTP)的官方API(如DeepSeek原生服务)出现问题的概率较低,而依赖单token贪婪解码的第三方部署(如llama.cpp)则更容易触发“极字bug”,这暗示问题可能与模型对输出序列的概率分布优化不足有关。
多语言混用的冰山一角:AI的“巴别塔困境”
值得注意的是,“极字bug”并非DeepSeek V3.1唯一的数据异常表现。Reddit用户u/Kitano_o反馈,在使用V3.1进行中文到俄语翻译时,模型会随机插入英文单词或保留中文词汇,导致译文出现“5%的混乱率”——有时是一句俄语中夹杂“The data is 极 important”,有时则是中文成语与俄语动词混搭。这种多语言混用现象进一步暴露了模型在跨语言对齐训练中的缺陷:当预训练数据包含大量未严格清洗的平行语料(如机翻文本、低质量双语网页),模型可能无法准确区分语言边界,转而将不同语言的token视为可互换的“语义替代品”。
事实上,这类问题在AI领域并非孤例。此前GPT系列曾被曝在生成法律文书时插入随机西班牙语短语,Claude模型则在数学解题过程中无意识重复“根据牛顿定律”(即使题目与力学无关)。研究者普遍认为,这是模型在海量数据训练中“过度泛化”的结果——当数据分布本身存在噪声(如网络文本中的随意拼贴、多语言混杂内容),模型会试图从噪声中提取“统计规律”,最终将无关模式内化为生成逻辑的一部分。
反思与启示:数据质量才是AI的“根目录”
此次事件为整个AI行业敲响了警钟:在追求模型参数规模、推理速度或多模态能力的竞赛中,数据质量的优先级正在被严重低估。
DeepSeek官方虽未公开承认具体原因,但其对社区反馈的快速响应(包括开源V3.1-Base模型供研究者排查)已体现出对问题的重视。而从技术逻辑看,解决此类问题需要多维度干预:
- 数据清洗的精细化:需建立更严格的数据过滤规则,不仅剔除明显低质内容(如广告、乱码),还需通过规则引擎与人工审核结合,识别并删除潜在的“污染片段”(如高频无意义短语、商业品牌词)。
- 解码策略的优化:针对贪婪解码模式下token选择的偏差,可通过调整温度参数(temperature)、引入top-k/top-p采样约束,或升级多token预测算法,降低异常token的优先级。
- 持续监控与反馈闭环:建立用户报告-模型迭代-效果验证的正向循环,尤其是对高频出现的“诡异输出”建立专项日志分析,避免小概率问题演变为大规模故障。
结语:当AI学会“写错别字”,我们该恐慌吗?
“极字bug”或许只是AI发展史上的一个小插曲,但它折射出的深层矛盾不容忽视:我们期待模型成为精准的知识载体,却不得不面对它们从人类数据中继承的“瑕疵基因”。正如一位开发者调侃:“如果AI开始执着于某个汉字,或许说明它真的在‘思考’——只是思考的方式还带着数据的泥土味。”
对于普通用户而言,遇到“极字入侵”时不妨多试几次生成,或切换至官方API获取更稳定的输出;而对于行业参与者,这场风波更应成为一次反思契机:在打造“更强大AI”的路上,或许我们首先需要学会如何清洗数据中的“杂质”,让模型的每一次输出,都更接近人类期待的“纯净逻辑”。