你有没有发现,用中文问AI一个需要「意会」的问题,它给的答案总差那么一口气?不是答错了,是答得太「正确」——像教科书,不像人话。这不是偶然,背后有一套很少人说清楚的逻辑。
先说一个让很多人意外的事实:现在主流的大语言模型,训练数据里英文内容占比通常超过80%,中文能到5%-10%就算不错了。你用中文问它问题,它其实是在用一个「英文大脑」实时翻译着思考,然后再把答案翻回来给你。这个过程里,损耗是真实存在的。
80%
主流大模型训练数据中英文内容的典型占比,中文通常不超过10%
但数据量的差距只是表面原因。更深的问题,在于中文本身的结构跟英文不是一个物种。
英文的语法是显性的。主谓宾、时态、单复数,每一个语法关系都有明确的词形变化来标记。句子是一块一块搭起来的,逻辑关系写在明面上。AI处理这种语言,本质上是在做有规则的拼图。
中文不一样。中文没有时态变化,没有格变化,词和词之间的关系很多时候靠语境和语序来传达。「我吃了饭」和「饭我吃了」,词完全一样,意思却微妙不同——前者是陈述,后者暗含「这件事我已经处理好了」的语气。这种差别,AI经常感知不到。
更难的是成语、歇后语和语境压缩。「说曹操曹操到」,字面意思跟实际用法完全脱节。「拿着鸡毛当令箭」,理解这句话需要知道古代官制的运作逻辑。这些表达是文化的压缩包,解压它需要的不只是语言模型,还需要历史感和社会经验。而这些东西,在训练数据里是稀疏的、分散的,很难被模型系统学到。
●中文没有天然的词边界。英文单词之间有空格,AI处理起来相对直接。中文是字符连续流,「研究生命科学」可以切成「研究/生命科学」,也可以切成「研究生/命科学」——两个完全不同的意思。这个分词问题,在中文自然语言处理领域折腾了几十年,至今没有完美解法。
这不是小问题。分词错一个地方,整句话的语义就可能坍塌。而且中文的歧义往往不是随机分布的,而是集中在关键的名词短语和动词短语上,偏偏这些地方又是句子意思的承重墙。
训练大模型需要海量高质量文本。英文互联网上有大量经过编辑、校对的长篇内容:学术论文、新闻报道、技术文档、书籍电子化版本。这些文本逻辑严密,用词规范,是训练语言模型的优质燃料。
中文互联网的内容结构不太一样。社交媒体、短视频评论、碎片化资讯占了很大比例。这些内容口语化、情绪化,充满缩写、梗和只有特定圈子才懂的表达。用这些数据训练出来的模型,学到的中文是「网感」中文,而不是有深度的中文。正式的中文书面语、学术中文、古典文学——这些反而是稀缺的。
1中文书面语和口语的分裂程度,远超英文
2大量有价值的中文内容未被数字化或无法爬取
3中文网络内容的碎片化程度更高,长篇深度文本比例偏低
AI能力的评估基准,比如MMLU、HellaSwag、BIG-Bench,绝大多数是英文学术界设计的。中文版本要么是翻译过来的,要么是后来补做的,覆盖的文化场景极其有限。这意味着:模型在中文上的真实短板,我们甚至没有足够好的工具去测量。你不知道自己不知道什么,这才是最危险的状态。
举个例子,让AI判断一句中文是讽刺还是真诚赞美,这在中文里极其依赖语境——「你可真行」在不同场合意思完全相反。目前大多数测试集里,这类语用层面的题目少得可怜。模型交出的成绩单,其实是在考一张简单卷子。
当然,这个差距正在被追赶。国内有大量专门针对中文优化的模型在做这件事,训练数据的质量和覆盖面都在快速提升。但有一点值得记住:语言能力的天花板,最终是由文化理解的深度决定的,不是参数量。一个能背出所有鲁迅文章的模型,不一定理解「哀其不幸,怒其不争」背后的那种复杂情感——那种同时包含悲悯和愤怒、批判和期待的纠缠感,是很难从统计规律里学出来的。
✦ 小结
AI的中文短板,不只是数据少的问题,而是语言结构差异、文化压缩信息、评估体系缺失三重叠加的结果。追赶是可能的,但真正的中文理解,需要的不只是更多数据,而是对「意会」本身的建模——而这,可能是所有语言AI面临的终极难题。