你与AI对话时会注意“说辞”吗?你是否想过,大模型的工作语言完全可以“不说人话”?上海交通大学大一学生朱家毅与团队提出“巴别塔电报”(BabelTele)文本压缩方法,能让大语言模型(LLM)之间的文本输入压缩至原来的27.9%,而语义准确性仍保持在99.5%。相关论文近日在预印本平台arXiv上发布。
大模型并不总是需要“说人话”,相关研究发布
LLM的训练数据几乎全部来自人类可读文本,因此“可读”被理所当然地等同于“可理解”。但这项研究挑战了这一直觉——一段200字的自然语言指令,实际上AI只“需要”不到60字就能有效沟通,剩下的全是“冗余”。BabelTele并非构建或发明新语言,而是让AI在得到“把给定文本压缩到绝对最短,可以放弃人类可读性”的指令时,发现了属于自己的语言。朱家毅解释:“LLM作为全人类智慧的海洋,对各国语言的表达、逻辑、符号都了如指掌,因此BabelTele中的每个词都维持着人类语言的本意。但它无需表达情感、礼仪,可以选择更简洁的文法直接传递信息。”
BabelTele简介表示方式与冗长自然语言有显著差异
研究团队将BabelTele作为一种"经验性探针",用来测试大模型究竟能在多大程度上理解和使用偏离常规人类语言的文本。在多智能体通信测试中,BabelTele减少约40%的通信Token,任务完成度仍超96%,这意味着更低的算力成本、更快的响应速度和更长的上下文容纳能力;不过,它也并非万能,在不同压缩模型和阅读模型搭配时,表现会有差异。
BabelTele使用多语言、表情符号、关系箭头等来表达
对人类来说BabelTele宛若“天书”,但这并不影响它在不同模型间都能通用。当AIAgent之间、Agent与知识库之间的交互逐渐多于人机交互时,大量文本从生成那一刻起就面向模型而非人类。届时,所有Agent的口述、档案、记忆都可以用这类“模型原生”的语言书写,只在最后交付人类时才翻译回自然语言。被“拧干”的凝练语言不仅能显著降低计算成本,还可能让多智能体协作在更复杂的场景中成为可能。
值得一提的是,论文第一作者朱家毅来自上海交大机械与动力工程学院核工程与核技术专业,之所以能在本科一年级就参与并完成这项创新研究,得益于加入了上海交大人工智能学院助理教授张林峰所在的实验室。在这里,他结识了来自悉尼大学的彭浩轩、合肥工业大学的王俊熙、西安交通大学的梁珂和南京大学的张辰,年轻人因相同的好奇心而相聚,共同推进了这项研究。“科学研究是问题驱动的,不是专业驱动的。不同专业的人能为同一个问题带来新视角,前沿问题往往本身就出自学科交叉地带。”朱家毅说,“既然不同专业只是向真理不同方式的攀登,为什么不能借用别人的梯子呢?”
朱家毅
下面是论文第一作者朱家毅的问答实录,从他的视角聊聊这项研究背后的灵感和思考——
什么是BabelTele?
朱家毅:Babel(巴别塔)代表所有语言,包括各国语言,emoji,符号等对于LLM而言都是同样的语言,所以一种面向LLM的语言可以不拘泥于其中特定一种。Tele(电报)代表这项工作的初衷,也就是寻找最简洁的语言。所以翻译成中文可以是“巴别塔电报”。
BabelTele不是一种新语言。我们没有“构建”任何语言,ai也没有“发明”任何语言。更贴近事实的说法是,这是一种属于AI的“文法”。
举个例子:我可以说“我今天早上出门,扫了一辆自行车,骑着它来到地铁站,坐上了地铁”,也可以说“我早上骑车坐地铁”,或者打字告诉朋友“早上”。当我在说后两者的时候,没有人会认为我发明了这种说法,因为人类语言本来就可以这么说。不过考虑到对方的感受、社交的礼貌,是否容易理解等因素,我们主动选择了更复杂的方式。
相较之下,LLM作为全人类智慧的海洋,它对各国语言的表达,逻辑符号,emoji都了如指掌,没有理解上的障碍。因此当我们要求它“把给定文本压缩到绝对最短,放弃人类可读性”后,它选择了这种更简洁的文法。
我们可以认为BabelTele并没有脱离人类语言的范畴,只是牺牲了对人而言的效率与可读性而已。这也是为什么模型在使用这种语言后,下游任务准确率并没有显著下降,思考链长度也没有显著上升。这很微妙,但也很有趣。
这项研究是如何发端的?目标是为了省Token吗?
朱家毅:不完全是。省Token是重要出发点,另一个是想通过更简洁的上下文提升LLM在长文本任务中的表现,避免“迷失在冗长的上下文里”。灵感来自电报——一百多年前通信受限,人们自发发明了那种“高带宽”文法。今天互联网也催生了“lol”emoji等凝练词。不同语言之间也常有“一国复杂含义,另一国简单词对应”的现象。我们就想:能不能为LLM也找到这种“更简洁的语言”?
目前研究还很初步,只是通过提示词引导。未来我们想用强化学习训练专门的模型来生成这种语言,探探“最简洁能有多简洁”。
这会不会带来风险?比如审计不了AI在说什么。
朱家毅:可审计性的风险确实存在,但没有那么严重。你平时用Codex或ClaudeCode时,会仔细翻看模型的思考链吗?大多数时候不会。日常使用中影响不大。而且BabelTele仍由人类词汇构成,阅读难度上升不等于完全无法审计。不过,这确实是需要慎重考虑的问题。
它将来会对人机交互的语言产生影响吗?比如人类也向着效率节省token而去,“自然语言”会不会也被改变?
朱家毅:这真的是一个非常有价值的问题。我觉得事实是,自然语言已经在被迅速改变,这甚至无关乎我们的研究。
自然语言其实已经在被改变了。2023年前“Delve(探究)”是个生僻词,AI偏好对齐训练大量使用“Delve into……(意为深入研究某事)”,开发者天天跟AI交流,就把这词带进了日常生活。类似“稳稳地接住……”“把代码落一下……”都是AI带出来的。
但另一方面,前段时间讨论“要不要浪费Token和AI说谢谢”,大家普遍认同,说谢谢不是因为AI会有更好反馈,而是因为“我是个有礼貌的人”。我很认同。
BabelTele也是一样,我们能“拧干”人类语言,是因为语言里既有事实也有情绪,而AI场景下情绪那部分可以被拧掉。但人类的表达欲不会消失。古今诗词拧干了,剩下也不过是相似的事实,但简单的文字表达不了复杂的情感和自我。如果人类的词被限到50个,喜怒哀乐一定在其中;如果只剩5个,也一定有一个是爱。所以,LLM会改变我们说话的方式,但不会改变我们想说什么。
有人把它比作AI的“文言文”,你怎么看?
朱家毅:文言文、电报、BabelTele的产生,分别基于书写成本、通讯成本、计算成本的受限,这点确实像。但我更喜欢电报的类比。
大一就发了这篇论文,这个创新是怎么涌现的?
朱家毅:只是对一个有趣想法做了一些探究而已。正因为它不高深,才轮得到我来完成(笑)。起点就是我偶然想到的一些想法,现在Agent很强,我能低成本快速验证每个小想法,发现值得探索的方向。实验室提供了大量API和算力支持,还有张林峰和学长学姐的支持,我们得以在大规模的数据集上做大量测试,从而窥见现象的一角。
科学研究的趋势是问题驱动的,而非以专业为中心。不同专业的人可以为同一个问题带来新的视角,从而避免做小院高墙、单打独斗的研究。专业的概念本身也在变得模糊,院系构成正在走向交叉,前沿的问题往往本身就出自学科交叉地带。我也愿意相信,所有学科背后是存在共同真理的,不同专业只是真理在不同角度的投射。既然不同专业只是向真理不同方式的攀登,那为什么不能借用别人的梯子呢?
原标题:《大模型不用说人话?上海交大大一学生找到让模型高效交流的“电报语言”》