马上 2026 年了，大模型机翻到底行不行？怎么让它更好？

又有一段时间没发稿了，今天献上年终特稿，分享一组针对大模型在软件本地化翻译中应用的实证研究，看看通过一系列实验，我们能得到哪些有价值的结论——所有结论会在文章结尾总结给大家，不过也非常推荐大家看看正文，因为有很多测试的细节还是很有启发的。

这次测试由 Lingoport 和 RWS 联手完成，RWS 语言人工智能服务总监 Marina Pantcheva 和 Lingoport 全球化解决方案和服务副总裁 Milen Epik 一起解答了以下问题：

为什么软件本地化翻译很难
当前大语言模型与神经网络机器翻译的对比表现
引入字符串级提示词和多语言译文参考后会发生什么
视觉上下文（如截图、Figma 设计稿）能否显著提升翻译质量 - 真实人工评测结果和效率提升的实际数据
演示如何通过提示词解决歧义词翻译难题
Figma → 开发的工作流如何有机连接设计师、工程师与本地化

为什么软件字符串不容易翻译

做了这么多年产品本地化（我自己也做过本地化译者），真心理解它可不是普通的文本翻译。

产品本地化翻译的核心难点主要有三个。

首先是歧义问题。软件里的字符串通常都很短，还都是单独出现的，译者根本没有足够的上下文来判断词义。这种歧义形式特别多，比如语义歧义，像“charge”这个词，可能是“给电池充电”，也可能是“收取费用”，甚至是某种财务定义；语法歧义也很常见，“empty folder”单独看，既可以是“空的文件夹”这个名词短语，也能是“清空文件夹”这个动作；还有词性歧义，“view”“open”这些词，没有上下文根本分不清是动词还是名词/形容词；另外还有结构性歧义，比如“new file viewer”，到底是“新的/文件查看器”，还是“新文件/的查看器”？指代歧义、视觉歧义也少不了，尤其是视觉歧义，必须知道字符串在软件界面的具体位置，才能确定正确的翻译方式。

其次是文本长度问题。英文界面的字段很短，翻译成中日韩语可能还会更短，但翻译成其他语言时会明显变长。比如西班牙语需要多留出25%的空间，而俄语、斯拉夫语系这类语言，甚至需要三倍于英文长度的空间，这对软件 UI 设计来说也是不小的挑战。

最后是格式化占位符与标签的困扰。软件字符串里经常会出现大量 HTML 标签和占位符，这些内容会破坏文本的连贯性，翻译时不仅要保留它们，有时候还得根据译文调整位置，对译者来说十分棘手。

哪种机翻更适合做软件本地化翻译？

这次测试比对了神经网络机器翻译和大模型翻译两种机翻的结果。他们测试了两类数据集：软件字符串和高歧义字符串。用到的工具包括 OpenAI 的 GPT-5、GPT-5 mini、GPT-4o、以及 GPT-4o mini，还有 Google 翻译。他们还开发了一个开源的翻译质量评估（TQE）工具来处理各语种译文数据、生成评估报告，后续也在 Trados Studio 中测试了该工具的运行情况。这个评估工具能算出平均质量分、中位分，列举有问题的句段示例并给出处理建议，还能展示评分分布、分析错误类型及占比，帮助人工审校人员快速定位问题句段，提升工作效率。

第一组核心实验就是原生 NMT 与 LLM 对比，也就是用未经训练的神经机器翻译，和只输入“将这种语言翻译成另一种语言”这种简单指令的大语言模型进行对比。

实验结果很明显，从评估数据来看，在测试的多种语言中，大语言模型的表现评分更高，不仅平均得分更高，需要人工审核的句段数量也大幅减少，这意味着能大大减轻人工负担、提升效率。

更有意思的是，通过分析问题分布情况发现，LLM 在准确率和语境连贯性得分上始终占优，而神经机器翻译则在风格和术语得分上表现更好。针对这个结果，我们推测，神经机器翻译能在术语和文风上胜出，可能是因为它此前接触过类似的软件文本，产生了溢出效应，而且无论是 LLM 的短板还是 NMT 的不足，其实都能通过优化提示词等方式轻松改进。

字串级提示和翻译参考，能提升质量吗？

既然发现提示词优化可能改进两者的不足，他们接下来探索了第二个关键问题：当添加字符串级提示和多语种线索时，会对 LLM 翻译效果产生什么影响——即测试增强提示词对LLM翻译效果的影响

最初的实验思路是利用其他语言的译文作为参考信息，也就是“多语种三角校验”——如果一个项目已有多种语言的译文，新增语种翻译时，就把现有译文按字串为单位一块儿输入给 LLM。

实验结果最初并不统一：对于土耳其语、匈牙利语、芬兰语来说，翻译效果有所提升，但罗马尼亚语的效果反而下降了，挪威语的表现更糟。

他们深入分析后发现，问题出在评估工具上，负责质量评估的 AI 掌握的信息量少于采用多语种三角校验技术的翻译 AI，缺乏足够的上下文，无法准确评估译文质量，就像经验浅的审核员评估资深译员的作品一样，结果没有参考价值。

后来他们更新了 TQE 工具，让它也能识别上下文，结果非常显著，所有语种的翻译表现都有了明显改善，需要审核的句段数量也减少了。

更正后的评估有力地说明：从 NMT 过渡到优化后的 LLM，翻译质量全方位提升，得到了最理想的结果。

这里要给大家补充一个关键知识点：多语种三角校验要想发挥作用，核心是要寻找能消除歧义的参考语言，确保参考语言本身不会存在与源语言相同的歧义。

比如英语里的“cheese”，既可以指黄奶酪也可以指白奶酪，但在保加利亚语里这两种奶酪有不同的对应词汇，此时如果参考的是同样无法区分这两种奶酪的挪威语，就毫无意义；但如果参考能区分的斯洛伐克语或俄语，就能给翻译提供很大帮助。

他们还专门针对 20 个极容易出现歧义的句子做了测试（虽然这些句子不是真实的软件文本，但能很好地验证提示词的作用）。

结果显示，在缺失字串级提示的情况下，中文翻译得分是 81 分，提供字符串提示后，分数直接升至 96 分；土耳其语的提升更明显，从 70 分跃升到 94 分，主要提升体现在准确性和上下文连贯性上，这进一步证明了增强提示词的有效性。

再让人来看看有没有生产力的提升

前面的评估都是由 AI 完成的，为了验证结果的可靠性，他们还开展了人工评估实验，看看真实的生产力提升效果如何。

他们将经过字串级提示词优化的 LLM 翻译结果交给 RWS 进行典型的机翻产能评估，除了希腊语因测试问题数据无效外，其他四种语言的表现都很优异。这意味着 LLM 翻译能切实转化为实际效率提升：假设固定时间内人工原本只能翻译 100 个单词，那么审校 LLM 译文（配合字符串级提示词）时，处理量能达到 220 个。

因此，针对软件字符串翻译，与 NMT 机器翻译相比，大模型机翻：

翻译准确性和整体质量显著提升
生产效率明显提高
无需前期培训成本，且不受语言数量增加的影响
翻译成本更低（得益于最新大语言模型）

视觉参考能否提升大模型翻译质量？

除了多语种参考线索这种字符串级提示方案，他们还探索了另一个重要方向：视觉上下文（比如截图、Figma 设计稿）能否显著提升翻译质量？这也解决了“没有现成译文该怎么办”的问题。就像人类译员看到语境中的字符串能更好地翻译一样，给 LLM 提供软件界面的视觉上下文，也能大幅提升翻译精准度。

他们专门做了一个现场演示来验证这一点，选择了“coat”和“washer”这两个一词多义的单词作为待译对象，因为它们在不同场景下有不同含义，很能考验翻译的准确性。

演示使用的是基于 GPT-4 的提示词库，最初我们只设置了“将源语言翻译为目标语言”的简单系统提示词，翻译结果很不理想：在五金店场景下，“coat”本应译为“一层油漆”（法语“couche”），却被译成了穿在身上的上衣；“washer”本应指“洗衣机”，却被译成了“金属垫圈”。

随后我们优化了提示词，明确要求符合UI设计的简洁、清晰、一致、行动导向的要求，且只返回翻译内容不附带解释，同时给每个字符串配上了对应的上下文参考图片。重新翻译后，结果完全符合预期：“油漆层”译成了“couche”，“外套”译成了“un manteau”，“洗衣机”和“金属垫圈”也得到了精准区分。这个案例充分证明，通过设定全局提示词并结合图像等上下文信息，能精准锁定翻译语义，实现一一对应。

基于视觉上下文的有效性，他们探索了四种路径：截图、Chrome 浏览器（针对 Webapp）、API 以及 Figma，其中 Figma 是最高效的方式，还能实现“Figma2Dev”方案，让本地化工作在设计阶段就提前启动。

虽然这儿演示的是 Lingoport 的产品流程，但整体思路完全可以迁移到其他产品本地化流程和工具里。具体来说，设计师在 Figma 中完成设计后，通过插件发起翻译任务，插件会自动抓取文本内容和相关视觉图像作为参考上下文；系统整合后进入翻译阶段，既可以用 LLM 翻译，也可以用传统翻译方式接入翻译管理系统；翻译完成后，结果会通过本地化工具自动同步回 Figma，设计师能即时查看并调整设计方案，比如调整按钮尺寸、优化布局；同时本地化端会直接将内容推送到开发端，存入代码库或者内容管理工具（CMS），并经过开发转化语言资源文件，大大减轻了开发者的负担。后续开发端新增或修改字符串时，本地化负责人也能随时拉取变更、重新翻译更新，设计师也能同步获取最新版本。

这套操作成本如何？

对大家关心的成本问题，他们也做了相关研究：测试对象包含约 18000 个单词、2300 条字符串，每条字符串都配有专属图片，平均每条字串消耗约 1700 个 Token。经过测算，即使加入了图片，每个单词的成本依旧远不足一美分，而且最便宜的 GPT-4 mini 的成本低于市场上最便宜的 NMT 引擎。

不过有一点需要补充，虽然LLM成本可控，但处理图像时的响应速度会比纯文本翻译慢，因为需要将图像转化为 Token 处理。

最后，我们汇总一下本次所有实验和探索的核心结论：

软件字符串之所以难翻译，核心在于歧义（语义、语法、词性等多种类型）、文本长度差异（英文转其他语言篇幅变长）以及格式化占位符与标签的困扰。
原生翻译能力对比中，LLM 在准确率和语境连贯性上优于未经训练的 NMT，且需人工审核的句段更少、效率更高；而 NMT 在风格和术语一致性上表现更优，LLM 的短板可以通过优化提示词等方式弥补。
添加字串级上下文和多语言翻译参考能显著提升 LLM 翻译质量：多语种三角校验（利用现有译文作为提示）可提升各语种翻译效果，但需选择语义分辨精度高、能消除源语言歧义的参考语言，且评估工具需匹配同等的上下文信息。
人工评估验证了 LLM 译文（配合字串级上下文）的高效性，相同时间内的处理量可提升 120%，切实转化为生产力增益。
视觉上下文（截图、Figma 设计稿等）能大幅提升大模型翻译精准度，结合优化的全局提示词，可精准锁定多义词的语义，实现场景与译文的一一对应。
Figma → Dev 工作流实现了设计、开发、本地化三大环节的紧密联动，可以让本地化工作提前至设计阶段启动，大幅提升各团队的协作效率和工作自主性。
大模型配合字串级上下文（多语翻译参考或视觉上下文）的翻译方案，在成本上与传统 NMT 基本持平甚至更优，同时在翻译质量和效率上具备明显优势，是软件本地化翻译的优质解决方案。
测试结果振奋人心，但也突显了大模型工程化集成对于本地化管理的极端重要性（这个过后再找机会仔细聊聊）。

祝大家新年快乐，明年本地化团队的影响力涨涨涨！

「产品本地化蓝皮书」（productloc）公众号是宣讲互联网产品全球化/本地化实践的平台，欢迎大家踊跃评论。如果你也有兴趣和我、和大家分享自己对产品本地化的见解，请在公众号消息框发私信给我，或者和我在 LinkedIn 上建立联系。