网站翻译

70%与95%翻译准确率之间的差距

作者

Elizabeth Pokorny

审阅人

更新于

2026年6月15日

翻译的准确性关乎语义。它指的是译文在多大程度上能像原文一样引发相同的理解和行动——且不添加、遗漏或曲解任何重要内容。

正因如此，在实际应用中，“准确率95%”与“准确率约70%”的内容给人的感受截然不同。当准确率达到95%时，大多数句子都能准确传达原意，品牌语气也显得自然亲切，只有极少数特殊情况需要仔细推敲。而当准确率仅为70%时，混淆、措辞怪异以及客户悄然流失的情况便会接踵而至，尤其是在产品页面和结账页面上。

在本文中，您将了解这25%的差距背后究竟隐藏着什么。我们将详细阐述它如何影响信任度、转化率和工作量，并说明人工智能翻译模型如何帮助您在90%-95%的准确率范围内安全运作，同时在最关键的环节保留人工把控。

主要收获

“翻译准确性”是一个显而易见却常被忽视的内容、语言对和风险问题。
准确性体现在句子层面，而影响力则体现在页面层面——结账页面上的一句令人困惑的文字，其负面影响可能远大于50条完美的商品简介。
风险最大的文案往往藏在那些微小的界面标签和行动号召按钮中，而这些内容通常没人会记得去审核。
最快的进步往往来自于修正10个关键模板中的术语和语气，而不是对每一篇博客文章都吹毛求疵。
一种混合工作流——AI 生成初稿，关键部分由人工审核，以及一个 Weglot风格的品牌训练AI翻译模型——将使您网站的大部分内容达到90%-95%的准确率区间。

95%和70%的准确率数据从何而来

当我们谈论95%与70%的翻译准确率时，我们并不是在引用一个放之四海皆准的“神奇”分数。这些数据基于一项联合 Weglot 与Nimdzi针对网站及营销内容开展的联合调研。

在《网站机器翻译现状》研究中，对5家领先的机器翻译（MT）服务商（亚马逊翻译、DeepL、Google Cloud、Microsoft Translator 和ModernMT）进行了测试，涵盖6种语言对。

他们将168个语段和1000多个单词从美式英语翻译成了法语、德语、西班牙语、简体中文、阿拉伯语和欧洲葡萄牙语。

专业语言学家对每份译文的实用性和准确性进行了评分。在14种引擎语言组合中，85%的译文被评为“非常好”或“尚可”，且没有被评为“非常差”。以德语为例，168个语段中有145个完全无需修改；而葡萄牙语则处于另一端，仅有58个语段无需人工修改。

那么，95%这个数字是从何而来的呢？在资源丰富的语言对和简单的营销文案中，最先进的神经机器翻译如今生成的译文，在绝大多数情况下已被专业审校人员视为可用的。

与此同时，70%的准确率意味着在某些内容或语言对中，大约每10句话就有3句需要人工干预。即使在Weglot的数据中，语言学家仍然对相当一部分翻译结果进行了修改；而在我们的客户群体中，我们发现约30%的人工智能翻译内容在翻译完成后仍需进行润色。

这一点很重要，因为它凸显了两个令人不适的事实。没有任何翻译工具——无论是人类还是人工智能——能做到100%完美，而将AI视为高速生成的初稿，而非人类判断力的替代品，才是发挥其最大效用的方式。这正是我们网站翻译工具的设计理念。Weglot 默认Weglot 高质量的AI翻译，随后允许您结合上下文进行审阅和润色，从而确保在最重要的页面上，翻译质量始终保持在90%-95%的可靠区间内。

什么决定了您的内容在该范围内处于什么位置

究竟是什么因素让译文质量接近95%，又是什么因素导致其跌至70%，这通常取决于一系列变量——这些变量在翻译前你通常就能在自己的内容中发现。

方法论：人工、AI 或混合

人工译员最擅长把握语境和文化细微差别。他们能读懂语气、意图和言外之意，然后进行改写，使译文听起来自然流畅。

AI 翻译以速度和覆盖范围为优化重点。它非常适合处理大型产品目录、长尾内容以及常规更新——这些工作若由小型团队承担，往往会令其不堪重负。

混合工作流将两者结合起来。AI 负责处理大量内容，而人类则专注于法律内容、关键营销活动和结账流程等高风险页面。

如需进一步了解，请阅读我们关于“人工翻译与机器翻译”的文章。

语言对的复杂性

某些语言对的翻译难度比其他语言对要低。英语-西班牙语、英语-法语或英语-德语等语言对不仅使用相同的字母表，语法结构也相似，且拥有庞大的训练数据集。这类语言对的翻译质量通常能达到90%至95%左右。

英语-中文、英语-阿拉伯语或英语-日语等语言对涉及不同的文字系统、语法结构以及表达礼貌的方式。如果不进行人工审核，这些差异会导致原始输出准确率接近70%。

选择目标市场时，实际上也在预估后续的编辑工作量。“亲近”语言通常意味着后编辑工作较少。“疏远”语言则需要在关键页面上投入更多精力。

主题与风险

一般的营销文案和产品描述都适合由AI处理。其用语通俗易懂，出现措辞略显生硬的情况风险较低。

法律、医疗和金融类内容则另当别论。一个翻译错误的条款、剂量或术语都可能造成实际损害。此类页面应纳入由专业译员负责的人工或混合工作流程中。

一个快速测试——如果这页面的内容有误，我们会因此错失一笔交易，还是会引发法律责任？如果会引发法律责任，请务必让人工参与审核。

品牌语调与内容波动性

通用内容（例如“满50欧元免运费”）更容易准确呈现。而带有强烈品牌色彩的文案、文字游戏以及文化梗则更难处理。

静态页面（“关于我们”、常青型常见问题解答）只需一次优化，即可长期保持95%左右的质量水平。而内容不断更新的页面（每日产品更新、促销活动）则更多依赖人工智能和智能规则，仅在可能引发严重误解的情况下才由人工进行有针对性的审核。

Weglot 通过将快速、可扩展的 AI 翻译与可选的人工及混合工作流相结合，Weglot 完美契合了这些需求。您可以在关键环节优先保证准确性，同时确保对海量或频繁更新的内容实现全面覆盖。虽然翻译效果会因语言对的复杂程度、内容风险及品牌细微差别而有所差异，但高翻译准确度加上内置的编辑工具，将随着时间的推移将翻译质量推向更高水平。

您甚至可以直接通过Weglot 订购专业翻译服务，从而进一步提升效率，带来更多便利。

如何衡量翻译准确度

衡量翻译准确性主要有两种方式：自动评分和人工核查。对于网站所有者而言，后者通常比任何单一数值都更有参考价值。

自动化指标

BLEU是一种经典的评估指标。它以 0-100 分的评分标准，将机器翻译中的 n-gram 与一个或多个人工参考译文进行比较。在实际应用中，对于常见的语言对和领域，BLEU 分数在 40-60 分左右通常意味着高质量的译文。然而，BLEU 与人类判断之间的关联性较弱，且可能对那些虽然“稳妥”但字面直译、读起来仍显生硬的表述给予较高评分。

COMET是许多研究者更青睐的现代替代方案。它利用神经网络模型来评估译文在多大程度上保留了原意和流畅度，其结果往往比 BLEU 更贴近人类评分。METEOR是另一种传统指标，它试图通过考虑同义词和词干提取来改进 BLEU，但在当前的机器翻译研究中已不再占据核心地位。

“在专业评估中，MQM（多维质量指标）是标准的人工评估框架。评审员会对错误进行分类（准确性、术语、流畅度、风格等），分配严重程度，并生成一个结构化的评分，您可以随时间推移进行追踪。该方法虽然严谨，但对于仅想确认产品页面是否可以安全上线的中小企业营销团队而言，操作起来较为繁琐。”

- Eugène Ernoult，Weglot首席营销官

网站所有者的实用准确性检查

实际上，轻量级且可重复的检查能带来更大的价值：

将译文与原文进行对比：选取一些重要页面作为样本，并进行并排对照。重点检查是否有信息遗漏、含义添加或原意扭曲的情况，特别是涉及价格、保证条款、行动号召（CTA）和法律文本的部分。
试问：“母语者能轻松读懂吗？”如果 母语者需要重读某句话，或者在某些奇怪的词汇上停顿，那么无论BLEU评分如何，其准确性实际上就较低。对于面向客户的文案，可读性和可信度比技术评分更重要。
检查术语表和品牌术语：确认产品名称、功能标签和品牌短语与您批准的术语表一致。术语的一致性对确保翻译准确性至关重要，即使基础翻译质量很高也是如此。

对于大多数中小企业而言，对一小部分影响重大的页面进行实际检查，比任何自动化指标都能更准确地反映其准确性。

一套行之有效的网站翻译质量保证流程

虽然测量准确度很有帮助，但只有将其纳入网站的可重复质量保证流程中，你才能真正感受到70%与95%之间的差异。以下是一个在网站层面切实可行的工作流程。

从翻译记忆库和术语表开始

利用翻译记忆库（TM）在整个产品目录中复用经过验证的语段，这样“30天内免费退货”这类表述就不会被重复翻译出12种不同的版本。术语表可锁定产品名称、功能标签和品牌术语，确保即使数千行文本经过AI处理，这些内容也能保持一致。

问题在于，翻译记忆库（TM）会不加区分地重复错误。请务必抽时间对其进行审核和清理——尤其是在项目初期——因为一条错误的存储句会悄无声息地传播到所有匹配的页面中。当您更正错误时，请将修正后的内容重新导入翻译记忆库。

将高风险内容转交专家处理

正如我们所见，并非所有内容都适合采用相同的工作流程。一般的营销和电商文案可以采用“AI优先”的翻译方式，再辅以重点审核。而法律条款、医疗指南以及复杂的技术文档，则应交由专业领域的专家译员处理，而非通才译员。

制定简单的分流规则。例如，隐私政策、合同和合规页面应始终交由法律语言合作伙伴处理；剂量信息或临床声明应始终交由医学专家处理；而复杂的产品规格则应交由技术审校人员处理。这样一来，您就不必指望有人能在最后一刻发现错误。

采用三层审核机制

一个完善的质量保证循环包含三个明确的阶段：

自我审校：译者或后编辑对照原文检查自己的译文。他们修正明显的疏漏，精炼措辞，并确保没有增删内容。
同行评审：由另一位专业人士（或值得信赖的内部审稿人）以全新的视角进行审阅。他们会重点关注表述的清晰度、术语使用和行文风格，且不会受初稿的局限。通过这一环节，往往能发现许多虽然通顺但不符合品牌风格的句子。
客户端审核：由贵方人员（通常是市场营销人员、产品负责人或当地经理）进行最终审核。他们会检查：‘这听起来像我们吗？’‘如果我是客户，看到这个会满意吗？’

不要在每条广告系列中都运行全部 3 个层级，而应将完整广告系列组合应用于关键模板和转化率最高的页面。

结合上下文的评论

语言在实时页面上的表现与在单元格中有所不同。请尽可能在网站布局中查看翻译内容，确保图片、按钮和表单均处于可见状态。这样您就能发现换行问题、标题溢出，以及在上下文中显得过长或过于生硬的行动号召（CTA）。

“在审阅时，请不要只关注字面上的准确性。还要考察文化契合度——示例、参考资料和语气是否适合该市场？即使每个术语在技术上都准确无误，但如果某句话让当地读者感到冷淡、粗鲁或别扭，那么它的质量评分就更接近70%而非95%。”

- Eugène Ernoult，Weglot首席营销官

借助混合式人工智能翻译工作流缩小差距

要让您的网站更多内容达到90%-95%的加载速度区间，最切实可行的方法是采用混合工作流，例如 Weglot ，让AI承担繁重的工作，而人类则专注于能创造最大价值的部分。

系统默认启用AI 翻译功能。当您发布或更新页面时，系统会自动检测网站内容，并一次性将其翻译成所有选定的语言。这样，产品页面、系列页面、博客文章、导航菜单和元数据等内容都能得到全面覆盖，您无需将文本复制粘贴到文件或电子表格中。

然后，您需要引入一个经过品牌训练的AI翻译模型。该模型会根据您的术语表、品牌规范和自定义规则进行学习，因此未来的翻译结果将更贴近您团队的实际写作风格。

随着时间的推移，这将直接解决通常会降低准确性的品牌语调和术语问题，尤其是在营销页面和产品详情文案中。

在此基础上，您将进入更符合人类思维的审阅阶段，但无需强迫营销人员像语言学家那样思考。WeglotVisual Editor 允许非技术背景的团队成员直接在页面上，结合上下文审查翻译内容。

他们能够直观地看到标题在主视觉区中的呈现效果，CTA 文案在按钮上的长度是否合适，或者某句话与图片和表单并列时是否显得过于正式。正是这种情境化的视角，才能帮助你发现那些单纯的准确性指标所忽略的文化和用户体验问题。

对于高风险内容——例如法律页面、关键转化路径以及受监管行业——应交由专业译员或领域专家处理。他们是在AI生成的初稿基础上进行修改，而非从零开始，这样既能保持速度优势，又能满足此类页面所需的严格审查标准。正因如此，在这些场景中，我们有意识地将质量标准提升到远超“勉强合格”的水平，因为此类内容引发误解的风险更高。

一旦该流程建立起来，自动内容检测功能将确保所有内容保持同步。新产品、修改后的标题或更新的常见问题解答都会被捕捉、翻译，并由您的 AI 翻译模型重新评分，其中已融入您的规则和以往的编辑记录。AI 为您带来全面的覆盖和高效的速度。术语表、品牌培训和上下文审核确保了品牌语调和细微差别的准确传达；而针对性的人工审核则填补了那些绝对不容有失的页面上的最后一道防线。