国际营销

大型语言模型更青睐维基百科吗?我们分析了Claude、Gemini和GPT的6,844条引用数据以寻找答案

大型语言模型更青睐维基百科吗?我们分析了Claude、Gemini和GPT的6,844条引用数据以寻找答案
Rayne Aguilar
作者
Rayne Aguilar
Elizabeth Pokorny
审阅人
Elizabeth Pokorny
更新于
2026年6月2日

这是我们关于多语言市场中人工智能行为研究系列中的一项新研究。

很长一段时间以来,维基百科一直被视为默认的知识来源,这令学术界人士深感沮丧(大家脑海中是否还回响着“禁止使用维基百科”的警告?)。它开放、结构化,更重要的是——支持多语言且持续更新。从理论上讲,这也使其成为大型语言模型(LLMs)的理想引文来源。

正因如此,它与Reddit一起,成为了关于大型语言模型(LLMs)最具影响力的信息来源之一。但鉴于维基百科具有众包的特性,其中容易混入负面或过时的信息,这些内容也可能被纳入AI搜索结果中

因此,人们普遍认为维基百科塑造了地理信息科学(GEO)领域,这并不令人意外。针对维基百科涵盖的内容进行优化,并在维基百科被引用的地方争取被引用。

但我们的数据却揭示了另一种情况。

我们早已知道,如果不将网站翻译成其他语言,就等于隐形。但拥有一个公司维基百科页面,是否能让局面对你有利呢?

我们研究了三大主流AI模型引用维基百科的频率、所用语言以及它们在无法引用维基百科时会引用哪些内容。研究结果挑战了“维基百科为王”的普遍认知,并为任何考虑在国际市场提升AI可见度的品牌揭示了更有价值的发现:大型语言模型(LLMs)正在积极寻找权威性强且经过母语翻译的来源。一旦找到,它们就会引用;若找不到,则会退而求其次使用英文内容。

背景

我们分析了Claude Haiku 4.5、Gemini 3.1 Flash 和 GPT 5.4 Mini 在 750 个查询中如何引用来源。

这些查询是根据每种语言组合的15个维基百科页面构建的,包括纯英语主题、法语-英语、西班牙语-英语以及日语-英语。 每页生成5个查询,随后将纯英语查询翻译成三种目标语言,以测试当同一问题用不同语言提出时,引用行为会发生怎样的变化。这共产生了750个提示词,每个提示词均在3个模型上进行测试,从而获得了2,250条独立的模型响应供我们分析。

每个提示词都明确要求模型提供引用的来源网址,并在基于自身知识作答时予以标注。随后,将模型的回答与相关维基百科域名(英语或目标语言版本)进行比对,以衡量维基百科本身被引用的频率,以及哪些域名出现在其位置上。

注:在早期测试中,Claude 仅根据其自身的训练数据回答英语问题,且不显示来源。随后,我们调整了提示词,要求所有模型都必须明确提供引用来源。即便经过这一调整,在仅涉及英语主题时,Claude 仍以异常高的频率将回答标记为“自有知识”,我们稍后将对此进行说明。

发现1:维基百科并非被引用最多的来源

我们原本以为维基百科会拔得头筹,但数据却明确地表明了相反的结果。

在绝大多数测试主题中,《大英百科全书》是引用次数最多的单一来源,三个模型总计引用了1,164次。英语维基百科以433次总引用量位居第二——仅为《大英百科全书》的三分之一。

维基百科唯一胜出的领域是高度专业且仅限英语的小众主题,在这些领域中,它超越了所有其他信息来源。而在其他所有领域,大英百科全书占据主导地位。

显示引用本地维基百科页面时差异率的图表

《大英百科全书》的集中式域名策略在此发挥了作用。与将内容分散在各语言子域名(如 fr.wikipedia.org、es.wikipedia.org、ja.wikipedia.org)上的维基百科不同,《大英百科全书》将其几乎所有内容都集中在 britannica.com 上,并主要提供英文页面。这个单一的高权威域名积累了链接权重、引用权重以及人工智能信任信号,而维基百科的分布式模型则可能因设计本身导致这些资源被分散。

根据这些发现,在AI引文场景中,域名权重的集中效应似乎与传统搜索中的情况如出一辙。如果您的内容发布在一个权重较高的域名上,其被展示的可能性就比分散在多个较小域名上更高。

发现2:仅使用英语的策略会让你在海外市场失去被引机会

大英百科全书仅提供英文版本的做法虽然取得了成功,但在其他语言版本上却表现欠佳。

当以英语和法语分别查询完全相同的法语本地化主题时,大英百科全书的引用量骤降了55%。在西班牙语中,降幅为23%。而在日语中——该语言与英语在语言和文化上的差异最大——引用量下降了80%。因此,没错,他们的策略在英语环境下效果惊人,但仅此而已。

主题分类《大英百科全书》引用(英语查询)《大英百科全书》引用(本地查询)下拉
法语主题302135-55.30%
西班牙语主题248190-23.40%
日本话题21642-80.60%

‍“

《大英百科全书》依然得益于其强大的域名权威性。即使在用户使用当地语言查询法语和西班牙语相关主题时,它仍是整体引用率最高的域名。但这种下滑趋势表明,一旦用户开始用母语提问,纯英文内容的表现就会面临明显的瓶颈。由于缺乏本地化内容,这一权威来源在法语环境中的曝光率下降了超过一半,在日语环境中的曝光率则下降了五分之四。

这为“为何翻译内容在AI搜索中已不再是可选项”这一观点提供了清晰有力的论据。仅提供英文内容的来源并未完全从外语检索结果中消失;它们只是被系统性地降级处理,以优先展示本地化内容,而这种差距之大,足以构成实质性的可见性成本。这合乎情理——用户显然更愿意阅读专为他们量身定制的内容(这也正是本地化的核心意义所在)。

这里还存在一个模型层面的问题。大英百科全书在外语查询方面的优势几乎完全依赖于GPT和Claude能否持续提供英语来源。而Gemini在外语查询中会主动避开英语网站,转而使用当地网站,例如larousse.fr(法语引用32次)。

发现3:当人工智能弥合语言鸿沟时,它会指向英语维基百科

对于仅存在于英语维基百科且没有翻译版本的主题子集,模型必须做出选择:拒绝回答、退而求其次使用自身知识,或者无论查询语言如何(或通过桥接),都将用户引导回英语页面。

这三种模型都选择了弥合这一差距。它们引用英文维基百科的比例出人意料地稳定:GPT的平均引用率为48.3%,Claude为26.8%,Gemini为19.8%。令人意外的是,使用英语进行查询时,其维基百科引用率从未达到最高。

图表显示哪些模型引用英语维基百科的次数最多

GPT在西班牙语和日语中的准确率最高达到49.3%。Gemini在法语中的准确率为23.3%(而英语中为16%)。Claude在西班牙语中的准确率为34.7%。

最合理的解释是“竞争密度”:当你用英语查询某个小众英语主题时,模型可以从海量的英语网络内容中进行筛选,引用来源也会分散在众多来源中。而当你用外语查询同一个小众主题时,模型无法借助本地化的权威来源,因此会直接指向英语维基百科页面。替代来源越少,维基百科作为引用来源就越可靠。

因此,任何在非母语市场运营的品牌都需要了解这一点:非母语网络的竞争相对不那么激烈,引用信息更为集中,而成为合适的本地化信息来源将具有不成比例(且有利)的影响力。

发现4:克劳德对“仅限英语”的话题采取不同的处理方式

与GPT和Gemini不同,Claude表现出一种独特的行为。在针对75个纯英文主题进行的英文查询测试中,Claude将32条回复(占42.7%)标记为“自有知识”,而非引用来源。当使用外语查询这些相同的纯英文主题时,该比例急剧上升。

查询语言基于自身知识的回答百分比
英语32 / 7542.70%
法语50 / 7566.60%
西班牙语32 / 7542.70%
日语16 / 7521.30%

‍“

我们有几种推测:与同类模型相比,Claude 在生成引用内容时可能更为保守,它更倾向于指出不确定性,而非凭空捏造来源。它可能具备更强大的内部防护机制,以防止生成缺乏可验证依据的引用内容。又或者,当本地化来源稀缺时,它回退到训练数据的阈值可能较低。

无论根本原因是什么,数据表明,在仅限英语的小众主题领域,Claude作为外链来源的可靠性较低,尤其是在用户使用非英语语言进行查询时。如果你一直特别依赖Claude的曝光度,这可能会促使你调整策略。

发现 5:当存在已翻译页面时,模型表现截然不同

对于已有维基百科翻译页面的主题,模型既可以引用本地化版本(例如,针对西班牙语查询时引用 es.wikipedia.org),也可以默认使用英文版本。不同模型在选择上的差异非常显著。

型号本地维基百科的平均匹配率
GPT 5.4 Mini24.40%
克劳德·俳句 4.58.40%
Gemini 3.1 Flash6.20%

‍“

在识别和引用本地化维基百科版本方面,GPT的表现远超其他模型,其可靠性遥遥领先。它大约有四分之一的时间会引用本地化维基百科页面。而Claude和Gemini几乎不引用本地化维基百科页面,引用率仅为个位数。

不过,值得注意的是,Claude和Gemini并未忽视本地内容。相反,它们将原本分配给本地内容的引用份额转向了其他地方,即本地化的机构来源。这表明,在提供信息方面,本地内容总是能胜过竞争对手。

发现6:AI极度偏好使用外语的本地化机构

你可能会认为,当人工智能模型用母语回答问题时——尤其是那些主要基于英语数据集训练的模型——它们只不过是在翻译查询内容,并返回相同的全球性来源。但根据我们的研究,它们实际上会将引用行为转向权威性较高的本地平台,这些平台往往属于机构性质。

法语查询

卢浮宫(louvre.fr)被引用了39次。凡尔赛宫被引用了29次。法国百科全书《拉鲁斯》(Larousse)被引用了66次,成为Gemini在法国主题方面的首要信息来源。《法国历史》(Histoire-France)被引用了24次。

西班牙语查询

普拉多博物馆(museodelprado.es)被引用了24次。联合国教科文组织世界遗产门户网站被引用了36次。塞万提斯虚拟图书馆(西班牙文学数字图书馆)被引用了26次。西班牙语传记数据库“Biografías y Vidas”被引用了24次。

日语查询

日本国会图书馆(ndl.go.jp)被引用了45次。日本国家公共广播机构NHK被引用了40次。吉卜力工作室官网在相关主题中被引用了37次。日本知识聚合平台Kotobank被引用了22次。

英语查询

作为对比:大都会艺术博物馆(metmuseum.org)在英语查询中被提及117次。美国国家公园管理局(nps.gov)被提及34次。宾夕法尼亚州狩猎委员会(pgc.pa.gov)在仅限英语的小众话题中被提及34次。

这种趋势一贯如此。只要存在本地化的机构来源,AI模型就会优先选用这些在文化和语言上更贴近本土的资源。在各自的本土市场中,博物馆、图书馆、公共广播机构、政府门户网站以及参考类百科全书的表现,都优于全球品牌和仅提供英语内容的竞争对手。

发现7:Gemini在本地域名方面的搜寻力度无人能及

若将引用按顶级域名(.fr、.es、.jp 与全球/英语域名)进行分类,其中一种模型因积极优先考虑本地域名而尤为突出。

显示域名定位分类的图表,对比英语与日语、法语及西班牙语查询

在所有经过测试的语言中,Gemini始终将最大比例的引用分配给本地顶级域名(TLD)。这与Gemini在《大英百科全书》中的表现一致:它是所有模型中最倾向于跳过英语权威域名、转而选择本地化替代域名的模型。

这对正在制定国际AI可见性策略的品牌而言,在运营层面至关重要。如果您的首要目标是在海外市场提升Gemini的可见度,那么在相应的国家代码顶级域名(ccTLD)下部署本地化网站(或设置正确的hreflang标签并提供翻译内容),其效果远胜于被《大英百科全书》或维基百科收录。

这对多语言AI的可见性有何影响

以下是该研究的主要结论:

维基百科并非人们(包括我们)所认为的那样是引文领域的绝对权威。《大英百科全书》的集中化策略在大多数主题上都优于维基百科的分布式策略,而在本土市场中,本地化的机构来源的表现则更胜一筹。如果你的AI可见性策略以维基百科为核心,那么你很可能选错了核心来源。

仅提供英文内容的策略会在海外市场带来可量化的AI可见性成本。大英百科全书在法语和日语市场分别下滑55%和80%的情况并非特例这清楚地说明了任何不翻译内容的组织会面临什么后果:当用户使用母语进行查询时,AI会优先搜索本地语言的来源,只有在没有本地内容的情况下,才会用英文内容来填补空白。

本地化内容能获得巨大的回报。由于外语网络内容尚未饱和,作为合适的本地化信息来源,其引文权重远高于同源的英文内容。大都会艺术博物馆在英语主题中获得117次引文;卢浮宫在法语主题中获得39次引文。虽然绝对数量看似较少,但法语领域中可分配的引文名额占比更高,且竞争也更为宽松。

如今,翻译已不仅是本地化工作,更是一场人工智能可见度的角逐。人工智能模型正在积极寻找权威性高且采用母语翻译的平台,将其作为在本地市场的主要引用来源那些将内容翻译成目标受众语言的品牌,正在为自己争取那些仅使用英语的竞争对手根本无法获得的引用机会。多语言SEO最佳实践hreflang标签的实施、特定语言的URL以及翻译后的元数据,所有这些因素都起到了协同作用。

市面上大多数人工智能监测工具仅支持英语查询,而正如我们所见,英语仅占其中很小的一部分。您肯定希望追踪不同语言中关于您品牌的讨论情况——幸运的是,借助Weglot 这完全可以实现。

不同模型的行为表现各不相同。GPT在链接至英文维基百科方面最为积极。Claude在处理仅限英语的小众主题时,对引用内容的呈现最为谨慎。Gemini则最积极地搜索本地顶级域名(TLD)网站。如果你针对某个模型进行优化,你的策略将与针对其他模型时有所不同。

更广泛的信号是,人工智能在国际市场上的可见度,正建立在一直以来支撑着强大自然可见度的同一基础之上:即权威内容、恰当的本地化,以及通过用户和爬虫都能信赖的域名进行呈现。只是如今,这一机制对优质内容的奖励更加显著,对内容缺失的惩罚也更加严厉。

在多语言AI搜索结果中抢先竞争对手一步

这项研究的全部结论可以简单概括为:将网站进行本地化翻译,并出现在海外受众所在的渠道中。尽管人工智能已极大地改变了搜索和消费习惯,但使用客户的语言与他们沟通——并且自主掌控沟通方式,而不是依赖浏览器插件——仍是触达他们的简单而可持续的方法。

准备好开始了吗?使用Weglot 翻译您的网站,免费试用 14 天

方向图标
探索 Weglot

 110,000 多个品牌都在用 Weglot 翻译自己的网站,赶紧加入吧!

用AI即时翻译你的网站,再通过人工编辑进行优化,几分钟内就能上线。

这篇文章里,我们会聊聊:
火箭图标

准备好开始了吗?

要Weglot 强大功能Weglot 最好的方式Weglot 亲自体验。立即免费试用,无需任何承诺。

若您尚未准备好连接自己的网站,控制面板中已提供演示网站。

你可能也会喜欢这些文章

常见问题图标

常见问题

没有找到任何内容。

蓝色箭头

蓝色箭头

蓝色箭头