
Este é um novo estudo da nossa série dedicada à investigação do comportamento da IA em mercados multilíngues.
Há muito tempo, e para grande consternação dos profissionais da área acadêmica (alguém ainda consegue ouvir o lembrete “NÃO USE A WIKIPÉDIA” ecoando na cabeça?), a Wikipédia tem sido tratada como a fonte de conhecimento padrão. Ela é aberta, estruturada e, melhor ainda, multilíngue e constantemente atualizada. O que, em teoria, também a torna a candidata perfeita para citação em grandes modelos de linguagem (LLMs).
É por isso que, junto com o Reddit, ela é uma das fontes mais influentes sobre os LLMs. No entanto, devido à sua natureza colaborativa, a Wikipédia está sujeita à inserção de informações negativas ou desatualizadas, que também podem acabar aparecendo nos resultados de pesquisa de IA.
Portanto, não é surpresa que se considere, de maneira geral, que a Wikipédia tenha moldado o panorama GEO. Otimize o conteúdo de acordo com o que a Wikipédia aborda e procure ser citado nos mesmos locais em que a Wikipédia é citada.
Mas nossos dados mostram uma realidade diferente.
Já sabemos que não traduzir seu site significa que você fica invisível. Mas será que ter uma página da empresa na Wikipédia muda as coisas a seu favor?
Analisamos com que frequência os três principais modelos de IA citam a Wikipédia, em quais idiomas e quais outras fontes eles utilizam. Os resultados desafiam a percepção de que a Wikipédia é a referência absoluta e revelam algo mais útil para qualquer marca que esteja pensando em visibilidade por meio da IA nos mercados internacionais: os LLMs estão buscando ativamente fontes de alta credibilidade traduzidas para o idioma local. Quando as encontram, elas são citadas. Quando não as encontram, recorrem ao inglês.
Analisamos como o Claude Haiku 4.5, o Gemini 3.1 Flash e o GPT 5.4 Mini citam fontes em 750 consultas.
As consultas foram criadas a partir de 15 páginas da Wikipédia por combinação de idiomas: tópicos exclusivamente em inglês, francês-inglês, espanhol-inglês e japonês-inglês. Foram geradas cinco consultas por página; em seguida, as consultas apenas em inglês foram traduzidas para os três idiomas-alvo para testar como o comportamento de citação muda quando a mesma pergunta é feita em uma língua diferente. Isso resultou em 750 prompts no total, cada um dos quais foi processado pelos três modelos, proporcionando-nos 2.250 respostas individuais dos modelos para análise.
Cada solicitação pedia explicitamente ao modelo que fornecesse os URLs das fontes citadas e que indicasse quando estivesse respondendo com base em seu próprio conhecimento. As respostas do modelo foram então comparadas com o domínio relevante da Wikipédia (em inglês ou no idioma de destino) para avaliar com que frequência a própria Wikipédia era citada e quais domínios apareciam em seu lugar.
Nota: nos primeiros testes, o Claude respondia a perguntas em inglês com base em seus próprios dados de treinamento, sem indicar as fontes. As instruções foram ajustadas para solicitar explicitamente citações em todos os modelos. Mesmo após esse ajuste, o Claude continuou a sinalizar respostas baseadas em “conhecimento próprio” com frequência anormalmente alta em tópicos exclusivamente em inglês, assunto que abordaremos a seguir.
Começamos achando que a Wikipédia sairia na frente, mas os dados mostraram claramente o contrário.
Na maioria dos tópicos analisados, a Encyclopaedia Britannica foi o domínio mais citado, com um total de 1.164 citações nos três modelos. A Wikipédia em inglês ficou em segundo lugar, com 433 citações gerais — um terço do total da Britannica.
A única categoria em que a Wikipédia se destacou foi a de temas de nicho altamente específicos, disponíveis apenas em inglês, onde superou todas as outras fontes. Em todos os outros aspectos, a Britannica dominou.

A estratégia de domínio centralizado da Britannica está dando certo neste caso. Ao contrário da Wikipédia, que divide o conteúdo em subdomínios específicos para cada idioma (fr.wikipedia.org, es.wikipedia.org, ja.wikipedia.org), a Britannica concentra quase todo o seu conteúdo em britannica.com e apresenta principalmente páginas em inglês. Esse único domínio de alta autoridade acumula valor de links, peso de citações e sinais de confiança de IA que o modelo distribuído da Wikipédia, por sua própria natureza, tende a fragmentar.
Com base nessas conclusões, a concentração da autoridade de domínio parece se manifestar nos contextos de citação por IA da mesma forma que se manifesta nas buscas tradicionais. Se o seu conteúdo estiver hospedado em um domínio forte, é mais provável que ele apareça do que se estiver espalhado por vários domínios menores.
A abordagem da Britannica, que se limita ao inglês, embora bem-sucedida, apresenta um desempenho muito inferior em outros idiomas.
Quando os mesmos tópicos localizados para o francês foram pesquisados em inglês e em francês, o número de citações da Britannica despencou em 55%. Em espanhol, a queda foi de 23%. Em japonês, onde a distância linguística e cultural em relação ao inglês é maior, as citações caíram 80%. Portanto, sim, a estratégia deles funciona incrivelmente bem em inglês, mas não vai além disso.
A Britannica ainda se beneficia de sua enorme autoridade de domínio. Mesmo em temas relacionados ao francês e ao espanhol pesquisados no idioma local, ela continuou sendo o domínio mais citado em geral. Mas a queda mostra que o conteúdo exclusivamente em inglês enfrenta um forte limite de desempenho quando os usuários começam a fazer perguntas em seu próprio idioma. A mesma fonte de referência perde mais da metade de sua visibilidade em francês e quatro quintos dela em japonês, porque o conteúdo não está disponível na língua local.
Isso fornece um argumento muito claro sobre por que o conteúdo traduzido não é mais opcional nas buscas com IA. As fontes exclusivamente em inglês não desaparecem totalmente das citações em idiomas estrangeiros; elas são sistematicamente relegadas a segundo plano em favor de alternativas locais, e a diferença é grande o suficiente para representar um custo real de visibilidade. Faz todo o sentido — os usuários preferem, sem dúvida, ler conteúdo feito sob medida para eles (que é justamente o objetivo da localização).
Há também uma questão relacionada ao modelo. O desempenho da Britannica em consultas em idiomas estrangeiros depende quase inteiramente do GPT e do Claude continuarem a apresentar fontes em inglês. O Gemini evita ativamente domínios em inglês nas consultas em idiomas estrangeiros, optando, em vez disso, por sites locais como o larousse.fr (32 citações em francês).
Para o subconjunto de tópicos que só existe na Wikipédia em inglês, sem equivalente traduzido, os modelos tiveram que tomar uma decisão: recusar-se a responder, recorrer ao seu próprio conhecimento ou redirecionar os usuários para a página em inglês, independentemente do idioma da consulta (ou fazer a ponte).
Todos os três modelos optaram por preencher essa lacuna. Eles citam a Wikipédia em inglês com taxas surpreendentemente estáveis: o GPT apresenta uma média de 48,3%, o Claude, de 26,8%, e o Gemini, de 19,8%. O que é contraintuitivo é que as consultas em inglês nunca geraram a maior taxa de citação da Wikipédia.

O GPT atingiu um pico de 49,3% em espanhol e japonês. O Gemini atingiu 23,3% em francês (contra 16% em inglês). O Claude atingiu 34,7% em espanhol.
A explicação mais plausível é a densidade competitiva: quando você faz uma consulta em inglês sobre um tema específico, o modelo tem um enorme acervo de conteúdo da web em inglês para escolher, e as referências são distribuídas por várias fontes. Quando você faz uma consulta em uma língua estrangeira sobre esse mesmo tema específico, o modelo não tem nenhuma fonte de referência localizada à qual recorrer, então ele aponta diretamente para a página da Wikipédia em inglês. Quanto mais restrito for o acervo de alternativas, mais confiável a Wikipédia se torna como fonte de referência.
Portanto, eis o que qualquer marca que atue em mercados de língua estrangeira precisa saber: a internet em língua estrangeira está menos saturada, as menções são mais concentradas e ser a fonte localizada certa tem um peso desproporcional (e vantajoso).
Claude apresentou um comportamento que o GPT e o Gemini não demonstraram. Nos 75 tópicos exclusivamente em inglês testados em consultas em inglês, Claude classificou 32 respostas (42,7%) como “conhecimento próprio”, em vez de citar fontes. Quando os mesmos tópicos exclusivamente em inglês foram consultados em idiomas estrangeiros, a taxa aumentou acentuadamente.
Temos algumas hipóteses: o Claude pode ser mais cauteloso em relação à geração de citações alucinadas do que seus concorrentes, preferindo indicar incerteza em vez de inventar fontes. Ele pode ter mecanismos internos de proteção mais robustos contra a geração de resultados baseados em citações sem respaldo verificável. Ou pode ter um limiar mais baixo para recorrer aos seus dados de treinamento quando as fontes locais são escassas.
Seja qual for o motivo, os dados mostram que o Claude é uma fonte menos confiável para citações externas em temas de nicho exclusivamente em inglês, especialmente quando os usuários fazem consultas em idiomas que não sejam o inglês. Se você tem apostado especificamente na visibilidade do Claude, isso pode mudar sua estratégia.
Para tópicos que possuem páginas traduzidas na Wikipédia, os modelos podem citar a versão localizada (es.wikipedia.org para uma consulta em espanhol) ou, por padrão, a versão em inglês. A escolha que fazem varia significativamente de acordo com o modelo.
O GPT é, de longe, o mais confiável no reconhecimento e na citação da versão localizada da Wikipédia. Ele faz isso em cerca de um quarto das vezes. O Claude e o Gemini quase não citam páginas locais da Wikipédia, com taxas de apenas um dígito.
No entanto, vale ressaltar que Claude e Gemini não estão ignorando o conteúdo local. Em vez disso, estão direcionando essa parcela de citações para outras fontes, mais especificamente para fontes institucionais localizadas. O que demonstra que o conteúdo local sempre supera a concorrência quando se trata de fornecer informações.
Você pode pensar que, quando os modelos de IA respondem a perguntas em um idioma nativo — especialmente aqueles treinados principalmente com conjuntos de dados em inglês —, eles estão simplesmente traduzindo as consultas e apresentando as mesmas fontes globais. Mas, com base em nossa pesquisa, eles, na verdade, direcionam seu comportamento de citação para plataformas locais de alta credibilidade, muitas vezes de caráter institucional.
O Louvre (louvre.fr) foi citado 39 vezes. O Palácio de Versalhes recebeu 29 citações. A Larousse, a enciclopédia francesa, registrou 66 citações e tornou-se a principal fonte da Gemini para temas relacionados à França. O site Histoire-France registrou 24 citações.
O Museu do Prado (museodelprado.es) foi citado 24 vezes. O portal do Patrimônio Mundial da UNESCO recebeu 36 citações. O Cervantes Virtual (uma biblioteca digital de literatura espanhola) recebeu 26. O Biografías y Vidas, um banco de dados de biografias em espanhol, obteve 24.
A Biblioteca Nacional da Dieta (ndl.go.jp) recebeu 45 menções. A NHK, emissora pública nacional do Japão, foi citada 40 vezes. O site oficial do Studio Ghibli registrou 37 menções sobre temas relevantes. O Kotobank, um agregador de referências japonês, obteve 22.
A título de comparação: o Met (metmuseum.org) foi mencionado 117 vezes em consultas em inglês. O Serviço Nacional de Parques (nps.gov) recebeu 34 menções. A Comissão de Caça da Pensilvânia (pgc.pa.gov) foi mencionada 34 vezes em tópicos de nicho exclusivamente em inglês.
O padrão é consistente. Os modelos de IA preferem fontes institucionais cultural e linguisticamente nativas, quando estas existem. Museus, bibliotecas, emissoras públicas, portais governamentais e enciclopédias de referência superam marcas globais e concorrentes que operam apenas em inglês em seus mercados nacionais.
Quando se analisa as citações por TLD (.fr, .es, .jp em comparação com domínios globais/em inglês), um modelo se destaca por priorizar ativamente os domínios locais.

O Gemini atribui consistentemente a maior parte de suas citações a domínios com TLDs locais em todos os idiomas testados. Isso está em consonância com o comportamento do Gemini na Britannica: é o modelo mais propenso a ignorar domínios de referência em inglês em favor de alternativas localizadas.
Isso é importante do ponto de vista operacional para marcas que estão desenvolvendo estratégias de visibilidade internacional em IA. Se sua prioridade é a visibilidade no Gemini em mercados estrangeiros, ter uma versão localizada do seu site no ccTLD apropriado (ou com sinais hreflang adequados e conteúdo traduzido) traz mais benefícios do que ser citado pela Britannica ou pela Wikipedia.
Aqui estão as principais conclusões do estudo:
A Wikipédia não é o monólito de referências que as pessoas imaginam (como nós imaginávamos). A estratégia centralizada da Britannica supera a estratégia distribuída da Wikipédia na maioria dos temas, e as fontes institucionais localizadas superam ambas em seus mercados nacionais. Se a sua estratégia de visibilidade em IA está ancorada na Wikipédia, provavelmente está ancorada na fonte errada.
Uma estratégia de conteúdo exclusivamente em inglês acarreta um custo mensurável em termos de visibilidade para a IA nos mercados internacionais. A queda de 55% da Britannica em francês e de 80% em japonês não são casos isolados. São uma demonstração clara do que acontece com qualquer organização que não traduz seu conteúdo: quando os usuários fazem consultas em seu próprio idioma, a IA procura primeiro fontes nativas, e as alternativas em inglês só preenchem a lacuna quando não há nada disponível localmente.
O conteúdo local é amplamente valorizado. Como a internet em idiomas estrangeiros está menos saturada, ser a fonte localizada correta tem muito mais peso em termos de citações do que ser a mesma fonte em inglês. O Met recebe 117 citações em tópicos em inglês; o Louvre recebe 39 em francês. O volume bruto parece menor, mas a proporção de vagas disponíveis para citações em francês é muito maior, e a concorrência é menor.
Atualmente, a tradução é uma estratégia de visibilidade baseada em IA, e não apenas uma questão de localização. Os modelos de IA estão buscando ativamente plataformas de alta autoridade, traduzidas nativamente, para servir como suas principais fontes de citação nos mercados locais. As marcas que traduzem seu conteúdo para os idiomas de seus públicos-alvo estão se posicionando para obter citações que os concorrentes que operam apenas em inglês simplesmente não conseguem conquistar. As melhores práticas de SEO multilíngue, a implementação de hreflang, URLs específicas para cada idioma e metadados traduzidos: tudo isso contribui para esse resultado.
A maioria das ferramentas de monitoramento de IA disponíveis no mercado leva em conta apenas consultas em inglês, o que, como vimos, representa apenas uma pequena parte do todo. Você provavelmente gostaria de acompanhar como sua marca é mencionada em diferentes idiomas – e, felizmente, isso é possível com Weglot .
O comportamento dos modelos não é uniforme. O GPT estabelece ligações com a Wikipédia em inglês de forma mais agressiva. O Claude é o mais cauteloso ao apresentar citações em tópicos de nicho exclusivamente em inglês. O Gemini é o que mais busca domínios com TLDs locais. Se você estiver otimizando para um modelo, sua estratégia será diferente daquela que adotaria se estivesse otimizando para outro.
O quadro geral é que a visibilidade da IA nos mercados internacionais está sendo construída sobre os mesmos alicerces que sempre sustentaram uma forte visibilidade orgânica: conteúdo confiável, devidamente localizado e disponibilizado em um domínio no qual os usuários e os robôs de rastreamento possam confiar. O mecanismo simplesmente recompensa isso de forma mais acentuada agora e penaliza a ausência desses elementos com igual rigor.
Todo esse estudo pode ser facilmente resumido da seguinte forma: traduza seu site e esteja presente onde seu público internacional está. Embora a IA tenha mudado profundamente os hábitos de pesquisa e consumo, falar a língua dos seus clientes — e assumir o controle da forma como se comunica com eles, em vez de deixar isso a cargo de extensões de navegador — é uma maneira simples, mas sustentável, de alcançá-los.
Pronto para começar? Traduza seu site com Weglot, gratuitamente por 14 dias.
A melhor maneira de compreender o poder do Weglot experimentá-lo você mesmo. Teste-o gratuitamente e sem qualquer compromisso.
Um site de demonstração está disponível no seu painel de controle, caso ainda não esteja pronto para conectar o seu site.