
Il s'agit d'une nouvelle étude dans le cadre de notre série consacrée à l'analyse du comportement de l'IA sur les marchés multilingues.
Depuis très longtemps, et au grand dam des universitaires (qui n’entend-il pas encore résonner dans sa tête ce « PAS DE WIKIPEDIA » ?), Wikipédia est considérée comme la source de référence par excellence. Elle est ouverte, structurée et, mieux encore, multilingue et constamment mise à jour. Ce qui, en théorie, en fait également la source idéale pour les grands modèles linguistiques (LLM).
C'est pourquoi, avec Reddit, c'est l'une des sources les plus influentes en matière de modèles de langage (LLM). Cependant, compte tenu de la nature participative de Wikipédia, le site est susceptible de voir s'y glisser des informations négatives ou obsolètes, qui peuvent également se retrouver dans les résultats de recherche générés par l'IA.
Il n'est donc pas étonnant que l'on considère généralement que Wikipédia a façonné le paysage GEO. Il faut optimiser son contenu en fonction de ce que couvre Wikipédia et se faire citer là où Wikipédia est citée.
Mais nos données montrent une réalité bien différente.
Nous savons déjà que ne pas traduire son site web revient à être invisible. Mais le fait d'avoir une page Wikipédia dédiée à son entreprise peut-il faire pencher la balance en votre faveur ?
Nous avons examiné à quelle fréquence les trois principaux modèles d'IA citent Wikipédia, dans quelles langues, et quelles autres sources ils utilisent. Les résultats remettent en cause l'idée reçue selon laquelle Wikipédia serait la référence absolue, et révèlent une information bien plus utile pour toute marque soucieuse de sa visibilité sur les marchés internationaux grâce à l'IA : les grands modèles de langage (LLM) recherchent activement des sources faisant autorité et traduites dans la langue locale. Lorsqu'ils en trouvent, ils les citent. Dans le cas contraire, ils se rabattent sur l'anglais.
Nous avons analysé la manière dont Claude Haiku 4.5, Gemini 3.1 Flash et GPT 5.4 Mini citent leurs sources à travers 750 requêtes.
Les requêtes ont été élaborées à partir de 15 pages Wikipédia par combinaison linguistique : sujets en anglais uniquement, français-anglais, espagnol-anglais et japonais-anglais. Cinq requêtes ont été générées par page, puis les requêtes en anglais uniquement ont été traduites dans les trois langues cibles afin de tester comment le comportement de citation évolue lorsque la même question est posée dans une autre langue. Cela a donné prompts 750 prompts , qui ont chacune été traitées par les trois modèles, ce qui nous a fourni 2 250 réponses individuelles à analyser.
Chaque prompt demandait prompt au modèle de fournir les URL des sources citées et d'indiquer lorsqu'il répondait en s'appuyant sur ses propres connaissances. Les réponses du modèle ont ensuite été comparées au domaine Wikipédia correspondant (en anglais ou dans la langue cible) afin de déterminer à quelle fréquence Wikipédia était cité et quels autres domaines apparaissaient à sa place.
Remarque : lors des premiers tests, Claude répondait aux requêtes en anglais en s'appuyant sur ses propres données d'entraînement, sans indiquer ses sources. Les prompts modifiées afin d'exiger explicitement des références pour tous les modèles. Même après cette modification, Claude a continué à signaler des réponses issues de ses « connaissances propres » à un taux anormalement élevé sur les sujets traitant exclusivement de l'anglais, ce dont nous parlerons plus loin.
Nous pensions au départ que Wikipédia allait l'emporter, mais les données ont clairement démontré le contraire.
Dans la plupart des domaines étudiés, l'Encyclopaedia Britannica a été le site le plus cité, avec un total de 1 164 citations sur l'ensemble des trois modèles. Wikipédia en anglais arrive en deuxième position avec 433 citations au total, soit un peu moins d'un tiers de celles de l'Encyclopaedia Britannica.
La seule catégorie dans laquelle Wikipédia s'est imposée concernait des sujets de niche très spécifiques, exclusivement en anglais, où elle a devancé toutes les autres sources. Partout ailleurs, c'est Britannica qui a dominé.

La stratégie de domaine centralisé de Britannica porte ici ses fruits. Contrairement à Wikipédia, qui répartit son contenu entre des sous-domaines spécifiques à chaque langue (fr.wikipedia.org, es.wikipedia.org, ja.wikipedia.org), Britannica concentre la quasi-totalité de son contenu sur britannica.com et propose principalement des pages en anglais. Ce domaine unique, doté d'une grande autorité, accumule le capital de liens, le poids des citations et les signaux de confiance de l'IA que le modèle distribué de Wikipédia risque, de par sa conception même, de fragmenter.
D'après ces résultats, la concentration de l'autorité de domaine semble jouer un rôle tout aussi déterminant dans le contexte des citations générées par l'IA que dans celui de la recherche traditionnelle. Si votre contenu est hébergé sur un seul domaine puissant, il a plus de chances d'apparaître dans les résultats que s'il est réparti sur plusieurs domaines plus modestes.
Si l'approche exclusivement anglophone de Britannica est couronnée de succès, elle s'essouffle considérablement dans les autres langues.
Lorsque les mêmes sujets localisés en français ont été recherchés en anglais plutôt qu'en français, le nombre de citations de Britannica a chuté de 55 %. En espagnol, la baisse a été de 23 %. En japonais, où la distance linguistique et culturelle par rapport à l'anglais est la plus grande, les citations ont chuté de 80 %. Donc oui, leur stratégie fonctionne à merveille en anglais, mais s'arrête là.
Britannica continue de tirer parti de son immense autorité de domaine. Même pour les requêtes en français et en espagnol formulées dans la langue locale, elle est restée le domaine le plus cité dans l'ensemble. Mais ce recul montre que les contenus exclusivement en anglais atteignent rapidement leurs limites dès lors que les utilisateurs commencent à poser des questions dans leur propre langue. Cette même source faisant autorité perd plus de la moitié de sa visibilité en français, et les quatre cinquièmes en japonais, car le contenu n'est pas disponible dans la langue locale.
Cela explique clairement pourquoi le contenu traduit n'est plus une option dans le cadre de la recherche assistée par l'IA. Les sources exclusivement en anglais ne disparaissent pas complètement des résultats en langues étrangères ; elles sont systématiquement reléguées au second plan au profit d'alternatives locales, et l'écart est suffisamment important pour constituer un véritable coût en termes de visibilité. C'est tout à fait logique : les utilisateurs préfèrent de loin lire du contenu conçu sur mesure pour eux (ce qui est justement l'intérêt de la localisation).
Il y a là aussi un problème au niveau du modèle. L'efficacité de Britannica pour les requêtes en langues étrangères repose presque entièrement sur le fait que GPT et Claude continuent de proposer des sources en anglais. Gemini, quant à lui, évite systématiquement les sites en anglais dans les requêtes en langues étrangères, se tournant plutôt vers des sites locaux comme larousse.fr (32 citations en français).
Pour les sujets qui n'existent que sur Wikipédia en anglais et pour lesquels il n'existe pas d'équivalent traduit, les modèles devaient faire un choix : refuser de répondre, se rabattre sur leurs propres connaissances ou rediriger les utilisateurs vers la page en anglais, quelle que soit la langue de la requête (ou via une page de transition).
Les trois modèles ont choisi de combler ce fossé. Ils citent Wikipédia en anglais à des taux étonnamment stables : GPT affiche une moyenne de 48,3 %, Claude de 26,8 % et Gemini de 19,8 %. Ce qui va à l'encontre de l'intuition, c'est que les requêtes en anglais n'ont jamais généré le taux de citation de Wikipédia le plus élevé.

Le GPT a atteint un pic de 49,3 % en espagnol et en japonais. Gemini a atteint 23,3 % en français (contre 16 % en anglais). Claude a atteint 34,7 % en espagnol.
L'explication la plus plausible tient à la densité de la concurrence : lorsque vous effectuez une recherche en anglais sur un sujet de niche, le modèle dispose d'un immense réservoir de contenu web en anglais dans lequel puiser, et les références sont réparties entre de nombreuses sources. Lorsque vous effectuez une recherche dans une langue étrangère sur ce même sujet de niche, le modèle ne dispose d'aucune référence locale sur laquelle s'appuyer ; il renvoie donc directement à la page Wikipédia en anglais. Plus le réservoir de sources alternatives est restreint, plus Wikipédia devient une référence fiable.
Voici donc ce que toute marque présente sur des marchés étrangers doit savoir : le Web en langue étrangère est moins saturé, les mentions y sont plus concentrées, et le fait d'être la bonne source localisée confère un poids disproportionné (et avantageux).
Claude a affiché un comportement que GPT et Gemini n'ont pas adopté. Sur les 75 sujets exclusivement en anglais testés dans le cadre de requêtes en anglais, Claude a signalé 32 réponses (42,7 %) comme relevant de ses « connaissances propres » plutôt que de citer des sources. Lorsque ces mêmes sujets exclusivement en anglais ont fait l'objet de requêtes dans des langues étrangères, ce taux a fortement augmenté.
Nous avons quelques hypothèses : Claude serait peut-être plus prudent que ses concurrents en matière de citations fantaisistes, préférant signaler l'incertitude plutôt que d'inventer des sources. Il se peut qu'il dispose de mécanismes de protection internes plus rigoureux pour éviter de générer des résultats basés sur des citations sans fondement vérifiable. Ou bien il se peut qu'il ait un seuil plus bas pour se rabattre sur ses données d'entraînement lorsque les sources locales sont rares.
Quelle qu'en soit la raison, les données montrent que Claude est une source moins fiable pour les citations externes sur des sujets de niche exclusivement en anglais, en particulier lorsque les utilisateurs effectuent des recherches dans des langues autres que l'anglais. Si vous misiez spécifiquement sur la visibilité de Claude, cela pourrait vous amener à revoir votre stratégie.
Pour les sujets qui disposent de pages Wikipédia traduites, les modèles peuvent soit citer la version localisée (es.wikipedia.org pour une requête en espagnol), soit se rabattre par défaut sur l'anglais. Le choix qu'ils font varie considérablement d'un modèle à l'autre.
GPT est, de loin, le plus performant pour identifier et citer la version localisée de Wikipédia. Il le fait environ une fois sur quatre. Claude et Gemini, quant à eux, ne citent pratiquement jamais les pages Wikipédia locales, avec des taux à un chiffre.
Il convient toutefois de noter que Claude et Gemini ne négligent pas pour autant le contenu local. Au contraire, ils réorientent cette part de citations vers d'autres sources, notamment des sources institutionnelles locales. Ce qui montre que, lorsqu'il s'agit de fournir de l'information, le contenu local l'emporte toujours sur la concurrence.
On pourrait penser que lorsque les modèles d'IA répondent à des questions dans une langue locale, en particulier ceux qui ont été principalement entraînés sur des ensembles de données en anglais, ils se contentent de traduire les requêtes et de renvoyer les mêmes sources internationales. Or, d'après nos recherches, ils orientent en réalité leurs références vers des plateformes locales faisant autorité, souvent institutionnelles.
Le Louvre (louvre.fr) a été cité 39 fois. Le château de Versailles a été mentionné 29 fois. L'encyclopédie française Larousse a recueilli 66 citations et s'est imposée comme la principale source de Gemini pour les sujets liés à la France. Histoire-France en a recueilli 24.
Le musée du Prado (museodelprado.es) a été cité 24 fois. Le portail du patrimoine mondial de l'UNESCO a reçu 36 mentions. Cervantes Virtual (une bibliothèque numérique de littérature espagnole) en a reçu 26. Biografías y Vidas, une base de données biographique en espagnol, en a obtenu 24.
La Bibliothèque nationale de la Diète (ndl.go.jp) a été citée 45 fois. La NHK, la chaîne publique nationale japonaise, a été citée 40 fois. Le site officiel du Studio Ghibli a recueilli 37 citations sur des sujets pertinents. Kotobank, un agrégateur de références japonais, en a obtenu 22.
À titre de comparaison : le Met (metmuseum.org) a été mentionné 117 fois dans les requêtes en anglais. Le National Park Service (nps.gov) a été mentionné 34 fois. La Pennsylvania Game Commission (pgc.pa.gov) a été mentionnée 34 fois dans des sujets de niche traitant exclusivement de l'anglais.
La tendance est constante. Les modèles d'IA privilégient les sources institutionnelles issues de leur propre culture et de leur propre langue lorsqu'elles existent. Les musées, les bibliothèques, les chaînes de télévision publiques, les portails gouvernementaux et les encyclopédies de référence surpassent tous les marques mondiales et les concurrents exclusivement anglophones sur leurs marchés nationaux.
Lorsque l'on ventile les citations par TLD (.fr, .es, .jp par rapport aux domaines internationaux/en anglais), un modèle se démarque en privilégiant activement les domaines locaux.

Gemini attribue systématiquement la plus grande part de ses citations aux domaines de niveau supérieur locaux (TLD) dans toutes les langues testées. Ce comportement correspond à celui observé chez Britannica : c'est le modèle le plus enclin à délaisser les domaines de référence en anglais au profit d'alternatives localisées.
Cela revêt une importance opérationnelle pour les marques qui élaborent des stratégies de visibilité internationale en matière d'IA. Si votre priorité est d'assurer votre visibilité sur Gemini sur les marchés étrangers, disposer d'une version localisée de votre site sur le ccTLD approprié (ou avec des balises hreflang adéquates et un contenu traduit) s'avère plus efficace que d'être référencé par Britannica ou Wikipédia.
Voici les principaux enseignements de cette étude :
Wikipédia n'est pas le monolithe en matière de référencement que l'on croit (comme nous le croyions). La stratégie centralisée de Britannica surpasse celle, décentralisée, de Wikipédia dans la plupart des domaines, et les sources institutionnelles localisées surpassent les deux sur leurs marchés respectifs. Si votre stratégie de visibilité pour l'IA repose sur Wikipédia, c'est probablement que vous vous appuyez sur la mauvaise source.
Une stratégie de contenu exclusivement en anglais a un coût mesurable en termes de visibilité auprès des IA sur les marchés étrangers. La baisse de 55 % enregistrée par Britannica en français et celle de 80 % en japonais ne sont pas des cas isolés. Elles illustrent parfaitement ce qui arrive à toute organisation qui ne traduit pas son contenu : lorsque les utilisateurs effectuent une recherche dans leur propre langue, l'IA privilégie d'abord les sources en langue maternelle, et les alternatives en anglais ne comblent le vide que lorsqu'il n'existe aucune ressource locale.
Le contenu local est largement récompensé. Le Web en langues étrangères étant moins saturé, le fait d'être la bonne source localisée confère un poids bien plus important en termes de citations que le fait d'être la même source en anglais. Le Met reçoit 117 citations dans les thèmes en anglais ; le Louvre en reçoit 39 en français. Le volume brut semble plus faible, mais la part des places de citation disponibles en français est bien plus élevée, et la concurrence y est moins forte.
La traduction est désormais un enjeu de visibilité lié à l'IA, et non plus seulement une question de localisation. Les modèles d'IA recherchent activement des plateformes de grande autorité, dont les contenus sont traduits dans la langue locale, afin de s'en servir comme principales sources de référencement sur les marchés locaux. Les marques qui traduisent leurs contenus dans les langues de leurs publics cibles se positionnent pour obtenir des références que leurs concurrents, qui ne proposent que des contenus en anglais, ne peuvent tout simplement pas obtenir. SEO multilingue bonnes pratiques, la mise en place de balises hreflang, les URL spécifiques à chaque langue, les métadonnées traduites: tout cela s'additionne.
La plupart des outils de veille sur l'IA disponibles sur le marché ne prennent en compte que les requêtes en anglais, ce qui, comme nous l'avons vu, ne représente qu'une petite partie du tableau. Vous souhaiteriez sans doute suivre la manière dont votre marque est mentionnée dans différentes langues – et heureusement, c'est possible avec Weglot .
Le comportement des modèles n'est pas uniforme. GPT établit le plus de liens vers Wikipédia en anglais. Claude se montre le plus prudent en matière de mise en avant de citations sur des sujets de niche exclusivement en anglais. Gemini recherche le plus activement les domaines avec des TLD locaux. Si vous optimisez votre stratégie pour un modèle, celle-ci sera différente de celle que vous adopteriez pour un autre.
Le message général est que la visibilité de l'IA sur les marchés internationaux repose sur les mêmes fondements qui ont toujours soutenu une forte visibilité organique : un contenu faisant autorité, correctement localisé, hébergé sur un domaine auquel les utilisateurs et les robots d'indexation peuvent faire confiance. Le système récompense simplement cela plus fortement aujourd'hui, et sanctionne d'autant plus sévèrement son absence.
En résumé, cette étude peut se résumer ainsi : traduisez votre site et soyez présent là où se trouvent vos audiences internationales. Même si l'intelligence artificielle a profondément bouleversé les habitudes de recherche et de consommation, parler la langue de vos clients – et maîtriser la manière dont vous vous adressez à eux, plutôt que de s'en remettre à des extensions de navigateur – reste un moyen simple et durable de les atteindre.
Prêt à vous lancer ? Traduisez votre site avec Weglot, gratuitement pendant 14 jours.
La meilleure façon de comprendre la puissance de Weglot de le tester par vous-même. Essayez-le gratuitement et sans engagement.
Un site web de démonstration est disponible dans votre tableau de bord si vous n'êtes pas encore prêt à connecter votre site web.