
Toto je nová studie z naší série zaměřené na zkoumání chování umělé inteligence na vícejazyčných trzích.
Už velmi dlouhou dobu, a to k velkému zděšení akademických pracovníků (slyší snad ještě někdo v hlavě znít varování „NEPOUŽÍVEJTE WIKIPEDIU“?), je Wikipedie považována za standardní zdroj informací. Je otevřená, přehledně uspořádaná a co víc – vícejazyčná a neustále aktualizovaná. To z ní na papíře činí ideální zdroj pro citace v rámci velkých jazykových modelů (LLM).
Proto je spolu s Redditem jedním z nejvlivnějších zdrojů informací o velkých jazykových modelech (LLM). Vzhledem k tomu, že se však jedná o projekt založený na příspěvcích uživatelů, může se do Wikipedie dostat i negativní nebo zastaralá informace, která se následně může objevit i ve výsledcích vyhledávání založených na umělé inteligenci.
Není tedy žádným překvapením, že se obecně má za to, že Wikipedie formovala prostředí GEO. Optimalizujte obsah podle toho, čemu se Wikipedie věnuje, a zajistěte si odkazy tam, kde se odkazuje na Wikipedii.
Naše data však vypovídají o něčem jiném.
Víme už, že pokud svůj web nepřeložíte, jste jako by neexistovali. Změní ale situace ve váš prospěch, když má vaše firma stránku na Wikipedii?
Zkoumali jsme, jak často tři přední modely umělé inteligence citují Wikipedii, v jakých jazycích a co místo ní citují. Výsledky zpochybňují zažitý názor, že Wikipedia je králem, a odhalují něco užitečnějšího pro každou značku, která uvažuje o viditelnosti díky umělé inteligenci na mezinárodních trzích: velké jazykové modely (LLM) aktivně vyhledávají renomované zdroje přeložené do původního jazyka. Pokud je najdou, citují je. Pokud ne, uchýlí se k angličtině.
Analyzovali jsme, jak systémy Claude Haiku 4.5, Gemini 3.1 Flash a GPT 5.4 Mini uvádějí zdroje v rámci 750 dotazů.
Dotazy byly sestaveny z 15 stránek Wikipedie pro každou jazykovou kombinaci: témata pouze v angličtině, francouzština–angličtina, španělština–angličtina a japonština–angličtina. Na každou stránku bylo vygenerováno pět dotazů, poté byly dotazy pouze v angličtině přeloženy do tří cílových jazyků, aby se otestovalo, jak se mění chování citací, když je stejná otázka položena v jiném jazyce. Celkem tak vzniklo 750 podnětů, z nichž každý prošel všemi třemi modely, což nám poskytlo 2 250 individuálních odpovědí modelů k analýze.
V každém zadání bylo model výslovně požádáno, aby uvedl odkazy na citované zdroje a aby označil, kdy místo toho odpovídá na základě vlastních znalostí. Odpovědi modelu byly poté porovnány s příslušnou doménou Wikipedie (v angličtině nebo v cílovém jazyce), aby se zjistilo, jak často byla citována samotná Wikipedie a které domény se objevily místo ní.
Poznámka: V rané fázi testování Claude odpovídal na dotazy v angličtině na základě vlastních trénovacích dat, aniž by uváděl zdroje. Pokyny byly upraveny tak, aby výslovně vyžadovaly uvádění citací u všech modelů. I po této úpravě Claude nadále označoval odpovědi založené na „vlastních znalostech“ neobvykle často u témat výhradně v angličtině, k čemuž se ještě dostaneme.
Vycházeli jsme z toho, že Wikipedia vyjde jako vítěz, ale data jasně ukázala něco jiného.
Ve většině zkoumaných témat byla Encyclopaedia Britannica nejčastěji citovanou doménou, a to s celkovým počtem 1 164 citací ve všech třech modelech. Na druhém místě se umístila anglická Wikipedie se 433 citacemi – což představuje pouhou třetinu počtu citací Encyclopaedia Britannica.
Jedinou kategorií, v níž Wikipedie zvítězila, byla velmi specifická, výhradně anglicky psaná úzce specializovaná témata, kde předstihla všechny ostatní zdroje. Ve všech ostatních oblastech dominovala Britannica.

Zde se osvědčuje centralizovaná doménová strategie Britannicy. Na rozdíl od Wikipedie, která rozděluje obsah do jazykově specifických subdomén (fr.wikipedia.org, es.wikipedia.org, ja.wikipedia.org), soustřeďuje Britannica téměř veškerý svůj obsah na britannica.com a poskytuje především stránky v angličtině. Tato jediná doména s vysokou autoritou akumuluje hodnotu odkazů, váhu citací a signály důvěryhodnosti pro umělou inteligenci, které distribuovaný model Wikipedie svou povahou potenciálně roztříšťuje.
Na základě těchto zjištění se zdá, že v kontextu citací generovaných umělou inteligencí se autorita domény kumuluje stejným způsobem jako v tradičním vyhledávání. Pokud je váš obsah umístěn na jedné silné doméně, je pravděpodobnější, že se objeví ve výsledcích, než kdyby byl rozptýlen na mnoha menších doménách.
Přestože je přístup Britannicy zaměřený výhradně na angličtinu úspěšný, v jiných jazycích výrazně zaostává.
Když byly ty samé témata lokalizované do francouzštiny vyhledávány v angličtině a ve francouzštině, počet odkazů na Britannicu se propadl o 55 %. Ve španělštině činil pokles 23 %. V japonštině, kde je jazyková a kulturní vzdálenost od angličtiny největší, klesl počet odkazů o 80 %. Ano, jejich strategie v angličtině funguje skvěle, ale tím to končí.
Britannica stále těží ze své obrovské autority v dané doméně. I u témat ve francouzštině a španělštině, na která se uživatelé ptali v místním jazyce, zůstala celkově nejčastěji citovanou doménou. Tento propad však ukazuje, že obsah dostupný pouze v angličtině naráží na výraznou výkonnostní hranici, jakmile uživatelé začnou klást otázky ve svém vlastním jazyce. Stejný autoritativní zdroj ztratí více než polovinu své viditelnosti ve francouzštině a čtyři pětiny v japonštině, protože obsah není k dispozici v původním jazyce.
To jasně dokazuje, proč již překlad obsahu není v rámci vyhledávání s využitím umělé inteligence pouhou volbou. Zdroje pouze v angličtině sice ze zahraničních výsledků vyhledávání úplně nezmizí, ale jsou systematicky odsouvány na druhou kolej ve prospěch místních alternativ, přičemž tento rozdíl je natolik výrazný, že představuje reálnou ztrátu viditelnosti. Dává to smysl – uživatelé mnohem raději čtou obsah šitý na míru jejich potřebám (a právě o tom lokalizace je).
I zde se objevuje problém na úrovni modelu. Úspěšnost Britannicy při vyhledávání v cizích jazycích závisí téměř výhradně na tom, zda GPT a Claude budou i nadále vyhledávat anglické zdroje. Gemini se při vyhledávání v cizích jazycích aktivně vyhýbá anglickým doménám a místo toho se zaměřuje na místní weby, jako je například larousse.fr (32 citací ve francouzštině).
U podskupiny témat, která existují pouze na anglické Wikipedii a nemají žádný přeložený ekvivalent, musely modely učinit rozhodnutí: odmítnout odpověď, spolehnout se na vlastní znalosti nebo uživatele přesměrovat na anglickou stránku bez ohledu na jazyk dotazu (nebo pomocí překlenovacího řešení).
Všechny tři modely se rozhodly tuto mezeru překlenout. Odkazují na anglickou Wikipedii v překvapivě stabilním poměru: GPT v průměru 48,3 %, Claude 26,8 % a Gemini 19,8 %. Je však překvapivé, že dotazy v angličtině nikdy nevykazovaly nejvyšší míru odkazování na Wikipedii.

GPT dosáhl vrcholu 49,3 % ve španělštině a japonštině. Gemini dosáhl 23,3 % ve francouzštině (oproti 16 % v angličtině). Claude dosáhl 34,7 % ve španělštině.
Nejpravděpodobnějším vysvětlením je hustota konkurence: když zadáte dotaz v angličtině na nějaké úzce specializované téma, má model k dispozici obrovskou zásobu anglického webového obsahu, z níž může čerpat, a odkazy se tak rozdělí mezi mnoho zdrojů. Když však zadáte dotaz v cizím jazyce na totéž specializované téma, model nemá k dispozici žádné lokální autoritativní zdroje, na které by se mohl spolehnout, a proto odkazuje přímo na stránku anglické Wikipedie. Čím užší je výběr alternativních zdrojů, tím spolehlivějším zdrojem se stává Wikipedie.
Každá značka působící na cizojazyčných trzích by si tedy měla uvědomit následující: cizojazyčný internet je méně přesycený, odkazy jsou zde koncentrovanější a být tím správným lokalizovaným zdrojem má neúměrně velký (a výhodný) význam.
Claude se choval jinak než GPT a Gemini. U 75 témat, která byla testována pouze v angličtině, označil Claude 32 odpovědí (42,7 %) jako „vlastní znalosti“, místo aby uváděl zdroje. Když byla stejná témata zadána v cizích jazycích, tento podíl prudce vzrostl.
Máme několik teorií: Claude je možná při generování citací opatrnější než jiné systémy a raději upozorňuje na nejistotu, než aby si zdroje vymýšlel. Možná disponuje účinnějšími vnitřními kontrolními mechanismy, které zabraňují vytváření výstupů založených na citacích bez ověřitelných podkladů. Nebo má možná nastavenou nižší prahovou hodnotu pro to, kdy se v případě nedostatku lokálních zdrojů uchýlí k využití svých trénovacích dat.
Ať už je důvod jakýkoli, data ukazují, že Claude je méně spolehlivým zdrojem odkazů na specializovaná témata v angličtině, zejména pokud uživatelé zadávají dotazy v jiných jazycích než v angličtině. Pokud jste dosud sázeli právě na viditelnost v Claudovi, mohlo by to změnit vaši strategii.
U témat, k nimž existují přeložené stránky Wikipedie, mohou modely buď odkazovat na lokalizovanou verzi (např. es.wikipedia.org v případě dotazu ve španělštině), nebo se automaticky vrátit k angličtině. To, jakou volbu učiní, se u jednotlivých modelů výrazně liší.
GPT je s velkým náskokem nejspolehlivější v rozpoznávání a citování lokalizované verze Wikipedie. Činí tak přibližně v jedné čtvrtině případů. Claude a Gemini lokální stránky Wikipedie citují jen zřídka, jejich podíl se pohybuje v řádu jednotek procent.
Je však třeba poznamenat, že Claude a Gemini místní obsah nezanedbávají. Namísto toho tento podíl odkazů směrují jinam, a to k lokalizovaným institucionálním zdrojům. To dokazuje, že pokud jde o poskytování informací, místní zdroje vždy vítězí nad konkurencí.
Mohlo by se zdát, že když modely umělé inteligence odpovídají na dotazy v místním jazyce – zejména ty, které byly z velké části trénovány na anglických datových souborech –, jednoduše překládají dotazy a odkazují na tytéž globální zdroje. Naše výzkumy však ukazují, že ve skutečnosti upřednostňují odkazy na renomované místní platformy, často institucionální.
Louvre (louvre.fr) byl zmíněn 39krát. Zámek ve Versailles zaznamenal 29 zmínek. Francouzská encyklopedie Larousse nasbírala 66 zmínek a stala se nejčastějším zdrojem informací o francouzských tématech v databázi Gemini. Histoire-France jich zaznamenala 24.
Muzeum Prado (museodelprado.es) bylo zmíněno 24krát. Portál Světového dědictví UNESCO zaznamenal 36 zmínek. Cervantes Virtual (digitální knihovna španělské literatury) jich získala 26. Biografías y Vidas, španělská biografická databáze, jich získala 24.
Národní parlamentní knihovna (ndl.go.jp) zaznamenala 45 zmínek. NHK, japonská veřejnoprávní televizní stanice, byla zmíněna 40krát. Oficiální web studia Ghibli nasbíral 37 zmínek k daným tématům. Kotobank, japonský agregátor referenčních zdrojů, jich zaznamenal 22.
Pro srovnání: Met (metmuseum.org) byl v anglických vyhledávacích dotazech zmíněn 117krát. National Park Service (nps.gov) zaznamenal 34 zmínek. Pennsylvania Game Commission (pgc.pa.gov) byla zmíněna 34krát v rámci úzce specializovaných témat, která se týkají výhradně angličtiny.
Tento trend je patrný. Modely umělé inteligence upřednostňují institucionální zdroje, které jsou z kulturního i jazykového hlediska přirozené, pokud takové existují. Muzea, knihovny, veřejnoprávní vysílání, vládní portály a encyklopedie dosahují na svých domácích trzích lepších výsledků než globální značky a konkurenti, kteří komunikují výhradně v angličtině.
Při rozčlenění odkazů podle TLD (.fr, .es, .jp oproti globálním/anglickým doménám) vyniká jeden model tím, že aktivně upřednostňuje místní domény.

Gemini ve všech testovaných jazycích soustavně přiřazuje největší podíl svých odkazů doménám s lokálními TLD. To odpovídá chování Gemini i v případě Britannicy: jedná se o model, který nejčastěji upřednostňuje lokalizované alternativy před autoritativními doménami v angličtině.
Z provozního hlediska je to důležité pro značky, které budují strategie pro mezinárodní viditelnost v oblasti umělé inteligence. Pokud je vaší prioritou viditelnost v Gemini na zahraničních trzích, přinese vám lokalizovaná verze webu na příslušné národní doméně (nebo s odpovídajícími signály hreflang a přeloženým obsahem) větší užitek než zmínka v Britannice nebo Wikipedii.
Zde jsou nejdůležitější závěry této studie:
Wikipedie není tím monolitem v oblasti citací, za jaký ji lidé považují (stejně jako my). Centralizovaná strategie Britannicy ve většině témat předčí distribuovaný model Wikipedie a lokalizované institucionální zdroje na svých domácích trzích předčí oba. Pokud je vaše strategie zviditelnění v oblasti umělé inteligence založena na Wikipedii, pravděpodobně se opírá o nesprávný zdroj.
Strategie obsahu zaměřená výhradně na angličtinu má na zahraničních trzích měřitelné dopady na viditelnost v umělé inteligenci. Pokles o 55 % u francouzštiny a o 80 % u japonštiny, který zaznamenala Britannica, nejsou ojedinělé případy. Jedná se o jasný příklad toho, co se stane s každou organizací, která nepřekládá svůj obsah: když uživatelé zadávají dotazy ve svém rodném jazyce, umělá inteligence nejprve hledá zdroje v daném jazyce a anglické alternativy zaplňují mezeru pouze v případě, že neexistují žádné místní zdroje.
Místní obsah je výrazně upřednostňován. Jelikož jsou webové stránky v cizích jazycích méně nasycené, má správně lokalizovaný zdroj mnohem větší váhu z hlediska citací než stejný zdroj v angličtině. Met získává 117 citací v anglických tématech; Louvre jich získává 39 ve francouzštině. Čistý počet se zdá menší, ale podíl dostupných citací ve francouzštině je mnohem vyšší a konkurence je menší.
Překlad dnes není jen otázkou lokalizace, ale také viditelnosti v kontextu umělé inteligence. Modely umělé inteligence aktivně vyhledávají renomované platformy s nativními překlady, které jim slouží jako primární zdroje odkazů na lokálních trzích. Značky, které překládají svůj obsah do jazyků svých cílových skupin, si tak zajišťují odkazy, které konkurenti používající výhradně angličtinu doslova nemohou získat. Osvědčené postupy v oblasti vícejazyčného SEO, implementace atributu hreflang, jazykově specifické URL adresy i přeložená metadata – to vše se navzájem doplňuje.
Většina dostupných nástrojů pro sledování zmínek o značce v online prostředí zohledňuje pouze dotazy v angličtině, což, jak jsme viděli, představuje jen malou část celkového objemu. Určitě byste chtěli sledovat, jak se o vaší značce mluví v různých jazycích – a naštěstí je to s Weglot možné.
Chování jednotlivých modelů není jednotné. GPT nejčastěji odkazuje na anglickou Wikipedii. Claude je nejopatrnější při vyhledávání citací u specializovaných témat dostupných pouze v angličtině. Gemini se nejvíce zaměřuje na domény s lokálními TLD. Pokud optimalizujete pro jeden model, bude vaše strategie vypadat jinak, než kdybyste optimalizovali pro jiný.
Obecně lze říci, že viditelnost v oblasti umělé inteligence na mezinárodních trzích se opírá o stejné základy, které vždy podporovaly silnou organickou viditelnost: autoritativní obsah, správně lokalizovaný a poskytovaný z domény, které mohou uživatelé i vyhledávací roboty důvěřovat. Tento mechanismus to nyní pouze odměňuje výrazněji a stejně tak i přísněji trestá jeho absenci.
Celou tuto studii lze snadno shrnout takto: přeložte si svůj web a buďte vidět tam, kde se nachází vaše zahraniční publikum. I když umělá inteligence zásadně změnila návyky v oblasti vyhledávání a spotřeby, mluvit jazykem vašich zákazníků – a mít pod kontrolou, jak s nimi komunikujete, místo toho, abyste to nechali na rozšířeních prohlížeče – je jednoduchý, ale udržitelný způsob, jak je oslovit.
Jste připraveni začít? Přeložte si svůj web pomocí Weglot – 14 dní zdarma.
Nejlepší způsob, jak pochopit sílu Weglot vyzkoušet si ho na vlastní kůži. Vyzkoušejte ho zdarma a bez jakýchkoli závazků.
Pokud ještě nejste připraveni propojit svůj web, je k dispozici demo webová stránka ve vašem ovládacím panelu.