
Jest to kolejne badanie z naszej serii poświęconej analizie zachowań sztucznej inteligencji na rynkach wielojęzycznych.
Od bardzo dawna, ku wielkiemu niezadowoleniu środowiska akademickiego (czy ktoś wciąż słyszy w głowie echo słów „NIE KORZYSTAĆ Z WIKIPEDII”?), Wikipedia jest traktowana jako domyślne źródło wiedzy. Jest otwarta, uporządkowana, a co więcej – wielojęzyczna i stale aktualizowana. Co w teorii sprawia, że jest idealnym kandydatem do cytowania w dużych modelach językowych (LLM).
Właśnie dlatego, obok serwisu Reddit, jest to jedno z najbardziej wpływowych źródeł informacji na temat modeli językowych (LLM). Jednak ze względu na crowdsourcingowy charakter Wikipedii istnieje ryzyko, że pojawią się w niej negatywne lub nieaktualne informacje, które mogą następnie trafić do wyników wyszukiwania opartych na sztucznej inteligencji.
Nie dziwi więc powszechne przekonanie, że to właśnie Wikipedia ukształtowała branżę GEO. Należy dostosować treści do tematów poruszanych w Wikipedii i dążyć do tego, by być cytowanym tam, gdzie cytuje się Wikipedię.
Jednak nasze dane pokazują coś zupełnie innego.
Wiemy już, że brak tłumaczenia strony internetowej oznacza, że jesteś niewidoczny. Ale czy posiadanie firmowej strony w Wikipedii może zmienić sytuację na twoją korzyść?
Zbadaliśmy, jak często trzy wiodące modele sztucznej inteligencji powołują się na Wikipedię, w jakich językach to robią oraz na jakie inne źródła się odwołują. Wyniki podważają powszechne przekonanie, że Wikipedia jest niekwestionowanym liderem, i ujawniają coś znacznie bardziej przydatnego dla każdej marki rozważającej wykorzystanie sztucznej inteligencji w celu zwiększenia widoczności na rynkach międzynarodowych: duże modele językowe (LLM) aktywnie poszukują renomowanych źródeł w oryginalnych tłumaczeniach. Gdy je znajdują, powołują się na nie. Gdy ich nie ma, sięgają po angielski.
Przeanalizowaliśmy, w jaki sposób modele Claude Haiku 4.5, Gemini 3.1 Flash i GPT 5.4 Mini podają źródła w 750 zapytaniach.
Zapytania zostały skompilowane na podstawie 15 stron Wikipedii dla każdej kombinacji językowej: tematy wyłącznie w języku angielskim, francusko-angielskie, hiszpańsko-angielskie oraz japońsko-angielskie. Na każdą stronę wygenerowano pięć zapytań, a następnie zapytania wyłącznie w języku angielskim przetłumaczono na trzy języki docelowe, aby sprawdzić, jak zmienia się sposób cytowania, gdy to samo pytanie zadaje się w innym języku. Dało to łącznie 750 zapytań, z których każde przetestowano na wszystkich trzech modelach, co dało nam 2250 indywidualnych odpowiedzi modeli do analizy.
W każdym poleceniu wyraźnie proszono model o podanie adresów URL cytowanych źródeł oraz o zaznaczenie, gdy odpowiadał na podstawie własnej wiedzy. Odpowiedzi modelu porównywano następnie z odpowiednią wersją Wikipedii (angielską lub w języku docelowym), aby sprawdzić, jak często cytowano samą Wikipedię oraz jakie inne źródła pojawiały się zamiast niej.
Uwaga: podczas wczesnych testów Claude odpowiadał na pytania w języku angielskim na podstawie własnych danych szkoleniowych, nie podając źródeł. Prompty zostały zmodyfikowane tak, aby wyraźnie wymagały podawania źródeł we wszystkich modelach. Nawet po tej zmianie Claude nadal niezwykle często oznaczał odpowiedzi jako pochodzące z „własnej wiedzy” w przypadku tematów dotyczących wyłącznie języka angielskiego, do czego jeszcze wrócimy.
Zaczynaliśmy z założeniem, że Wikipedia zajmie pierwsze miejsce, ale dane jednoznacznie wskazywały na coś zupełnie innego.
W większości badanych tematów Encyclopaedia Britannica była najczęściej cytowaną stroną internetową, z łączną liczbą 1164 cytowań we wszystkich trzech modelach. Angielska Wikipedia zajęła drugie miejsce z 433 cytowaniami ogółem – co stanowi zaledwie jedną trzecią liczby cytowań Encyclopaedia Britannica.
Jedynym obszarem, w którym Wikipedia odniosła sukces, były bardzo wąskie, niszowe tematy dostępne wyłącznie w języku angielskim, gdzie wyprzedziła wszystkie inne źródła. We wszystkich pozostałych przypadkach dominowała Britannica.

Skuteczność tej strategii wynika z centralnej struktury domeny serwisu Britannica. W przeciwieństwie do Wikipedii, która rozdziela treści na poddomeny poświęcone poszczególnym językom (fr.wikipedia.org, es.wikipedia.org, ja.wikipedia.org), Britannica skupia niemal całość swoich treści na domenie britannica.com i udostępnia głównie strony w języku angielskim. Ta pojedyncza domena o wysokim autorytecie gromadzi wartość linków, wagę cytowań oraz sygnały zaufania generowane przez sztuczną inteligencję, które w rozproszonym modelu Wikipedii mogą ulegać fragmentacji już z samej natury tego rozwiązania.
W świetle tych ustaleń wydaje się, że koncentracja autorytetu domeny ma w kontekście cytowań generowanych przez sztuczną inteligencję taki sam wpływ, jak w przypadku tradycyjnych wyszukiwarek. Jeśli Twoje treści znajdują się w jednej silnej domenie, istnieje większe prawdopodobieństwo, że zostaną wyświetlone, niż gdyby były rozproszone po wielu mniejszych domenach.
Podejście Britanniki, polegające na skupieniu się wyłącznie na języku angielskim, choć skuteczne, w przypadku innych języków wypada znacznie gorzej.
Gdy te same tematy, zlokalizowane na rynek francuski, zostały wyszukane w języku angielskim w porównaniu z francuskim, liczba cytowań w Britannice spadła aż o 55%. W przypadku języka hiszpańskiego spadek wyniósł 23%. W języku japońskim, gdzie różnice językowe i kulturowe w stosunku do angielskiego są największe, liczba cytowań spadła o 80%. Tak więc, ich strategia działa znakomicie w języku angielskim, ale na tym się kończy.
Britannica nadal czerpie korzyści ze swojej ogromnej autorytatywności jako witryny. Nawet w przypadku zapytań dotyczących tematów francuskich i hiszpańskich, formułowanych w lokalnym języku, pozostała ona ogólnie najczęściej cytowaną witryną. Jednak spadek ten pokazuje, że treści dostępne wyłącznie w języku angielskim napotykają na poważną barierę, gdy użytkownicy zaczynają zadawać pytania w swoim własnym języku. To samo autorytatywne źródło traci ponad połowę swojej widoczności w języku francuskim i cztery piąte w języku japońskim, ponieważ treści nie są dostępne w oryginalnej wersji językowej.
To stanowi niezbity dowód na to, że tłumaczenie treści nie jest już opcjonalne w wyszukiwaniu opartym na sztucznej inteligencji. Źródła dostępne wyłącznie w języku angielskim nie znikają całkowicie z wyników wyszukiwania w językach obcych; są one jednak systematycznie spychane na dalszy plan na rzecz lokalnych alternatyw, a różnica jest na tyle duża, że przekłada się na realny spadek widoczności. Ma to sens – użytkownicy zdecydowanie wolą czytać treści dostosowane specjalnie do ich potrzeb (a właśnie o to chodzi w lokalizacji).
W tym przypadku pojawia się również pewna komplikacja na poziomie modelu. Skuteczność Britanniki w przypadku zapytań w językach obcych zależy niemal wyłącznie od tego, czy GPT i Claude będą nadal wyświetlać źródła anglojęzyczne. Gemini aktywnie unika angielskich stron w zapytaniach dotyczących innych języków, kierując użytkowników zamiast tego do lokalnych witryn, takich jak larousse.fr (32 cytaty w języku francuskim).
W przypadku podzbioru haseł, które istnieją wyłącznie w angielskiej Wikipedii i nie mają tłumaczenia, modele musiały podjąć decyzję: odmówić udzielenia odpowiedzi, oprzeć się na własnej wiedzy lub przekierować użytkowników na stronę angielską niezależnie od języka zapytania (lub zastosować metodę pomostową).
Wszystkie trzy modele postanowiły wypełnić tę lukę. Cytują angielską Wikipedię w zaskakująco stałym stopniu: GPT średnio w 48,3%, Claude w 26,8%, a Gemini w 19,8%. Zaskakujące jest to, że zapytania w języku angielskim nigdy nie dały najwyższego odsetka cytowań z Wikipedii.

W przypadku języka hiszpańskiego i japońskiego GPT osiągnęło najwyższy wynik na poziomie 49,3%. Gemini osiągnęło wynik 23,3% w języku francuskim (w porównaniu z 16% w języku angielskim). Claude osiągnęło wynik 34,7% w języku hiszpańskim.
Najbardziej prawdopodobnym wyjaśnieniem jest gęstość konkurencji: gdy wpisujesz zapytanie w języku angielskim dotyczące niszowego tematu, model ma do dyspozycji ogromną bazę treści internetowych w języku angielskim, a źródła są rozłożone na wiele stron. Gdy wpisujesz zapytanie w języku obcym dotyczące tego samego niszowego tematu, model nie ma do dyspozycji żadnego lokalnego źródła, na którym mógłby się oprzeć, więc odsyła bezpośrednio do angielskiej strony Wikipedii. Im węższa jest baza alternatywnych źródeł, tym bardziej wiarygodnym źródłem staje się Wikipedia.
Oto, co powinna wiedzieć każda marka działająca na rynkach obcojęzycznych: obcojęzyczna sieć jest mniej nasycona, wzmianki są bardziej skoncentrowane, a bycie odpowiednim, zlokalizowanym źródłem informacji ma nieproporcjonalnie duże (i korzystne) znaczenie.
Claude wykazał zachowanie, którego nie zaobserwowano w przypadku GPT i Gemini. W przypadku 75 tematów dotyczących wyłącznie języka angielskiego, które zostały przetestowane w zapytaniach angielskojęzycznych, Claude oznaczył 32 odpowiedzi (42,7%) jako „własną wiedzę”, zamiast podawać źródła. Gdy te same tematy dotyczące wyłącznie języka angielskiego zostały zapytane w językach obcych, odsetek ten gwałtownie wzrósł.
Mamy kilka hipotez: Claude może podchodzić bardziej ostrożnie do generowania cytatów niż inne systemy tego typu, woląc wskazywać na brak pewności niż wymyślać źródła. Być może posiada silniejsze wewnętrzne zabezpieczenia przed generowaniem wyników opartych na cytatach bez weryfikowalnego uzasadnienia. A może po prostu szybciej sięga do danych szkoleniowych, gdy lokalnych źródeł jest niewiele.
Niezależnie od przyczyny, dane wskazują, że Claude jest mniej wiarygodnym źródłem odnośników zewnętrznych w niszowych tematach dotyczących wyłącznie języka angielskiego, zwłaszcza gdy użytkownicy wpisują zapytania w językach innych niż angielski. Jeśli dotychczas stawiałeś właśnie na widoczność w Claude, może to skłonić cię do zmiany strategii.
W przypadku tematów, dla których istnieją przetłumaczone strony Wikipedii, modele mogą albo powoływać się na wersję w danym języku (np. es.wikipedia.org w przypadku zapytania w języku hiszpańskim), albo domyślnie korzystać z wersji angielskiej. Wybór ten różni się znacznie w zależności od modelu.
GPT zdecydowanie najlepiej radzi sobie z rozpoznawaniem i cytowaniem zlokalizowanych wersji Wikipedii. Robi to mniej więcej w jednej czwartej przypadków. Claude i Gemini praktycznie w ogóle nie cytują lokalnych stron Wikipedii – odsetek ten wynosi zaledwie kilka procent.
Warto jednak zauważyć, że Claude i Gemini nie pomijają treści lokalnych. Przekierowują one po prostu część tych odnośników gdzie indziej – do lokalnych źródeł instytucjonalnych. Świadczy to o tym, że w kwestii dostarczania informacji lokalne treści zawsze wygrywają z konkurencją.
Można by pomyśleć, że gdy modele sztucznej inteligencji odpowiadają na pytania w języku ojczystym – zwłaszcza te, które w znacznej mierze zostały wytrenowane na angielskich zbiorach danych – po prostu tłumaczą zapytania i odsyłają do tych samych globalnych źródeł. Jednak z naszych badań wynika, że zamiast tego kierują swoje odniesienia ku lokalnym platformom o wysokim autorytecie, często o charakterze instytucjonalnym.
Luwr (louvre.fr) został wymieniony 39 razy. Pałac Wersalski pojawił się 29 razy. Francuska encyklopedia Larousse zebrała 66 wzmianek i stała się najczęściej cytowanym źródłem w serwisie Gemini w zakresie tematów związanych z Francją. Serwis Histoire-France zgromadził 24 wzmianki.
Muzeum Prado (museodelprado.es) zostało wymienione 24 razy. Portal Światowego Dziedzictwa UNESCO odnotował 36 wzmianek. Cervantes Virtual (cyfrowa biblioteka literatury hiszpańskiej) otrzymała 26 wzmianek. Biografías y Vidas, hiszpańskojęzyczna baza danych biograficznych, uzyskała 24 wzmianki.
Biblioteka Sejmowa (ndl.go.jp) została wymieniona 45 razy. NHK, japoński publiczny nadawca, pojawił się 40 razy. Oficjalna strona internetowa studia Ghibli zgromadziła 37 wzmianek dotyczących powiązanych tematów. Kotobank, japoński serwis agregujący informacje, uzyskał 22 wzmianki.
Dla porównania: strona Met (metmuseum.org) pojawiła się 117 razy w zapytaniach w języku angielskim. Strona National Park Service (nps.gov) pojawiła się 34 razy. Strona Pennsylvania Game Commission (pgc.pa.gov) pojawiła się 34 razy w niszowych tematach dotyczących wyłącznie języka angielskiego.
Widać tu wyraźną tendencję. Modele sztucznej inteligencji preferują lokalne źródła instytucjonalne – zarówno pod względem kulturowym, jak i językowym – o ile takie istnieją. Muzea, biblioteki, nadawcy publiczni, portale rządowe i encyklopedie referencyjne osiągają na swoich rodzimych rynkach lepsze wyniki niż globalne marki i konkurenci oferujący treści wyłącznie w języku angielskim.
Gdy przeanalizuje się źródła pod kątem domen najwyższego poziomu (.fr, .es, .jp w porównaniu z domenami globalnymi/anglojęzycznymi), jeden model wyraźnie wyróżnia się tym, że aktywnie preferuje domeny lokalne.

W każdym z badanych języków Gemini konsekwentnie przypisuje największą część swoich odnośników domenom z lokalnymi rozszerzeniami najwyższego poziomu. Jest to zgodne z zachowaniem Gemini również w przypadku serwisu Britannica: jest to model, który najchętniej pomija angielskie domeny autorytatywne na rzecz ich zlokalizowanych odpowiedników.
Ma to znaczenie z operacyjnego punktu widzenia dla marek opracowujących międzynarodowe strategie budowania widoczności w wyszukiwarkach. Jeśli Twoim priorytetem jest widoczność w wyszukiwarce Gemini na rynkach zagranicznych, posiadanie zlokalizowanej wersji witryny w odpowiedniej domenie krajowej (lub z odpowiednimi sygnałami hreflang i przetłumaczonymi treściami) przyniesie większe korzyści niż pojawienie się w Britannice czy Wikipedii.
Oto najważniejsze wnioski płynące z badania:
Wikipedia nie jest tym monolitycznym źródłem informacji, za jakie ją uważają ludzie (tak jak my). Scentralizowana strategia Britanniki przewyższa rozproszoną strategię Wikipedii w przypadku większości tematów, a lokalne źródła instytucjonalne przewyższają obie te platformy na swoich rodzimych rynkach. Jeśli Twoja strategia widoczności w AI opiera się na Wikipedii, prawdopodobnie opierasz się na niewłaściwym źródle.
Strategia oparta wyłącznie na treściach w języku angielskim wiąże się z wymiernymi kosztami w zakresie widoczności w wynikach wyszukiwania opartych na sztucznej inteligencji na rynkach zagranicznych. Spadek o 55% w języku francuskim i o 80% w języku japońskim odnotowany przez Britannicę nie są przypadkami odosobnionymi. Stanowią one wyraźny przykład tego, co spotyka każdą organizację, która nie tłumaczy swoich treści: gdy użytkownicy wpisują zapytania w swoim języku, sztuczna inteligencja najpierw szuka źródeł w języku ojczystym, a angielskie alternatywy wypełniają tę lukę tylko wtedy, gdy nie ma żadnych lokalnych treści.
Treści lokalne są bardzo wysoko oceniane. Ponieważ internet w językach obcych jest mniej nasycony, odpowiednio zlokalizowane źródło ma znacznie większą wagę cytowań niż to samo źródło w języku angielskim. Muzeum Met otrzymuje 117 cytowań w tematach anglojęzycznych, a Luwr – 39 w tematach francuskojęzycznych. Chociaż sama liczba wydaje się mniejsza, odsetek dostępnych miejsc na cytowania w języku francuskim jest znacznie wyższy, a konkurencja mniejsza.
Tłumaczenie stało się obecnie kwestią widoczności w kontekście sztucznej inteligencji, a nie tylko lokalizacji. Modele AI aktywnie poszukują renomowanych platform z treściami przetłumaczonymi na języki lokalne, które posłużą im jako główne źródła cytowań na rynkach lokalnych. Marki, które tłumaczą swoje treści na języki docelowych odbiorców, zyskują przewagę w postaci cytowań, których konkurenci posługujący się wyłącznie językiem angielskim po prostu nie są w stanie uzyskać. Najlepsze praktyki w zakresie wielojęzycznego SEO, wdrożenie atrybutu hreflang, adresy URL dostosowane do poszczególnych języków oraz przetłumaczone metadane – wszystko to ma znaczenie.
Większość dostępnych narzędzi do monitorowania obecności w sieci opiera się wyłącznie na zapytaniach w języku angielskim, co – jak widzieliśmy – stanowi jedynie niewielką część całości. Z pewnością chcesz śledzić, jak mówi się o Twojej marce w różnych językach – na szczęście dzięki Weglot jest to możliwe.
Zachowanie poszczególnych modeli nie jest jednolite. GPT najaktywniej przekierowuje do angielskiej Wikipedii. Claude wykazuje największą ostrożność w wyświetlaniu cytatów dotyczących niszowych tematów dostępnych wyłącznie w języku angielskim. Gemini najintensywniej wyszukuje domeny z lokalnymi rozszerzeniami. Jeśli optymalizujesz pod kątem jednego modelu, Twoja strategia będzie wyglądać inaczej niż w przypadku optymalizacji pod kątem innego modelu.
Ogólny sygnał jest taki, że widoczność treści dotyczących sztucznej inteligencji na rynkach międzynarodowych opiera się na tych samych fundamentach, które od zawsze stanowiły podstawę silnej widoczności organicznej: autorytatywne treści, odpowiednio zlokalizowane i udostępniane z domeny, której mogą zaufać zarówno użytkownicy, jak i roboty indeksujące. Mechanizm ten po prostu obecnie bardziej docenia takie działania, a jednocześnie surowiej karze za ich brak.
Całe to badanie można w skrócie ująć w następujący sposób: przetłumacz swoją stronę i bądź widoczny tam, gdzie przebywają Twoi zagraniczni odbiorcy. Chociaż sztuczna inteligencja radykalnie zmieniła nawyki związane z wyszukiwaniem i korzystaniem z treści, posługiwanie się językiem klientów – oraz samodzielne decydowanie o tym, w jaki sposób się do nich zwracasz, zamiast pozostawiać to rozszerzeniom przeglądarki – to prosty, a jednocześnie skuteczny sposób na dotarcie do nich.
Chcesz zacząć? Przetłumacz swoją stronę za pomocą Weglot – przez 14 dni za darmo.
Najlepszym sposobem, aby zrozumieć potęgę Weglot wypróbowanie go samodzielnie. Wypróbuj go za darmo i bez żadnych zobowiązań.
Jeśli nie jesteś jeszcze gotowy, aby połączyć swoją stronę internetową, w panelu administracyjnym dostępna jest strona demonstracyjna.