Od GPTBot do PerplexityBot: które AI boty odwiedzają Twój sklep i po co

Direct Answer

Jeśli chcesz chronić treści przed treningiem modeli, blokuj boty treningowe typu GPTBot, ClaudeBot, CCBot, Bytespider i Applebot-Extended. Jeśli chcesz być widoczny w odpowiedziach AI, nie blokuj odruchowo botów wyszukiwawczych i użytkownikowych, takich jak PerplexityBot, OAI-SearchBot, ChatGPT-User, Claude-User albo Applebot.

W praktyce sprawdź: User-Agent, IP, robots.txt, liczbę żądań i strony, które odwiedza bot.

Jeśli bot służy do treningu modeli, wybierz blokadę w robots.txt, bo nie daje bezpośredniej widoczności w wyszukiwarce AI. W praktyce sprawdź User-Agent, IP, robots.txt, liczbę żądań i strony, które odwiedza.

Klient pyta AI, a w logach robi się tłoczno

Właściciel sklepu widzi w logach GPTBot, PerplexityBot, ClaudeBot, Bytespider i nie wie, czy to szansa, czy problem. Ma rację, że się zatrzymuje. Każdy z tych botów może robić coś innego.

Jeden buduje indeks wyszukiwarki AI. Drugi pobiera stronę, bo użytkownik wkleił link do czatu. Trzeci zbiera dane, które mogą trafić do treningu modelu. Jeśli wrzucisz wszystkich do jednego worka i zablokujesz User-agent: *, możesz odciąć sobie widoczność tam, gdzie klienci zaczynają szukać produktów.

Ten poradnik jest dla właściciela małego sklepu, salonu lub firmy usługowej. Cel jest prosty: sprawdzić logi, podzielić boty według celu i podjąć decyzję bez paniki.

Dlaczego to ważne w 2026

AI Search działa inaczej niż klasyczne Google. ChatGPT, Perplexity, Gemini i Claude nie zawsze pokazują dziesięć niebieskich linków. Często budują odpowiedź z kilku źródeł i podają linki dopiero obok streszczenia.

OpenAI rozdziela role botów: OAI-SearchBot służy do widoczności w wyszukiwaniu ChatGPT, GPTBot dotyczy treningu modeli, a ChatGPT-User pojawia się przy akcjach użytkownika. Perplexity opisuje podobny podział: PerplexityBot buduje widoczność w wynikach, a Perplexity-User działa przy zapytaniach użytkownika. Anthropic również rozdziela ClaudeBot, Claude-User i Claude-SearchBot.

Dla firmy to zmienia decyzję. Pytanie "czy blokować AI?" jest za szerokie. Lepsze pytanie brzmi: "czy blokuję trening modeli, indeksowanie pod odpowiedzi AI, link preview, czy jednorazowe wejście użytkownika?"

Czym to różni się od starego robots.txt

Klasyczne SEO pytało: "czy Googlebot może wejść na stronę?" AI discovery pyta: "czy właściwy agent może odczytać właściwą część strony we właściwym celu?"

Przykład: możesz zablokować GPTBot, żeby ograniczyć użycie treści do treningu modeli OpenAI, a jednocześnie pozwolić OAI-SearchBot, żeby sklep mógł pojawić się w wynikach ChatGPT Search. To nie jest sprzeczność. To rozdzielenie treningu od widoczności.

Krok po kroku

Podziel boty na cztery grupy

Słabo

Zablokujemy wszystkie boty AI, bo kradną treści.

Lepiej

Blokujemy boty treningowe, zostawiamy boty wyszukiwawcze, a user-fetchery obserwujemy przez 14 dni.

Dla sklepu z butami PerplexityBot może mieć sens, bo może pomóc w cytowaniu poradnika "jak dobrać buty trekkingowe". Dla salonu kosmetycznego ważniejszy może być ChatGPT-User, bo klient wklei link do cennika i zapyta AI, który zabieg wybrać.

Grupa	Cel	Przykłady	Decyzja startowa
Trening modeli	Dane do modeli	`GPTBot`, `ClaudeBot`, `CCBot`, `Bytespider`	Blokuj lub ogranicz
AI Search	Widoczność w odpowiedziach	`PerplexityBot`, `OAI-SearchBot`, `Claude-SearchBot`	Raczej pozwól
User fetch	Wejście na prośbę użytkownika	`ChatGPT-User`, `Claude-User`, `Perplexity-User`	Pozwól, jeśli treść jest publiczna
Link preview i platformy	Podglądy, indeksy, metadane	`FacebookBot`, `Amazonbot`, `Applebot`	Nie blokuj bez sprawdzenia

Sprawdź, czy bot jest na Twojej liście
Słabo
W logach jest jakiś bot, więc pewnie jest z AI.
Lepiej
Porównuję User-Agent z listą 16 botów i dopisuję cel, operatora oraz decyzję.
W Audit AI trzymamy bazową listę 16 identyfikatorów: GPTBot, ClaudeBot, PerplexityBot, ChatGPT-User, Google-Extended, CCBot, Anthropic-AI, Claude-Web, Bytespider, Cohere-AI, Applebot-Extended, Amazonbot, Meta-ExternalAgent, FacebookBot, OmgiliBot, Diffbot.
To nie jest pełna lista internetu. To lista do pierwszej decyzji dla małego sklepu. Jeśli masz Shoper, WooCommerce albo PrestaShop, najpierw szukasz tych nazw w logach z ostatnich 7-14 dni.
03
Wejdź do logów hostingu, nie zgaduj z Analytics
Słabo
Nie widzę tego w Google Analytics, więc botów nie ma.
Lepiej
Pobieram access log z hostingu i szukam po User-Agent.
Boty zwykle nie wykonują JavaScriptu tak jak człowiek. Dlatego Analytics może ich nie pokazać. Sprawdź surowe logi serwera.
W hostingu szukaj miejsc o nazwie "Access logs", "Raw access", "Logi WWW" albo "Dzienniki serwera". W cPanelu zwykle są surowe logi. W DirectAdmin szukaj statystyk domeny i logów Apache/Nginx. W hostingu zarządzanym poproś support o wycinek logów dla domeny z ostatnich 7 dni.
access-log-search.sh
```
grep -Ei "GPTBot|ClaudeBot|PerplexityBot|Bytespider|CCBot|Applebot-Extended" access.log
```
Jedna linia logu zwykle pokaże datę, adres IP, ścieżkę, status HTTP i User-Agent. Dla sklepu z kosmetykami ważne jest, czy bot czyta blog, produkty, koszyk, konto klienta czy parametry filtrów.
04
Ustal domyślną politykę: widoczność tak, trening nie zawsze
Słabo
Wpuszczamy AI, bo to przyszłość.
Lepiej
Pozwalamy na boty, które mogą dać cytowania lub odpowiedzi dla klientów, ale blokujemy trening tam, gdzie treść jest kosztowna.
Dla sklepu z karmą publiczny poradnik "jak dobrać karmę dla alergika" może pracować na widoczność w AI Search. Opisy produktów, zdjęcia i autorskie porównania możesz chronić mocniej. Dla kliniki fizjoterapii publiczny cennik i FAQ warto zostawić dostępne, ale materiały po zakupie powinny być za logowaniem, nie tylko w robots.txt.
robots.txt · ostrożny start
```
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: PerplexityBot
Allow: /

User-agent: ChatGPT-User
Allow: /
```
To nie jest wzór dla każdego. To punkt startowy, jeśli chcesz ograniczyć trening modeli, ale nie zamykać całej widoczności w odpowiedziach AI.
05
Nie traktuj Google-Extended jak zwykłego bota w logach
Słabo
Nie widzę Google-Extended w logach, więc Google go nie używa.
Lepiej
Sprawdzam Google-Extended w robots.txt jako token kontroli, nie osobny User-Agent HTTP.
Google wyjaśnia, że Google-Extended nie ma osobnego User-Agent w żądaniach HTTP. To token w robots.txt, który kontroluje, czy treści crawlowane przez Google mogą być używane m.in. do przyszłych modeli Gemini i grounding. Google deklaruje też, że ten token nie wpływa na obecność strony w Google Search.
robots.txt · Google-Extended
```
User-agent: Google-Extended
Disallow: /
```
Dla sklepu internetowego to decyzja strategiczna. Jeśli blokujesz Google-Extended, nie blokujesz zwykłego Google Search. Możesz jednak ograniczyć wykorzystanie treści w wybranych funkcjach AI Google.
Zabezpiecz prywatne treści hasłem, nie robots.txt
Słabo
Ukryjemy katalog /hurt/ w robots.txt i wystarczy.
Lepiej
Ceny hurtowe, panel klienta i pliki po zakupie są za logowaniem; robots.txt jest tylko dodatkową instrukcją.
Robots.txt jest publiczny. Każdy może wejść na twojadomena.pl/robots.txt i zobaczyć, które katalogi próbujesz ukryć. To dobry mechanizm do sterowania crawlerami. To słaby mechanizm do ochrony poufnych danych.
Dla sklepu z suplementami cennik hurtowy powinien być za kontem B2B. Dla salonu beauty dokumentacja zabiegowa powinna być za hasłem albo w systemie rezerwacji, nie w publicznym PDF-ie schowanym przez Disallow.
07
Mierz obciążenie, nie tylko obecność bota
Słabo
Bytespider był raz, więc blokujemy cały świat.
Lepiej
Sprawdzamy liczbę żądań, statusy 200/404/429 i najczęściej odwiedzane URL-e.
Jeden bot na stronie głównej nic nie znaczy. Problem zaczyna się, gdy crawler odpytuje tysiące wariantów filtrów, sortowania i parametrów ?color=, ?size=, ?page=. Mały hosting za 50-100 zł miesięcznie odczuje to szybciej niż sklep na osobnym VPS.
Jeśli widzisz dużo żądań do filtrów, dodaj blokady dla parametrów:
robots.txt · parametry filtrów
```
User-agent: *
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?price=
```
To pomaga też zwykłemu SEO, bo ogranicza crawl waste.

Zrób decyzję per bot, nie per emocja

Słabo

AI zabiera treści, blokujemy wszystko.

Lepiej

Każdy bot dostaje decyzję: allow, disallow, monitor albo block at firewall.

Bot z listy Audit AI	Co zwykle oznacza	Startowa decyzja
`GPTBot`	Trening modeli OpenAI	Blokuj, jeśli nie chcesz treningu
`ChatGPT-User`	Wejście na prośbę użytkownika	Pozwól dla publicznych stron
`ClaudeBot`	Trening modeli Anthropic	Blokuj lub ogranicz
`Anthropic-AI`	Starszy identyfikator Anthropic	Blokuj razem z `ClaudeBot`
`Claude-Web`	Obserwowany identyfikator Claude, wymagający weryfikacji w logach	Monitoruj
`PerplexityBot`	Indeks Perplexity Search	Pozwól, jeśli chcesz cytowań
`Google-Extended`	Token kontroli dla Gemini, nie osobny request UA	Decyzja strategiczna
`CCBot`	Common Crawl, publiczne zbiory webowe	Blokuj, jeśli nie chcesz datasetów
`Bytespider`	ByteDance/TikTok/Doubao	Zwykle blokuj lub limituj
`Cohere-AI`	Crawler związany z Cohere	Monitoruj lub blokuj
`Applebot-Extended`	Kontrola użycia danych przez Apple AI	Blokuj, jeśli nie chcesz treningu Apple
`Amazonbot`	Amazon/Alexa/Search	Monitoruj, nie blokuj od razu
`Meta-ExternalAgent`	Meta AI crawler	Decyzja zależna od ryzyka
`FacebookBot`	Podglądy i systemy Meta	Nie blokuj bez testu podglądów
`OmgiliBot`	Crawler Webhose/Bright Data	Zwykle blokuj
`Diffbot`	Knowledge Graph i web crawl, nie trening LLM według Diffbot	Monitoruj

Gotowe wzorce

Wzór decyzji per bot:

decyzja-per-bot.txt

Bot:
Operator:
Cel: training / AI search / user fetch / preview / unknown
Czy daje mi widoczność:
Czy dotyka treści kosztownych:
Liczba żądań w 7 dni:
Najczęstsze URL-e:
Decyzja: allow / disallow / monitor / firewall
Data kolejnego sprawdzenia:

Wzór maila do supportu hostingu:

mail-do-hostingu.txt

Dzień dobry,
proszę o eksport access logów dla domeny example.pl z ostatnich 7 dni.
Chcę sprawdzić ruch botów AI po User-Agent, szczególnie:
GPTBot, ClaudeBot, PerplexityBot, ChatGPT-User, CCBot, Bytespider,
Applebot-Extended, Meta-ExternalAgent i Diffbot.
Wystarczy plik .log albo .gz.

Checklista do wdrożenia

Checklista botów AI · 0/15 zrobione

Pobierz access logi z ostatnich 7 dni.
Wyszukaj 16 nazw botów z listy Audit AI.
Oddziel boty treningowe od botów wyszukiwawczych.
Sprawdź, czy bot odwiedza blog, produkty, koszyk, konto czy parametry filtrów.
Policz liczbę żądań per bot.
Sprawdź statusy HTTP: 200, 301, 403, 404, 429, 500.
Zostaw publiczne FAQ i poradniki dostępne dla botów AI Search.
Zablokuj treningowe boty, jeśli nie chcesz użycia treści w datasetach.
Nie chowaj prywatnych danych wyłącznie przez robots.txt.
Dodaj blokady dla parametrów filtrów, jeśli boty crawlowały tysiące URL-i.
Nie blokuj FacebookBot, jeśli zależy Ci na podglądach linków.
Nie szukaj Google-Extended w logach jako osobnego User-Agent.
Sprawdź, czy WAF lub Cloudflare nie blokuje botów, które chcesz dopuścić.
Ustaw alert, jeśli jeden bot robi więcej niż 500 żądań dziennie.
Wróć do decyzji po 30 dniach i porównaj ruch oraz logi.

Mini-plan na 7 dni

Pobierz access logi i zapisz listę botów, które faktycznie weszły na stronę.
Oznacz każdego bota jako training, AI search, user fetch, preview albo unknown.
Sprawdź najczęściej odwiedzane URL-e. Osobno policz blog, produkty, koszyk i filtry.
Przygotuj robots.txt z decyzjami per bot. Nie wdrażaj globalnego Disallow: /.
Wdróż blokady dla botów treningowych i parametrów filtrów.
Sprawdź, czy publiczne strony dalej zwracają 200 dla botów, które chcesz dopuścić.
Zapisz decyzję w prostym dokumencie: co blokujesz, dlaczego i kiedy wracasz do tematu.

Najczęstsze błędy

Blokowanie wszystkiego

robots.txt · zła blokada

User-agent: *
Disallow: /

To zamyka stronę nie tylko przed botami AI. Może też uszkodzić klasyczne indeksowanie, podglądy linków i diagnostykę.

Mylenie treningu z widocznością

robots.txt · trening vs search

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

Pierwsza blokada może być sensowna. Druga może odciąć widoczność w wyszukiwaniu ChatGPT. Zanim ją dodasz, sprawdź cel.

Publiczne sekrety w robots.txt

robots.txt · publiczne sekrety

User-agent: *
Disallow: /sekretna-oferta-b2b/
Disallow: /cennik-hurtowy-2026.pdf

To pokazuje wszystkim, gdzie są wrażliwe materiały. Takie treści powinny być za logowaniem.

Jak mierzyć efekty

Pierwszy sygnał: liczba żądań botów spada po wdrożeniu blokad, ale publiczne strony nadal są dostępne.

Drugi sygnał: nie rośnie liczba błędów 500 ani timeoutów przy crawlowaniu.

Trzeci sygnał: poradniki, FAQ i strony kategorii nadal mogą być pobierane przez boty AI Search.

Czwarty sygnał: w logach widzisz mniej żądań do filtrów i parametrów.

Piąty sygnał: klienci dalej trafiają z zapytań brandowych i AI Search, ale treści prywatne nie są publicznie dostępne.

FAQ

Czy gptbot co to oznacza, że ChatGPT właśnie czyta mój sklep?

Nie zawsze. GPTBot według OpenAI dotyczy crawlowania treści, które mogą być użyte przy treningu modeli. Jeśli użytkownik w ChatGPT pyta o konkretną stronę, częściej zobaczysz ChatGPT-User.

Czy blokowanie ClaudeBot usuwa moje stare treści z modeli?

Nie. Robots.txt działa na przyszłe crawlowanie. Nie usuwa treści, które mogły zostać pobrane wcześniej albo trafiły do zewnętrznych datasetów.

Czy PerplexityBot trzeba blokować?

Jeśli zależy Ci na widoczności w Perplexity, zwykle nie. Perplexity deklaruje, że PerplexityBot nie służy do treningu foundation models, tylko do indeksowania pod wyniki i linki. Nadal warto monitorować liczbę żądań.

Czy robots.txt wystarczy do ochrony danych?

Nie. Robots.txt jest instrukcją dla crawlerów, nie zabezpieczeniem. Prywatne pliki, ceny B2B, panele klienta i materiały po zakupie muszą być za logowaniem.

Podsumowanie

Nie blokuj "AI" jako jednej kategorii. Blokuj albo wpuszczaj konkretny cel: trening, wyszukiwanie, wejście użytkownika albo podgląd linku. Zacznij od logów, nie od emocji. Jeśli chcesz sprawdzić, czy Twoja strona jest czytelna dla agentów AI i które sygnały warto poprawić, uruchom audyt na Audit AI.

Źródła

OpenAI, Overview of OpenAI Crawlersdevelopers.openai.com/api/docs/bots Anthropic, crawler documentationsupport.claude.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler Perplexity, Perplexity Crawlersdocs.perplexity.ai/docs/resources/perplexity-crawlers Google, List of Google's common crawlers, Google-Extendeddevelopers.google.com/crawling/docs/crawlers-fetchers/google-common-crawlers Google, robots.txt rulesdevelopers.google.com/search/reference/robots_txt Apple, About Applebot and Applebot-Extendedsupport.apple.com/en-us/119829 Common Crawl, CCBotcommoncrawl.org/ccbot Amazon, About AmazonBotdeveloper.amazon.com/en/amazonbot Diffbot, robots.txt policydocs.diffbot.com/docs/does-crawl-respect-robotstxt Cloudflare Radar, Meta-ExternalAgentradar.cloudflare.com/bots/directory/meta-externalagent CrawlerCheck, OmgiliBotcrawlercheck.com/directory/scrapers/omgilibot