Od GPTBot do PerplexityBot: które AI boty odwiedzają Twój sklep i po co

Sprawdź, które boty AI odwiedzają sklep, co oznaczają w logach i kiedy je blokować, żeby nie stracić widoczności w ChatGPT i Perplexity.

Cztery świetliste pasy ruchu botów AI prowadzą przez logi sklepu internetowego do decyzji o blokowaniu lub dopuszczaniu crawlerów.
Direct Answer

Jeśli chcesz chronić treści przed treningiem modeli, blokuj boty treningowe typu GPTBot, ClaudeBot, CCBot, Bytespider i Applebot-Extended. Jeśli chcesz być widoczny w odpowiedziach AI, nie blokuj odruchowo botów wyszukiwawczych i użytkownikowych, takich jak PerplexityBot, OAI-SearchBot, ChatGPT-User, Claude-User albo Applebot.

W praktyce sprawdź: User-Agent, IP, robots.txt, liczbę żądań i strony, które odwiedza bot.

Jeśli bot służy do treningu modeli, wybierz blokadę w robots.txt, bo nie daje bezpośredniej widoczności w wyszukiwarce AI. W praktyce sprawdź User-Agent, IP, robots.txt, liczbę żądań i strony, które odwiedza.

Klient pyta AI, a w logach robi się tłoczno

Właściciel sklepu widzi w logach GPTBot, PerplexityBot, ClaudeBot, Bytespider i nie wie, czy to szansa, czy problem. Ma rację, że się zatrzymuje. Każdy z tych botów może robić coś innego.

Jeden buduje indeks wyszukiwarki AI. Drugi pobiera stronę, bo użytkownik wkleił link do czatu. Trzeci zbiera dane, które mogą trafić do treningu modelu. Jeśli wrzucisz wszystkich do jednego worka i zablokujesz User-agent: *, możesz odciąć sobie widoczność tam, gdzie klienci zaczynają szukać produktów.

Ten poradnik jest dla właściciela małego sklepu, salonu lub firmy usługowej. Cel jest prosty: sprawdzić logi, podzielić boty według celu i podjąć decyzję bez paniki.

Dlaczego to ważne w 2026

AI Search działa inaczej niż klasyczne Google. ChatGPT, Perplexity, Gemini i Claude nie zawsze pokazują dziesięć niebieskich linków. Często budują odpowiedź z kilku źródeł i podają linki dopiero obok streszczenia.

OpenAI rozdziela role botów: OAI-SearchBot służy do widoczności w wyszukiwaniu ChatGPT, GPTBot dotyczy treningu modeli, a ChatGPT-User pojawia się przy akcjach użytkownika. Perplexity opisuje podobny podział: PerplexityBot buduje widoczność w wynikach, a Perplexity-User działa przy zapytaniach użytkownika. Anthropic również rozdziela ClaudeBot, Claude-User i Claude-SearchBot.

Dla firmy to zmienia decyzję. Pytanie "czy blokować AI?" jest za szerokie. Lepsze pytanie brzmi: "czy blokuję trening modeli, indeksowanie pod odpowiedzi AI, link preview, czy jednorazowe wejście użytkownika?"

Czym to różni się od starego robots.txt

Klasyczne SEO pytało: "czy Googlebot może wejść na stronę?" AI discovery pyta: "czy właściwy agent może odczytać właściwą część strony we właściwym celu?"

Przykład: możesz zablokować GPTBot, żeby ograniczyć użycie treści do treningu modeli OpenAI, a jednocześnie pozwolić OAI-SearchBot, żeby sklep mógł pojawić się w wynikach ChatGPT Search. To nie jest sprzeczność. To rozdzielenie treningu od widoczności.

Krok po kroku

  1. Podziel boty na cztery grupy
    Słabo
    Zablokujemy wszystkie boty AI, bo kradną treści.
    Lepiej
    Blokujemy boty treningowe, zostawiamy boty wyszukiwawcze, a user-fetchery obserwujemy przez 14 dni.

    Dla sklepu z butami PerplexityBot może mieć sens, bo może pomóc w cytowaniu poradnika "jak dobrać buty trekkingowe". Dla salonu kosmetycznego ważniejszy może być ChatGPT-User, bo klient wklei link do cennika i zapyta AI, który zabieg wybrać.

    GrupaCelPrzykładyDecyzja startowa
    Trening modeliDane do modeliGPTBot, ClaudeBot, CCBot, BytespiderBlokuj lub ogranicz
    AI SearchWidoczność w odpowiedziachPerplexityBot, OAI-SearchBot, Claude-SearchBotRaczej pozwól
    User fetchWejście na prośbę użytkownikaChatGPT-User, Claude-User, Perplexity-UserPozwól, jeśli treść jest publiczna
    Link preview i platformyPodglądy, indeksy, metadaneFacebookBot, Amazonbot, ApplebotNie blokuj bez sprawdzenia
  2. Sprawdź, czy bot jest na Twojej liście
    Słabo
    W logach jest jakiś bot, więc pewnie jest z AI.
    Lepiej
    Porównuję User-Agent z listą 16 botów i dopisuję cel, operatora oraz decyzję.

    W Audit AI trzymamy bazową listę 16 identyfikatorów: GPTBot, ClaudeBot, PerplexityBot, ChatGPT-User, Google-Extended, CCBot, Anthropic-AI, Claude-Web, Bytespider, Cohere-AI, Applebot-Extended, Amazonbot, Meta-ExternalAgent, FacebookBot, OmgiliBot, Diffbot.

    To nie jest pełna lista internetu. To lista do pierwszej decyzji dla małego sklepu. Jeśli masz Shoper, WooCommerce albo PrestaShop, najpierw szukasz tych nazw w logach z ostatnich 7-14 dni.

  3. Wejdź do logów hostingu, nie zgaduj z Analytics
    Słabo
    Nie widzę tego w Google Analytics, więc botów nie ma.
    Lepiej
    Pobieram access log z hostingu i szukam po User-Agent.

    Boty zwykle nie wykonują JavaScriptu tak jak człowiek. Dlatego Analytics może ich nie pokazać. Sprawdź surowe logi serwera.

    W hostingu szukaj miejsc o nazwie "Access logs", "Raw access", "Logi WWW" albo "Dzienniki serwera". W cPanelu zwykle są surowe logi. W DirectAdmin szukaj statystyk domeny i logów Apache/Nginx. W hostingu zarządzanym poproś support o wycinek logów dla domeny z ostatnich 7 dni.

    access-log-search.sh
    grep -Ei "GPTBot|ClaudeBot|PerplexityBot|Bytespider|CCBot|Applebot-Extended" access.log

    Jedna linia logu zwykle pokaże datę, adres IP, ścieżkę, status HTTP i User-Agent. Dla sklepu z kosmetykami ważne jest, czy bot czyta blog, produkty, koszyk, konto klienta czy parametry filtrów.

  4. Ustal domyślną politykę: widoczność tak, trening nie zawsze
    Słabo
    Wpuszczamy AI, bo to przyszłość.
    Lepiej
    Pozwalamy na boty, które mogą dać cytowania lub odpowiedzi dla klientów, ale blokujemy trening tam, gdzie treść jest kosztowna.

    Dla sklepu z karmą publiczny poradnik "jak dobrać karmę dla alergika" może pracować na widoczność w AI Search. Opisy produktów, zdjęcia i autorskie porównania możesz chronić mocniej. Dla kliniki fizjoterapii publiczny cennik i FAQ warto zostawić dostępne, ale materiały po zakupie powinny być za logowaniem, nie tylko w robots.txt.

    robots.txt · ostrożny start
    User-agent: GPTBot
    Disallow: /
    
    User-agent: ClaudeBot
    Disallow: /
    
    User-agent: CCBot
    Disallow: /
    
    User-agent: Bytespider
    Disallow: /
    
    User-agent: PerplexityBot
    Allow: /
    
    User-agent: ChatGPT-User
    Allow: /

    To nie jest wzór dla każdego. To punkt startowy, jeśli chcesz ograniczyć trening modeli, ale nie zamykać całej widoczności w odpowiedziach AI.

  5. Nie traktuj Google-Extended jak zwykłego bota w logach
    Słabo
    Nie widzę Google-Extended w logach, więc Google go nie używa.
    Lepiej
    Sprawdzam Google-Extended w robots.txt jako token kontroli, nie osobny User-Agent HTTP.

    Google wyjaśnia, że Google-Extended nie ma osobnego User-Agent w żądaniach HTTP. To token w robots.txt, który kontroluje, czy treści crawlowane przez Google mogą być używane m.in. do przyszłych modeli Gemini i grounding. Google deklaruje też, że ten token nie wpływa na obecność strony w Google Search.

    robots.txt · Google-Extended
    User-agent: Google-Extended
    Disallow: /

    Dla sklepu internetowego to decyzja strategiczna. Jeśli blokujesz Google-Extended, nie blokujesz zwykłego Google Search. Możesz jednak ograniczyć wykorzystanie treści w wybranych funkcjach AI Google.

  6. Zabezpiecz prywatne treści hasłem, nie robots.txt
    Słabo
    Ukryjemy katalog /hurt/ w robots.txt i wystarczy.
    Lepiej
    Ceny hurtowe, panel klienta i pliki po zakupie są za logowaniem; robots.txt jest tylko dodatkową instrukcją.

    Robots.txt jest publiczny. Każdy może wejść na twojadomena.pl/robots.txt i zobaczyć, które katalogi próbujesz ukryć. To dobry mechanizm do sterowania crawlerami. To słaby mechanizm do ochrony poufnych danych.

    Dla sklepu z suplementami cennik hurtowy powinien być za kontem B2B. Dla salonu beauty dokumentacja zabiegowa powinna być za hasłem albo w systemie rezerwacji, nie w publicznym PDF-ie schowanym przez Disallow.

  7. Mierz obciążenie, nie tylko obecność bota
    Słabo
    Bytespider był raz, więc blokujemy cały świat.
    Lepiej
    Sprawdzamy liczbę żądań, statusy 200/404/429 i najczęściej odwiedzane URL-e.

    Jeden bot na stronie głównej nic nie znaczy. Problem zaczyna się, gdy crawler odpytuje tysiące wariantów filtrów, sortowania i parametrów ?color=, ?size=, ?page=. Mały hosting za 50-100 zł miesięcznie odczuje to szybciej niż sklep na osobnym VPS.

    Jeśli widzisz dużo żądań do filtrów, dodaj blokady dla parametrów:

    robots.txt · parametry filtrów
    User-agent: *
    Disallow: /*?sort=
    Disallow: /*?filter=
    Disallow: /*?price=

    To pomaga też zwykłemu SEO, bo ogranicza crawl waste.

  8. Zrób decyzję per bot, nie per emocja
    Słabo
    AI zabiera treści, blokujemy wszystko.
    Lepiej
    Każdy bot dostaje decyzję: allow, disallow, monitor albo block at firewall.
    Bot z listy Audit AICo zwykle oznaczaStartowa decyzja
    GPTBotTrening modeli OpenAIBlokuj, jeśli nie chcesz treningu
    ChatGPT-UserWejście na prośbę użytkownikaPozwól dla publicznych stron
    ClaudeBotTrening modeli AnthropicBlokuj lub ogranicz
    Anthropic-AIStarszy identyfikator AnthropicBlokuj razem z ClaudeBot
    Claude-WebObserwowany identyfikator Claude, wymagający weryfikacji w logachMonitoruj
    PerplexityBotIndeks Perplexity SearchPozwól, jeśli chcesz cytowań
    Google-ExtendedToken kontroli dla Gemini, nie osobny request UADecyzja strategiczna
    CCBotCommon Crawl, publiczne zbiory weboweBlokuj, jeśli nie chcesz datasetów
    BytespiderByteDance/TikTok/DoubaoZwykle blokuj lub limituj
    Cohere-AICrawler związany z CohereMonitoruj lub blokuj
    Applebot-ExtendedKontrola użycia danych przez Apple AIBlokuj, jeśli nie chcesz treningu Apple
    AmazonbotAmazon/Alexa/SearchMonitoruj, nie blokuj od razu
    Meta-ExternalAgentMeta AI crawlerDecyzja zależna od ryzyka
    FacebookBotPodglądy i systemy MetaNie blokuj bez testu podglądów
    OmgiliBotCrawler Webhose/Bright DataZwykle blokuj
    DiffbotKnowledge Graph i web crawl, nie trening LLM według DiffbotMonitoruj

Gotowe wzorce

Wzór decyzji per bot:

decyzja-per-bot.txt
Bot:
Operator:
Cel: training / AI search / user fetch / preview / unknown
Czy daje mi widoczność:
Czy dotyka treści kosztownych:
Liczba żądań w 7 dni:
Najczęstsze URL-e:
Decyzja: allow / disallow / monitor / firewall
Data kolejnego sprawdzenia:

Wzór maila do supportu hostingu:

mail-do-hostingu.txt
Dzień dobry,
proszę o eksport access logów dla domeny example.pl z ostatnich 7 dni.
Chcę sprawdzić ruch botów AI po User-Agent, szczególnie:
GPTBot, ClaudeBot, PerplexityBot, ChatGPT-User, CCBot, Bytespider,
Applebot-Extended, Meta-ExternalAgent i Diffbot.
Wystarczy plik .log albo .gz.

Checklista do wdrożenia

Checklista botów AI · 0/15 zrobione
  • Pobierz access logi z ostatnich 7 dni.
  • Wyszukaj 16 nazw botów z listy Audit AI.
  • Oddziel boty treningowe od botów wyszukiwawczych.
  • Sprawdź, czy bot odwiedza blog, produkty, koszyk, konto czy parametry filtrów.
  • Policz liczbę żądań per bot.
  • Sprawdź statusy HTTP: 200, 301, 403, 404, 429, 500.
  • Zostaw publiczne FAQ i poradniki dostępne dla botów AI Search.
  • Zablokuj treningowe boty, jeśli nie chcesz użycia treści w datasetach.
  • Nie chowaj prywatnych danych wyłącznie przez robots.txt.
  • Dodaj blokady dla parametrów filtrów, jeśli boty crawlowały tysiące URL-i.
  • Nie blokuj FacebookBot, jeśli zależy Ci na podglądach linków.
  • Nie szukaj Google-Extended w logach jako osobnego User-Agent.
  • Sprawdź, czy WAF lub Cloudflare nie blokuje botów, które chcesz dopuścić.
  • Ustaw alert, jeśli jeden bot robi więcej niż 500 żądań dziennie.
  • Wróć do decyzji po 30 dniach i porównaj ruch oraz logi.

Mini-plan na 7 dni

  1. Pobierz access logi i zapisz listę botów, które faktycznie weszły na stronę.

  2. Oznacz każdego bota jako training, AI search, user fetch, preview albo unknown.

  3. Sprawdź najczęściej odwiedzane URL-e. Osobno policz blog, produkty, koszyk i filtry.

  4. Przygotuj robots.txt z decyzjami per bot. Nie wdrażaj globalnego Disallow: /.

  5. Wdróż blokady dla botów treningowych i parametrów filtrów.

  6. Sprawdź, czy publiczne strony dalej zwracają 200 dla botów, które chcesz dopuścić.

  7. Zapisz decyzję w prostym dokumencie: co blokujesz, dlaczego i kiedy wracasz do tematu.

Najczęstsze błędy

Blokowanie wszystkiego
robots.txt · zła blokada
User-agent: *
Disallow: /

To zamyka stronę nie tylko przed botami AI. Może też uszkodzić klasyczne indeksowanie, podglądy linków i diagnostykę.

Mylenie treningu z widocznością
robots.txt · trening vs search
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

Pierwsza blokada może być sensowna. Druga może odciąć widoczność w wyszukiwaniu ChatGPT. Zanim ją dodasz, sprawdź cel.

Publiczne sekrety w robots.txt
robots.txt · publiczne sekrety
User-agent: *
Disallow: /sekretna-oferta-b2b/
Disallow: /cennik-hurtowy-2026.pdf

To pokazuje wszystkim, gdzie są wrażliwe materiały. Takie treści powinny być za logowaniem.

Jak mierzyć efekty

Pierwszy sygnał: liczba żądań botów spada po wdrożeniu blokad, ale publiczne strony nadal są dostępne.

Drugi sygnał: nie rośnie liczba błędów 500 ani timeoutów przy crawlowaniu.

Trzeci sygnał: poradniki, FAQ i strony kategorii nadal mogą być pobierane przez boty AI Search.

Czwarty sygnał: w logach widzisz mniej żądań do filtrów i parametrów.

Piąty sygnał: klienci dalej trafiają z zapytań brandowych i AI Search, ale treści prywatne nie są publicznie dostępne.

FAQ

Czy gptbot co to oznacza, że ChatGPT właśnie czyta mój sklep?
Nie zawsze. GPTBot według OpenAI dotyczy crawlowania treści, które mogą być użyte przy treningu modeli. Jeśli użytkownik w ChatGPT pyta o konkretną stronę, częściej zobaczysz ChatGPT-User.
Czy blokowanie ClaudeBot usuwa moje stare treści z modeli?
Nie. Robots.txt działa na przyszłe crawlowanie. Nie usuwa treści, które mogły zostać pobrane wcześniej albo trafiły do zewnętrznych datasetów.
Czy PerplexityBot trzeba blokować?
Jeśli zależy Ci na widoczności w Perplexity, zwykle nie. Perplexity deklaruje, że PerplexityBot nie służy do treningu foundation models, tylko do indeksowania pod wyniki i linki. Nadal warto monitorować liczbę żądań.
Czy robots.txt wystarczy do ochrony danych?
Nie. Robots.txt jest instrukcją dla crawlerów, nie zabezpieczeniem. Prywatne pliki, ceny B2B, panele klienta i materiały po zakupie muszą być za logowaniem.

Podsumowanie

Nie blokuj "AI" jako jednej kategorii. Blokuj albo wpuszczaj konkretny cel: trening, wyszukiwanie, wejście użytkownika albo podgląd linku. Zacznij od logów, nie od emocji. Jeśli chcesz sprawdzić, czy Twoja strona jest czytelna dla agentów AI i które sygnały warto poprawić, uruchom audyt na Audit AI.

Źródła

Sprawdź, czy AI cytuje Twoją stronę

Audyt AI-ready w 60 sekund: GEO, llms.txt, Schema, struktura treści. Powiemy, co konkretnie naprawić — i w jakiej kolejności.

Uruchom bezpłatny audyt
60 sekundBez rejestracji50 checkpointów