Jeśli chcesz chronić treści przed treningiem modeli, blokuj boty treningowe
typu GPTBot, ClaudeBot, CCBot,
Bytespider i Applebot-Extended. Jeśli chcesz być
widoczny w odpowiedziach AI, nie blokuj odruchowo botów wyszukiwawczych i
użytkownikowych, takich jak PerplexityBot,
OAI-SearchBot, ChatGPT-User,
Claude-User albo Applebot.
W praktyce sprawdź: User-Agent, IP, robots.txt, liczbę żądań i strony, które odwiedza bot.
Jeśli bot służy do treningu modeli, wybierz blokadę w robots.txt, bo nie daje bezpośredniej widoczności w wyszukiwarce AI. W praktyce sprawdź User-Agent, IP, robots.txt, liczbę żądań i strony, które odwiedza.
Klient pyta AI, a w logach robi się tłoczno
Właściciel sklepu widzi w logach GPTBot, PerplexityBot, ClaudeBot, Bytespider i nie wie, czy to szansa, czy problem. Ma rację, że się zatrzymuje. Każdy z tych botów może robić coś innego.
Jeden buduje indeks wyszukiwarki AI. Drugi pobiera stronę, bo użytkownik wkleił link do czatu. Trzeci zbiera dane, które mogą trafić do treningu modelu. Jeśli wrzucisz wszystkich do jednego worka i zablokujesz User-agent: *, możesz odciąć sobie widoczność tam, gdzie klienci zaczynają szukać produktów.
Ten poradnik jest dla właściciela małego sklepu, salonu lub firmy usługowej. Cel jest prosty: sprawdzić logi, podzielić boty według celu i podjąć decyzję bez paniki.
Dlaczego to ważne w 2026
AI Search działa inaczej niż klasyczne Google. ChatGPT, Perplexity, Gemini i Claude nie zawsze pokazują dziesięć niebieskich linków. Często budują odpowiedź z kilku źródeł i podają linki dopiero obok streszczenia.
OpenAI rozdziela role botów: OAI-SearchBot służy do widoczności w wyszukiwaniu ChatGPT, GPTBot dotyczy treningu modeli, a ChatGPT-User pojawia się przy akcjach użytkownika. Perplexity opisuje podobny podział: PerplexityBot buduje widoczność w wynikach, a Perplexity-User działa przy zapytaniach użytkownika. Anthropic również rozdziela ClaudeBot, Claude-User i Claude-SearchBot.
Dla firmy to zmienia decyzję. Pytanie "czy blokować AI?" jest za szerokie. Lepsze pytanie brzmi: "czy blokuję trening modeli, indeksowanie pod odpowiedzi AI, link preview, czy jednorazowe wejście użytkownika?"
Czym to różni się od starego robots.txt
Klasyczne SEO pytało: "czy Googlebot może wejść na stronę?" AI discovery pyta: "czy właściwy agent może odczytać właściwą część strony we właściwym celu?"
Przykład: możesz zablokować GPTBot, żeby ograniczyć użycie treści do treningu modeli OpenAI, a jednocześnie pozwolić OAI-SearchBot, żeby sklep mógł pojawić się w wynikach ChatGPT Search. To nie jest sprzeczność. To rozdzielenie treningu od widoczności.
Krok po kroku
- Podziel boty na cztery grupySłaboZablokujemy wszystkie boty AI, bo kradną treści.LepiejBlokujemy boty treningowe, zostawiamy boty wyszukiwawcze, a user-fetchery obserwujemy przez 14 dni.
Dla sklepu z butami
PerplexityBotmoże mieć sens, bo może pomóc w cytowaniu poradnika "jak dobrać buty trekkingowe". Dla salonu kosmetycznego ważniejszy może byćChatGPT-User, bo klient wklei link do cennika i zapyta AI, który zabieg wybrać.Grupa Cel Przykłady Decyzja startowa Trening modeli Dane do modeli GPTBot,ClaudeBot,CCBot,BytespiderBlokuj lub ogranicz AI Search Widoczność w odpowiedziach PerplexityBot,OAI-SearchBot,Claude-SearchBotRaczej pozwól User fetch Wejście na prośbę użytkownika ChatGPT-User,Claude-User,Perplexity-UserPozwól, jeśli treść jest publiczna Link preview i platformy Podglądy, indeksy, metadane FacebookBot,Amazonbot,ApplebotNie blokuj bez sprawdzenia - Sprawdź, czy bot jest na Twojej liścieSłaboW logach jest jakiś bot, więc pewnie jest z AI.LepiejPorównuję User-Agent z listą 16 botów i dopisuję cel, operatora oraz decyzję.
W Audit AI trzymamy bazową listę 16 identyfikatorów:
GPTBot,ClaudeBot,PerplexityBot,ChatGPT-User,Google-Extended,CCBot,Anthropic-AI,Claude-Web,Bytespider,Cohere-AI,Applebot-Extended,Amazonbot,Meta-ExternalAgent,FacebookBot,OmgiliBot,Diffbot.To nie jest pełna lista internetu. To lista do pierwszej decyzji dla małego sklepu. Jeśli masz Shoper, WooCommerce albo PrestaShop, najpierw szukasz tych nazw w logach z ostatnich 7-14 dni.
- Wejdź do logów hostingu, nie zgaduj z AnalyticsSłaboNie widzę tego w Google Analytics, więc botów nie ma.LepiejPobieram access log z hostingu i szukam po User-Agent.
Boty zwykle nie wykonują JavaScriptu tak jak człowiek. Dlatego Analytics może ich nie pokazać. Sprawdź surowe logi serwera.
W hostingu szukaj miejsc o nazwie "Access logs", "Raw access", "Logi WWW" albo "Dzienniki serwera". W cPanelu zwykle są surowe logi. W DirectAdmin szukaj statystyk domeny i logów Apache/Nginx. W hostingu zarządzanym poproś support o wycinek logów dla domeny z ostatnich 7 dni.
grep -Ei "GPTBot|ClaudeBot|PerplexityBot|Bytespider|CCBot|Applebot-Extended" access.log
Jedna linia logu zwykle pokaże datę, adres IP, ścieżkę, status HTTP i User-Agent. Dla sklepu z kosmetykami ważne jest, czy bot czyta blog, produkty, koszyk, konto klienta czy parametry filtrów.
- Ustal domyślną politykę: widoczność tak, trening nie zawszeSłaboWpuszczamy AI, bo to przyszłość.LepiejPozwalamy na boty, które mogą dać cytowania lub odpowiedzi dla klientów, ale blokujemy trening tam, gdzie treść jest kosztowna.
Dla sklepu z karmą publiczny poradnik "jak dobrać karmę dla alergika" może pracować na widoczność w AI Search. Opisy produktów, zdjęcia i autorskie porównania możesz chronić mocniej. Dla kliniki fizjoterapii publiczny cennik i FAQ warto zostawić dostępne, ale materiały po zakupie powinny być za logowaniem, nie tylko w robots.txt.
User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: CCBot Disallow: / User-agent: Bytespider Disallow: / User-agent: PerplexityBot Allow: / User-agent: ChatGPT-User Allow: /
To nie jest wzór dla każdego. To punkt startowy, jeśli chcesz ograniczyć trening modeli, ale nie zamykać całej widoczności w odpowiedziach AI.
- Nie traktuj Google-Extended jak zwykłego bota w logachSłaboNie widzę Google-Extended w logach, więc Google go nie używa.LepiejSprawdzam Google-Extended w robots.txt jako token kontroli, nie osobny User-Agent HTTP.
Google wyjaśnia, że
Google-Extendednie ma osobnego User-Agent w żądaniach HTTP. To token w robots.txt, który kontroluje, czy treści crawlowane przez Google mogą być używane m.in. do przyszłych modeli Gemini i grounding. Google deklaruje też, że ten token nie wpływa na obecność strony w Google Search.User-agent: Google-Extended Disallow: /
Dla sklepu internetowego to decyzja strategiczna. Jeśli blokujesz
Google-Extended, nie blokujesz zwykłego Google Search. Możesz jednak ograniczyć wykorzystanie treści w wybranych funkcjach AI Google. - Zabezpiecz prywatne treści hasłem, nie robots.txtSłaboUkryjemy katalog /hurt/ w robots.txt i wystarczy.LepiejCeny hurtowe, panel klienta i pliki po zakupie są za logowaniem; robots.txt jest tylko dodatkową instrukcją.
Robots.txt jest publiczny. Każdy może wejść na
twojadomena.pl/robots.txti zobaczyć, które katalogi próbujesz ukryć. To dobry mechanizm do sterowania crawlerami. To słaby mechanizm do ochrony poufnych danych.Dla sklepu z suplementami cennik hurtowy powinien być za kontem B2B. Dla salonu beauty dokumentacja zabiegowa powinna być za hasłem albo w systemie rezerwacji, nie w publicznym PDF-ie schowanym przez
Disallow. - Mierz obciążenie, nie tylko obecność botaSłaboBytespider był raz, więc blokujemy cały świat.LepiejSprawdzamy liczbę żądań, statusy 200/404/429 i najczęściej odwiedzane URL-e.
Jeden bot na stronie głównej nic nie znaczy. Problem zaczyna się, gdy crawler odpytuje tysiące wariantów filtrów, sortowania i parametrów
?color=,?size=,?page=. Mały hosting za 50-100 zł miesięcznie odczuje to szybciej niż sklep na osobnym VPS.Jeśli widzisz dużo żądań do filtrów, dodaj blokady dla parametrów:
User-agent: * Disallow: /*?sort= Disallow: /*?filter= Disallow: /*?price=
To pomaga też zwykłemu SEO, bo ogranicza crawl waste.
- Zrób decyzję per bot, nie per emocjaSłaboAI zabiera treści, blokujemy wszystko.LepiejKażdy bot dostaje decyzję: allow, disallow, monitor albo block at firewall.
Bot z listy Audit AI Co zwykle oznacza Startowa decyzja GPTBotTrening modeli OpenAI Blokuj, jeśli nie chcesz treningu ChatGPT-UserWejście na prośbę użytkownika Pozwól dla publicznych stron ClaudeBotTrening modeli Anthropic Blokuj lub ogranicz Anthropic-AIStarszy identyfikator Anthropic Blokuj razem z ClaudeBotClaude-WebObserwowany identyfikator Claude, wymagający weryfikacji w logach Monitoruj PerplexityBotIndeks Perplexity Search Pozwól, jeśli chcesz cytowań Google-ExtendedToken kontroli dla Gemini, nie osobny request UA Decyzja strategiczna CCBotCommon Crawl, publiczne zbiory webowe Blokuj, jeśli nie chcesz datasetów BytespiderByteDance/TikTok/Doubao Zwykle blokuj lub limituj Cohere-AICrawler związany z Cohere Monitoruj lub blokuj Applebot-ExtendedKontrola użycia danych przez Apple AI Blokuj, jeśli nie chcesz treningu Apple AmazonbotAmazon/Alexa/Search Monitoruj, nie blokuj od razu Meta-ExternalAgentMeta AI crawler Decyzja zależna od ryzyka FacebookBotPodglądy i systemy Meta Nie blokuj bez testu podglądów OmgiliBotCrawler Webhose/Bright Data Zwykle blokuj DiffbotKnowledge Graph i web crawl, nie trening LLM według Diffbot Monitoruj
Gotowe wzorce
Wzór decyzji per bot:
Bot: Operator: Cel: training / AI search / user fetch / preview / unknown Czy daje mi widoczność: Czy dotyka treści kosztownych: Liczba żądań w 7 dni: Najczęstsze URL-e: Decyzja: allow / disallow / monitor / firewall Data kolejnego sprawdzenia:
Wzór maila do supportu hostingu:
Dzień dobry, proszę o eksport access logów dla domeny example.pl z ostatnich 7 dni. Chcę sprawdzić ruch botów AI po User-Agent, szczególnie: GPTBot, ClaudeBot, PerplexityBot, ChatGPT-User, CCBot, Bytespider, Applebot-Extended, Meta-ExternalAgent i Diffbot. Wystarczy plik .log albo .gz.
Checklista do wdrożenia
- Pobierz access logi z ostatnich 7 dni.
- Wyszukaj 16 nazw botów z listy Audit AI.
- Oddziel boty treningowe od botów wyszukiwawczych.
- Sprawdź, czy bot odwiedza blog, produkty, koszyk, konto czy parametry filtrów.
- Policz liczbę żądań per bot.
- Sprawdź statusy HTTP: 200, 301, 403, 404, 429, 500.
- Zostaw publiczne FAQ i poradniki dostępne dla botów AI Search.
- Zablokuj treningowe boty, jeśli nie chcesz użycia treści w datasetach.
- Nie chowaj prywatnych danych wyłącznie przez robots.txt.
- Dodaj blokady dla parametrów filtrów, jeśli boty crawlowały tysiące URL-i.
- Nie blokuj FacebookBot, jeśli zależy Ci na podglądach linków.
- Nie szukaj Google-Extended w logach jako osobnego User-Agent.
- Sprawdź, czy WAF lub Cloudflare nie blokuje botów, które chcesz dopuścić.
- Ustaw alert, jeśli jeden bot robi więcej niż 500 żądań dziennie.
- Wróć do decyzji po 30 dniach i porównaj ruch oraz logi.
Mini-plan na 7 dni
Pobierz access logi i zapisz listę botów, które faktycznie weszły na stronę.
Oznacz każdego bota jako training, AI search, user fetch, preview albo unknown.
Sprawdź najczęściej odwiedzane URL-e. Osobno policz blog, produkty, koszyk i filtry.
Przygotuj robots.txt z decyzjami per bot. Nie wdrażaj globalnego
Disallow: /.Wdróż blokady dla botów treningowych i parametrów filtrów.
Sprawdź, czy publiczne strony dalej zwracają 200 dla botów, które chcesz dopuścić.
Zapisz decyzję w prostym dokumencie: co blokujesz, dlaczego i kiedy wracasz do tematu.
Najczęstsze błędy
User-agent: * Disallow: /
To zamyka stronę nie tylko przed botami AI. Może też uszkodzić klasyczne indeksowanie, podglądy linków i diagnostykę.
User-agent: GPTBot Disallow: / User-agent: OAI-SearchBot Disallow: /
Pierwsza blokada może być sensowna. Druga może odciąć widoczność w wyszukiwaniu ChatGPT. Zanim ją dodasz, sprawdź cel.
User-agent: * Disallow: /sekretna-oferta-b2b/ Disallow: /cennik-hurtowy-2026.pdf
To pokazuje wszystkim, gdzie są wrażliwe materiały. Takie treści powinny być za logowaniem.
Jak mierzyć efekty
Pierwszy sygnał: liczba żądań botów spada po wdrożeniu blokad, ale publiczne strony nadal są dostępne.
Drugi sygnał: nie rośnie liczba błędów 500 ani timeoutów przy crawlowaniu.
Trzeci sygnał: poradniki, FAQ i strony kategorii nadal mogą być pobierane przez boty AI Search.
Czwarty sygnał: w logach widzisz mniej żądań do filtrów i parametrów.
Piąty sygnał: klienci dalej trafiają z zapytań brandowych i AI Search, ale treści prywatne nie są publicznie dostępne.
FAQ
Czy gptbot co to oznacza, że ChatGPT właśnie czyta mój sklep?
Czy blokowanie ClaudeBot usuwa moje stare treści z modeli?
Czy PerplexityBot trzeba blokować?
Czy robots.txt wystarczy do ochrony danych?
Podsumowanie
Nie blokuj "AI" jako jednej kategorii. Blokuj albo wpuszczaj konkretny cel: trening, wyszukiwanie, wejście użytkownika albo podgląd linku. Zacznij od logów, nie od emocji. Jeśli chcesz sprawdzić, czy Twoja strona jest czytelna dla agentów AI i które sygnały warto poprawić, uruchom audyt na Audit AI.



