Dua dunia crawler

Sampai sekitar 2022, hampir semua crawler web punya tujuan sama: mengumpulkan konten untuk search engine index. Googlebot, Bingbot, Yandex, DuckDuckGo bot, semua punya pola sama: crawl banyak, index cepat, serve hasil dalam hitungan jam atau menit.

Sejak booming LLM, muncul kelas baru: AI training crawler. GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (Google untuk Gemini), PerplexityBot, CCBot (Common Crawl), dan beberapa lainnya. Tujuan mereka berbeda: mengumpulkan konten sebagai bahan training model, bukan untuk indexing real-time.

Inventarisasi bot yang matter

Klasifikasi crawler utama yang harus Anda kenalTraditionalAI TrainingGooglebot×Bingbot×GPTBot (OpenAI)×ClaudeBot (Anthropic)×Google-Extended (Gemini)×PerplexityBot×CCBot (Common Crawl)×ChatGPT-User (session)

ChatGPT-User agak unik. Dia bukan untuk training, tapi juga bukan untuk indexing. Dia di-trigger ketika user ChatGPT aktif mem-browse web dalam percakapan. Anggap dia sebagai "LLM agent crawler" - fetches on-demand untuk jawab pertanyaan user spesifik.

Perbedaan teknis yang matter

Perbedaan karakteristik Googlebot vs AI crawlerGooglebotAI CrawlerFrekuensi visitHarianMingguan/bulananJavaScript rendering×Sitemap awarenessrobots.txt complianceUser-agent transparanTujuan real-time index×Batch training mode×

Poin JavaScript rendering adalah yang paling sering menjebak. Developer sering membuat website modern pakai React atau Vue tanpa server-side rendering. Googlebot bisa handle. AI crawler tidak. Hasilnya: brand muncul di Google Search, tapi tidak pernah muncul di AI karena AI crawler hanya melihat halaman kosong.

Konfigurasi robots.txt lengkap

robots.txt: allow semua (default recommendation) # Traditional search crawler User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / # AI training crawler, izinkan untuk visibility User-agent: GPTBot Allow: / User-agent: ClaudeBot Allow: / User-agent: Google-Extended Allow: / User-agent: PerplexityBot Allow: / User-agent: CCBot Allow: / # ChatGPT-User (on-demand session fetcher) User-agent: ChatGPT-User Allow: / # Sitemap Sitemap: https://yourdomain.com/sitemap.xml

Konfigurasi di atas adalah starting point yang kami rekomendasikan untuk brand Indonesia yang ingin muncul di AI search. Semua crawler diizinkan akses penuh.

robots.txt: allow search + selective AI block # Traditional search: allow User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / # Google Gemini training: block (misal kalau worry copyright) User-agent: Google-Extended Disallow: / # Other AI training: allow User-agent: GPTBot Allow: / User-agent: ClaudeBot Allow: / User-agent: PerplexityBot Allow: / User-agent: CCBot Allow: / Sitemap: https://yourdomain.com/sitemap.xml

Konfigurasi ini contoh kalau Anda ingin selektif. Misal block Google-Extended tapi allow lainnya. Kami jarang merekomendasi ini karena berdampak besar ke visibility Gemini (yang market share-nya besar di Indonesia lewat Google produk).

Alur keputusan block vs allow

Alur keputusan untuk kebijakan AI crawler1Audit kontenAda IP sensitif?2Evaluasi risikoCopyright, privacy3Pilih kebijakanAllow, block, mix4Deploy robots.txtUpload ke root5MonitorLog server, AI test

Risiko kalau block AI crawler

Konsekuensi block AI training crawler

Invisible di future AI. Konten Anda tidak masuk training set. Ketika LLM generasi berikut dirilis, brand tidak disebut. Kompetitor yang tidak block akan muncul di jawaban user.

Kehilangan share of voice. Ketika user bertanya "perusahaan solar panel terbaik Indonesia", yang muncul adalah brand yang AI tahu. Kalau Anda tidak termasuk, Anda tidak dikenal.

Sulit reverse decision. Block hari ini, unblock besok, training data mungkin sudah tertutup. Anda harus menunggu training cycle berikutnya (6-12 bulan).

Tidak menghentikan scraping malicious. Crawler yang melanggar robots.txt (scraper tidak etis, competitor) tetap ambil data Anda. Anda hanya memblokir crawler yang patuh etika.

Kapan block memang masuk akal

Ada skenario nyata di mana block AI crawler itu rational:

  • Paywall content. Konten berbayar yang Anda jual. Masuk ke training data artinya konten Anda jadi "gratis" lewat AI.
  • Proprietary research data. Data riset internal yang kalau bocor merugikan competitive position.
  • Personal data customer. Testimoni, case study dengan nama riil, data customer yang tidak boleh di-train.
  • Konten pesanan khusus klien. Kalau ada kontrak yang melarang konten di-train (jarang, tapi ada).

Untuk selain di atas, default allow. Brand Indonesia yang berusaha membangun visibility tidak punya alasan block.

User-agent spoofing dan verifikasi

Beberapa scraper menyamar sebagai AI crawler untuk bypass security. Anda bisa verifikasi bot benar-benar dari OpenAI atau Anthropic dengan reverse DNS lookup:

Verifikasi GPTBot asli via reverse DNS # Dari IP yang claim as GPTBot di log host <IP> # Output harus di-resolve ke *.openai.com atau *.openai-api.com # Untuk ClaudeBot host <IP> # Output harus resolve ke *.anthropic.com # Untuk CCBot host <IP> # Output harus resolve ke *.commoncrawl.org

Kalau reverse DNS tidak match, itu bukan bot asli. Bisa di-block sebagai bot tidak sah via .htaccess atau firewall. OpenAI juga publikasi IP range resmi di dokumentasi mereka, bisa di-check manual.

Testing apakah bot visit website Anda

Workflow audit AI crawler access

  1. 1

    Enable access log

    Di cPanel Rumahweb, aktifkan raw access log. Download log 30 hari terakhir.

  2. 2

    Filter by user-agent

    grep -i "GPTBot\|ClaudeBot\|PerplexityBot\|CCBot\|Google-Extended" access.log. Lihat berapa kali masing-masing visit.

  3. 3

    Analyze pattern

    Bot visit mana halaman? Apakah mereka fetch llms.txt? Apakah ada 4xx error? Pola ini memberi insight health AI crawler access.

  4. 4

    Cek reverse DNS sample

    Ambil 3-5 sample IP dari log, cek reverse DNS. Kalau mostly asli, AI crawler memang datang. Kalau mostly spoofed, ada masalah security.

  5. 5

    Quarterly review

    Ulang quarterly. Tracking tren visit AI crawler membantu prediksi kapan brand Anda akan muncul di LLM baru.

Rekomendasi default

Untuk brand Indonesia yang serius membangun AI visibility, posisi kami adalah: allow semua AI training crawler kecuali ada reason spesifik. Minimum allow Googlebot, Bingbot, GPTBot, ClaudeBot, Google-Extended, PerplexityBot, CCBot, ChatGPT-User. Deploy robots.txt yang eksplisit, pastikan sitemap.xml ter-link, dan monitor access log quarterly untuk verify crawler memang datang.

Pertanyaan Umum

Apakah block AI crawler akan menghilangkan brand saya dari Google?
Tidak. Googlebot (crawler search) terpisah dari Google-Extended (crawler training data AI). Block Google-Extended tidak mempengaruhi ranking Google Search. Anda bisa tetap ter-index di Google Search tapi tidak masuk training data Gemini, dan sebaliknya.
Apa bedanya GPTBot dan ChatGPT-User?
GPTBot adalah crawler untuk training data OpenAI. Dia crawl web untuk bahan melatih model ChatGPT generasi berikutnya. ChatGPT-User adalah user-agent yang dipakai ketika user ChatGPT aktif mengaktifkan browsing mode di percakapan, jadi lebih real-time dan terkait dengan specific user session.
Apakah AI crawler menjalankan JavaScript?
Mostly tidak. Googlebot memakai headless Chromium dan bisa render JS, tetapi AI crawler seperti GPTBot, ClaudeBot, CCBot sebagian besar hanya fetch raw HTML. Ini artinya kalau website Anda JavaScript-heavy (SPA React/Vue tanpa SSR), AI crawler hanya melihat halaman kosong. Pakai SSR atau pre-render untuk konten utama.
Seberapa sering AI crawler meng-visit website?
Jauh lebih jarang dari Googlebot. Googlebot bisa crawl ribuan halaman per hari untuk site besar. GPTBot atau CCBot mungkin hanya sekali seminggu atau sekali sebulan. Ini karena mereka bukan untuk real-time indexing, tetapi untuk training batch periodic. Jangan panik kalau server log tidak menunjukkan visit AI crawler tiap hari.
Jika saya block semua AI crawler, apa konsekuensinya?
Brand Anda tidak akan muncul di ChatGPT, Claude, Gemini, Perplexity, dan LLM masa depan. Untuk sebagian besar brand, ini kerugian besar karena AI search tumbuh cepat. Kecuali Anda punya alasan spesifik (konten sensitif, IP concerns, copyright strategy), secara default izinkan AI crawler. Default posisi kami adalah allow semua kecuali ada reason untuk block.

Setting robots.txt Anda optimal untuk AI?

Audit Entitas Gratis kami include review robots.txt, sitemap.xml, llms.txt, dan cek apakah AI crawler benar-benar bisa access konten utama brand Anda.

Audit Gratis