Cara Kerja SEO, Crawl, Index, Ranking dan AI Search

Tiga tahap utama

Setiap tahap punya aturan mainnya sendiri. Masalah di tahap awal (misal crawl) akan mematikan semua tahap setelahnya.

Tahap 1: Crawl

Crawl adalah proses Googlebot (atau crawler mesin pencari lain) menelusuri internet, mengikuti link dari halaman ke halaman, dan membaca isi setiap halaman. Prosesnya mirip pembaca yang tidak pernah lelah, membuka tab baru setiap ketemu link.

Googlebot akan cek robots.txt terlebih dahulu untuk tahu halaman mana yang boleh dan tidak boleh diakses. Setelah itu, ia membaca HTML, mengeksekusi JavaScript (dengan keterbatasan), menyimpan gambar dan file statis, dan mencatat semua link internal untuk dikunjungi berikutnya.

Crawl budget adalah konsep penting di sini. Google tidak punya waktu tak terbatas untuk crawl situs Anda. Situs kecil mungkin di-crawl penuh dalam hitungan jam. Situs besar (ratusan ribu halaman) butuh strategi khusus supaya halaman penting tidak terlewat.

Tahap 2: Index

Setelah crawl, Googlebot mengirim konten ke sistem indexing. Di sini konten dianalisis, dipecah menjadi kata-kata kunci dan entity, disimpan di database raksasa yang terdistribusi di ribuan server Google di seluruh dunia.

Tidak semua halaman yang di-crawl pasti diindex. Google bisa memutuskan halaman terlalu mirip dengan halaman lain (duplikat), terlalu tipis kontennya (thin content), atau diberi tag noindex oleh pemilik situs. Halaman yang tidak diindex tidak akan pernah muncul di hasil pencarian.

Schema markup (JSON-LD) dibaca di tahap ini. Itu sebabnya schema Organization, Person, Article, dan FAQ jadi penting. Ini cara Anda "ngasih tahu" Google apa jenis konten yang ada di halaman.

Tahap 3: Ranking

Saat pengguna mengetik query di Google, sistem ranking bekerja dalam milidetik. Algoritma mengambil ribuan halaman relevan dari index, lalu mengurutkan berdasarkan ratusan faktor ranking.

Faktor utama: relevansi kueri dengan konten, kualitas dan otoritas situs (dari backlinks dan sinyal lain), pengalaman pengguna (Core Web Vitals, mobile-friendly, HTTPS), freshness (untuk kueri tertentu), lokasi pengguna (untuk local intent), dan sinyal E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness).

Faktor ranking utama

Keyword density, yang dulu dianggap Holy Grail SEO, sekarang hampir tidak matter. Google sudah memakai semantic understanding lewat BERT dan MUM. Lebih penting adalah apakah konten Anda benar-benar menjawab intent pengguna, bukan seberapa sering kata kunci diulang.

Algoritma Google utama

Google merilis update algoritma besar beberapa kali setahun. Yang paling influential untuk diingat.

PageRank (1996-sekarang): fondasi algoritma Google. Halaman dengan backlink dari situs otoritas dapat skor tinggi.
Panda (2011): menurunkan situs content farm dan low-quality content.
Penguin (2012): menghukum backlink spam dan manipulatif.
Hummingbird (2013): memahami makna kalimat, bukan cuma kata.
RankBrain (2015): machine learning untuk memahami kueri baru.
BERT (2019): memahami konteks kata dalam kalimat.
MUM (2021): multimodal understanding, 1000x lebih powerful dari BERT.
Helpful Content Update (2022): mengutamakan konten people-first.
E-E-A-T (2022): Experience ditambahkan ke framework E-A-T.
SGE / AI Overview (2024): jawaban AI di atas hasil organik.

Bagaimana AI search bekerja berbeda

AI search seperti ChatGPT, Gemini, Perplexity, dan Claude tidak sepenuhnya mengganti Google. Mereka layer baru di atas pencarian web. Tapi prosesnya beda jauh.

Dua sumber data yang AI pakai. Pertama, model pretrained yang sudah dilatih pada data historis (misalnya data sampai Oktober 2024). Kedua, live search yang mengambil data real-time saat user bertanya. Perplexity paling agresif di retrieval, ChatGPT Search juga sekarang, Gemini juga.

Contoh robots.txt untuk mengatur AI crawler
# Default: allow all
User-agent: *
Allow: /

# Allow Google
User-agent: Googlebot
Allow: /

# Allow ChatGPT (retrieval, bukan training)
User-agent: ChatGPT-User
Allow: /

# Block GPTBot (training scraper)
User-agent: GPTBot
Disallow: /

# Allow Perplexity
User-agent: PerplexityBot
Allow: /

# Allow Google Gemini
User-agent: Google-Extended
Allow: /

Keputusan block atau allow tergantung strategi. Bisnis yang ingin jadi sumber kutipan AI pasti allow semua. Bisnis yang khawatir konten dicuri tanpa attribution bisa selektif.

Kenapa website Anda tidak ranking

Ini pertanyaan yang paling sering kami dengar. Biasanya salah satu dari lima alasan ini.

Belum diindex. Cek di Google Search Console, bagian Indexing. Kalau belum, submit sitemap.xml dan tunggu 1-2 minggu.
Technical issue. Robots.txt memblokir, tag noindex tidak sengaja, canonical salah, atau struktur URL berantakan. Lihat panduan Technical SEO.
Konten terlalu tipis. Halaman di bawah 300 kata, tidak menjawab intent, atau duplikat dengan halaman lain.
Otoritas situs rendah. Domain baru, tidak ada backlinks, tidak ada brand signal. Butuh waktu untuk membangun.
Keyword terlalu kompetitif. "Jasa SEO Jakarta" dilawan ribuan agency. Mulai dari keyword long-tail dulu, scale ke keyword besar setelah domain authority naik.

Myth yang sering dipercaya

"Submit ke 100 search engine akan boost ranking". Tidak. Google, Bing, dan Yandex adalah tiga mesin pencari utama. "Submit ke 100 search engine" biasanya scam yang submit ke directory sampah.

"Beli backlink dari PBN aman". Tidak. Google Penguin dan update spam sudah canggih deteksi private blog network. Risiko penalty lebih besar dari manfaat.

Bagaimana Google memilih halaman top 10

Untuk setiap kueri, Google memiliki pool ribuan halaman relevan di index. Sistem ranking menyaring pool ini dalam beberapa layer.

Layer 1: Relevansi dasar. Halaman yang mengandung kata kunci atau synonym kueri. Ini menyisakan ratusan ribu halaman.

Layer 2: Intent matching. Halaman yang match search intent user (informational, commercial, transactional, navigational). Ini menyisakan puluhan ribu halaman.

Layer 3: Authority dan trust. Halaman dengan backlinks berkualitas, sinyal E-E-A-T kuat, dan schema valid. Ini menyisakan ratusan halaman.

Layer 4: User signals dan personalisasi. CTR historis, dwell time, lokasi user, riwayat pencarian. Ini menyisakan 10 halaman teratas di SERP.

Setiap layer punya bobot berbeda per kueri. Untuk kueri medical, trust lebih berbobot. Untuk kueri news, freshness paling berbobot. Untuk kueri transactional, user signals paling berbobot. Google tidak pakai satu formula universal.

SERP features dan dampaknya

Halaman hasil pencarian Google tidak lagi hanya 10 link biru. Ada banyak SERP features yang ambil space dan memengaruhi CTR.

Featured Snippet: kotak di paling atas dengan jawaban ringkas. Biasanya ambil dari halaman top 3 yang punya struktur jawaban jelas.
People Also Ask: akordeon pertanyaan terkait. Peluang besar untuk muncul kalau konten Anda jawab pertanyaan ini.
Knowledge Panel: panel kanan untuk entitas (brand, person, tempat). Ditarik dari Google Knowledge Graph.
AI Overview (SGE): jawaban AI dari Google di atas hasil organik. Sumbernya biasanya top 5-10 halaman.
Local Pack: peta + 3 listing bisnis untuk kueri dengan intent lokal.
Image Pack: grid gambar. Penting untuk e-commerce dan produk visual.
Video Carousel: biasanya dari YouTube.

Di 2026, halaman pertama SERP bisa ambil 70 persen space screen untuk features ini. Result organic tradisional bergeser ke bawah. Ini alasan kenapa entity SEO, schema markup, dan local SEO sekarang wajib, bukan optional.

Google Search Console sebagai teman

Google Search Console (GSC) adalah tool gratis dari Google yang memberitahu Anda bagaimana Google melihat situs Anda. Setiap owner bisnis yang serius SEO wajib pasang GSC sejak hari pertama.

Yang bisa Anda lihat: halaman mana yang dicrawl dan kapan, halaman mana yang diindex dan yang tidak, keyword apa yang membawa traffic, CTR per keyword, error teknis (404, 5xx, soft 404), Core Web Vitals per halaman, dan manual action (penalty) kalau ada.

Setup butuh 15 menit. Verify ownership lewat DNS TXT record, Google Analytics, atau file HTML. Submit sitemap.xml. Setelah itu, data mulai masuk dalam 48-72 jam.

Pertanyaan Umum

Apa itu Googlebot dan bagaimana cara kerjanya?

Googlebot adalah web crawler otomatis milik Google yang menelusuri internet, membaca konten website, dan mengirimkannya ke sistem indexing Google. Googlebot mengikuti link dari satu halaman ke halaman lain, membaca file robots.txt untuk tahu halaman mana yang boleh diakses, dan me-render halaman (termasuk JavaScript) untuk melihat konten final.

Kenapa website saya sudah online tapi tidak muncul di Google?

Beberapa kemungkinan: belum diindex (umur website masih baru), ada tag noindex tidak sengaja terpasang, robots.txt memblokir Googlebot, terkena penalty algoritma, atau konten dianggap duplikat dengan situs lain. Cek Google Search Console di bagian Indexing untuk diagnosa spesifik.

Berapa banyak faktor ranking Google?

Google secara resmi menyebut ada lebih dari 200 faktor ranking, meski detailnya tidak pernah dipublikasikan penuh. Yang paling berbobot menurut studi SEO dan leak dokumen internal: relevansi konten, kualitas backlinks, user engagement signals, E-E-A-T author, Core Web Vitals, dan freshness konten.

Apakah AI search seperti ChatGPT pakai Googlebot?

Tidak. Setiap AI search punya crawler sendiri. ChatGPT memakai GPTBot dan ChatGPT-User. Google Gemini memakai Google-Extended. Perplexity memakai PerplexityBot. Claude memakai ClaudeBot. Anda bisa mengatur akses crawler ini di robots.txt.

Apa bedanya retrieval dan training dalam AI search?

Training adalah proses AI belajar dari data historis (misal data web sampai 2024). Retrieval adalah proses AI mencari data live secara real-time saat menjawab pertanyaan pengguna. ChatGPT, Gemini, dan Perplexity sekarang memakai keduanya: model pretrained untuk reasoning, plus live search untuk data terkini.

Situs Anda sudah dicrawl tapi belum ranking?

Audit Entitas Gratis mencakup diagnostic crawl, index, dan sinyal ranking dasar. Kami identifikasi blocker teknis yang mencegah situs Anda muncul di SERP.

Audit Gratis