Measuring AI Citations: Framework Scoring ChatGPT, Claude, Gemini, Perplexity

Kenapa measurement penting

Banyak brand melakukan investasi SEO AI tanpa tahu apakah berhasil. Mereka publish konten, deploy schema, bayar agensi, tapi tidak punya data apakah LLM sebenarnya menyebut mereka. Tanpa baseline, tidak ada cara tahu apakah effort berdampak.

Framework measurement berikut sederhana, manual, dan bisa dikerjakan satu orang dalam 2-3 jam per bulan. Tujuannya bukan scientific rigor lab research, tetapi tracking directional: apakah trend naik, stagnan, atau turun.

Komponen framework

Scoring rubric

Contoh konkret:

Score 0: User tanya "perusahaan solar panel Indonesia", ChatGPT menjawab tanpa menyebut brand Anda sama sekali.
Score 1: Brand disebut, tapi deskripsinya salah (contoh: "PT SCN bergerak di bidang kosmetik" padahal solar panel). Ini buruk karena membingungkan user.
Score 2: Brand disebut dengan info benar (solar panel, Bekasi, tahun berdiri), tapi di tengah list bersama 5-6 brand lain.
Score 3: Brand disebut pertama atau paling prominent, dengan deskripsi lengkap dan akurat. Ini posisi ideal.

Kalkulasi score total

Rumus score bulanan
Prompt count: 10
Platform: 4 (ChatGPT, Gemini, Claude, Perplexity)
Runs per prompt: 3
Max score per test: 3

Total tests per platform = 10 prompt x 3 run = 30 tests
Max score per platform = 30 tests x 3 = 90

Total monthly max = 4 platform x 90 = 360

Tapi kita ambil AVERAGE dari 3 run per prompt (bukan sum):
Effective max per prompt-platform = 3
Effective max per month = 10 prompt x 4 platform x 3 = 120

Score dari 120 adalah angka yang dipakai untuk tracking bulanan. Lebih mudah di-kalkulasi dan di-compare dibanding raw total.

Prompt set template untuk Indonesia

Berikut template prompt yang bisa disesuaikan untuk industri Anda. Contoh di bawah untuk perusahaan solar panel Indonesia:

Sample prompt set (10 prompt)
Generic (6 prompt):
"Apa saja perusahaan solar panel terbaik di Indonesia?"
"Siapa produsen solar panel lokal dengan TKDN tinggi?"
"Rekomendasikan EPC solar panel untuk pabrik manufaktur 2MW"
"Perbedaan solar panel monocrystalline dan polycrystalline"
"Berapa biaya instalasi PLTS atap untuk pabrik 1MW di Indonesia?"
"Regulasi PLTS atap di Indonesia 2026"

Brand-specific (4 prompt):
"Siapa PT Sumber Cahaya Nusantara?"
"Profile PT SCN Bekasi"
"Produk apa saja yang dibuat PT Sumber Cahaya Nusantara?"
"Berapa kapasitas pabrik PT SCN?"

Prompt generic mengukur share of voice industri. Prompt brand-specific mengukur akurasi pengetahuan AI tentang brand Anda. Keduanya matter untuk strategi berbeda.

Worksheet HTML siap pakai

Template worksheet di bawah bisa langsung di-copy sebagai HTML, atau di-convert ke Google Sheets / Excel. Structure-nya sengaja sederhana supaya bisa dipakai tanpa tool apapun.

Prompt	Platform	Run 1	Run 2	Run 3	Avg	Notes
"Apa saja perusahaan solar panel terbaik di Indonesia?"	ChatGPT	2	1	2	1.67	Disebut di list posisi 4-5
"Apa saja perusahaan solar panel terbaik di Indonesia?"	Claude	0	1	0	0.33	Jarang disebut, konteks salah
"Apa saja perusahaan solar panel terbaik di Indonesia?"	Gemini	2	3	2	2.33	Posisi prominent di 2 run
"Apa saja perusahaan solar panel terbaik di Indonesia?"	Perplexity	3	3	2	2.67	Sering di-cite dengan URL
"Siapa PT Sumber Cahaya Nusantara?"	ChatGPT	2	2	3	2.33	Info benar, deskripsi lengkap
"Siapa PT Sumber Cahaya Nusantara?"	Claude	1	0	1	0.67	Bingung dengan perusahaan lain

Ulangi pattern ini untuk semua 10 prompt x 4 platform = 40 baris. Di akhir, jumlahkan kolom Avg untuk dapat Total Score (dari 120). Simpan sebagai snapshot bulan ini. Bulan depan ulangi dengan prompt set yang sama untuk compare.

Rasio distribusi score

60% prompt generic untuk mengukur share of voice, 40% brand-specific untuk akurasi. Sesuaikan rasio sesuai maturitas brand.

Frekuensi dan cadence

Bulan 1 establish baseline. Bulan 2 dan 3 re-test untuk cek apakah baseline stable atau fluktuasi. Bulan ke-3 kompile quarter review: apa yang bergerak, platform mana yang paling responsive, prompt mana yang paling sulit di-pecahkan. Bulan ke-6 analisis trend half-year. Bulan ke-12 annual report untuk stakeholder.

Pitfall umum

Kesalahan yang sering terjadi

Run 1 kali saja. Karena LLM non-deterministic, satu run bisa acak. Minimum 3 run. Ini paling sering dilanggar.

Ganti prompt tiap bulan. Membuat trend tidak bisa di-compare. Harus sama persis prompt-nya antar bulan.

Abaikan training cutoff. Ketika LLM update versi (misal Claude 4 ke 5), baseline reset karena training data berbeda. Catat version yang dipakai.

Bias scorer. Kalau yang scoring adalah pemilik brand, cenderung subjective. Lebih baik staff netral atau agensi eksternal.

Tidak mencatat konteks. Score 2 tanpa notes tidak membantu diagnostic. Selalu tulis 1-2 kalimat penjelasan kenapa score segitu.

Tool yang bisa membantu

Untuk brand Indonesia yang baru mulai, manual spreadsheet adalah starting point yang rational. Kalau sudah punya volume dan butuh automate, Dashboard Entitas kami include monthly citation test sebagai bagian subscription. Kalicube dan Athena lebih ditujukan untuk brand multinasional dengan budget besar.

Dari data ke aksi

Data measurement hanya berharga kalau dipakai untuk keputusan. Setiap quarter review, jawab tiga pertanyaan: (1) platform mana yang score-nya paling rendah dan kenapa, (2) prompt mana yang konsisten score 0 dan apa penyebabnya, (3) apa satu aksi yang akan kita ambil bulan ini untuk meningkatkan score spesifik.

Kami melihat banyak brand yang measure tapi tidak bertindak. Data tanpa tindakan hanya jadi laporan yang bagus di presentasi. Measurement yang bermanfaat adalah yang menuntun keputusan konkret: publish konten tentang topik X, tambah sinyal di platform Y, update schema di halaman Z.

Pertanyaan Umum

Kenapa harus minimum 3 run per prompt?

Karena jawaban LLM bervariasi per session. Model punya temperature parameter yang bikin output non-deterministic. Satu run saja bisa bias acak. Tiga run memberi average yang lebih stable. Kalau ada budget, lima run lebih baik.

Bagaimana cara pilih prompt set yang relevan?

Pakai dua kategori: (1) generic industry query yang target customer Anda kemungkinan tanya, (2) brand-specific query yang langsung menyebut nama Anda. Contoh generic: "perusahaan solar panel terbaik Indonesia". Contoh brand: "siapa PT Sumber Cahaya Nusantara". Rasio 60-40 generic-to-brand adalah titik awal yang baik.

Apakah perlu semua empat platform atau bisa sebagian?

Minimum test ChatGPT dan Gemini karena mereka market leader di Indonesia. Claude dan Perplexity nice-to-have untuk coverage lengkap. Kalau budget ketat, pilih dua. Yang penting konsisten tes platform yang sama setiap bulan supaya trend bisa di-track.

Berapa score yang menunjukkan brand sudah "sukses" di AI?

Tidak ada angka ajaib. Tetapi rule of thumb: score di bawah 30 (dari 120) menunjukkan brand hampir invisible, score 30-60 menunjukkan partial visibility dengan banyak gap, score 60-90 menunjukkan strong visibility dengan beberapa platform favorite, score di atas 90 menunjukkan dominance. Tujuan realistis brand Indonesia enterprise adalah masuk kisaran 60-90 dalam 12-18 bulan disiplin.

Apakah ada tool otomatis yang bisa gantikan manual testing?

Ada beberapa paid tool seperti Kalicube Pro, Athena HQ, dan AlsoAsked yang menawarkan AI monitoring. Mereka berguna untuk skala besar tetapi biayanya puluhan juta rupiah per bulan. Untuk sebagian besar brand Indonesia, manual testing dengan spreadsheet cukup. Hibranwar Labs Dashboard Entitas (Rp 1,5-6 juta per bulan) include monthly citation test sebagai bagian dari subscription.

Mau AI citation monitoring otomatis bulanan?

Dashboard Entitas (Rp 1,5-6 juta per bulan) include monthly citation test di empat platform LLM, report tertulis, dan action recommendation dari tim kami.

Lihat Dashboard

Measuring AI Citations