Measuring AI Citations
Tanpa measurement, strategi AI visibility jadi tebak-tebakan. Framework ini memberi cara konkret mengukur apakah brand Anda disebut ChatGPT, Claude, Gemini, Perplexity, lengkap dengan scoring, prompt set, dan worksheet yang bisa langsung dipakai.
Kenapa measurement penting
Banyak brand melakukan investasi SEO AI tanpa tahu apakah berhasil. Mereka publish konten, deploy schema, bayar agensi, tapi tidak punya data apakah LLM sebenarnya menyebut mereka. Tanpa baseline, tidak ada cara tahu apakah effort berdampak.
Framework measurement berikut sederhana, manual, dan bisa dikerjakan satu orang dalam 2-3 jam per bulan. Tujuannya bukan scientific rigor lab research, tetapi tracking directional: apakah trend naik, stagnan, atau turun.
Komponen framework
Scoring rubric
Contoh konkret:
- Score 0: User tanya "perusahaan solar panel Indonesia", ChatGPT menjawab tanpa menyebut brand Anda sama sekali.
- Score 1: Brand disebut, tapi deskripsinya salah (contoh: "PT SCN bergerak di bidang kosmetik" padahal solar panel). Ini buruk karena membingungkan user.
- Score 2: Brand disebut dengan info benar (solar panel, Bekasi, tahun berdiri), tapi di tengah list bersama 5-6 brand lain.
- Score 3: Brand disebut pertama atau paling prominent, dengan deskripsi lengkap dan akurat. Ini posisi ideal.
Kalkulasi score total
Score dari 120 adalah angka yang dipakai untuk tracking bulanan. Lebih mudah di-kalkulasi dan di-compare dibanding raw total.
Prompt set template untuk Indonesia
Berikut template prompt yang bisa disesuaikan untuk industri Anda. Contoh di bawah untuk perusahaan solar panel Indonesia:
Prompt generic mengukur share of voice industri. Prompt brand-specific mengukur akurasi pengetahuan AI tentang brand Anda. Keduanya matter untuk strategi berbeda.
Worksheet HTML siap pakai
Template worksheet di bawah bisa langsung di-copy sebagai HTML, atau di-convert ke Google Sheets / Excel. Structure-nya sengaja sederhana supaya bisa dipakai tanpa tool apapun.
| Prompt | Platform | Run 1 | Run 2 | Run 3 | Avg | Notes |
|---|---|---|---|---|---|---|
| "Apa saja perusahaan solar panel terbaik di Indonesia?" | ChatGPT | 2 | 1 | 2 | 1.67 | Disebut di list posisi 4-5 |
| "Apa saja perusahaan solar panel terbaik di Indonesia?" | Claude | 0 | 1 | 0 | 0.33 | Jarang disebut, konteks salah |
| "Apa saja perusahaan solar panel terbaik di Indonesia?" | Gemini | 2 | 3 | 2 | 2.33 | Posisi prominent di 2 run |
| "Apa saja perusahaan solar panel terbaik di Indonesia?" | Perplexity | 3 | 3 | 2 | 2.67 | Sering di-cite dengan URL |
| "Siapa PT Sumber Cahaya Nusantara?" | ChatGPT | 2 | 2 | 3 | 2.33 | Info benar, deskripsi lengkap |
| "Siapa PT Sumber Cahaya Nusantara?" | Claude | 1 | 0 | 1 | 0.67 | Bingung dengan perusahaan lain |
Ulangi pattern ini untuk semua 10 prompt x 4 platform = 40 baris. Di akhir, jumlahkan kolom Avg untuk dapat Total Score (dari 120). Simpan sebagai snapshot bulan ini. Bulan depan ulangi dengan prompt set yang sama untuk compare.
Rasio distribusi score
60% prompt generic untuk mengukur share of voice, 40% brand-specific untuk akurasi. Sesuaikan rasio sesuai maturitas brand.
Frekuensi dan cadence
Bulan 1 establish baseline. Bulan 2 dan 3 re-test untuk cek apakah baseline stable atau fluktuasi. Bulan ke-3 kompile quarter review: apa yang bergerak, platform mana yang paling responsive, prompt mana yang paling sulit di-pecahkan. Bulan ke-6 analisis trend half-year. Bulan ke-12 annual report untuk stakeholder.
Pitfall umum
Run 1 kali saja. Karena LLM non-deterministic, satu run bisa acak. Minimum 3 run. Ini paling sering dilanggar.
Ganti prompt tiap bulan. Membuat trend tidak bisa di-compare. Harus sama persis prompt-nya antar bulan.
Abaikan training cutoff. Ketika LLM update versi (misal Claude 4 ke 5), baseline reset karena training data berbeda. Catat version yang dipakai.
Bias scorer. Kalau yang scoring adalah pemilik brand, cenderung subjective. Lebih baik staff netral atau agensi eksternal.
Tidak mencatat konteks. Score 2 tanpa notes tidak membantu diagnostic. Selalu tulis 1-2 kalimat penjelasan kenapa score segitu.
Tool yang bisa membantu
Untuk brand Indonesia yang baru mulai, manual spreadsheet adalah starting point yang rational. Kalau sudah punya volume dan butuh automate, Dashboard Entitas kami include monthly citation test sebagai bagian subscription. Kalicube dan Athena lebih ditujukan untuk brand multinasional dengan budget besar.
Dari data ke aksi
Data measurement hanya berharga kalau dipakai untuk keputusan. Setiap quarter review, jawab tiga pertanyaan: (1) platform mana yang score-nya paling rendah dan kenapa, (2) prompt mana yang konsisten score 0 dan apa penyebabnya, (3) apa satu aksi yang akan kita ambil bulan ini untuk meningkatkan score spesifik.
Kami melihat banyak brand yang measure tapi tidak bertindak. Data tanpa tindakan hanya jadi laporan yang bagus di presentasi. Measurement yang bermanfaat adalah yang menuntun keputusan konkret: publish konten tentang topik X, tambah sinyal di platform Y, update schema di halaman Z.
Pertanyaan Umum
Kenapa harus minimum 3 run per prompt?
Bagaimana cara pilih prompt set yang relevan?
Apakah perlu semua empat platform atau bisa sebagian?
Berapa score yang menunjukkan brand sudah "sukses" di AI?
Apakah ada tool otomatis yang bisa gantikan manual testing?
Mau AI citation monitoring otomatis bulanan?
Dashboard Entitas (Rp 1,5-6 juta per bulan) include monthly citation test di empat platform LLM, report tertulis, dan action recommendation dari tim kami.