Tiga lapis entity linking

Ada tiga lapisan berbeda yang semuanya disebut "entity linking" di literatur SEO. Memisahkan mereka penting supaya strategi tidak campur aduk.

Lapis pertama adalah intra-site linking. Ini adalah konsistensi @id JSON-LD di dalam satu website. Setiap kali halaman menyebut Person atau Organization yang sama, dipakai @id identik. Google crawler membaca semua halaman dan mengkonsolidasi referensi via @id match.

Lapis kedua adalah cross-platform linking. Ini peran sameAs. Website Anda declare bahwa entitas di @id juga direpresentasikan di Wikidata, LinkedIn, ORCID, dan platform lain. Google dan AI model menggunakan sameAs sebagai jembatan identity antar platform.

Lapis ketiga adalah NLP-level entity linking. Ini yang dilakukan model bahasa ketika membaca teks tanpa schema markup. Model harus menebak entitas mana yang dirujuk berdasarkan konteks. Contoh: "CEO Bank Mandiri" menunjuk ke entitas Darmawan Junaidi, sementara "founder Gojek" menunjuk ke Nadiem Makarim. Tanpa sinyal disambiguasi, model bisa salah tebak.

Arsitektur entity linking

Alur pipeline entity linking1MentionTeks mentah2RecognitionNER3CandidateGenerate list4DisambiguationRank by context5LinkQ-ID / KGMID

Pipeline standar entity linking di Google, Wikidata, dan model AI. Langkah disambiguation adalah titik terbanyak kesalahan untuk brand Indonesia karena homonim dan transliterasi.

Homonim: masalah nomor satu di Indonesia

Nama brand di Indonesia sering bertabrakan. "Arsindo" bisa merujuk ke PT Arsindo Integrasi Pompa, PT Arsindo lain di kota berbeda, atau nama keluarga. "Mandiri" muncul di ratusan nama entitas. Tanpa disambiguasi eksplisit, Google akan pilih entitas dengan sinyal terkuat saja.

Solusinya adalah melengkapi setiap entitas dengan minimal enam properti pembeda yang sulit bertabrakan.

Properti pembeda untuk disambiguasi homonimCukup kuatLemahNama legal lengkap (PT/CV + Tbk)×NIB atau nomor NPWP publik×Alamat kantor (PostalAddress)Trademark DJKI terkait×Founder/Director teridentifikasiTanggal berdiri resmi×

Cross-language entity linking

Brand Indonesia yang ingin muncul di search berbahasa Inggris menghadapi masalah khas. "Bank Mandiri" di pasar lokal, "Bank Mandiri Indonesia" di pasar regional, "PT Bank Mandiri (Persero) Tbk" di dokumen formal. Semua harus dipahami sebagai entitas yang sama oleh Google.

Kuncinya: satu Wikidata Q-ID dengan multi-language labels. Setiap bahasa dapat satu label primer dan beberapa aliases. Plus sitelinks ke Wikipedia versi bahasa berbeda kalau artikel Wikipedia ada.

Wikidata item dengan multi-language labels { "labels": { "id": "PT Arsindo Integrasi Pompa", "en": "PT Arsindo Integrasi Pompa", "ms": "PT Arsindo Integrasi Pompa" }, "aliases": { "id": ["Arsindo", "Arsindo Pompa"], "en": ["Arsindo Pump Engineering"] }, "descriptions": { "id": "Perusahaan integrasi pompa industri di Bekasi", "en": "Industrial pump engineering company in Bekasi, Indonesia" }, "claims": { "P17": "Q252", "P571": "+2017-00-00T00:00:00Z", "P856": "https://ptarsindo.com/" } }

Schema-level strategi @id

Di sisi website, @id adalah glue. Berikut pola yang stabil untuk perusahaan dengan founder yang visible.

Person + Organization dengan @id cross-reference { "@context": "https://schema.org", "@graph": [ { "@type": "Person", "@id": "https://ptarsindo.com/#founder", "name": "Nama Founder", "worksFor": { "@id": "https://ptarsindo.com/#organization" }, "sameAs": [ "https://www.wikidata.org/wiki/Q138856145", "https://hibranwar.com/#person" ] }, { "@type": "Organization", "@id": "https://ptarsindo.com/#organization", "name": "PT Arsindo Integrasi Pompa", "founder": { "@id": "https://ptarsindo.com/#founder" }, "sameAs": [ "https://www.wikidata.org/wiki/Q[id-perusahaan]", "https://www.linkedin.com/company/ptarsindo" ] } ] }

Perhatikan pola cross-reference. Person worksFor ke Organization via @id. Organization founder ke Person via @id. Google membangun graph internal dari dua node ini dan memahami relasi secara eksplisit.

Tools verifikasi

Workflow verifikasi 5-langkah

  1. 1

    Google Knowledge Graph Search API

    Endpoint kgsearch.googleapis.com. Query by name atau by ID. Return list entitas dengan KGMID. Bisa cek apakah brand Anda sudah terdaftar dan Google percaya sinyal apa.

  2. 2

    Wikidata Query Service

    SPARQL endpoint di query.wikidata.org. Bisa query semua Q-ID yang official website match domain Anda, atau yang founder-nya adalah Person Q-ID tertentu. Tool audit paling powerful untuk brand network.

  3. 3

    Rich Results Test

    Tool Google resmi untuk validasi schema markup. Parse @id, cek apakah valid URI, warning kalau inconsistent antar halaman. Jalankan untuk setiap halaman utama.

  4. 4

    Schema Markup Validator

    Tool schema.org untuk validasi struktur JSON-LD. Lebih strict dari Rich Results Test. Berguna untuk cek @graph yang kompleks.

  5. 5

    AI citation probe

    Query ChatGPT, Perplexity, Gemini dengan nama brand Anda. Baca jawaban. Kalau model menyebut fakta yang salah, salah satu sumber yang di-crawl (Wikipedia, site Anda, Wikidata) mengandung disambiguasi yang lemah.

Contoh SPARQL query untuk audit

Cari semua entitas yang claim sebagai founder brand Anda (Wikidata) SELECT ?item ?itemLabel ?company ?companyLabel WHERE { ?item wdt:P31 wd:Q5 . ?company wdt:P112 ?item . ?company wdt:P17 wd:Q252 . SERVICE wikibase:label { bd:serviceParam wikibase:language "id,en" } } LIMIT 50
Pitfall umum

Ganti-ganti @id. Sekali deploy @id tertentu, jangan ganti. Kalau berubah jadi @id baru, Google perlu waktu 2-6 minggu untuk re-link semua referensi. Periode ini sinyal otoritas drop.

Redirect tanpa schema update. Domain pindah ke domain baru tapi JSON-LD masih pakai @id domain lama. Google jadi bingung mana canonical.

sameAs one-way. Website Anda sameAs ke Wikidata Q-ID, tapi Wikidata item tidak punya P856 (official website) balik ke Anda. Disambiguasi jadi timpang.

Bagaimana LLM melakukan entity linking

Model bahasa seperti ChatGPT, Gemini, dan Claude menjalankan entity linking internal ketika membaca dokumen. Prosesnya berbeda dari Google crawler tapi hasilnya punya konsekuensi SEO yang nyata. Kalau dokumen pelatihan model Anda disambiguasi lemah, model akan menjawab pertanyaan tentang brand Anda dengan fakta campur.

Tiga sinyal utama yang LLM pakai: co-occurrence pattern (nama brand muncul bersama entitas apa di banyak dokumen), structural markup di web (schema @id yang konsisten), dan authoritative source di training corpus (Wikipedia, Wikidata, berita outlet besar). Brand Indonesia dengan satu Wikipedia article dan 50 mention organik di media mainstream punya probabilitas jauh lebih tinggi disebut akurat oleh LLM dibanding brand dengan nol press coverage.

Strategi: pastikan setiap asset digital menyebut nama brand dengan cara yang konsisten dan disambiguasi jelas. Kalau brand Anda "Arsindo" dan ada homonim, setiap mention sebaiknya pakai nama legal penuh "PT Arsindo Integrasi Pompa" minimal satu kali per dokumen, terutama di dokumen yang akan di-crawl Common Crawl (sumber utama training data banyak LLM).

Maintenance rhythm

Entity linking bukan setup sekali jadi. Ritme maintenance yang sehat: audit sameAs tiap 3 bulan, audit @id consistency tiap 6 bulan ketika ada redesign, re-crawl site via GSC setelah perubahan schema besar, monitor Wikidata Q-ID tiap bulan untuk vandalisme atau edit tidak sesuai, dan re-test AI citation tiap kuartal untuk deteksi drift.

Catatan sederhana di spreadsheet cukup. Kolom: entitas, @id, sameAs count, Wikidata Q-ID, last audit date, status. Update tiap quarterly review. Disiplin maintenance mengalahkan strategi hebat tanpa follow-through.

Pertanyaan Umum

Apa bedanya entity linking dan entity recognition?
Entity recognition (NER) adalah proses mengenali bahwa sebuah frasa merujuk ke entitas (misal "Bank Mandiri" adalah Organization). Entity linking selangkah lebih jauh: menghubungkan entitas yang dikenali tadi ke record unik di knowledge base (Wikidata Q-ID, KGMID). Recognition jawab "ini entitas apa?", linking jawab "ini entitas mana yang spesifik?".
Bagaimana Google menangani homonim seperti dua perusahaan bernama sama?
Google membaca sinyal kontekstual: alamat, sektor industri, founder, sameAs ke platform otoritas. Untuk disambiguasi yang kuat, setiap entitas harus punya Wikidata Q-ID unik dengan minimal 10 properties pembeda, schema.org @id stabil, dan sameAs ke profil resmi yang unik (NIB, trademark DJKI, LinkedIn Company). Tanpa sinyal pembeda, Google akan gabungkan dua entitas atau tidak masuk Knowledge Graph sama sekali.
Apa itu @id di JSON-LD dan mengapa penting untuk entity linking?
Properti @id adalah URI canonical untuk entitas di dalam schema.org. Format umumnya URL fragment, contoh https://hibranwar.com/#person. Selama @id konsisten di semua halaman website, Google memahami bahwa semua referensi merujuk ke entitas yang sama. Ganti @id berarti reset identitas dari sudut pandang crawler.
Bagaimana cross-language entity linking bekerja?
Wikidata punya satu Q-ID untuk entitas, dengan labels di banyak bahasa. Google memahami bahwa "PT Bank Mandiri Tbk" (label ID) dan "Bank Mandiri" (label EN) adalah entitas yang sama karena keduanya merujuk ke Q-ID yang sama. Untuk brand Indonesia yang ingin muncul di search EN, pastikan Wikidata item punya label English yang jelas plus sitelink ke en.wikipedia kalau tersedia.
Apa itu Google Knowledge Graph Search API?
API resmi Google untuk query entitas di Knowledge Graph via ID, nama, atau tipe. Bisa cek apakah brand Anda sudah punya KGMID. Gratis dengan kuota 100000 query per hari. Endpoint https://kgsearch.googleapis.com/v1/entities:search. Butuh API key dari Google Cloud Console.

Butuh audit entity linking untuk brand Anda?

Audit Entitas Gratis mencakup verifikasi @id consistency, sameAs hygiene, Wikidata Q-ID status, dan disambiguasi homonim. Laporan tertulis dalam 5 hari kerja.

Audit Gratis