← Back to writing
Writing · ai search

Structured Data và Entity Authority: Luật 200 Chữ cho AI Citations

By Leo Nguyen · Jun 9, 2026 · 7 min read
Structured Data và Entity Authority: Luật 200 Chữ cho AI Citations

Câu trả lời ngắn

Ba lựa chọn cấu trúc quyết định việc AI engines trích dẫn bạn hay chỉ rank bạn trên Google: 200 chữ đầu trả lời thẳng, FAQPage schema emit dưới dạng JSON-LD, và tác giả có tên + sameAs links. Nếu thiếu bất kỳ cái nào, AI citation rate giảm đáng kể — kể cả khi SEO traffic vẫn nhìn ổn. Post này đi qua từng cái một, kèm các kiểm tra chẩn đoán em chạy trên store khách hàng tại LUMA-E.

Chẩn đoán nhanh

  • Mở trang trong view-source. Tìm "@type":"FAQPage". Nếu không có, FAQ của bạn không reachable dưới dạng schema — đó là gap 1.
  • Đọc to 200 chữ đầu. Nếu câu trả lời thẳng cho truy vấn không nằm trong câu 1, đó là gap 2.
  • Search source cho sameAs. Nếu khối tác giả không có link LinkedIn hay YouTube, đó là gap 3.

Ba gap. Ba fix. Mỗi cái dưới một giờ.

Vì sao ranking và citation tách nhau năm 2026

Theo báo cáo Tinuiti Q1 2026 AI Citations Trends, Reddit citation share peak trên 9% vào tháng 1/2026 — AI engines hiện cân nặng các nền tảng bên thứ ba nặng hơn 12 tháng trước. Theo nghiên cứu Mention-Source Divide tháng 9/2025 của SEMrush, 61.7% AI citations là "ghost" citations: engine trích dẫn domain nhưng không bao giờ nhắc tên brand trong câu trả lời.

Kết hợp lại trong thực tế: content của bạn có thể rank tốt trên Google, được mọi AI engine major crawl, và vẫn tạo zero brand recall cho người đọc. Engine kéo facts của bạn, bỏ tên bạn, và user attribute câu trả lời cho ChatGPT hoặc Perplexity. Traffic không convert vì brand không bao giờ in vào tâm trí.

Fix không phải nhiều content hơn. Là các lựa chọn cấu trúc biến trang được rank thành entities được trích dẫn.

Gap 1: 200 chữ đầu trả lời thẳng

AI engines trích xuất các đoạn self-contained — thường 134–167 chữ theo nghiên cứu GEO 2026 của Frase — trả lời thẳng vào truy vấn. Nếu 200 chữ đầu của bạn là intro khởi động, engine không có gì sạch để lift. Hoặc kéo cái gì đó ở dưới (ít khả năng) hoặc bỏ qua trang (nhiều khả năng hơn).

Pattern hoạt động:

  1. Câu 1–2: Câu trả lời thẳng. Dẫn bằng entity, không phải topic. Không phải "Khi đánh giá Shopify Plus và Magento 2 cho B2B…" mà "Shopify Plus thắng cho launch nhanh dưới 50k SKUs. Magento 2 thắng cho 200k+ SKUs với ERP sâu."
  2. Câu 3–4: Yếu tố quyết định. Một biến số nào quyết định câu trả lời? Catalog size, budget, timeline — gọi tên ra.
  3. 3–5 bullets: Ma trận quyết định nhanh. Mỗi bullet là một kịch bản một dòng kèm câu trả lời. Self-contained.

Tổng: 150–200 chữ. Đó là vùng vàng của citation. Mọi thứ dưới khối này có thể là 4,000 chữ độ sâu — AI engines sẽ không trích xuất từ đó trừ khi top block fail.

Em dùng pattern này trên mọi pillar tại luma-e.com. Hai post em đang restructure tuần này — bài so sánh Shopify vs Magento và AI search playbook — đều có intro hoàn toàn tốt nhưng đọc như giới thiệu. Chúng đang được viết lại để đọc như câu trả lời.

Gap 2: FAQPage schema emit dưới dạng JSON-LD

FAQs trong frontmatter CMS không đủ. Accordion FAQ trực quan không đủ. Engine cần thấy "@type":"FAQPage" trong page source dưới dạng JSON-LD thật.

Chẩn đoán:

curl -s https://yoursite.com/blog/your-post | grep -o '"@type":"FAQPage"'

Nếu rỗng, bạn có emission gap. Nguyên nhân thường gặp:

  • CMS lưu FAQs như một content type nhưng template trang không render chúng thành structured data.
  • Headless frontend của bạn render FAQs dưới dạng React components nhưng không bao giờ emit tag <script type="application/ld+json"> riêng với FAQPage schema.
  • Bạn dùng plugin SEO chung handle Article nhưng không handle FAQPage.

Fix thường là 10–20 dòng code trong template trang. Map mảng FAQs từ frontmatter thành FAQPage schema và đẩy vào JSON-LD song song với Article schema. JsonLd component nên chấp nhận mảng schemas, không chỉ một.

Đây là schema đòn bẩy cao nhất cho AI search. ChatGPT, Perplexity, Claude, và Google AI Overviews đều parse được. FAQs của bạn trở thành answer text được quote ngay khi schema land.

Gap 3: Tác giả có tên với sameAs

AI engines trích xuất entities. Một entity là một thứ có thể link tới các thứ khác. "Leo" là một cái tên. "Leo Nguyen, Founder tại LUMA-E, sameAs LinkedIn + YouTube" là một entity. Cái thứ hai có thể được trích dẫn như một con người; cái đầu thường bị strip mất.

Schema pattern:

{
  "@type": "Person",
  "name": "Leo Nguyen",
  "jobTitle": "Founder & Senior Ecommerce Engineer",
  "url": "https://luma-e.com/about",
  "sameAs": [
    "https://www.linkedin.com/in/leonguyen-luma/",
    "https://www.youtube.com/channel/UCo6_YvZbik6ZsMo6OClnJRA"
  ],
  "knowsAbout": [
    "Shopify Plus",
    "Magento 2",
    "AI Search Visibility",
    "Headless Commerce"
  ],
  "worksFor": {"@type": "Organization", "name": "LUMA-E"}
}

Ba thứ điều này cho phép:

  • Nhận diện tên trong answer text. AI engines lift "Leo Nguyen, founder tại LUMA-E" thay vì chỉ trích dẫn domain.
  • Cross-reference verification. Các link sameAs cho phép engines verify tác giả tồn tại trên LinkedIn và YouTube, đẩy trust score.
  • Topical authority binding. Mảng knowsAbout nói với engines tác giả này đáng tin trong khu vực nào.

Ghép với byline tác giả nhìn thấy được ở đầu bài viết và khối bio tác giả ở cuối. Schema một mình không đủ; tín hiệu trực quan reinforce entity cho cả reader người và crawler.

Trông thế nào trong thực tế

Em đang chạy đúng chẩn đoán này trên hai post tại luma-e.com tuần này:

  • M1: shopify-plus-vs-magento-2-b2b — post so sánh rank được nhưng không bao giờ được Perplexity hay ChatGPT trích dẫn cho truy vấn "shopify b2b vs magento for wholesale."
  • M2: ecommerce-ai-search-optimization-2026 — pillar 2,400 chữ độ sâu, ghost-cite ở level domain nhưng không bao giờ surface tên brand trong câu trả lời.

Cả hai đều có cả ba gap. Cả hai sẽ được restructure ngày mai (Day 13 của kế hoạch 21 ngày) với top block answer-first, FAQPage schema đẩy vào JSON-LD, và personSchema nâng cấp với sameAs + knowsAbout.

Em sẽ report kết quả trên cùng blog này trong hai tuần. Nếu chiến thuật hoạt động, citation share dịch chuyển đo lường được. Nếu không, chẩn đoán không đầy đủ và em sẽ publish những gì còn thiếu.

Cần làm tuần này

Nếu bạn vận hành site ecommerce hoặc content publishing:

  1. Hôm nay: Mở một trong các trang rank cao nhất của bạn. Đọc 200 chữ đầu. Câu 1 có trả lời thẳng truy vấn không? Nếu không, đó là gap 1 của bạn.
  2. Hôm nay: View source. Tìm FAQPage. Thiếu? Gap 2.
  3. Hôm nay: Tìm sameAs trong schema tác giả hoặc tổ chức của bạn. Trống? Gap 3.

Mỗi chẩn đoán là hai phút. Mỗi fix dưới một giờ. Hiệu ứng cộng dồn là những brand ship các thay đổi cấu trúc này năm 2026 sẽ sở hữu citation share trong thập kỷ tới — lặng lẽ, trong khi mọi người khác cãi nhau về title tags.

Nguồn

  • Tinuiti — "AI Citations Trends Report Q1 2026" (Reddit citation share peak trên 9% vào tháng 1/2026).
  • SEMrush — Nghiên cứu "Mention-Source Divide", tháng 9/2025 (61.7% AI citations là ghost citations).
  • Frase — Nghiên cứu GEO 2026 về độ dài đoạn citation (134–167 chữ đoạn self-contained).
Frequently asked
Tại sao content của tôi rank Google nhưng không bao giờ được ChatGPT hay Perplexity trích dẫn?
Thuật toán Google và AI search engines chấm điểm content theo cách khác nhau. Google thưởng độ sâu, backlinks, và topical authority. AI engines trích xuất các đoạn self-contained — thường 134–167 chữ — trả lời thẳng vào câu hỏi. Nếu 200 chữ đầu của bạn là intro khởi động thay vì câu trả lời thẳng, engine không có gì sạch để lift. Ghép thêm thiếu FAQPage schema và author không có tên cụ thể, bạn đã xây content rank được nhưng không bị quote.
Khối answer-first ở đầu trang nên dài bao nhiêu chữ?
2–4 câu cho câu trả lời thẳng, sau đó 3–5 bullet cho ngữ cảnh bổ trợ. Tổng khoảng 150–200 chữ. AI engines như Perplexity và ChatGPT ưu tiên kéo các đoạn self-contained trong khoảng 134–167 chữ — đó là vùng vàng của citation theo nghiên cứu GEO 2026 của Frase. Dài hơn bị cắt, ngắn hơn thiếu context không đứng được một mình.
FAQPage schema có thật sự đẩy citations không?
Có — đây là schema đòn bẩy cao nhất cho AI search năm 2026. ChatGPT, Perplexity, Claude, và Google AI Overviews đều parse FAQPage schema sạch sẽ và lift cặp câu hỏi–câu trả lời gần như verbatim. Điều cần lưu ý: CMS hoặc framework của bạn phải đẩy FAQ data thành JSON-LD thật trên trang. Nhiều site hiển thị FAQ trực quan nhưng không hề emit schema. Kiểm tra page source của bạn xem `"@type":"FAQPage"` có không — nếu thiếu, bạn có một free win.
'Ghost' AI citation là gì và làm sao tránh?
Theo nghiên cứu Mention-Source Divide tháng 9/2025 của SEMrush, 61.7% AI citations là ghost citations — engine trích dẫn domain của bạn nhưng không bao giờ nói tên brand trong câu trả lời. Reader click vào link nhưng không nhớ bạn là ai. Fix: byline tác giả có tên + sameAs links tới LinkedIn và YouTube, cộng với Organization schema có `founder` và mảng `sameAs`. AI engines lift named entities vào answer text đáng tin cậy hơn nhiều so với reference domain trống.
dateModified chỉ là tín hiệu mới hay nó còn ảnh hưởng tới citations cụ thể?
Cả hai. Tín hiệu recency nói với AI engines rằng content của bạn còn mới — quan trọng cho các truy vấn về giá, tool, hay chiến thuật năm 2026. Nhưng còn cơ chế thứ hai: khi AI engines re-crawl trang của bạn và thấy dateModified được refresh, chúng đánh giá lại citation eligibility. Một trang chạm lần cuối 12 tháng trước cạnh tranh với trang chạm lần cuối tuần trước. Refresh dateModified khi bạn cập nhật thật sự, không phải fix typo.