← Back to writing
Writing · ai search

AI Search Crawlers và Store Ecommerce: Cẩm Nang Robots.txt 2026

By Leo Nguyen · Jun 18, 2026 · 9 min read
AI Search Crawlers và Store Ecommerce: Cẩm Nang Robots.txt 2026

Câu trả lời ngắn

6 AI user-agent matter cho ecommerce năm 2026, và chúng tách thành 2 nhiệm vụ: training model và fetch page live khi user đặt câu hỏi. GPTBot, ClaudeBot, và PerplexityBot là training + indexing crawler. OAI-SearchBot, ChatGPT-User, và Claude-User là live-retrieval bot — chúng fetch page bạn real time khi user hỏi ChatGPT hay Claude một câu reference đến store của bạn. Chặn training bot KHÔNG chặn live bot. Đối với hầu hết store, default sạch nhất 2026 là cho phép live-retrieval bot để page vẫn được cite trong real-time answer, và quyết định riêng training bot dựa trên risk competitive và IP. Pair robots.txt với llms.txt ngắn point các bot được phép vào pillar content.

Quick diagnosis

  • Mở https://yourstore.com/robots.txt trên browser. Nếu chỉ thấy block User-agent: *, bạn không có rule AI-specific nào — mọi crawler nhận default treatment giống nhau.
  • Check robots.txt có entry tường minh User-agent: GPTBot, User-agent: ClaudeBot, User-agent: PerplexityBot chưa. Nếu chưa, bạn đang chấp nhận politeness logic mặc định của từng bot.
  • Test 1 URL bằng curl với user-agent giả để xác nhận page reach được tới AI fetch: curl -A "OAI-SearchBot" https://yourstore.com/your-pillar-page. Trả về 200 = live bot reach được.

3 check. Dưới 5 phút.

Vì sao chuyện này phức tạp lên từ 2024-2025

Trước cuối 2023, AI crawler đa số là 1 user-agent / công ty. OpenAI ship GPTBot tháng 8/2023. Google thêm Google-Extended tháng 9/2023 như cách opt-out Bard + Gemini training mà không chặn Googlebot. Anthropic publish doc crawler 2024 cover ClaudeBot + Claude-User on-demand fetch agent. Perplexity rollout PerplexityBot cho index + user-agent Perplexity-User riêng cho retrieval live.

Split này matter vì use case khác. Training crawler download page hàng loạt feed corpus pretraining — model học từ content nhưng không cần fetch lại lúc query. Live-retrieval bot fetch URL cụ thể on-demand khi user hỏi câu nhắc đến store hoặc topic store bạn cover. Training bot ảnh hưởng việc brand có xuất hiện trong parametric memory của model không. Live bot ảnh hưởng URL cụ thể có được cite trong real-time answer không.

Năm 2026, phần lớn AI citation traffic land vào analytics đến qua live-retrieval bot, không qua training. Khi ChatGPT cite store Shopify làm source, fetch xảy ra lúc query qua OAI-SearchBot hoặc ChatGPT-User. Khi Perplexity surface comparison page brand DTC, fetch xảy ra qua Perplexity-User. Training crawler shape knowledge model dài hạn; live bot shape cái được cite hôm nay.

Hệ quả thực dụng: robots.txt chặn hết AI user-agent — pattern lan rộng qua blog post cuối 2023 — để lại tiền trên bàn năm 2026 vì chặn luôn live bot driver real-time citation traffic.

6 user-agent matter

Đây là list working cho store ecommerce giữa 2026. Mỗi entry có tên, bot làm gì, và phân loại training crawler hay live-retrieval bot.

OpenAI

  • GPTBot — training crawler cho OpenAI model. Doc tại platform.openai.com/docs/bots. Honor robots.txt.
  • OAI-SearchBot — search index crawler power ChatGPT search result. Tách bạch với GPTBot. Honor robots.txt.
  • ChatGPT-User — on-demand fetch khi user ChatGPT click link hoặc paste URL. Hành xử như browser hit trigger bởi user.

Anthropic

  • ClaudeBot — training crawler. Doc tại support.anthropic.com mục web crawler. Honor robots.txt.
  • Claude-User — on-demand fetch khi user Claude reference URL cụ thể hoặc ask Claude browse tới page.

Perplexity

  • PerplexityBot — index crawler. Doc tại docs.perplexity.ai mục PerplexityBot. Honor robots.txt.
  • Perplexity-User — live retrieval bot fetch page khi answer câu user. Perplexity đã state bot này không nhất thiết respect robots.txt vì fetch initiated bởi user, không phải engine — vùng này còn đang public discussion.

Google

  • Google-Extended — không phải user-agent string crawl; là token đặt trong robots.txt để opt-out site khỏi pipeline training Gemini của Google trong khi vẫn cho Googlebot index search.
  • Googlebot — search crawler standard, không đổi.

Common Crawl

  • CCBot — crawler third-party có dataset feed nhiều pipeline training AI bao gồm các model OpenAI đời trước. Nhiều site muốn limit exposure AI training cũng chặn CCBot.

Đó là working set. Có crawler nhỏ hơn — FacebookBot của Meta cho AI product, Bytespider của ByteDance, Amazonbot cho Q&A product Amazon, Apple-Extended cho Apple Intelligence — và list mỗi quý lại dài thêm. Principle như nhau cho tất cả: xác định bot là training crawler hay live-retrieval bot, treat từng loại tương ứng.

Robots.txt ecommerce working 2026 trông ra sao

Đây là template store ecommerce có thể adapt. Cho phép live-retrieval bot, để training bot decision cho operator, lock admin + account path, point sitemap. Block training bot show comment-out — store có thể uncomment để opt-out training.

# Rule standard mọi crawler
User-agent: *
Disallow: /admin
Disallow: /account
Disallow: /cart
Disallow: /checkout
Disallow: /search?
Allow: /

# Live-retrieval bot — default allow để preserve real-time citation
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-User
Allow: /

User-agent: Perplexity-User
Allow: /

# Training crawler — uncomment dòng Disallow nếu muốn opt-out
User-agent: GPTBot
# Disallow: /
Allow: /

User-agent: ClaudeBot
# Disallow: /
Allow: /

User-agent: PerplexityBot
# Disallow: /
Allow: /

User-agent: CCBot
# Disallow: /
Allow: /

# Opt-out training Google AI (không ảnh hưởng Googlebot search)
User-agent: Google-Extended
# Disallow: /
Allow: /

Sitemap: https://yourstore.com/sitemap.xml

3 thứ cần để ý. Một, mỗi AI user-agent có block riêng. Hai, training bot + live bot tách bạch. Ba, block User-agent: * standard vẫn lock admin, account, cart, checkout cho mọi crawler — những path này không nên expose cho bot nào, AI hay khác.

Nếu muốn chặn hoàn toàn AI training mà vẫn giữ live citation, uncomment dòng Disallow: / dưới 4 block training bot (GPTBot, ClaudeBot, PerplexityBot, CCBot) + block Google-Extended. Live retrieval bot — OAI-SearchBot, ChatGPT-User, Claude-User, Perplexity-User — vẫn allow, preserve path citation real time.

Cái gì thay đổi 2026 — và cần verify tự mình

2 pattern đáng flag vì shift bức tranh.

Thứ nhất, AI engine ngày càng tách training crawl khỏi live retrieval ở mức user-agent. Split sạch giữa GPTBot và OAI-SearchBot của OpenAI là ví dụ rõ nhất, và split ClaudeBot vs Claude-User của Anthropic cùng shape. Hệ quả cho ecommerce: pattern robots.txt "chặn hết AI bot" lan rộng 2023 đã già không sạch. Store chặn hết dưới 1 rule Disallow năm 2023 giờ đang chặn live bot lẽ ra đã cite page comparison product + pillar trong 2026.

Thứ hai, guidance public từ từng engine đang lệch về phía "honor robots.txt cho training crawler, treat user-initiated fetch nhẹ tay hơn". Perplexity explicit nhất, state Perplexity-User fetch initiated bởi user và treat khác PerplexityBot. Hệ quả: cả khi Disallow Perplexity-User, có khi vẫn không chặn được fetch khi user explicit ask Perplexity đọc page bạn. Vùng standard còn đang settle và phản ứng đúng là test.

Cách verify sạch nhất là fetch page tự mình bằng user-agent string giả + watch log. curl -A "OAI-SearchBot" -I https://yourstore.com/your-pillar-page nên return 200 nếu robots.txt allow bot, hoặc bị chặn ở application layer nếu có logic thêm. Làm tương tự ClaudeBot, PerplexityBot, và live bot. Nếu trả 403 bất ngờ hoặc redirect chain, dấu hiệu rule robots.txt không parse như ý hoặc rule layer CDN đang override.

Deploy trên Shopify, Magento, headless

Shopify. Customize template robots.txt.liquid (intro 2021). Trong code editor theme, tạo hoặc edit templates/robots.txt.liquid và đặt user-agent block trong đó dùng Liquid. Thay đổi live tại yourstore.com/robots.txt trong vài phút sau save. Lưu ý Shopify wrap file với rule default của họ — đảm bảo phần thêm vào không conflict với block User-agent: * auto-generated ở top.

Magento 2. File edit qua Admin → Content → Design → Configuration → Search Engine Robots, hoặc đặt file tĩnh robots.txt trực tiếp tại pub/robots.txt và đảm bảo webserver không override. Nếu chạy multi store trên 1 Magento install, config robots.txt theo store là option sạch hơn.

Headless (Next.js, Remix, custom). Tạo file robots.txt tĩnh trong public directory hoặc route handler return content với Content-Type: text/plain. Next.js App Router có file robots.ts ở root project export function build file dynamic. Remix có routes/robots[.]txt.ts export loader. Test URL deployed bằng curl sau mỗi thay đổi.

Trong cả 3 stack, step verify như nhau: hit https://yourstore.com/robots.txt từ browser sạch + check file live khớp ý. Cache layer, CDN override, default template platform là 3 lý do phổ biến nhất khiến edit robots.txt không show live, và curl với -I sẽ surface header cache nào đang mask edit.

Pairing với llms.txt

Robots.txt control truy cập. llms.txt curate content. Hai file stack và serve job khác nhau.

Setup ecommerce 2026 take AI search nghiêm túc chạy cả hai. Robots.txt cho phép live-retrieval bot và lock admin + account path. llms.txt point bot được phép vào page leverage cao nhất — pillar guide, top product collection, FAQ hub, comparison content. Bot đọc robots.txt biết được phép fetch gì, rồi đọc llms.txt biết cái nào đáng fetch trước.

Nếu chỉ có thời gian ship 1 thứ quý này, ship robots.txt với block user-agent tường minh cho 6 AI crawler. Thay đổi này bảo vệ khỏi chặn nhầm live citation và signal cho từng engine biết bạn treat họ như crawler first-class. Ship llms.txt quý sau, khi đã có ít nhất 5 pillar page đáng point vào.

Cái này trông ra sao trong công việc của bọn mình

Trong audit chạy cho store DTC premium, finding phổ biến nhất không phải store chặn AI bot có chủ ý — mà là store có robots.txt vintage 2023 không có rule AI-specific nào, nghĩa là mọi AI crawler nhận cùng default treatment với Googlebot. Fix là edit robots.txt 30 phút + round verify curl. Kết quả 2 tuần sau thường là lift nhỏ nhưng đo được trong real-time citation từ ChatGPT + Perplexity vì live-retrieval bot giờ reach được page vốn đã indexable nhưng lost trong noise của crawl budget unstructured.

Pattern observation matter hơn số cụ thể. Robots.txt là điểm leverage rẻ nhất trong stack AI Visibility — dưới 1 tiếng làm, không đổi content, không rewrite schema — và phần lớn store ecommerce chưa đụng tới từ lần đầu launch. Ship block AI user-agent, ship round verify curl, rồi move tới llms.txt + structured data.

Đi tiếp

Nếu chưa publish llms.txt, spec walkthrough llms.txt cho Ecommerce là bài companion — cái gì vào file, cái gì ra, deploy thế nào trên Shopify, Magento, headless.

Nếu structured data là bottleneck, Structured Data và Entity Authority: Quy Tắc 200 Từ cho AI Citation cover schema pattern move kim đối với citation ChatGPT + Perplexity.

Nếu muốn playbook rộng hơn cho AI Search visibility full stack, Cách Tối Ưu Ecommerce cho AI Search (Playbook 2026) cover mô hình 7 layer link robots.txt, llms.txt, schema, entity, content, citation, measurement lại với nhau.

Frequently asked
Store ecommerce 2026 nên quan tâm AI crawler nào?
Tối thiểu 6 user-agent cần biết: GPTBot (crawler training OpenAI), OAI-SearchBot (retrieval live ChatGPT), ChatGPT-User (on-demand fetch khi user paste URL), PerplexityBot (index crawler Perplexity), ClaudeBot (training crawler Anthropic), và Claude-User (on-demand fetch cho user Claude). Google-Extended là flag chứ không phải crawler, nhưng nó báo Google biết page của bạn có được train Gemini không. Mỗi engine đã tách crawl thành training bot + live-retrieval bot từ cuối 2024, và phân biệt này quan trọng vì chặn training bot KHÔNG chặn live bot — và live bot mới là cái driver citation khi user hỏi real time.
Chặn GPTBot hay ClaudeBot có hại citation không?
Probably không hại live citation, nhưng giới hạn exposure training dài hạn. OpenAI và Anthropic đều public rằng live-retrieval bot của họ (OAI-SearchBot, Claude-User, ChatGPT-User) chạy bằng user-agent tách bạch với training crawler (GPTBot, ClaudeBot). Nếu chỉ chặn GPTBot + ClaudeBot, store vẫn được cite trong real-time answer vì live bot vẫn fetch được. Nếu chặn HẾT (cả live retrieval), bạn cắt path on-demand fetch — cái đang driver phần lớn citation traffic năm 2026. Mặc định sạch nhất cho store ecommerce: cho phép live-retrieval bot, quyết định riêng training bot dựa trên IP risk và risk competitive.
Nên dùng llms.txt hay robots.txt để control AI crawler?
Hai cái làm việc khác nhau và stack chứ không thay nhau. Robots.txt control truy cập — user-agent nào được fetch path nào. llms.txt là content recommendation — list URL bạn muốn AI model ưu tiên đọc. Setup 2026 thực dụng dùng cả hai: robots.txt cho phép live-retrieval bot và optional chặn training bot; llms.txt point các bot được phép vào page leverage cao nhất (pillar guide, top collection, FAQ hub). Robots.txt là enforcement; llms.txt là recommendation.
AI crawler có thật sự tôn trọng robots.txt không?
Các engine lớn đều public commit honor robots.txt: OpenAI, Anthropic, Perplexity, Google đều document user-agent string của họ và state crawler honor Disallow. Compliance đã được nghiên cứu thực tế và bức tranh uneven với startup AI nhỏ hơn, nhưng các engine driver phần lớn citation traffic hiện nay đều respect standard. Reality check: robots.txt voluntary, serve dạng recommendation, không có enforcement layer. Nếu có content cần giữ ngoài AI training data, robots.txt cần thiết nhưng không đủ — gate sau login hoặc remove luôn.
Phần lớn store ecommerce làm sai chỗ nào 2026?
3 pattern phổ biến. (1) Copy-paste duy nhất Disallow: / cho mọi AI user-agent vì một blog post bảo vậy — vô tình chặn live-retrieval bot driver real-time citation. (2) Để robots.txt mở hoàn toàn, kể cả admin + account path, expose URL login và route customer data ra crawler. (3) Coi robots.txt là file duy nhất facing AI và skip llms.txt — kết quả AI bot crawl đều page low-signal lẫn high-signal và citation rate phẳng. Fix mỗi case đều granular — tách training bot khỏi live bot, lock admin path, publish llms.txt ngắn point bot được phép vào pillar content.
Implement trên Shopify, Magento, headless thế nào?
Shopify cho phép customize robots.txt qua template robots.txt.liquid (intro 2021). Thêm block user-agent cho từng AI crawler với rule muốn dùng và preview live tại yourstore.com/robots.txt cập nhật trong vài phút. Magento 2 robots.txt edit qua Admin → Content → Design → Configuration → Search Engine Robots, hoặc đặt file tĩnh tại pub/robots.txt. Stack headless (Next.js, Remix, custom) handle robots.txt như file tĩnh hoặc route server-render tuỳ framework. Mọi case, test URL live bằng curl sau deploy và verify từng user-agent block parse đúng trước khi assume nó chạy.