AI Search Crawlers và Store Ecommerce: Cẩm Nang Robots.txt 2026

Câu trả lời ngắn
6 AI user-agent matter cho ecommerce năm 2026, và chúng tách thành 2 nhiệm vụ: training model và fetch page live khi user đặt câu hỏi. GPTBot, ClaudeBot, và PerplexityBot là training + indexing crawler. OAI-SearchBot, ChatGPT-User, và Claude-User là live-retrieval bot — chúng fetch page bạn real time khi user hỏi ChatGPT hay Claude một câu reference đến store của bạn. Chặn training bot KHÔNG chặn live bot. Đối với hầu hết store, default sạch nhất 2026 là cho phép live-retrieval bot để page vẫn được cite trong real-time answer, và quyết định riêng training bot dựa trên risk competitive và IP. Pair robots.txt với llms.txt ngắn point các bot được phép vào pillar content.
Quick diagnosis
- Mở
https://yourstore.com/robots.txttrên browser. Nếu chỉ thấy blockUser-agent: *, bạn không có rule AI-specific nào — mọi crawler nhận default treatment giống nhau. - Check robots.txt có entry tường minh
User-agent: GPTBot,User-agent: ClaudeBot,User-agent: PerplexityBotchưa. Nếu chưa, bạn đang chấp nhận politeness logic mặc định của từng bot. - Test 1 URL bằng curl với user-agent giả để xác nhận page reach được tới AI fetch:
curl -A "OAI-SearchBot" https://yourstore.com/your-pillar-page. Trả về 200 = live bot reach được.
3 check. Dưới 5 phút.
Vì sao chuyện này phức tạp lên từ 2024-2025
Trước cuối 2023, AI crawler đa số là 1 user-agent / công ty. OpenAI ship GPTBot tháng 8/2023. Google thêm Google-Extended tháng 9/2023 như cách opt-out Bard + Gemini training mà không chặn Googlebot. Anthropic publish doc crawler 2024 cover ClaudeBot + Claude-User on-demand fetch agent. Perplexity rollout PerplexityBot cho index + user-agent Perplexity-User riêng cho retrieval live.
Split này matter vì use case khác. Training crawler download page hàng loạt feed corpus pretraining — model học từ content nhưng không cần fetch lại lúc query. Live-retrieval bot fetch URL cụ thể on-demand khi user hỏi câu nhắc đến store hoặc topic store bạn cover. Training bot ảnh hưởng việc brand có xuất hiện trong parametric memory của model không. Live bot ảnh hưởng URL cụ thể có được cite trong real-time answer không.
Năm 2026, phần lớn AI citation traffic land vào analytics đến qua live-retrieval bot, không qua training. Khi ChatGPT cite store Shopify làm source, fetch xảy ra lúc query qua OAI-SearchBot hoặc ChatGPT-User. Khi Perplexity surface comparison page brand DTC, fetch xảy ra qua Perplexity-User. Training crawler shape knowledge model dài hạn; live bot shape cái được cite hôm nay.
Hệ quả thực dụng: robots.txt chặn hết AI user-agent — pattern lan rộng qua blog post cuối 2023 — để lại tiền trên bàn năm 2026 vì chặn luôn live bot driver real-time citation traffic.
6 user-agent matter
Đây là list working cho store ecommerce giữa 2026. Mỗi entry có tên, bot làm gì, và phân loại training crawler hay live-retrieval bot.
OpenAI
- GPTBot — training crawler cho OpenAI model. Doc tại platform.openai.com/docs/bots. Honor robots.txt.
- OAI-SearchBot — search index crawler power ChatGPT search result. Tách bạch với GPTBot. Honor robots.txt.
- ChatGPT-User — on-demand fetch khi user ChatGPT click link hoặc paste URL. Hành xử như browser hit trigger bởi user.
Anthropic
- ClaudeBot — training crawler. Doc tại support.anthropic.com mục web crawler. Honor robots.txt.
- Claude-User — on-demand fetch khi user Claude reference URL cụ thể hoặc ask Claude browse tới page.
Perplexity
- PerplexityBot — index crawler. Doc tại docs.perplexity.ai mục PerplexityBot. Honor robots.txt.
- Perplexity-User — live retrieval bot fetch page khi answer câu user. Perplexity đã state bot này không nhất thiết respect robots.txt vì fetch initiated bởi user, không phải engine — vùng này còn đang public discussion.
- Google-Extended — không phải user-agent string crawl; là token đặt trong robots.txt để opt-out site khỏi pipeline training Gemini của Google trong khi vẫn cho Googlebot index search.
- Googlebot — search crawler standard, không đổi.
Common Crawl
- CCBot — crawler third-party có dataset feed nhiều pipeline training AI bao gồm các model OpenAI đời trước. Nhiều site muốn limit exposure AI training cũng chặn CCBot.
Đó là working set. Có crawler nhỏ hơn — FacebookBot của Meta cho AI product, Bytespider của ByteDance, Amazonbot cho Q&A product Amazon, Apple-Extended cho Apple Intelligence — và list mỗi quý lại dài thêm. Principle như nhau cho tất cả: xác định bot là training crawler hay live-retrieval bot, treat từng loại tương ứng.
Robots.txt ecommerce working 2026 trông ra sao
Đây là template store ecommerce có thể adapt. Cho phép live-retrieval bot, để training bot decision cho operator, lock admin + account path, point sitemap. Block training bot show comment-out — store có thể uncomment để opt-out training.
# Rule standard mọi crawler
User-agent: *
Disallow: /admin
Disallow: /account
Disallow: /cart
Disallow: /checkout
Disallow: /search?
Allow: /
# Live-retrieval bot — default allow để preserve real-time citation
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-User
Allow: /
User-agent: Perplexity-User
Allow: /
# Training crawler — uncomment dòng Disallow nếu muốn opt-out
User-agent: GPTBot
# Disallow: /
Allow: /
User-agent: ClaudeBot
# Disallow: /
Allow: /
User-agent: PerplexityBot
# Disallow: /
Allow: /
User-agent: CCBot
# Disallow: /
Allow: /
# Opt-out training Google AI (không ảnh hưởng Googlebot search)
User-agent: Google-Extended
# Disallow: /
Allow: /
Sitemap: https://yourstore.com/sitemap.xml
3 thứ cần để ý. Một, mỗi AI user-agent có block riêng. Hai, training bot + live bot tách bạch. Ba, block User-agent: * standard vẫn lock admin, account, cart, checkout cho mọi crawler — những path này không nên expose cho bot nào, AI hay khác.
Nếu muốn chặn hoàn toàn AI training mà vẫn giữ live citation, uncomment dòng Disallow: / dưới 4 block training bot (GPTBot, ClaudeBot, PerplexityBot, CCBot) + block Google-Extended. Live retrieval bot — OAI-SearchBot, ChatGPT-User, Claude-User, Perplexity-User — vẫn allow, preserve path citation real time.
Cái gì thay đổi 2026 — và cần verify tự mình
2 pattern đáng flag vì shift bức tranh.
Thứ nhất, AI engine ngày càng tách training crawl khỏi live retrieval ở mức user-agent. Split sạch giữa GPTBot và OAI-SearchBot của OpenAI là ví dụ rõ nhất, và split ClaudeBot vs Claude-User của Anthropic cùng shape. Hệ quả cho ecommerce: pattern robots.txt "chặn hết AI bot" lan rộng 2023 đã già không sạch. Store chặn hết dưới 1 rule Disallow năm 2023 giờ đang chặn live bot lẽ ra đã cite page comparison product + pillar trong 2026.
Thứ hai, guidance public từ từng engine đang lệch về phía "honor robots.txt cho training crawler, treat user-initiated fetch nhẹ tay hơn". Perplexity explicit nhất, state Perplexity-User fetch initiated bởi user và treat khác PerplexityBot. Hệ quả: cả khi Disallow Perplexity-User, có khi vẫn không chặn được fetch khi user explicit ask Perplexity đọc page bạn. Vùng standard còn đang settle và phản ứng đúng là test.
Cách verify sạch nhất là fetch page tự mình bằng user-agent string giả + watch log. curl -A "OAI-SearchBot" -I https://yourstore.com/your-pillar-page nên return 200 nếu robots.txt allow bot, hoặc bị chặn ở application layer nếu có logic thêm. Làm tương tự ClaudeBot, PerplexityBot, và live bot. Nếu trả 403 bất ngờ hoặc redirect chain, dấu hiệu rule robots.txt không parse như ý hoặc rule layer CDN đang override.
Deploy trên Shopify, Magento, headless
Shopify. Customize template robots.txt.liquid (intro 2021). Trong code editor theme, tạo hoặc edit templates/robots.txt.liquid và đặt user-agent block trong đó dùng Liquid. Thay đổi live tại yourstore.com/robots.txt trong vài phút sau save. Lưu ý Shopify wrap file với rule default của họ — đảm bảo phần thêm vào không conflict với block User-agent: * auto-generated ở top.
Magento 2. File edit qua Admin → Content → Design → Configuration → Search Engine Robots, hoặc đặt file tĩnh robots.txt trực tiếp tại pub/robots.txt và đảm bảo webserver không override. Nếu chạy multi store trên 1 Magento install, config robots.txt theo store là option sạch hơn.
Headless (Next.js, Remix, custom). Tạo file robots.txt tĩnh trong public directory hoặc route handler return content với Content-Type: text/plain. Next.js App Router có file robots.ts ở root project export function build file dynamic. Remix có routes/robots[.]txt.ts export loader. Test URL deployed bằng curl sau mỗi thay đổi.
Trong cả 3 stack, step verify như nhau: hit https://yourstore.com/robots.txt từ browser sạch + check file live khớp ý. Cache layer, CDN override, default template platform là 3 lý do phổ biến nhất khiến edit robots.txt không show live, và curl với -I sẽ surface header cache nào đang mask edit.
Pairing với llms.txt
Robots.txt control truy cập. llms.txt curate content. Hai file stack và serve job khác nhau.
Setup ecommerce 2026 take AI search nghiêm túc chạy cả hai. Robots.txt cho phép live-retrieval bot và lock admin + account path. llms.txt point bot được phép vào page leverage cao nhất — pillar guide, top product collection, FAQ hub, comparison content. Bot đọc robots.txt biết được phép fetch gì, rồi đọc llms.txt biết cái nào đáng fetch trước.
Nếu chỉ có thời gian ship 1 thứ quý này, ship robots.txt với block user-agent tường minh cho 6 AI crawler. Thay đổi này bảo vệ khỏi chặn nhầm live citation và signal cho từng engine biết bạn treat họ như crawler first-class. Ship llms.txt quý sau, khi đã có ít nhất 5 pillar page đáng point vào.
Cái này trông ra sao trong công việc của bọn mình
Trong audit chạy cho store DTC premium, finding phổ biến nhất không phải store chặn AI bot có chủ ý — mà là store có robots.txt vintage 2023 không có rule AI-specific nào, nghĩa là mọi AI crawler nhận cùng default treatment với Googlebot. Fix là edit robots.txt 30 phút + round verify curl. Kết quả 2 tuần sau thường là lift nhỏ nhưng đo được trong real-time citation từ ChatGPT + Perplexity vì live-retrieval bot giờ reach được page vốn đã indexable nhưng lost trong noise của crawl budget unstructured.
Pattern observation matter hơn số cụ thể. Robots.txt là điểm leverage rẻ nhất trong stack AI Visibility — dưới 1 tiếng làm, không đổi content, không rewrite schema — và phần lớn store ecommerce chưa đụng tới từ lần đầu launch. Ship block AI user-agent, ship round verify curl, rồi move tới llms.txt + structured data.
Đi tiếp
Nếu chưa publish llms.txt, spec walkthrough llms.txt cho Ecommerce là bài companion — cái gì vào file, cái gì ra, deploy thế nào trên Shopify, Magento, headless.
Nếu structured data là bottleneck, Structured Data và Entity Authority: Quy Tắc 200 Từ cho AI Citation cover schema pattern move kim đối với citation ChatGPT + Perplexity.
Nếu muốn playbook rộng hơn cho AI Search visibility full stack, Cách Tối Ưu Ecommerce cho AI Search (Playbook 2026) cover mô hình 7 layer link robots.txt, llms.txt, schema, entity, content, citation, measurement lại với nhau.