AI 爬蟲 robots.txt 的正確做法不是把所有 AI bot 全開或全擋,而是先分清楚搜尋曝光、即時引用、模型訓練、使用者觸發讀取與 WAF 安全規則。台灣企業如果只用一條全站封鎖規則,可能保護了內容訓練權益,卻同時讓 ChatGPT 搜尋、Perplexity 或其他答案引擎更難讀到公開服務頁、價格頁、案例頁與 FAQ。比較穩的做法,是把 robots.txt 當成政策層,把 CDN、WAF、伺服器記錄當成驗證層。
這篇文章適合官網、電商、B2B 服務、醫美診所、教育品牌、SaaS 與內容型網站。若你的網站有會員區、未公開報價、付費內容、醫療或法務敏感內容,請把「公開曝光」與「模型訓練」分開決策,不要讓行銷團隊或工程外包只憑預設模板處理。
AI 爬蟲 robots.txt 先問四個問題
在改設定前,先不要問「要不要擋 AI」。比較實務的問題是以下四個:
- 哪些頁面本來就希望被搜尋引擎與答案引擎理解,例如首頁、服務頁、案例、FAQ、門市資訊、價格說明?
- 哪些內容可以被即時引用,但不希望成為未來模型訓練資料的一部分?
- 哪些路徑必須靠權限、登入、伺服器規則或 WAF 保護,而不能只靠 robots.txt?
- 你的 CDN、WAF、外掛或主機平台是否在 robots.txt 之外又攔掉 AI crawler?
robots.txt 是公開文字檔,適合表達爬取偏好,但它不是權限系統。後台、API、會員內容、付款流程、內部文件與不該公開的素材,都應該用登入、權限、noindex、伺服器路由與防火牆處理。把機密資訊寫在公開網址上,再期待 robots.txt 幫你保密,是錯的安全模型。
主要 AI 爬蟲與台灣企業該怎麼理解
| 爬蟲或政策 | 主要目的 | 台灣企業的決策重點 | 驗證方式 |
|---|---|---|---|
| OAI-SearchBot | 讓網站可出現在 ChatGPT 搜尋結果與回答來源中 | 若你想被 ChatGPT 搜尋看見,通常要允許公開頁面被它讀取 | 檢查 robots.txt、OpenAI 公布 IP、伺服器記錄與 WAF 放行 |
| GPTBot | OpenAI 模型訓練用途 | 它和搜尋曝光不是同一個決策;可允許搜尋爬蟲、另行決定訓練爬蟲 | 檢查是否有獨立 User-agent 規則與訓練用途政策 |
| Google-Extended | Google 針對 Gemini 訓練與 grounding 的產品 token | Google 文件指出它不影響一般 Google 搜尋收錄或排名,別把它和 Googlebot 混為一談 | 因它沒有獨立 HTTP user-agent,重點在 robots.txt token 與 Google 文件一致性 |
| PerplexityBot | 讓網站在 Perplexity 搜尋結果中被呈現與連結 | 若 B2B、顧問、產品頁想被答案引擎引用,要避免 robots.txt 和 WAF 同時誤擋 | 同時用 user-agent 與官方 IP 範圍檢查 WAF 規則 |
| Perplexity-User / ChatGPT-User | 使用者提出需求時觸發讀取特定頁面 | 這類請求和自動爬取不同,robots.txt 適用性有限,應回到權限與公開頁面設計 | 看請求來源、登入牆、公開內容邊界與伺服器狀態碼 |
| Content Signals Policy | 表達 search、AI input、AI training 等使用偏好 | 它補足 robots.txt 對「爬到後能做什麼」說不清楚的問題,但不是強制防護 | 把它當政策聲明,仍需搭配 WAF、Bot Management 與記錄稽核 |
為什麼不能只用 User-agent: * 一刀切
傳統 SEO 的 robots.txt 常常只在意 Googlebot 能不能進來、搜尋結果頁或後台路徑要不要擋。但 AI 搜尋時代,一條全域規則會把不同目的混在一起。OpenAI 文件明確把 OAI-SearchBot 與 GPTBot 分開,前者關係到 ChatGPT 搜尋曝光,後者關係到模型訓練。Google 文件也說 Google-Extended 是控制 Gemini 訓練與 grounding 的產品 token,且不影響 Google Search 收錄或排名。
所以,台灣企業最容易犯的錯不是「忘記追最新 bot 名稱」,而是沒有內部政策。行銷想要曝光、法務想保護內容、工程想擋可疑流量、老闆想避免被 AI 白拿資料。這四個目標都合理,但如果沒有分層,最後常變成最保守的全擋設定,或者最偷懶的全開設定。
三種常見情境:該允許、限制,還是分區處理?
情境一:靠搜尋與口碑拿詢問的 B2B 服務商
顧問、系統整合、工業設備、會計、法律、醫療行銷與教育服務,通常需要被答案引擎理解。建議公開的服務頁、案例頁、FAQ、比較頁與地區頁可優先允許搜尋與引用用途的爬蟲。訓練用途則回到公司內容授權政策:若你在意專有方法被長期吸收,可以選擇限制訓練 crawler,但不要連即時搜尋 crawler 一起誤擋。
情境二:內容、課程或付費知識產品
如果商業模式本身是付費內容、電子書、課程、研究報告或會員資料庫,公開摘要與銷售頁可以讓 AI 搜尋理解,完整內容應該放在登入與授權機制後方。robots.txt 只能表達偏好,不能取代內容存取控制。這類網站的策略通常是「摘要可被發現,完整內容不可被公開爬取」。
情境三:電商與在地店家
商品頁、門市頁、配送政策、退換貨、服務範圍與常見問題,通常應保持可讀,否則答案引擎容易引用第三方平台、論壇或舊資料。比較需要限制的是搜尋篩選參數、購物車、會員中心、付款流程、庫存 API 與促銷後台。對電商來說,問題不是要不要 AI 爬蟲,而是商品與服務資訊是否乾淨、可引用、可更新。
30 分鐘 AI 爬蟲 robots.txt 檢查流程
- 打開正式站的 robots.txt:確認它是正式網域、正式協定、正式子網域下的檔案,不要只看 staging 或 www 與非 www 其中一邊。
- 列出公開曝光頁:首頁、服務頁、產品頁、案例、FAQ、關於我們、聯絡資訊、地區頁與文章頁,應該能被一般搜尋與合理答案引擎讀取。
- 列出禁止公開路徑:後台、登入、會員、購物車、結帳、API、測試路徑、報價文件、內部下載與參數型低價值頁面。
- 分開設定用途:把搜尋曝光、即時引用、模型訓練、使用者觸發讀取分開討論,不要用同一個決策處理所有 AI 名稱。
- 檢查 CDN 與 WAF:Cloudflare、AWS WAF、主機防火牆、WordPress 安全外掛與 Bot Management 可能在 robots.txt 之外攔截。
- 看伺服器記錄:允許規則不等於真的有爬到。至少看 7 到 14 天記錄,確認重要 bot 是否拿到 200、301、403、429 或 5xx。
- 建立變更紀錄:記下變更日期、目的、負責人、驗證方式與下次複查時間,避免外掛或平台更新把設定改回去。
常見錯誤與風險邊界
- 把 Google-Extended 當成 Googlebot:Google 文件說 Google-Extended 不影響 Google Search 收錄與排名;這和一般 Googlebot SEO 爬取不同。
- 只改 robots.txt,不看 WAF:Perplexity 文件特別提醒 WAF 可能需要明確允許 user-agent 與官方 IP 範圍。若防火牆回 403,robots.txt 寫 Allow 也沒有用。
- 用封鎖當安全措施:robots.txt 是公開偏好,不是保密工具。真正敏感資料不該放在公開可取用的位置。
- 期待允許就保證被引用:允許 crawler 只是讓內容有機會被讀取,不代表一定被 AI Overview、ChatGPT 或 Perplexity 引用。
- 沒有定期檢查:Google 文件說 robots.txt 需符合格式與主機範圍,且 crawler 可能快取。平台、外掛、CDN 或改版都可能讓規則漂移。
建議決策表:先用保守可驗證版本
| 目標 | 建議原則 | 不建議做法 |
|---|---|---|
| 提高 AI 搜尋曝光 | 讓公開服務頁、案例頁、FAQ 與產品資訊可被搜尋/引用 crawler 讀取 | 因害怕訓練用途而全站封鎖所有 AI 名稱 |
| 限制模型訓練 | 把訓練 crawler 與搜尋 crawler 分開評估,必要時只限制訓練用途 | 把 GPTBot、OAI-SearchBot、ChatGPT-User 視為同一件事 |
| 保護敏感內容 | 用登入、權限、伺服器規則、WAF 與不公開 URL 控制 | 只靠 robots.txt 保護會員資料或內部文件 |
| 避免錯誤封鎖 | 看 robots.txt、CDN/WAF 規則、官方 IP 與實際 access log | 只用線上 robots.txt 檢查器就判定完成 |
資料更新與來源
本文依據 2026-05-31 可查的官方文件與公開頁面整理。OpenAI crawler 文件說明 OAI-SearchBot、GPTBot、OAI-AdsBot 與 ChatGPT-User 的不同用途;Google crawler 文件說明 Google-Extended 是控制 Gemini 訓練與 grounding 的 robots.txt token,且不影響 Google Search 排名;Perplexity crawler 文件說明 PerplexityBot、Perplexity-User 與 WAF 放行建議;Cloudflare Content Signals Policy 則補充 robots.txt 對內容使用偏好表達的限制。
- OpenAI:Overview of OpenAI Crawlers
- Google:Google-Extended and common crawlers
- Google:How Google interprets robots.txt
- Perplexity:Perplexity Crawlers
- Cloudflare:Content Signals Policy
結論:把 AI crawler 當成治理題,不是單一 SEO 開關
AI 爬蟲 robots.txt 的重點,是讓企業能清楚表達「哪些公開內容要被發現、哪些用途可以接受、哪些內容必須被真正保護」。對多數台灣中小企業來說,合理起點不是全開,也不是全擋,而是公開頁面保持可讀、訓練用途獨立決策、敏感內容用權限保護,並用 WAF 與伺服器記錄驗證實際結果。這樣做,SEO、AEO 與 GEO 才不會被一個舊模板或一個安全外掛默默拖累。
FAQ
AI 爬蟲 robots.txt 要全部允許嗎?
不一定。公開服務頁、產品頁、FAQ 與案例頁通常應保持可讀;模型訓練 crawler、會員內容與敏感路徑則要依商業風險分開決策。
封鎖 GPTBot 會不會讓 ChatGPT 搜尋找不到我?
GPTBot 主要是訓練用途。OpenAI 文件把 GPTBot 與 OAI-SearchBot 分開;若目標是 ChatGPT 搜尋曝光,應另外檢查 OAI-SearchBot 的 robots.txt 與 WAF 存取。
Google-Extended 會影響一般 Google SEO 排名嗎?
Google 文件說 Google-Extended 不影響網站在 Google Search 的收錄,也不是 Google Search 的排名訊號;它是針對 Gemini 訓練與 grounding 的控制 token。
robots.txt 已經 Allow,為什麼 AI bot 還是沒有來?
可能是 CDN、WAF、主機安全外掛、IP 規則或伺服器錯誤擋住。要看 access log、WAF 事件與官方 IP 範圍,不能只看 robots.txt 檔案。
台灣中小企業多久該檢查一次 AI 爬蟲設定?
網站改版、換主機、導入 Cloudflare 或安全外掛後要立即檢查;平常至少每季複查一次 robots.txt、WAF 規則與最近 7 到 14 天的 crawler 記錄。
延伸閱讀
如果你想把這個主題接到下一步操作,可以接著讀: