AI 爬蟲 robots.txt 怎麼設?台灣企業別把搜尋曝光與模型訓練混在一起

用官方文件拆清楚 ChatGPT 搜尋、Google-Extended、PerplexityBot、WAF 與內容訓練的差異,避免一條 robots.txt 規則誤傷 AI 搜尋曝光。

行銷辦公桌上有人比較 AI 爬蟲政策卡、伺服器記錄畫面與防火牆盾牌,旁邊有台灣地圖圖形
AI 爬蟲治理要同時看 robots.txt、搜尋曝光、模型訓練取捨與 WAF 實際放行狀態。

AI 爬蟲 robots.txt 的正確做法不是把所有 AI bot 全開或全擋,而是先分清楚搜尋曝光、即時引用、模型訓練、使用者觸發讀取與 WAF 安全規則。台灣企業如果只用一條全站封鎖規則,可能保護了內容訓練權益,卻同時讓 ChatGPT 搜尋、Perplexity 或其他答案引擎更難讀到公開服務頁、價格頁、案例頁與 FAQ。比較穩的做法,是把 robots.txt 當成政策層,把 CDN、WAF、伺服器記錄當成驗證層。

這篇文章適合官網、電商、B2B 服務、醫美診所、教育品牌、SaaS 與內容型網站。若你的網站有會員區、未公開報價、付費內容、醫療或法務敏感內容,請把「公開曝光」與「模型訓練」分開決策,不要讓行銷團隊或工程外包只憑預設模板處理。

AI 爬蟲 robots.txt 先問四個問題

在改設定前,先不要問「要不要擋 AI」。比較實務的問題是以下四個:

  1. 哪些頁面本來就希望被搜尋引擎與答案引擎理解,例如首頁、服務頁、案例、FAQ、門市資訊、價格說明?
  2. 哪些內容可以被即時引用,但不希望成為未來模型訓練資料的一部分?
  3. 哪些路徑必須靠權限、登入、伺服器規則或 WAF 保護,而不能只靠 robots.txt?
  4. 你的 CDN、WAF、外掛或主機平台是否在 robots.txt 之外又攔掉 AI crawler?

robots.txt 是公開文字檔,適合表達爬取偏好,但它不是權限系統。後台、API、會員內容、付款流程、內部文件與不該公開的素材,都應該用登入、權限、noindex、伺服器路由與防火牆處理。把機密資訊寫在公開網址上,再期待 robots.txt 幫你保密,是錯的安全模型。

主要 AI 爬蟲與台灣企業該怎麼理解

爬蟲或政策主要目的台灣企業的決策重點驗證方式
OAI-SearchBot讓網站可出現在 ChatGPT 搜尋結果與回答來源中若你想被 ChatGPT 搜尋看見,通常要允許公開頁面被它讀取檢查 robots.txt、OpenAI 公布 IP、伺服器記錄與 WAF 放行
GPTBotOpenAI 模型訓練用途它和搜尋曝光不是同一個決策;可允許搜尋爬蟲、另行決定訓練爬蟲檢查是否有獨立 User-agent 規則與訓練用途政策
Google-ExtendedGoogle 針對 Gemini 訓練與 grounding 的產品 tokenGoogle 文件指出它不影響一般 Google 搜尋收錄或排名,別把它和 Googlebot 混為一談因它沒有獨立 HTTP user-agent,重點在 robots.txt token 與 Google 文件一致性
PerplexityBot讓網站在 Perplexity 搜尋結果中被呈現與連結若 B2B、顧問、產品頁想被答案引擎引用,要避免 robots.txt 和 WAF 同時誤擋同時用 user-agent 與官方 IP 範圍檢查 WAF 規則
Perplexity-User / ChatGPT-User使用者提出需求時觸發讀取特定頁面這類請求和自動爬取不同,robots.txt 適用性有限,應回到權限與公開頁面設計看請求來源、登入牆、公開內容邊界與伺服器狀態碼
Content Signals Policy表達 search、AI input、AI training 等使用偏好它補足 robots.txt 對「爬到後能做什麼」說不清楚的問題,但不是強制防護把它當政策聲明,仍需搭配 WAF、Bot Management 與記錄稽核

為什麼不能只用 User-agent: * 一刀切

傳統 SEO 的 robots.txt 常常只在意 Googlebot 能不能進來、搜尋結果頁或後台路徑要不要擋。但 AI 搜尋時代,一條全域規則會把不同目的混在一起。OpenAI 文件明確把 OAI-SearchBot 與 GPTBot 分開,前者關係到 ChatGPT 搜尋曝光,後者關係到模型訓練。Google 文件也說 Google-Extended 是控制 Gemini 訓練與 grounding 的產品 token,且不影響 Google Search 收錄或排名。

所以,台灣企業最容易犯的錯不是「忘記追最新 bot 名稱」,而是沒有內部政策。行銷想要曝光、法務想保護內容、工程想擋可疑流量、老闆想避免被 AI 白拿資料。這四個目標都合理,但如果沒有分層,最後常變成最保守的全擋設定,或者最偷懶的全開設定。

三種常見情境:該允許、限制,還是分區處理?

情境一:靠搜尋與口碑拿詢問的 B2B 服務商

顧問、系統整合、工業設備、會計、法律、醫療行銷與教育服務,通常需要被答案引擎理解。建議公開的服務頁、案例頁、FAQ、比較頁與地區頁可優先允許搜尋與引用用途的爬蟲。訓練用途則回到公司內容授權政策:若你在意專有方法被長期吸收,可以選擇限制訓練 crawler,但不要連即時搜尋 crawler 一起誤擋。

情境二:內容、課程或付費知識產品

如果商業模式本身是付費內容、電子書、課程、研究報告或會員資料庫,公開摘要與銷售頁可以讓 AI 搜尋理解,完整內容應該放在登入與授權機制後方。robots.txt 只能表達偏好,不能取代內容存取控制。這類網站的策略通常是「摘要可被發現,完整內容不可被公開爬取」。

情境三:電商與在地店家

商品頁、門市頁、配送政策、退換貨、服務範圍與常見問題,通常應保持可讀,否則答案引擎容易引用第三方平台、論壇或舊資料。比較需要限制的是搜尋篩選參數、購物車、會員中心、付款流程、庫存 API 與促銷後台。對電商來說,問題不是要不要 AI 爬蟲,而是商品與服務資訊是否乾淨、可引用、可更新。

30 分鐘 AI 爬蟲 robots.txt 檢查流程

  1. 打開正式站的 robots.txt:確認它是正式網域、正式協定、正式子網域下的檔案,不要只看 staging 或 www 與非 www 其中一邊。
  2. 列出公開曝光頁:首頁、服務頁、產品頁、案例、FAQ、關於我們、聯絡資訊、地區頁與文章頁,應該能被一般搜尋與合理答案引擎讀取。
  3. 列出禁止公開路徑:後台、登入、會員、購物車、結帳、API、測試路徑、報價文件、內部下載與參數型低價值頁面。
  4. 分開設定用途:把搜尋曝光、即時引用、模型訓練、使用者觸發讀取分開討論,不要用同一個決策處理所有 AI 名稱。
  5. 檢查 CDN 與 WAF:Cloudflare、AWS WAF、主機防火牆、WordPress 安全外掛與 Bot Management 可能在 robots.txt 之外攔截。
  6. 看伺服器記錄:允許規則不等於真的有爬到。至少看 7 到 14 天記錄,確認重要 bot 是否拿到 200、301、403、429 或 5xx。
  7. 建立變更紀錄:記下變更日期、目的、負責人、驗證方式與下次複查時間,避免外掛或平台更新把設定改回去。

常見錯誤與風險邊界

  • 把 Google-Extended 當成 Googlebot:Google 文件說 Google-Extended 不影響 Google Search 收錄與排名;這和一般 Googlebot SEO 爬取不同。
  • 只改 robots.txt,不看 WAF:Perplexity 文件特別提醒 WAF 可能需要明確允許 user-agent 與官方 IP 範圍。若防火牆回 403,robots.txt 寫 Allow 也沒有用。
  • 用封鎖當安全措施:robots.txt 是公開偏好,不是保密工具。真正敏感資料不該放在公開可取用的位置。
  • 期待允許就保證被引用:允許 crawler 只是讓內容有機會被讀取,不代表一定被 AI Overview、ChatGPT 或 Perplexity 引用。
  • 沒有定期檢查:Google 文件說 robots.txt 需符合格式與主機範圍,且 crawler 可能快取。平台、外掛、CDN 或改版都可能讓規則漂移。

建議決策表:先用保守可驗證版本

目標建議原則不建議做法
提高 AI 搜尋曝光讓公開服務頁、案例頁、FAQ 與產品資訊可被搜尋/引用 crawler 讀取因害怕訓練用途而全站封鎖所有 AI 名稱
限制模型訓練把訓練 crawler 與搜尋 crawler 分開評估,必要時只限制訓練用途把 GPTBot、OAI-SearchBot、ChatGPT-User 視為同一件事
保護敏感內容用登入、權限、伺服器規則、WAF 與不公開 URL 控制只靠 robots.txt 保護會員資料或內部文件
避免錯誤封鎖看 robots.txt、CDN/WAF 規則、官方 IP 與實際 access log只用線上 robots.txt 檢查器就判定完成

資料更新與來源

本文依據 2026-05-31 可查的官方文件與公開頁面整理。OpenAI crawler 文件說明 OAI-SearchBot、GPTBot、OAI-AdsBot 與 ChatGPT-User 的不同用途;Google crawler 文件說明 Google-Extended 是控制 Gemini 訓練與 grounding 的 robots.txt token,且不影響 Google Search 排名;Perplexity crawler 文件說明 PerplexityBot、Perplexity-User 與 WAF 放行建議;Cloudflare Content Signals Policy 則補充 robots.txt 對內容使用偏好表達的限制。

結論:把 AI crawler 當成治理題,不是單一 SEO 開關

AI 爬蟲 robots.txt 的重點,是讓企業能清楚表達「哪些公開內容要被發現、哪些用途可以接受、哪些內容必須被真正保護」。對多數台灣中小企業來說,合理起點不是全開,也不是全擋,而是公開頁面保持可讀、訓練用途獨立決策、敏感內容用權限保護,並用 WAF 與伺服器記錄驗證實際結果。這樣做,SEO、AEO 與 GEO 才不會被一個舊模板或一個安全外掛默默拖累。

FAQ

AI 爬蟲 robots.txt 要全部允許嗎?

不一定。公開服務頁、產品頁、FAQ 與案例頁通常應保持可讀;模型訓練 crawler、會員內容與敏感路徑則要依商業風險分開決策。

封鎖 GPTBot 會不會讓 ChatGPT 搜尋找不到我?

GPTBot 主要是訓練用途。OpenAI 文件把 GPTBot 與 OAI-SearchBot 分開;若目標是 ChatGPT 搜尋曝光,應另外檢查 OAI-SearchBot 的 robots.txt 與 WAF 存取。

Google-Extended 會影響一般 Google SEO 排名嗎?

Google 文件說 Google-Extended 不影響網站在 Google Search 的收錄,也不是 Google Search 的排名訊號;它是針對 Gemini 訓練與 grounding 的控制 token。

robots.txt 已經 Allow,為什麼 AI bot 還是沒有來?

可能是 CDN、WAF、主機安全外掛、IP 規則或伺服器錯誤擋住。要看 access log、WAF 事件與官方 IP 範圍,不能只看 robots.txt 檔案。

台灣中小企業多久該檢查一次 AI 爬蟲設定?

網站改版、換主機、導入 Cloudflare 或安全外掛後要立即檢查;平常至少每季複查一次 robots.txt、WAF 規則與最近 7 到 14 天的 crawler 記錄。

延伸閱讀

如果你想把這個主題接到下一步操作,可以接著讀:

下一步

接著找下一個判斷點

如果這篇文章解開了一部分問題,下一步通常是回到主題地圖、搜尋更精準的情境,或換一個角度看同一件事。

同主題延伸閱讀

AI行銷 報價後追蹤怎麼做?台灣中小企業用 AI 把沉默客戶帶回決策 AI行銷 AI 客服知識庫怎麼整理?台灣中小企業上線前先補 6 種資料 中小企業行銷 行銷漏斗怎麼做?台灣中小企業把流量變詢問的 14 天設定法
預約諮詢 SEO/AEO AI 行銷 中小企業行銷 理查雜談