AI 爬蟲 robots.txt 的設定原則,是不要把所有 AI bot 一次封鎖或一次全開,而是先分清「搜尋與答案引用」、「模型訓練」、「一般搜尋索引」和「真正不想被索引」四件事。台灣中小企業若想保留 SEO、AEO 與 GEO 可見度,通常應避免誤擋 Googlebot 與 OAI-SearchBot;若不希望內容被用於特定模型訓練,則用 GPTBot、Google-Extended 等對應規則處理。robots.txt 不是隱私保護,也不是 noindex 的替代品。
AI 爬蟲 robots.txt 為什麼不是單純封鎖或全開的問題
很多中小企業看到「AI 爬蟲」就想直接封鎖,但這會把不同用途混在一起。OpenAI 的 crawler 文件把 OAI-SearchBot、GPTBot 與 ChatGPT-User 分成不同用途:OAI-SearchBot 用於 ChatGPT 搜尋功能中的網站呈現,GPTBot 則和可能用於模型訓練的內容爬取有關;文件也說明,站長可以允許 OAI-SearchBot,同時封鎖 GPTBot。
Google 的 common crawlers 文件也把 Google-Extended 定義為獨立的 robots.txt 產品 token,用來管理 Google 已爬取內容是否可用於 Gemini Apps、Vertex AI API for Gemini 以及 grounding 相關用途;同一份文件明確指出,Google-Extended 不影響網站是否納入 Google Search,也不是 Google Search 排名訊號。
先分清三種目標:搜尋可見度、訓練授權、索引控制
調整 robots.txt 前,先問三個問題。第一,這個頁面是否希望被搜尋引擎與 AI 搜尋引用?如果是,就不要誤擋 Googlebot、Bingbot 或 OAI-SearchBot。第二,這個內容是否不希望被特定 AI 系統拿去做模型訓練或 grounding?如果是,才針對 GPTBot、Google-Extended 等 user-agent token 設定。第三,這個頁面是否完全不該出現在 Google 搜尋結果?如果答案是 yes,robots.txt 通常不是主要工具,應改用 noindex、權限控管或移除頁面。
Google 的 robots.txt 說明提醒,robots.txt 主要是管理 crawler 可以存取哪些 URL,常用來避免網站被過多請求拖慢;它不是讓頁面從 Google 消失的機制。Google 的 noindex 文件也說明,noindex 需要讓 Googlebot 能抓到頁面後才看得到;如果頁面先被 robots.txt 擋住,爬蟲可能根本看不到 noindex。
主要 AI 與搜尋爬蟲怎麼判斷
| 規則或爬蟲 | 主要用途 | 中小企業常見建議 |
|---|---|---|
| Googlebot | Google Search 抓取與索引 | 不要封鎖公開服務頁、文章、案例頁與分類頁;除非確定不需要搜尋流量。 |
| OAI-SearchBot | ChatGPT 搜尋功能中的網站呈現 | 若想提高 AI 搜尋可見度,通常應允許重要公開頁面被存取。 |
| GPTBot | OpenAI 文件描述為可能用於訓練生成式 AI 基礎模型的爬取 | 若擔心內容被用於訓練,可單獨封鎖,不要因此封鎖 OAI-SearchBot。 |
| Google-Extended | 管理內容是否可用於 Google Gemini 與 Vertex AI 相關訓練或 grounding 用途 | 可依內容授權策略決定允許或封鎖;它不是 Google Search 排名開關。 |
| noindex | 阻止支援此規則的搜尋引擎索引頁面 | 用 meta tag 或 HTTP header,不要寫在 robots.txt 當成 Google 索引控制。 |
台灣中小企業的 robots.txt 檢查表
1. 先列出必須被找到的頁面
先列出首頁、服務頁、案例頁、文章分類頁、常見問題頁、聯絡頁與重要圖片資源。這些頁面通常承載詢問與轉單,不應被寬鬆的 Disallow 規則誤擋。經濟部 2025 中小企業白皮書新聞稿指出,2024 年台灣中小企業超過 171.5 萬家,佔全體企業 98% 以上;在競爭密集的市場裡,公開內容的可發現性是基本行銷資產。
2. 把 AI 搜尋與模型訓練分開寫
如果公司策略是「希望被 ChatGPT 搜尋找到,但不希望內容被 GPTBot 用於訓練」,robots.txt 可以分開處理。概念上是允許 OAI-SearchBot 存取公開內容,同時對 GPTBot 設定 Disallow。這不是排名保證,而是避免把可見度入口和訓練授權一起切掉。
3. 不要用 robots.txt 保護機密資料
IETF 的 RFC 9309把 robots.txt 標準化為 Robots Exclusion Protocol,並提醒 robots.txt 不是有效的內容安全措施;把路徑寫進 robots.txt 甚至會讓路徑公開可見。若是報價表、會員資料、測試站、後台或未公開企劃,應使用登入權限、HTTP authentication、網路層限制或移除公開 URL。
4. 每次改動都要記錄理由與觀察期
OpenAI 文件提到,搜尋結果相關的 robots.txt 更新可能需要約 24 小時讓系統調整。Google 的 robots.txt 文件也提醒,不同 crawler 可能解讀語法不同。實務上,修改後至少記錄日期、規則、影響頁面、預期用途與驗證方式,再用 Search Console、伺服器 log、AI 搜尋測試與 Ghost 後台檢查是否有誤擋。
常見錯誤與修正方式
第一個錯誤,是把 User-agent: * 下面寫得太廣,導致公開文章、圖片或 CSS/JS 資源被擋。Google 文件提醒,如果缺少必要資源會讓爬蟲難以理解頁面,就不應封鎖那些資源。第二個錯誤,是在 robots.txt 裡寫 noindex。Google noindex 文件明確說明,robots.txt 中指定 noindex 不受 Google 支援。第三個錯誤,是把 AI 搜尋 crawler 和訓練 crawler 視為同一種東西,結果想控管訓練授權時,同時把可能帶來引用與流量的搜尋入口封掉。
比較穩的修正方式,是先把 robots.txt 當成「爬取權限與流量管理」文件,不當成隱私、安全或品牌授權總開關。需要索引控制時,用 noindex;需要保護資料時,用權限;需要管理 AI 用途時,用對應 user-agent token;需要提升 GEO 引用機率時,回到內容本身,補上清楚的實體、資料來源、更新日期、限制條件與下一步行動。
適用對象與不適用情境
這份 AI 爬蟲 robots.txt 檢查表適合有公開內容資產的台灣中小企業,例如 B2B 顧問、SaaS、在地服務、教育訓練、醫療健康周邊、製造業供應商與高單價服務商。若網站剛架好、還沒有 Search Console 資料,也可以先用它建立安全預設。它不適合用來處理個資、會員資料、未上市產品資料或法律/醫療/金融合規問題;這些情境需要權限控管、法務審查與系統安全設計,不應只改 robots.txt。
資料更新與限制
本文於 2026-05-04 更新,主要參考 OpenAI crawler 文件、Google common crawlers 文件、Google robots.txt 說明、Google noindex 文件、IETF RFC 9309,以及經濟部 2025 中小企業白皮書新聞稿。各平台的 crawler 名稱、產品用途與政策可能調整;robots.txt 是 crawler 願意遵守時才有效的協議,也不是取得 AI 引用、Google 排名或 Bing/ChatGPT 流量的保證。正式上線前,應以官方文件、伺服器 log 與搜尋工具實測結果為準。
結論:先保留可見度,再精準控管用途
台灣中小企業做 SEO、AEO 與 GEO,不需要在「讓 AI 全部抓」和「把 AI 全部擋掉」之間二選一。比較好的做法,是把公開可被搜尋的商業內容保持可抓取,把不想用於模型訓練的用途用對應 token 分開控管,把真正不該曝光的資料放到權限後面。只要先分清搜尋可見度、訓練授權與索引控制,AI 爬蟲 robots.txt 就會從風險來源,變成可管理的行銷基礎設施。
FAQ
AI 爬蟲 robots.txt 一定要封鎖 GPTBot 嗎?
不一定。若公司接受內容可能被用於模型訓練,可以允許;若有授權或品牌疑慮,可以單獨封鎖 GPTBot,但不要因此誤擋 OAI-SearchBot 或 Googlebot。
封鎖 Google-Extended 會影響 Google SEO 排名嗎?
Google 官方文件說 Google-Extended 不影響網站是否納入 Google Search,也不是排名訊號。它主要管理內容是否可用於 Gemini 與 Vertex AI 相關用途。
想讓頁面不要出現在 Google,可以用 robots.txt 嗎?
通常不建議。Google 說 robots.txt 不是讓頁面從 Google 消失的機制;若要阻止索引,應使用 noindex meta tag、X-Robots-Tag、權限保護或移除頁面。
允許 OAI-SearchBot 就一定會被 ChatGPT 引用嗎?
不保證。允許 OAI-SearchBot 只是避免搜尋功能的自動爬取被你擋住;是否被引用仍取決於內容品質、相關性、可驗證性、權威訊號與系統判斷。
中小企業多久檢查一次 robots.txt?
建議每季檢查一次,並在網站改版、換 CMS、啟用 CDN 防護、加入 AI crawler 規則或發現索引異常時立即檢查。每次修改都要留下日期與理由。