AI 爬蟲 robots.txt：中小企業 SEO/AEO/GEO 檢查表

AI 爬蟲 robots.txt 的設定原則，是不要把所有 AI bot 一次封鎖或一次全開，而是先分清「搜尋與答案引用」、「模型訓練」、「一般搜尋索引」和「真正不想被索引」四件事。台灣中小企業若想保留 SEO、AEO 與 GEO 可見度，通常應避免誤擋 Googlebot 與 OAI-SearchBot；若不希望內容被用於特定模型訓練，則用 GPTBot、Google-Extended 等對應規則處理。robots.txt 不是隱私保護，也不是 noindex 的替代品。

AI 爬蟲 robots.txt 為什麼不是單純封鎖或全開的問題

很多中小企業看到「AI 爬蟲」就想直接封鎖，但這會把不同用途混在一起。OpenAI 的 crawler 文件把 OAI-SearchBot、GPTBot 與 ChatGPT-User 分成不同用途：OAI-SearchBot 用於 ChatGPT 搜尋功能中的網站呈現，GPTBot 則和可能用於模型訓練的內容爬取有關；文件也說明，站長可以允許 OAI-SearchBot，同時封鎖 GPTBot。

Google 的 common crawlers 文件也把 Google-Extended 定義為獨立的 robots.txt 產品 token，用來管理 Google 已爬取內容是否可用於 Gemini Apps、Vertex AI API for Gemini 以及 grounding 相關用途；同一份文件明確指出，Google-Extended 不影響網站是否納入 Google Search，也不是 Google Search 排名訊號。

先分清三種目標：搜尋可見度、訓練授權、索引控制

調整 robots.txt 前，先問三個問題。第一，這個頁面是否希望被搜尋引擎與 AI 搜尋引用？如果是，就不要誤擋 Googlebot、Bingbot 或 OAI-SearchBot。第二，這個內容是否不希望被特定 AI 系統拿去做模型訓練或 grounding？如果是，才針對 GPTBot、Google-Extended 等 user-agent token 設定。第三，這個頁面是否完全不該出現在 Google 搜尋結果？如果答案是 yes，robots.txt 通常不是主要工具，應改用 noindex、權限控管或移除頁面。

Google 的 robots.txt 說明提醒，robots.txt 主要是管理 crawler 可以存取哪些 URL，常用來避免網站被過多請求拖慢；它不是讓頁面從 Google 消失的機制。Google 的 noindex 文件也說明，noindex 需要讓 Googlebot 能抓到頁面後才看得到；如果頁面先被 robots.txt 擋住，爬蟲可能根本看不到 noindex。

主要 AI 與搜尋爬蟲怎麼判斷

規則或爬蟲	主要用途	中小企業常見建議
Googlebot	Google Search 抓取與索引	不要封鎖公開服務頁、文章、案例頁與分類頁；除非確定不需要搜尋流量。
OAI-SearchBot	ChatGPT 搜尋功能中的網站呈現	若想提高 AI 搜尋可見度，通常應允許重要公開頁面被存取。
GPTBot	OpenAI 文件描述為可能用於訓練生成式 AI 基礎模型的爬取	若擔心內容被用於訓練，可單獨封鎖，不要因此封鎖 OAI-SearchBot。
Google-Extended	管理內容是否可用於 Google Gemini 與 Vertex AI 相關訓練或 grounding 用途	可依內容授權策略決定允許或封鎖；它不是 Google Search 排名開關。
noindex	阻止支援此規則的搜尋引擎索引頁面	用 meta tag 或 HTTP header，不要寫在 robots.txt 當成 Google 索引控制。

台灣中小企業的 robots.txt 檢查表

1. 先列出必須被找到的頁面

先列出首頁、服務頁、案例頁、文章分類頁、常見問題頁、聯絡頁與重要圖片資源。這些頁面通常承載詢問與轉單，不應被寬鬆的 Disallow 規則誤擋。經濟部 2025 中小企業白皮書新聞稿指出，2024 年台灣中小企業超過 171.5 萬家，佔全體企業 98% 以上；在競爭密集的市場裡，公開內容的可發現性是基本行銷資產。

2. 把 AI 搜尋與模型訓練分開寫

如果公司策略是「希望被 ChatGPT 搜尋找到，但不希望內容被 GPTBot 用於訓練」，robots.txt 可以分開處理。概念上是允許 OAI-SearchBot 存取公開內容，同時對 GPTBot 設定 Disallow。這不是排名保證，而是避免把可見度入口和訓練授權一起切掉。

3. 不要用 robots.txt 保護機密資料

IETF 的 RFC 9309把 robots.txt 標準化為 Robots Exclusion Protocol，並提醒 robots.txt 不是有效的內容安全措施；把路徑寫進 robots.txt 甚至會讓路徑公開可見。若是報價表、會員資料、測試站、後台或未公開企劃，應使用登入權限、HTTP authentication、網路層限制或移除公開 URL。

4. 每次改動都要記錄理由與觀察期

OpenAI 文件提到，搜尋結果相關的 robots.txt 更新可能需要約 24 小時讓系統調整。Google 的 robots.txt 文件也提醒，不同 crawler 可能解讀語法不同。實務上，修改後至少記錄日期、規則、影響頁面、預期用途與驗證方式，再用 Search Console、伺服器 log、AI 搜尋測試與 Ghost 後台檢查是否有誤擋。

常見錯誤與修正方式

第一個錯誤，是把 User-agent: * 下面寫得太廣，導致公開文章、圖片或 CSS/JS 資源被擋。Google 文件提醒，如果缺少必要資源會讓爬蟲難以理解頁面，就不應封鎖那些資源。第二個錯誤，是在 robots.txt 裡寫 noindex。Google noindex 文件明確說明，robots.txt 中指定 noindex 不受 Google 支援。第三個錯誤，是把 AI 搜尋 crawler 和訓練 crawler 視為同一種東西，結果想控管訓練授權時，同時把可能帶來引用與流量的搜尋入口封掉。

比較穩的修正方式，是先把 robots.txt 當成「爬取權限與流量管理」文件，不當成隱私、安全或品牌授權總開關。需要索引控制時，用 noindex；需要保護資料時，用權限；需要管理 AI 用途時，用對應 user-agent token；需要提升 GEO 引用機率時，回到內容本身，補上清楚的實體、資料來源、更新日期、限制條件與下一步行動。

適用對象與不適用情境

這份 AI 爬蟲 robots.txt 檢查表適合有公開內容資產的台灣中小企業，例如 B2B 顧問、SaaS、在地服務、教育訓練、醫療健康周邊、製造業供應商與高單價服務商。若網站剛架好、還沒有 Search Console 資料，也可以先用它建立安全預設。它不適合用來處理個資、會員資料、未上市產品資料或法律/醫療/金融合規問題；這些情境需要權限控管、法務審查與系統安全設計，不應只改 robots.txt。

資料更新與限制

本文於 2026-05-04 更新，主要參考 OpenAI crawler 文件、Google common crawlers 文件、Google robots.txt 說明、Google noindex 文件、IETF RFC 9309，以及經濟部 2025 中小企業白皮書新聞稿。各平台的 crawler 名稱、產品用途與政策可能調整；robots.txt 是 crawler 願意遵守時才有效的協議，也不是取得 AI 引用、Google 排名或 Bing/ChatGPT 流量的保證。正式上線前，應以官方文件、伺服器 log 與搜尋工具實測結果為準。

結論：先保留可見度，再精準控管用途

台灣中小企業做 SEO、AEO 與 GEO，不需要在「讓 AI 全部抓」和「把 AI 全部擋掉」之間二選一。比較好的做法，是把公開可被搜尋的商業內容保持可抓取，把不想用於模型訓練的用途用對應 token 分開控管，把真正不該曝光的資料放到權限後面。只要先分清搜尋可見度、訓練授權與索引控制，AI 爬蟲 robots.txt 就會從風險來源，變成可管理的行銷基礎設施。

FAQ

AI 爬蟲 robots.txt 一定要封鎖 GPTBot 嗎？

不一定。若公司接受內容可能被用於模型訓練，可以允許；若有授權或品牌疑慮，可以單獨封鎖 GPTBot，但不要因此誤擋 OAI-SearchBot 或 Googlebot。

封鎖 Google-Extended 會影響 Google SEO 排名嗎？

Google 官方文件說 Google-Extended 不影響網站是否納入 Google Search，也不是排名訊號。它主要管理內容是否可用於 Gemini 與 Vertex AI 相關用途。

想讓頁面不要出現在 Google，可以用 robots.txt 嗎？

通常不建議。Google 說 robots.txt 不是讓頁面從 Google 消失的機制；若要阻止索引，應使用 noindex meta tag、X-Robots-Tag、權限保護或移除頁面。

允許 OAI-SearchBot 就一定會被 ChatGPT 引用嗎？

不保證。允許 OAI-SearchBot 只是避免搜尋功能的自動爬取被你擋住；是否被引用仍取決於內容品質、相關性、可驗證性、權威訊號與系統判斷。

中小企業多久檢查一次 robots.txt？

建議每季檢查一次，並在網站改版、換 CMS、啟用 CDN 防護、加入 AI crawler 規則或發現索引異常時立即檢查。每次修改都要留下日期與理由。

延伸閱讀

如果你想把這個主題接到下一步操作，可以接著讀：

AI 爬蟲 robots.txt 怎麼設：台灣中小企業的 SEO/AEO/GEO 存取檢查表

AI 爬蟲 robots.txt 為什麼不是單純封鎖或全開的問題

先分清三種目標：搜尋可見度、訓練授權、索引控制

主要 AI 與搜尋爬蟲怎麼判斷

台灣中小企業的 robots.txt 檢查表

1. 先列出必須被找到的頁面

2. 把 AI 搜尋與模型訓練分開寫

3. 不要用 robots.txt 保護機密資料

4. 每次改動都要記錄理由與觀察期

常見錯誤與修正方式

適用對象與不適用情境

資料更新與限制

結論：先保留可見度，再精準控管用途

FAQ

AI 爬蟲 robots.txt 一定要封鎖 GPTBot 嗎？

封鎖 Google-Extended 會影響 Google SEO 排名嗎？

想讓頁面不要出現在 Google，可以用 robots.txt 嗎？

允許 OAI-SearchBot 就一定會被 ChatGPT 引用嗎？

中小企業多久檢查一次 robots.txt？

延伸閱讀

把這篇判斷接到你的網站

AI 爬蟲 robots.txt 為什麼不是單純封鎖或全開的問題

先分清三種目標：搜尋可見度、訓練授權、索引控制

主要 AI 與搜尋爬蟲怎麼判斷

台灣中小企業的 robots.txt 檢查表

1. 先列出必須被找到的頁面

2. 把 AI 搜尋與模型訓練分開寫

3. 不要用 robots.txt 保護機密資料

4. 每次改動都要記錄理由與觀察期

常見錯誤與修正方式

適用對象與不適用情境

資料更新與限制

結論：先保留可見度，再精準控管用途

FAQ

AI 爬蟲 robots.txt 一定要封鎖 GPTBot 嗎？

封鎖 Google-Extended 會影響 Google SEO 排名嗎？

想讓頁面不要出現在 Google，可以用 robots.txt 嗎？

允許 OAI-SearchBot 就一定會被 ChatGPT 引用嗎？

中小企業多久檢查一次 robots.txt？

延伸閱讀

把這篇判斷接到你的網站

同主題延伸閱讀

訂閱下一封 AI 行銷筆記