網站流量突然掉？robots.txt 檢查表

robots.txt SEO 的重點不是把不想曝光的頁面全部寫進 Disallow，而是先分清楚「不讓爬蟲抓取」、「不讓頁面被索引」、「不讓某個版本成為主要網址」和「不讓 AI 或特定機器人使用內容」是四件不同的事。台灣中小企業如果把服務頁、分類頁、部落格、PDF 型錄或 JavaScript 資源誤擋，Google 與 AI 搜尋可能看不到完整內容；如果把測試站、內部搜尋、會員資料或無價值參數頁放太開，又會浪費爬取資源並增加錯誤曝光風險。

robots.txt 能做什麼，不能做什麼

robots.txt 是放在網站根目錄的純文字檔，例如 https://example.com/robots.txt。Google Search Central 說明，robots.txt 會告訴搜尋引擎爬蟲哪些 URL 可以或不可以在網站上請求；MDN 也把它定義為通常放在網站根目錄、提供爬蟲指令的檔案。這讓它很適合控管後台、購物車、站內搜尋結果、篩選參數、測試環境與低價值重複頁。

但 robots.txt 不是「移除搜尋結果」工具。Google 文件明確提醒，被 robots.txt 擋住的 URL 內容通常不會被抓取，但如果外部或內部其他地方連到該 URL，Google 仍可能發現並顯示 URL，且可能沒有摘要。換句話說，如果你的目標是讓某頁不要被索引，通常應該讓爬蟲可以進到頁面看到 noindex，或用 HTTP header 的 X-Robots-Tag；若同時 Disallow 又 noindex，爬蟲反而可能看不到 noindex。

robots.txt SEO 的決策表

先用目的決定工具，而不是看到不想曝光的 URL 就全部 Disallow。以下是台灣中小企業最常遇到的設定分工。

目的	優先工具	適合情境	注意事項
不要讓爬蟲抓取某區域	robots.txt Disallow	後台、購物車、站內搜尋結果、無限篩選參數、測試路徑	不保證 URL 完全不出現在搜尋結果；不要拿來隱藏機密資料
不要讓頁面被索引	meta robots noindex	薄內容頁、活動已結束但仍需使用者可訪問的頁、會員導流頁	頁面必須可被抓取，爬蟲才看得到 noindex
非 HTML 檔案不要索引	X-Robots-Tag	PDF、圖片、報價單範本、舊型錄檔	需由伺服器回應 header，通常要工程或主機商協助
指定主要版本	canonical	同商品多參數 URL、列印版、追蹤參數、排序頁	canonical 是訊號，不是強制命令；被 robots.txt 擋住時搜尋引擎可能看不到頁內 canonical
限制特定 AI 或搜尋爬蟲	特定 user-agent 規則	想區分 Googlebot、OAI-SearchBot、GPTBot 或其他 bot 的存取策略	不同服務的 user-agent 與用途不同，設定前要看官方文件並測試

台灣中小企業最常見的 5 個 robots.txt 錯誤

1. 新網站上線後還擋著整站

網站改版時，測試站常會放 Disallow: / 避免被搜尋引擎抓到。問題是上線後如果忘記移除，整站服務頁、文章、商品頁都可能被擋。這是最值得在上線清單裡獨立列出的檢查項，尤其是外包網頁公司交接、主機搬家或 staging 轉 production 的情境。

2. 用 robots.txt 取代 noindex

很多業主看到 Search Console 出現「已建立索引但遭 robots.txt 封鎖」類似警告，就以為多加幾條 Disallow 會更安全。實際上，若 URL 已被其他頁面連到，單靠 robots.txt 可能只會讓搜尋引擎看不到內容與 noindex，卻仍知道這個 URL 存在。要移除索引，應先讓重要爬蟲可抓取並讀到 noindex，確認狀態後再決定是否限制後續爬取。

3. 把 CSS、JavaScript 或圖片資源擋掉

Google 需要理解頁面實際渲染內容。若 robots.txt 擋住必要的 JS、CSS 或圖片資源，搜尋引擎可能無法判斷頁面版面、互動內容、產品資訊或行動版體驗。對採用前端框架、頁面建構器或電商篩選功能的網站，這件事尤其重要。

4. 讓內部搜尋與篩選頁大量開放

站內搜尋、價格篩選、排序、顏色尺寸組合、UTM 參數和日曆參數可能產生成千上萬個低價值 URL。這些頁面如果全部可爬，會讓 Search Console 裡的「已探索但尚未建立索引」或重複頁問題變複雜。電商與課程網站通常需要搭配 robots.txt、canonical、參數規則、導覽連結設計和 sitemap 管理，而不是只加一條萬用 Disallow。

5. 沒有把 AI crawler 政策寫進網站治理

AI 搜尋讓 robots.txt 的決策更敏感。OpenAI 文件列出可由站長管理的爬蟲，例如與搜尋功能相關的 OAI-SearchBot，以及用於改進模型的 GPTBot。若你希望品牌頁、服務頁與知識文章能被答案引擎找到，就不應在不了解用途的情況下一律封鎖；若你要限制訓練用途，也應用官方 user-agent 規則清楚區分，而不是把所有 AI 相關 bot 混在一起。

AI crawler、AEO 與 GEO：要開放還是限制？

對台灣中小企業來說，答案通常不是「全開」或「全擋」，而是依頁面類型分層。品牌介紹、服務範圍、專業文章、FAQ、案例摘要、價格條件和聯絡方式，通常是 AEO 與 GEO 最需要被理解的內容；會員資料、未公開合約、內部文件、測試頁、低品質自動產生頁，則不應開放給任何不必要的爬蟲。

Google 的 AI features 文件把網站內容與搜尋體驗放在同一個可管理脈絡中說明，也提醒網站主可透過既有搜尋控制影響內容呈現。這表示若你希望未來被 AI 摘要、搜尋答案或其他答案型體驗引用，基本條件仍是：頁面可抓取、內容清楚、來源可信、日期與限制明確、結構化資料與內部連結合理。robots.txt SEO 不是 GEO 的全部，但錯誤封鎖會讓再好的內容沒有被引用的機會。

7 步 robots.txt SEO 檢查流程

第 1 步：列出網站最重要的 URL 類型

把首頁、服務頁、產品分類、商品頁、部落格、FAQ、案例、PDF 型錄、會員區、購物車、站內搜尋、篩選參數、後台與測試站分開。先決定哪些頁面應該被搜尋與答案引擎理解，哪些只是功能頁或內部頁。

第 2 步：讀取目前 robots.txt

直接打開 /robots.txt，確認是否有整站 Disallow、過大的萬用字元、錯誤的 user-agent 群組、過期的測試路徑或舊網站規則。沒有 robots.txt 不一定是錯；Google Search Console 說明也提到，沒有 robots.txt 通常代表 Google 可以抓取網站 URL。

第 3 步：用工具測試重要 URL

針對首頁、服務頁、最新文章、產品分類、PDF 與篩選頁，分別測試 Googlebot 是否被允許抓取。若你有 AI crawler 政策，也要測試 OAI-SearchBot、GPTBot 或其他官方 user-agent 的規則是否如預期。

第 4 步：比對 meta robots、canonical 與 header

抓取重要頁面原始碼與 HTTP header，確認沒有錯放 noindex、nofollow、canonical 到錯誤版本，或對 PDF/圖片誤加 X-Robots-Tag noindex。這一步要搭配真實 URL 檢查，不要只相信 CMS 後台的 SEO 欄位。

第 5 步：檢查 sitemap 與內部連結

sitemap 應該放該索引的正式 URL，不應塞滿被 robots.txt 擋住、noindex、404 或重導的 URL。內部連結也應把權重導向正式頁，而不是大量連到參數頁、過期活動或搜尋結果頁。

第 6 步：看 Search Console 覆蓋與爬取訊號

檢查 robots.txt 報表、頁面索引狀態、URL 檢查結果與抓取統計。若同一類 URL 大量出現「遭 robots.txt 封鎖」、「重複，Google 選擇的標準網址不同」或「已探索但尚未建立索引」，就要回到 URL 規則與內容價值判斷。

第 7 步：把規則寫進上線與內容 SOP

每次改版、換主機、改 CMS、開新分類、上新活動頁或導入 AI crawler 政策，都要重新檢查 robots.txt。建議由行銷負責定義哪些內容要被看見，工程或網站供應商負責實作，最後用 Search Console 和實際抓取測試驗收。

適用對象與不適用情境

本文適合已經有網站、部落格、電商、課程頁、診所服務頁、B2B 產品型錄或大量內容頁的台灣中小企業，也適合行銷代理商拿來做改版交接檢查。若你的網站只有五頁靜態公司介紹，robots.txt SEO 仍要正確，但不需要過度工程化。

本文不適用於機密資料保護。robots.txt 是公開檔案，任何人都可以讀到，不應用來保護合約、個資、報價單、內部文件或尚未公開的商業資訊。這些內容應使用登入權限、伺服器權限、移除公開連結或正式的資料治理措施。

資料更新與限制

本文依 2026 年 5 月 26 日可查證資料撰寫。主要依據包括 Google Search Central robots.txt introduction、Google robots.txt specification、Google robots meta tag 與 X-Robots-Tag specification、Google AI features and your website、OpenAI crawler documentation，以及 MDN robots.txt glossary。

限制也要說清楚：robots.txt 是自願遵守的協議，並非所有爬蟲都會照做；不同搜尋引擎和 AI 服務的 user-agent、用途與政策可能更新；CMS、CDN、WAF 和主機商也可能改寫實際回應。重要設定上線前，應用實際 URL、實際 user-agent 與 Search Console 等工具驗證。

結論：讓該被引用的內容可被抓取，讓不該曝光的內容真正受控

robots.txt SEO 做得好，不是把網站藏起來，而是讓搜尋引擎與答案引擎用正確方式理解你的正式內容。台灣中小企業最務實的做法，是先盤點 URL 類型，再用 robots.txt、noindex、canonical、X-Robots-Tag、登入權限與 AI crawler 規則各司其職。當重要服務頁、知識文章、FAQ 和品牌資訊都能被正常抓取，同時低價值與敏感頁面被妥善控管，SEO、AEO 與 GEO 才有穩定成長的技術基礎。

FAQ

robots.txt 可以保證頁面不出現在 Google 嗎？

不可以。robots.txt 主要控制爬蟲是否請求 URL；若 URL 被其他地方連到，Google 仍可能知道該 URL。要移除索引通常要使用 noindex、移除頁面、加權限或處理正式 URL。

同一個頁面可以同時 Disallow 又 noindex 嗎？

不建議把這當成標準做法。若頁面被 robots.txt 擋住，爬蟲可能看不到頁面內的 noindex。要讓 noindex 生效，通常要先允許爬蟲抓取該頁。

AI crawler 一定要全部開放才有 GEO 效果嗎？

不一定。品牌、服務、FAQ、案例摘要與知識文章通常應保持可抓取；會員資料、內部文件、測試頁與低品質自動頁則應限制。關鍵是依頁面用途分層，而不是全開或全擋。

沒有 robots.txt 會傷害 SEO 嗎？

通常不會。若網站沒有 robots.txt，Google 通常可以抓取網站 URL。真正需要 robots.txt 的情境，是要限制後台、站內搜尋、參數頁、測試路徑或特定 crawler。

改版上線前最重要的 robots.txt 檢查是什麼？

先確認正式站沒有保留 Disallow: /，再抽查首頁、服務頁、分類頁、文章、CSS、JavaScript、圖片與 sitemap URL 是否可被 Googlebot 正常抓取。

網站流量突然掉？先確認 robots.txt 沒把 Google 擋在門外

robots.txt 能做什麼，不能做什麼

robots.txt SEO 的決策表

台灣中小企業最常見的 5 個 robots.txt 錯誤

1. 新網站上線後還擋著整站

2. 用 robots.txt 取代 noindex

3. 把 CSS、JavaScript 或圖片資源擋掉

4. 讓內部搜尋與篩選頁大量開放

5. 沒有把 AI crawler 政策寫進網站治理

AI crawler、AEO 與 GEO：要開放還是限制？

7 步 robots.txt SEO 檢查流程

第 1 步：列出網站最重要的 URL 類型

第 2 步：讀取目前 robots.txt

第 3 步：用工具測試重要 URL

第 4 步：比對 meta robots、canonical 與 header

第 5 步：檢查 sitemap 與內部連結

第 6 步：看 Search Console 覆蓋與爬取訊號

第 7 步：把規則寫進上線與內容 SOP

適用對象與不適用情境

資料更新與限制

結論：讓該被引用的內容可被抓取，讓不該曝光的內容真正受控

FAQ

robots.txt 可以保證頁面不出現在 Google 嗎？

同一個頁面可以同時 Disallow 又 noindex 嗎？

AI crawler 一定要全部開放才有 GEO 效果嗎？

沒有 robots.txt 會傷害 SEO 嗎？

改版上線前最重要的 robots.txt 檢查是什麼？

延伸閱讀

把這篇判斷接到你的網站

robots.txt 能做什麼，不能做什麼

robots.txt SEO 的決策表

台灣中小企業最常見的 5 個 robots.txt 錯誤

1. 新網站上線後還擋著整站

2. 用 robots.txt 取代 noindex

3. 把 CSS、JavaScript 或圖片資源擋掉

4. 讓內部搜尋與篩選頁大量開放

5. 沒有把 AI crawler 政策寫進網站治理

AI crawler、AEO 與 GEO：要開放還是限制？

7 步 robots.txt SEO 檢查流程

第 1 步：列出網站最重要的 URL 類型

第 2 步：讀取目前 robots.txt

第 3 步：用工具測試重要 URL

第 4 步：比對 meta robots、canonical 與 header

第 5 步：檢查 sitemap 與內部連結

第 6 步：看 Search Console 覆蓋與爬取訊號

第 7 步：把規則寫進上線與內容 SOP

適用對象與不適用情境

資料更新與限制

結論：讓該被引用的內容可被抓取，讓不該曝光的內容真正受控

FAQ

robots.txt 可以保證頁面不出現在 Google 嗎？

同一個頁面可以同時 Disallow 又 noindex 嗎？

AI crawler 一定要全部開放才有 GEO 效果嗎？

沒有 robots.txt 會傷害 SEO 嗎？

改版上線前最重要的 robots.txt 檢查是什麼？

延伸閱讀

把這篇判斷接到你的網站

同主題延伸閱讀

訂閱下一封 AI 行銷筆記