網站流量突然掉?先確認 robots.txt 沒把 Google 擋在門外

robots.txt 不是拿來藏頁面的保險箱。這篇用台灣中小企業情境整理流量掉、頁面不收錄、AI crawler 設定混亂時該怎麼排查。

台灣中小企業網站控制室中以閘門管理搜尋爬蟲與 AI 爬蟲路徑
robots.txt SEO 的重點是讓該被看見的內容可被抓取,讓不該被抓取的區域用正確方式控管。

robots.txt SEO 的重點不是把不想曝光的頁面全部寫進 Disallow,而是先分清楚「不讓爬蟲抓取」、「不讓頁面被索引」、「不讓某個版本成為主要網址」和「不讓 AI 或特定機器人使用內容」是四件不同的事。台灣中小企業如果把服務頁、分類頁、部落格、PDF 型錄或 JavaScript 資源誤擋,Google 與 AI 搜尋可能看不到完整內容;如果把測試站、內部搜尋、會員資料或無價值參數頁放太開,又會浪費爬取資源並增加錯誤曝光風險。

robots.txt 能做什麼,不能做什麼

robots.txt 是放在網站根目錄的純文字檔,例如 https://example.com/robots.txt。Google Search Central 說明,robots.txt 會告訴搜尋引擎爬蟲哪些 URL 可以或不可以在網站上請求;MDN 也把它定義為通常放在網站根目錄、提供爬蟲指令的檔案。這讓它很適合控管後台、購物車、站內搜尋結果、篩選參數、測試環境與低價值重複頁。

但 robots.txt 不是「移除搜尋結果」工具。Google 文件明確提醒,被 robots.txt 擋住的 URL 內容通常不會被抓取,但如果外部或內部其他地方連到該 URL,Google 仍可能發現並顯示 URL,且可能沒有摘要。換句話說,如果你的目標是讓某頁不要被索引,通常應該讓爬蟲可以進到頁面看到 noindex,或用 HTTP header 的 X-Robots-Tag;若同時 Disallow 又 noindex,爬蟲反而可能看不到 noindex。

robots.txt SEO 的決策表

先用目的決定工具,而不是看到不想曝光的 URL 就全部 Disallow。以下是台灣中小企業最常遇到的設定分工。

目的優先工具適合情境注意事項
不要讓爬蟲抓取某區域robots.txt Disallow後台、購物車、站內搜尋結果、無限篩選參數、測試路徑不保證 URL 完全不出現在搜尋結果;不要拿來隱藏機密資料
不要讓頁面被索引meta robots noindex薄內容頁、活動已結束但仍需使用者可訪問的頁、會員導流頁頁面必須可被抓取,爬蟲才看得到 noindex
非 HTML 檔案不要索引X-Robots-TagPDF、圖片、報價單範本、舊型錄檔需由伺服器回應 header,通常要工程或主機商協助
指定主要版本canonical同商品多參數 URL、列印版、追蹤參數、排序頁canonical 是訊號,不是強制命令;被 robots.txt 擋住時搜尋引擎可能看不到頁內 canonical
限制特定 AI 或搜尋爬蟲特定 user-agent 規則想區分 Googlebot、OAI-SearchBot、GPTBot 或其他 bot 的存取策略不同服務的 user-agent 與用途不同,設定前要看官方文件並測試

台灣中小企業最常見的 5 個 robots.txt 錯誤

1. 新網站上線後還擋著整站

網站改版時,測試站常會放 Disallow: / 避免被搜尋引擎抓到。問題是上線後如果忘記移除,整站服務頁、文章、商品頁都可能被擋。這是最值得在上線清單裡獨立列出的檢查項,尤其是外包網頁公司交接、主機搬家或 staging 轉 production 的情境。

2. 用 robots.txt 取代 noindex

很多業主看到 Search Console 出現「已建立索引但遭 robots.txt 封鎖」類似警告,就以為多加幾條 Disallow 會更安全。實際上,若 URL 已被其他頁面連到,單靠 robots.txt 可能只會讓搜尋引擎看不到內容與 noindex,卻仍知道這個 URL 存在。要移除索引,應先讓重要爬蟲可抓取並讀到 noindex,確認狀態後再決定是否限制後續爬取。

3. 把 CSS、JavaScript 或圖片資源擋掉

Google 需要理解頁面實際渲染內容。若 robots.txt 擋住必要的 JS、CSS 或圖片資源,搜尋引擎可能無法判斷頁面版面、互動內容、產品資訊或行動版體驗。對採用前端框架、頁面建構器或電商篩選功能的網站,這件事尤其重要。

4. 讓內部搜尋與篩選頁大量開放

站內搜尋、價格篩選、排序、顏色尺寸組合、UTM 參數和日曆參數可能產生成千上萬個低價值 URL。這些頁面如果全部可爬,會讓 Search Console 裡的「已探索但尚未建立索引」或重複頁問題變複雜。電商與課程網站通常需要搭配 robots.txt、canonical、參數規則、導覽連結設計和 sitemap 管理,而不是只加一條萬用 Disallow。

5. 沒有把 AI crawler 政策寫進網站治理

AI 搜尋讓 robots.txt 的決策更敏感。OpenAI 文件列出可由站長管理的爬蟲,例如與搜尋功能相關的 OAI-SearchBot,以及用於改進模型的 GPTBot。若你希望品牌頁、服務頁與知識文章能被答案引擎找到,就不應在不了解用途的情況下一律封鎖;若你要限制訓練用途,也應用官方 user-agent 規則清楚區分,而不是把所有 AI 相關 bot 混在一起。

AI crawler、AEO 與 GEO:要開放還是限制?

對台灣中小企業來說,答案通常不是「全開」或「全擋」,而是依頁面類型分層。品牌介紹、服務範圍、專業文章、FAQ、案例摘要、價格條件和聯絡方式,通常是 AEO 與 GEO 最需要被理解的內容;會員資料、未公開合約、內部文件、測試頁、低品質自動產生頁,則不應開放給任何不必要的爬蟲。

Google 的 AI features 文件把網站內容與搜尋體驗放在同一個可管理脈絡中說明,也提醒網站主可透過既有搜尋控制影響內容呈現。這表示若你希望未來被 AI 摘要、搜尋答案或其他答案型體驗引用,基本條件仍是:頁面可抓取、內容清楚、來源可信、日期與限制明確、結構化資料與內部連結合理。robots.txt SEO 不是 GEO 的全部,但錯誤封鎖會讓再好的內容沒有被引用的機會。

7 步 robots.txt SEO 檢查流程

第 1 步:列出網站最重要的 URL 類型

把首頁、服務頁、產品分類、商品頁、部落格、FAQ、案例、PDF 型錄、會員區、購物車、站內搜尋、篩選參數、後台與測試站分開。先決定哪些頁面應該被搜尋與答案引擎理解,哪些只是功能頁或內部頁。

第 2 步:讀取目前 robots.txt

直接打開 /robots.txt,確認是否有整站 Disallow、過大的萬用字元、錯誤的 user-agent 群組、過期的測試路徑或舊網站規則。沒有 robots.txt 不一定是錯;Google Search Console 說明也提到,沒有 robots.txt 通常代表 Google 可以抓取網站 URL。

第 3 步:用工具測試重要 URL

針對首頁、服務頁、最新文章、產品分類、PDF 與篩選頁,分別測試 Googlebot 是否被允許抓取。若你有 AI crawler 政策,也要測試 OAI-SearchBot、GPTBot 或其他官方 user-agent 的規則是否如預期。

第 4 步:比對 meta robots、canonical 與 header

抓取重要頁面原始碼與 HTTP header,確認沒有錯放 noindex、nofollow、canonical 到錯誤版本,或對 PDF/圖片誤加 X-Robots-Tag noindex。這一步要搭配真實 URL 檢查,不要只相信 CMS 後台的 SEO 欄位。

第 5 步:檢查 sitemap 與內部連結

sitemap 應該放該索引的正式 URL,不應塞滿被 robots.txt 擋住、noindex、404 或重導的 URL。內部連結也應把權重導向正式頁,而不是大量連到參數頁、過期活動或搜尋結果頁。

第 6 步:看 Search Console 覆蓋與爬取訊號

檢查 robots.txt 報表、頁面索引狀態、URL 檢查結果與抓取統計。若同一類 URL 大量出現「遭 robots.txt 封鎖」、「重複,Google 選擇的標準網址不同」或「已探索但尚未建立索引」,就要回到 URL 規則與內容價值判斷。

第 7 步:把規則寫進上線與內容 SOP

每次改版、換主機、改 CMS、開新分類、上新活動頁或導入 AI crawler 政策,都要重新檢查 robots.txt。建議由行銷負責定義哪些內容要被看見,工程或網站供應商負責實作,最後用 Search Console 和實際抓取測試驗收。

適用對象與不適用情境

本文適合已經有網站、部落格、電商、課程頁、診所服務頁、B2B 產品型錄或大量內容頁的台灣中小企業,也適合行銷代理商拿來做改版交接檢查。若你的網站只有五頁靜態公司介紹,robots.txt SEO 仍要正確,但不需要過度工程化。

本文不適用於機密資料保護。robots.txt 是公開檔案,任何人都可以讀到,不應用來保護合約、個資、報價單、內部文件或尚未公開的商業資訊。這些內容應使用登入權限、伺服器權限、移除公開連結或正式的資料治理措施。

資料更新與限制

本文依 2026 年 5 月 26 日可查證資料撰寫。主要依據包括 Google Search Central robots.txt introduction、Google robots.txt specification、Google robots meta tag 與 X-Robots-Tag specification、Google AI features and your website、OpenAI crawler documentation,以及 MDN robots.txt glossary。

限制也要說清楚:robots.txt 是自願遵守的協議,並非所有爬蟲都會照做;不同搜尋引擎和 AI 服務的 user-agent、用途與政策可能更新;CMS、CDN、WAF 和主機商也可能改寫實際回應。重要設定上線前,應用實際 URL、實際 user-agent 與 Search Console 等工具驗證。

結論:讓該被引用的內容可被抓取,讓不該曝光的內容真正受控

robots.txt SEO 做得好,不是把網站藏起來,而是讓搜尋引擎與答案引擎用正確方式理解你的正式內容。台灣中小企業最務實的做法,是先盤點 URL 類型,再用 robots.txt、noindex、canonical、X-Robots-Tag、登入權限與 AI crawler 規則各司其職。當重要服務頁、知識文章、FAQ 和品牌資訊都能被正常抓取,同時低價值與敏感頁面被妥善控管,SEO、AEO 與 GEO 才有穩定成長的技術基礎。

FAQ

robots.txt 可以保證頁面不出現在 Google 嗎?

不可以。robots.txt 主要控制爬蟲是否請求 URL;若 URL 被其他地方連到,Google 仍可能知道該 URL。要移除索引通常要使用 noindex、移除頁面、加權限或處理正式 URL。

同一個頁面可以同時 Disallow 又 noindex 嗎?

不建議把這當成標準做法。若頁面被 robots.txt 擋住,爬蟲可能看不到頁面內的 noindex。要讓 noindex 生效,通常要先允許爬蟲抓取該頁。

AI crawler 一定要全部開放才有 GEO 效果嗎?

不一定。品牌、服務、FAQ、案例摘要與知識文章通常應保持可抓取;會員資料、內部文件、測試頁與低品質自動頁則應限制。關鍵是依頁面用途分層,而不是全開或全擋。

沒有 robots.txt 會傷害 SEO 嗎?

通常不會。若網站沒有 robots.txt,Google 通常可以抓取網站 URL。真正需要 robots.txt 的情境,是要限制後台、站內搜尋、參數頁、測試路徑或特定 crawler。

改版上線前最重要的 robots.txt 檢查是什麼?

先確認正式站沒有保留 Disallow: /,再抽查首頁、服務頁、分類頁、文章、CSS、JavaScript、圖片與 sitemap URL 是否可被 Googlebot 正常抓取。

延伸閱讀

下一步

接著找下一個判斷點

如果這篇文章解開了一部分問題,下一步通常是回到主題地圖、搜尋更精準的情境,或換一個角度看同一件事。

同主題延伸閱讀

AI行銷 報價後追蹤怎麼做?台灣中小企業用 AI 把沉默客戶帶回決策 AI行銷 AI 客服知識庫怎麼整理?台灣中小企業上線前先補 6 種資料 中小企業行銷 行銷漏斗怎麼做?台灣中小企業把流量變詢問的 14 天設定法
預約諮詢 SEO/AEO AI 行銷 中小企業行銷 理查雜談