robots.txt SEO 的重點不是把不想曝光的頁面全部寫進 Disallow,而是先分清楚「不讓爬蟲抓取」、「不讓頁面被索引」、「不讓某個版本成為主要網址」和「不讓 AI 或特定機器人使用內容」是四件不同的事。台灣中小企業如果把服務頁、分類頁、部落格、PDF 型錄或 JavaScript 資源誤擋,Google 與 AI 搜尋可能看不到完整內容;如果把測試站、內部搜尋、會員資料或無價值參數頁放太開,又會浪費爬取資源並增加錯誤曝光風險。
robots.txt 能做什麼,不能做什麼
robots.txt 是放在網站根目錄的純文字檔,例如 https://example.com/robots.txt。Google Search Central 說明,robots.txt 會告訴搜尋引擎爬蟲哪些 URL 可以或不可以在網站上請求;MDN 也把它定義為通常放在網站根目錄、提供爬蟲指令的檔案。這讓它很適合控管後台、購物車、站內搜尋結果、篩選參數、測試環境與低價值重複頁。
但 robots.txt 不是「移除搜尋結果」工具。Google 文件明確提醒,被 robots.txt 擋住的 URL 內容通常不會被抓取,但如果外部或內部其他地方連到該 URL,Google 仍可能發現並顯示 URL,且可能沒有摘要。換句話說,如果你的目標是讓某頁不要被索引,通常應該讓爬蟲可以進到頁面看到 noindex,或用 HTTP header 的 X-Robots-Tag;若同時 Disallow 又 noindex,爬蟲反而可能看不到 noindex。
robots.txt SEO 的決策表
先用目的決定工具,而不是看到不想曝光的 URL 就全部 Disallow。以下是台灣中小企業最常遇到的設定分工。
| 目的 | 優先工具 | 適合情境 | 注意事項 |
|---|---|---|---|
| 不要讓爬蟲抓取某區域 | robots.txt Disallow | 後台、購物車、站內搜尋結果、無限篩選參數、測試路徑 | 不保證 URL 完全不出現在搜尋結果;不要拿來隱藏機密資料 |
| 不要讓頁面被索引 | meta robots noindex | 薄內容頁、活動已結束但仍需使用者可訪問的頁、會員導流頁 | 頁面必須可被抓取,爬蟲才看得到 noindex |
| 非 HTML 檔案不要索引 | X-Robots-Tag | PDF、圖片、報價單範本、舊型錄檔 | 需由伺服器回應 header,通常要工程或主機商協助 |
| 指定主要版本 | canonical | 同商品多參數 URL、列印版、追蹤參數、排序頁 | canonical 是訊號,不是強制命令;被 robots.txt 擋住時搜尋引擎可能看不到頁內 canonical |
| 限制特定 AI 或搜尋爬蟲 | 特定 user-agent 規則 | 想區分 Googlebot、OAI-SearchBot、GPTBot 或其他 bot 的存取策略 | 不同服務的 user-agent 與用途不同,設定前要看官方文件並測試 |
台灣中小企業最常見的 5 個 robots.txt 錯誤
1. 新網站上線後還擋著整站
網站改版時,測試站常會放 Disallow: / 避免被搜尋引擎抓到。問題是上線後如果忘記移除,整站服務頁、文章、商品頁都可能被擋。這是最值得在上線清單裡獨立列出的檢查項,尤其是外包網頁公司交接、主機搬家或 staging 轉 production 的情境。
2. 用 robots.txt 取代 noindex
很多業主看到 Search Console 出現「已建立索引但遭 robots.txt 封鎖」類似警告,就以為多加幾條 Disallow 會更安全。實際上,若 URL 已被其他頁面連到,單靠 robots.txt 可能只會讓搜尋引擎看不到內容與 noindex,卻仍知道這個 URL 存在。要移除索引,應先讓重要爬蟲可抓取並讀到 noindex,確認狀態後再決定是否限制後續爬取。
3. 把 CSS、JavaScript 或圖片資源擋掉
Google 需要理解頁面實際渲染內容。若 robots.txt 擋住必要的 JS、CSS 或圖片資源,搜尋引擎可能無法判斷頁面版面、互動內容、產品資訊或行動版體驗。對採用前端框架、頁面建構器或電商篩選功能的網站,這件事尤其重要。
4. 讓內部搜尋與篩選頁大量開放
站內搜尋、價格篩選、排序、顏色尺寸組合、UTM 參數和日曆參數可能產生成千上萬個低價值 URL。這些頁面如果全部可爬,會讓 Search Console 裡的「已探索但尚未建立索引」或重複頁問題變複雜。電商與課程網站通常需要搭配 robots.txt、canonical、參數規則、導覽連結設計和 sitemap 管理,而不是只加一條萬用 Disallow。
5. 沒有把 AI crawler 政策寫進網站治理
AI 搜尋讓 robots.txt 的決策更敏感。OpenAI 文件列出可由站長管理的爬蟲,例如與搜尋功能相關的 OAI-SearchBot,以及用於改進模型的 GPTBot。若你希望品牌頁、服務頁與知識文章能被答案引擎找到,就不應在不了解用途的情況下一律封鎖;若你要限制訓練用途,也應用官方 user-agent 規則清楚區分,而不是把所有 AI 相關 bot 混在一起。
AI crawler、AEO 與 GEO:要開放還是限制?
對台灣中小企業來說,答案通常不是「全開」或「全擋」,而是依頁面類型分層。品牌介紹、服務範圍、專業文章、FAQ、案例摘要、價格條件和聯絡方式,通常是 AEO 與 GEO 最需要被理解的內容;會員資料、未公開合約、內部文件、測試頁、低品質自動產生頁,則不應開放給任何不必要的爬蟲。
Google 的 AI features 文件把網站內容與搜尋體驗放在同一個可管理脈絡中說明,也提醒網站主可透過既有搜尋控制影響內容呈現。這表示若你希望未來被 AI 摘要、搜尋答案或其他答案型體驗引用,基本條件仍是:頁面可抓取、內容清楚、來源可信、日期與限制明確、結構化資料與內部連結合理。robots.txt SEO 不是 GEO 的全部,但錯誤封鎖會讓再好的內容沒有被引用的機會。
7 步 robots.txt SEO 檢查流程
第 1 步:列出網站最重要的 URL 類型
把首頁、服務頁、產品分類、商品頁、部落格、FAQ、案例、PDF 型錄、會員區、購物車、站內搜尋、篩選參數、後台與測試站分開。先決定哪些頁面應該被搜尋與答案引擎理解,哪些只是功能頁或內部頁。
第 2 步:讀取目前 robots.txt
直接打開 /robots.txt,確認是否有整站 Disallow、過大的萬用字元、錯誤的 user-agent 群組、過期的測試路徑或舊網站規則。沒有 robots.txt 不一定是錯;Google Search Console 說明也提到,沒有 robots.txt 通常代表 Google 可以抓取網站 URL。
第 3 步:用工具測試重要 URL
針對首頁、服務頁、最新文章、產品分類、PDF 與篩選頁,分別測試 Googlebot 是否被允許抓取。若你有 AI crawler 政策,也要測試 OAI-SearchBot、GPTBot 或其他官方 user-agent 的規則是否如預期。
第 4 步:比對 meta robots、canonical 與 header
抓取重要頁面原始碼與 HTTP header,確認沒有錯放 noindex、nofollow、canonical 到錯誤版本,或對 PDF/圖片誤加 X-Robots-Tag noindex。這一步要搭配真實 URL 檢查,不要只相信 CMS 後台的 SEO 欄位。
第 5 步:檢查 sitemap 與內部連結
sitemap 應該放該索引的正式 URL,不應塞滿被 robots.txt 擋住、noindex、404 或重導的 URL。內部連結也應把權重導向正式頁,而不是大量連到參數頁、過期活動或搜尋結果頁。
第 6 步:看 Search Console 覆蓋與爬取訊號
檢查 robots.txt 報表、頁面索引狀態、URL 檢查結果與抓取統計。若同一類 URL 大量出現「遭 robots.txt 封鎖」、「重複,Google 選擇的標準網址不同」或「已探索但尚未建立索引」,就要回到 URL 規則與內容價值判斷。
第 7 步:把規則寫進上線與內容 SOP
每次改版、換主機、改 CMS、開新分類、上新活動頁或導入 AI crawler 政策,都要重新檢查 robots.txt。建議由行銷負責定義哪些內容要被看見,工程或網站供應商負責實作,最後用 Search Console 和實際抓取測試驗收。
適用對象與不適用情境
本文適合已經有網站、部落格、電商、課程頁、診所服務頁、B2B 產品型錄或大量內容頁的台灣中小企業,也適合行銷代理商拿來做改版交接檢查。若你的網站只有五頁靜態公司介紹,robots.txt SEO 仍要正確,但不需要過度工程化。
本文不適用於機密資料保護。robots.txt 是公開檔案,任何人都可以讀到,不應用來保護合約、個資、報價單、內部文件或尚未公開的商業資訊。這些內容應使用登入權限、伺服器權限、移除公開連結或正式的資料治理措施。
資料更新與限制
本文依 2026 年 5 月 26 日可查證資料撰寫。主要依據包括 Google Search Central robots.txt introduction、Google robots.txt specification、Google robots meta tag 與 X-Robots-Tag specification、Google AI features and your website、OpenAI crawler documentation,以及 MDN robots.txt glossary。
- Google Search Central:Robots.txt Introduction and Guide
- Google Search Central:How Google Interprets the robots.txt Specification
- Google Search Central:Robots meta tag and X-Robots-Tag specifications
- Google Search Central:AI Features and Your Website
- OpenAI:Overview of OpenAI Crawlers
- MDN Web Docs:robots.txt
限制也要說清楚:robots.txt 是自願遵守的協議,並非所有爬蟲都會照做;不同搜尋引擎和 AI 服務的 user-agent、用途與政策可能更新;CMS、CDN、WAF 和主機商也可能改寫實際回應。重要設定上線前,應用實際 URL、實際 user-agent 與 Search Console 等工具驗證。
結論:讓該被引用的內容可被抓取,讓不該曝光的內容真正受控
robots.txt SEO 做得好,不是把網站藏起來,而是讓搜尋引擎與答案引擎用正確方式理解你的正式內容。台灣中小企業最務實的做法,是先盤點 URL 類型,再用 robots.txt、noindex、canonical、X-Robots-Tag、登入權限與 AI crawler 規則各司其職。當重要服務頁、知識文章、FAQ 和品牌資訊都能被正常抓取,同時低價值與敏感頁面被妥善控管,SEO、AEO 與 GEO 才有穩定成長的技術基礎。
FAQ
robots.txt 可以保證頁面不出現在 Google 嗎?
不可以。robots.txt 主要控制爬蟲是否請求 URL;若 URL 被其他地方連到,Google 仍可能知道該 URL。要移除索引通常要使用 noindex、移除頁面、加權限或處理正式 URL。
同一個頁面可以同時 Disallow 又 noindex 嗎?
不建議把這當成標準做法。若頁面被 robots.txt 擋住,爬蟲可能看不到頁面內的 noindex。要讓 noindex 生效,通常要先允許爬蟲抓取該頁。
AI crawler 一定要全部開放才有 GEO 效果嗎?
不一定。品牌、服務、FAQ、案例摘要與知識文章通常應保持可抓取;會員資料、內部文件、測試頁與低品質自動頁則應限制。關鍵是依頁面用途分層,而不是全開或全擋。
沒有 robots.txt 會傷害 SEO 嗎?
通常不會。若網站沒有 robots.txt,Google 通常可以抓取網站 URL。真正需要 robots.txt 的情境,是要限制後台、站內搜尋、參數頁、測試路徑或特定 crawler。
改版上線前最重要的 robots.txt 檢查是什麼?
先確認正式站沒有保留 Disallow: /,再抽查首頁、服務頁、分類頁、文章、CSS、JavaScript、圖片與 sitemap URL 是否可被 Googlebot 正常抓取。