robots.txt
robots.txt は、Web サイトのルート (/robots.txt) に配置するテキストファイルで、検索エンジンや AI クローラーに「どの URL をクロールしてよいか」を指示します。Robots Exclusion Protocol の標準仕様です。
詳細解説
robots.txt は1994年に提案され2022年に IETF RFC 9309 として正式標準化された、Web サイトとクローラーの取り決めを記述するテキストファイルです。サイトのルートディレクトリ (https://example.com/robots.txt) に配置し、User-agent (対象ボット) と Allow/Disallow (許可/拒否パス) を記述します。代表的な指示は、Sitemap: https://... (サイトマップ場所通知)、User-agent: GPTBot Disallow: / (OpenAI クローラー全拒否)、User-agent: * Disallow: /admin/ (管理画面の全ボット拒否) などです。注意点として、1) Disallow はクロールを拒否するだけでインデックス削除にはならない (noindex メタタグが必要)、2) 機密ファイルの隠蔽には不向き (robots.txt 自体が公開ファイル)、3) Google・Bing は遵守するが悪意のスクレイパーは無視する、点を理解する必要があります。
実装例 / 使い方
- 01GPTBot/CCBot を Disallow に追加し AI 学習データ利用を拒否する企業が増加中です
- 02Sitemap 指示を robots.txt に書くと Bing が自動検出します
- 03/admin/ や /private/ を Disallow してもクロール除外のみで非公開化はできません
関連する用語
sitemap.xml
sitemap.xml は、サイト内の全ページ URL とその更新日・優先度を一覧化した XML ファイルで、検索エンジンに効率的なクロールを促します。Goog...
クロールバジェット
クロールバジェット (Crawl Budget) は、Googlebot が特定サイトに対して一定期間内にクロールする URL 数の上限のことです。サイト規模・...
インデックス
インデックス (Indexing) は、検索エンジンがクロールしたページを解析し、検索可能なデータベースに登録する処理のことです。インデックスされていないページ...
De-indexing
De-indexing (デインデックシング) は、検索エンジンのインデックスから特定ページや全サイトが削除されることです。意図的な削除と、ペナルティによる強制...
カノニカル URL
カノニカル URL は、同一/類似コンテンツが複数 URL で存在する場合に「正規版」を検索エンジンに伝える指定のことです。<link rel="canonic...
robots.txtを、実際に活用する
用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。
営業時間 平日10-18時 / 通常24時間以内に返信
