robots.txt とは何ですか?

— Glossary

robots.txt

読み: ロボッツテキスト

短い定義

robots.txt は、Web サイトのルート (/robots.txt) に配置するテキストファイルで、検索エンジンや AI クローラーに「どの URL をクロールしてよいか」を指示します。Robots Exclusion Protocol の標準仕様です。

詳細解説

robots.txt は1994年に提案され2022年に IETF RFC 9309 として正式標準化された、Web サイトとクローラーの取り決めを記述するテキストファイルです。サイトのルートディレクトリ (https://example.com/robots.txt) に配置し、User-agent (対象ボット) と Allow/Disallow (許可/拒否パス) を記述します。代表的な指示は、Sitemap: https://... (サイトマップ場所通知)、User-agent: GPTBot Disallow: / (OpenAI クローラー全拒否)、User-agent: * Disallow: /admin/ (管理画面の全ボット拒否) などです。注意点として、1) Disallow はクロールを拒否するだけでインデックス削除にはならない (noindex メタタグが必要)、2) 機密ファイルの隠蔽には不向き (robots.txt 自体が公開ファイル)、3) Google・Bing は遵守するが悪意のスクレイパーは無視する、点を理解する必要があります。

実装例 / 使い方

01GPTBot/CCBot を Disallow に追加し AI 学習データ利用を拒否する企業が増加中です
02Sitemap 指示を robots.txt に書くと Bing が自動検出します
03/admin/ や /private/ を Disallow してもクロール除外のみで非公開化はできません

参考・出典

robots.txtを、実際に活用する

用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。

細マッチョ企業診断 (3分・無料)個別に相談する

営業時間平日10-18時 / 通常24時間以内に返信

robots.txt

詳細解説

実装例 / 使い方

参考・出典

関連する用語

sitemap.xml

クロールバジェット

インデックス

De-indexing

カノニカル URL

robots.txtを、実際に活用する