Стандарт исключений для роботов

Толкование

Стандарт исключений для роботов: Стандарт исключений для роботов (robots.txt) — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (то есть иметь путь относительно имени сайта /robots.txt). При наличии нескольких поддоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

Использование файла добровольно. Стандарт был принят консорциумом W3C 30 января 1994 года в списке рассылки robots-request@nexor.co.uk и с тех пор используется большинством известных поисковых машин.

Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.

Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу.

Содержание

1 Описание структуры

2 Проверка синтаксиса

3 Примеры

4 Нестандартные директивы

5 Расширенный стандарт

6 Особенности поддержки стандарта поисковыми роботами

7 См. также

8 Ссылки

Описание структуры

Файл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:

<поле>:<необязательный пробел><значение><необязательный пробел>

где поле — это либо User-agent, либо Disallow.

Сравнение производится методом простого поиска подстроки. Например, запись Disallow: /about запретит доступ как к разделу http://example.com/about/, так и к файлу http://example.com/about.php, а запись Disallow: /about/ — только к разделу http://example.com/about/.

Проверка синтаксиса

Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб.

Служба Яндекса (выполняет проверку синтаксиса и разрешения для каждой отдельной страницы) (рус.)

Google webmasters tools (позволяет проверить разрешения для каждой отдельной страницы) (рус.)

Примеры

Запрет доступа всех роботов ко всему сайту:

User-agent: * Disallow: /

Запрет доступа определенного робота к каталогу /private/:

User-agent: googlebot Disallow: /private/

Нестандартные директивы

Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды.

User-agent: * Crawl-delay: 10

Allow: имеет действие, обратное директиве Disallow — разрешает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.

Allow: /album1/photo.html Disallow: /album1/

Расширенный стандарт

В 1996 году был предложен расширенный стандарт robots.txt, включающий такие директивы как Request-rate и Visit-time. Например:

User-agent: * Disallow: /downloads/ Request-rate: 1/5 # загружать не более одной страницы за пять секунд Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

Особенности поддержки стандарта поисковыми роботами

Рамблер поддерживает только базовый вариант стандарта - только директивы User-agent и Disallow

См. также

Sitemaps

Favicon.ico

Ссылки

A Standard for Robot Exclusion (англ.)

Русскоязычный аналог robotstxt.org — все о файле robots.txt по-русски и о русскоязычных роботах

Использование robots.txt — официальная помощь Яндекса

Список отловленных роботов Название и краткое описание реально действующих роботов в Рунете

Создание robots.txt — как сделать файл robots.txt для сайта и как его разместить

Поисковая оптимизация

Исключения

robots.txt • Мета-теги • nofollow • noindex

Маркетинг

Интернет-маркетинг • Партнёрская программа • Маркетинг по электронной почте • Реклама на экране • Интернет-статистика

Поисковый
маркетинг

Поисковый маркетинг • Оптимизация сайта под социальные сети (SMO) • Управление присутствием личной информации в сети • Платное включение в индекс • Оплата за клик • Гуглбомбинг

Спам

Поисковый спам • Автоматический сбор данных • Сайты с неоригинальным контентом • Линкоферма • Дорвеи • Клоакинг

Ссылки

Внешние факторы в поисковой оптимизации • Популярность ссылки • Обмен ссылками • Взаимные ссылки • Многолинки • Биржа ссылок • Бэклинки (ссылки на сайт) • Поисковый индекс

Прочее

Страница приземления • Геотаргетинг • Оптимизация страниц приземления • Поисковая система с ручным отбором результатов • Статистика запросов • Стоп-слова • Подозрительные слова

Веб и веб-сайты

Глобально

Всемирная паутина (Веб 1.0 • Веб 2.0 • Web 3.0) • Семантическая паутина • Рунет

Локально

Сайт • Портал • Страница • Служба • Кольцо

Виды сайтов
и сервисов

Виртуальный атлас • Баннерная сеть • Блог (платформа) • Видеохостинг • Вики (список движков • список сайтов) • Сайт-визитка • Вопрос-ответ • Закладки • Службы знакомств • Каталог ресурсов • Интернет-магазин • Микроблог • Тамблелог • Новостной сайт • Поисковая система (список) • Порносайт • Социальная сеть • BitTorrent-трекер • Файлообменник • Форум (Сервис • Имиджборд) • Фотохостинг • Чат

Создание и
обслуживание

Разработка • Мастер • Дизайн • Вёрстка • Программирование • Юзабилити • Модератор • Системный администратор • Поисковая оптимизация (SEO) • Продвижение сайта • Опыт взаимодействия • Регистрация пользователя

Типы макетов,
страниц, сайтов

Статический • Динамический • Фиксированный • Резиновый • Динамично эластичный • Адаптивный

Техническое

Веб-сервер (сравнение) • Браузер (список • сравнение) • CMF (список (англ.)) • CMS (список (англ.)) • HTTP (ответы • заголовки) • SPDY • CGI • HTML • XHTML • CSS • JavaScript • DHTML • DOM • XML • AJAX • JSON • Flash • RSS • Atom • Микроформат • favicon.ico • robots.txt • Sitemaps • Карта сайта • .htaccess

Маркетинг

Интернет-маркетинг • Интернет-реклама • Баннер • Контекстная реклама

Социум и культура

Блогосфера • Интернет-сообщество (районное) • Сетевая литература

Категория:
Поисковые системы

Игры ⚽ Поможем написать курсовую

Полезное

Смотреть что такое "Стандарт исключений для роботов" в других словарях:

goto — (от англ. go to «перейти к») оператор безусловного перехода (перехода к определённой точке программы, обозначенной номером строки либо меткой) в некоторых языках программирования. В некоторых языках оператор безусловного перехода … Википедия
Массовая культура — («Массовая культура») в философии, социологии понятие, обобщённо выражающее состояние буржуазной культуры с середины 20 века. В понятии «М. к.» нашли отражение существенные сдвиги в механизме буржуазной культуры: развитие средств массовой … Большая советская энциклопедия

Словари и энциклопедии на Академике

Стандарт исключений для роботов

Содержание

Описание структуры

Проверка синтаксиса

Примеры

Нестандартные директивы

Расширенный стандарт

Особенности поддержки стандарта поисковыми роботами

См. также

Ссылки

Полезное

Смотреть что такое "Стандарт исключений для роботов" в других словарях:

Поделиться ссылкой на выделенное

Поисковая оптимизация
Исключения	robots.txt • Мета-теги • nofollow • noindex
Маркетинг	Интернет-маркетинг • Партнёрская программа • Маркетинг по электронной почте • Реклама на экране • Интернет-статистика
Поисковый маркетинг	Поисковый маркетинг • Оптимизация сайта под социальные сети (SMO) • Управление присутствием личной информации в сети • Платное включение в индекс • Оплата за клик • Гуглбомбинг
Спам	Поисковый спам • Автоматический сбор данных • Сайты с неоригинальным контентом • Линкоферма • Дорвеи • Клоакинг
Ссылки	Внешние факторы в поисковой оптимизации • Популярность ссылки • Обмен ссылками • Взаимные ссылки • Многолинки • Биржа ссылок • Бэклинки (ссылки на сайт) • Поисковый индекс
Прочее	Страница приземления • Геотаргетинг • Оптимизация страниц приземления • Поисковая система с ручным отбором результатов • Статистика запросов • Стоп-слова • Подозрительные слова

Веб и веб-сайты
Глобально	Всемирная паутина (Веб 1.0 • Веб 2.0 • Web 3.0) • Семантическая паутина • Рунет
Локально	Сайт • Портал • Страница • Служба • Кольцо
Виды сайтов и сервисов	Виртуальный атлас • Баннерная сеть • Блог (платформа) • Видеохостинг • Вики (список движков • список сайтов) • Сайт-визитка • Вопрос-ответ • Закладки • Службы знакомств • Каталог ресурсов • Интернет-магазин • Микроблог • Тамблелог • Новостной сайт • Поисковая система (список) • Порносайт • Социальная сеть • BitTorrent-трекер • Файлообменник • Форум (Сервис • Имиджборд) • Фотохостинг • Чат
Создание и обслуживание	Разработка • Мастер • Дизайн • Вёрстка • Программирование • Юзабилити • Модератор • Системный администратор • Поисковая оптимизация (SEO) • Продвижение сайта • Опыт взаимодействия • Регистрация пользователя
Типы макетов, страниц, сайтов	Статический • Динамический • Фиксированный • Резиновый • Динамично эластичный • Адаптивный
Техническое	Веб-сервер (сравнение) • Браузер (список • сравнение) • CMF (список (англ.)) • CMS (список (англ.)) • HTTP (ответы • заголовки) • SPDY • CGI • HTML • XHTML • CSS • JavaScript • DHTML • DOM • XML • AJAX • JSON • Flash • RSS • Atom • Микроформат • favicon.ico • robots.txt • Sitemaps • Карта сайта • .htaccess
Маркетинг	Интернет-маркетинг • Интернет-реклама • Баннер • Контекстная реклама
Социум и культура	Блогосфера • Интернет-сообщество (районное) • Сетевая литература

Словари и энциклопедии на Академике

Википедия

Стандарт исключений для роботов

Содержание

Описание структуры

Проверка синтаксиса

Примеры

Нестандартные директивы

Расширенный стандарт

Особенности поддержки стандарта поисковыми роботами

См. также

Ссылки

Полезное

Смотреть что такое "Стандарт исключений для роботов" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: