назад | вперед 
Протокол ограничения поисковых роботов (Robots Exclusion Protocol) - это метод, позволяющий администраторам веб-сайтов указывать поисковым роботам, посещающим сайт, какие части их сайтов индексировать нельзя. При заходе на ваш сайт поисковый робот загружает файл robots.txt, содержащий инструкции что нужно и что не нужно индексировать. Это текстовый ASCII файл, лежащий в корневом каталоге сайта (например, если адрес вашего сайта http://www.yoursite.com/, то файл robots.txt должен находится по адресу http://www.yoursite.com/robots.txt, в любом другом каталоге робот его просто не увидит) и содержащий имена пользовательских агентов роботов и каталоги, которые упомянутым роботам запрещено индексировать. Причины для запрета могут быть разные - от административной части до приватных каталогов, содержащих ваши или клиентские документы, не предназначенные для просмотра посторонними. Также, проблемы может возникать у пользователей, у которых установлен Google Toolbar, который фиксирует страницы, которые вы посещаете и сообщает о них роботу Google. Так в рейтинге поисковой машины моут появлятся страницы, на которые не ссылается ни одна внешняя страница. Поэтому ключом к контролированию спайдеров является файл robots.txt. Если у вас большой веб-сайт или вы часто его обновляете, создавать и редактировать файл robots.txt будет тяжелым и скучным занятием.
Файл можно создать, используя простой текстовый редактор, например notepad или wordpad, но очень сложно создать такой файл вручную, не допустив где-либо ошибок.
Файл robots.txt состоит из записей. Каждая запись содержит два поля: строка пользовательского агента (User-agent) и строка запрета (Disallow). Так, запрет для индексации роботом Google содержимого папки cgi–bin будет выглядеть следующим образом:
User-agent: googlebot
Disallow: /cgi-bin/
Использование символа "*" в поле пользовательского агента будет значить, что запрет распостраняется на всех роботов:
User-agent: *
Disallow: /cgi-bin/
В данном случае индексация папки cgi-bin запрещена для всех роботов.
Используя символ "*" можно запретить также индексацию определенного типа файлов по расширениям. Так следующая запись запрещает всем роботам индексацию файлов с расширениями .doc и .pdf:
User-Agent: *
Disallow: /*.doc$
Disallow: /*.pdf$
Запись, начинающаяся символом "#" будет интерпретироваться как комментарий:
# Generated by Page Promoter (http://www.pagepromoter.com/)
Редактор файлов Robots.txt это удобный визуальный редактор, который дает возможность назначать разные указания для выбранных поисковых роботов в специфических областях сайта и легко и быстро генерировать файл robots.txt.
Модуле имеет две вкладки: Список спайдеров и Запретить.
Список спайдеров
На вкладке Список спайдеров отображаются имена всех роботов, содержащихся в базе данных программы (всего более 180). Существует три поля для каждого робота. Можно группировать роботов в алфавитном порядке в любом из этих полей щелкнув на заголовке колонки.
- Спайдеры (Пользовательские агенты) – имя пользовательского агента спайдера не обязательно соответствует имени поисковой машины, например, пользовательский агент Inktomi – Slurp. В этом поле имя пользовательского агента подается в скобках
- Страна – страна, где зарегистрирована поисковая машина
- Основной язык – основной язык поисковой машины. Хотя некоторые поисковые машины (например Google) для пользователей из разных стран имеют интерфейс на разных языках, их основным языком в большинстве случаев является язык страны, где находится поисковая машина.
Если вы щелкнете правой кнопкой в окне спайдеров, появится следующее контекстное меню:
 |
Выделить все – выделить всех роботов в списке
Снять выделение – отменить выделение
Выбрать по... – Выбрать роботов только из конкретной категории (страна, основной язык)
Инвертировать выделение – выбрать невыбранных роботов и наоборот
Домашняя страница спайдера – открыть домашнюю страницу спайдера в окне браузера |
Выберите роботов, которым вы хотите запретить индексирования вашего сайта включив флажки напротив их имени и щелкнув кнопку Дальше > чтобы перейти на вкладку Запретить.
Импортировать файл robots.txt Если вы хотите изменить существующий файл robots.txt, можно импортировать его в программу и отредактировать. Щелкните Импортировать файл robots.txt чтобы запустить Мастер настройки импорта. Импорт файла состоит из трех шагов:
- Первый шаг мастера импорта – нужно выбрать размещение импортируемого файла. Выберите Локальная папка, если файл сохранен на локальном компьютере или в локальной сети. Выберите FTP Сервер если вы соединяетесь со своим сайтом через FTP протокол. Выберите HTTP Сервер если вы соединяетесь со своим сайтом только через HTTP протокол.
- Второй шаг – нужно указать путь к файлу.
- Для локальной папки нажмите
Обзор и укажите путь к вашему файлу.
- Для FTP сервера введите имя хоста FTP сервера и нажмите Дальше > или
Обзор FTP. Нажав Обзор FTP, вы сможете просмотреть содержимое вашего сервера и найти путь к файлу. Если вы нажмете Дальше, программа соединится с сервером и попытается найти файл сама.
- Для HTTP сервера, введите URL домашней страницы сайта, который обычно является адресом его коренной папки и нажмите
Получить чтобы получить файл.
- Третий шаг – мастер сообщит о том, был ли импорт успешным или нет. Если мастер сообщил, что импорт прошел успешно, нажмите
Готово и выберите путь к папке, куда вы хотите сохранить импортируемый файл.
- Локальный компьютер - нажмите
Обзор и укажите расположение папки, куда вы бы хотели сохранить импортированный файл robots.txt
- FTP Сервер – введите имя хоста вашего FTP сервера, ваше имя пользователя, пароль и путь к папке. Можно также выбрать опцию
Обзор FTP и вручную указать путь к папке
Запретить
На вкладке Запретить можно выбрать файлы и папки вашего сайта, которые вы бы хотели оставить непроиндексированными.
Вкладка имеет два окна. В первом окне отображаются спайдеры, выбранные на вкладке Список спайдеров. Вы можете группировать их по стране размещения или по основному языку, выбрав соответственное значение в «выпадающем» меню Группировать по: В другом окне отображается структурный каталог вашего сайта. После первого запуска программы папкой сайта по умолчанию является папка, где установлена программа Page Promoter.
Чтобы указать программе расположение вашего сайта, нажмите Адрес сайта. Если сайт сохранен на локальном компьютере, нажмите Местный компьютер, выберите коренную папку сайта, выберите ее и нажмите OK. Если вы соединяетесь с сайтом через FTP, выберите FTP Сервер, введите адрес вашего FTP сайта в поле Хост, введите номер порта, имя пользователя, ассоциированный пароль и путь к корневой папке сайта. Если соединение с Интернетом установлено, вы можете найти корневую папку сайта, нажав Обзор FTP. Если компьютер работает под брандмауером, выберите Пассивный режим.
Если корневая папка сайта установлена правильно, вы увидите ее файловое и каталожное дерево. Можно развернуть узел каталога, нажав рядом с иконкой папки. Чтобы выбрать папки, которые вы хотите включить в список или оставить непроиндексированными, включите их флажки .
Можно отменить выделение папок нажав Снять выделение. Появится следующий диалог, где нужно указать применяется ли это для выбранных поисковых роботов или для всех роботов. Нажмите OK.
Чтобы выбрать папки, которые вы хотите оставить непроиндексированными, сделайте следующее:
- Выберите спайдера.
- Включите флажки напротив папок, которые будут запрещены для этого спайдера
- Нажмите
Генерировать файл robot.txt
Внимание: если вы хотите применить одинаковые правила для всех роботов, убедитесь, что отмечен пункт *(All Spiders), в противном случае ограничения будут применены только для выбранного робота (то есть того, что отмечен курсором)
Можно запретить доступ к файлам определенного расширения. Нажмите Расширения файлов и в появившемся окне добавьте или удалите расширение
В появившемся окне отображается содержимое файла robot.txt. Если результат приемлемый, можно сохранить файл нажав Сохранить файл. Укажите куда сохранить файл (локально или на удаленном FTP сервере) и нажмите Дальше > . Если вы выберете Локальная папка, программа предложит стандартный диалог Windows Сохранить как.... Если вы выберете FTP Папку, программа откроет окно настройки FTP, где вы должны ввести ваши FTP настройки и нажать Дальше >. Программа соединится с удаленным FTP сервером и сохранит ваш файл robots.txt автоматически. После загрузки файла нажмите Закончить.
Смотрите в Интернете: Стандарт исключения роботов
назад | вперед  |