robots.txt

Заметки, полезные ссылки на тему продвижение сайта в поисковых системах

robots.txt

Сообщение UKsystem » 06 янв 2011, 21:57

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Если вы – вебмастер, вы должны знать назначение и синтаксис robots.txt.

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

Много интересной информации тут:
robots.txt

Неправильное расположение robots.txt
http://www.w3.org/admin/robots.txt (Файл находится не в корне сайта)
http://www.w3.org/~timbl/robots.txt (Файл находится не в корне сайта)
ftp://ftp.w3.com/robots.txt (Роботы не индексируют ftp)
http://www.w3.org/Robots.txt (Название файла не в нижнем регистре)

В этом примере запрещена индексация трех директорий:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

Запретить весь сайт для индексации всеми роботами
User-agent: *
Disallow: /

Разрешить всем роботам индексировать весь сайт
User-agent: *
Disallow:
Или можете просто создать пустой файл «/robots.txt».

Запретить индексацию сайта только для одного робота
User-agent: BadBot
Disallow: /

Разрешить индексацию сайта одному роботу и запретить всем остальным
User-agent: Yandex
Disallow:

User-agent: *
Disallow: /

Запретить к индексации все файлы кроме одного
Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:
User-agent: *
Disallow: /docs/

Либо вы можете запретить все запрещенные к индексации файлы:
User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html

Неправильный http-заголовок:
Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.
Антивирусы. SaaS. Купить антивирус для дома и для офиса
Заправка картриджей, ремонт принтеров для дома и для офиса
UKsystem
Администратор
 
Сообщения: 363
Зарегистрирован: 11 мар 2010, 22:56
Благодарил (а): 0 раз.
Поблагодарили: 6 раз.

Re: robots.txt

Сообщение UKsystem » 06 янв 2011, 22:56

Использование META-тегов "Robots"
Данный тег <meta name="Robots" content="..."> управляет индексацией конкретной web-страницы. При этом роботам можно запретить не только индексацию самого документа, но и проход по имеющимся в нем ссылкам.

Инструкции по индексации записываются в поле content. Возможны следующие инструкции:

NOINDEX - запрещает индексирование документа;
NOFOLLOW - запрещает проход по ссылкам, имеющимся в документе;
INDEX - разрешает индексирование документа;
FOLLOW - разрешает проход по ссылкам.
ALL - равносильно INDEX, FOLLOW
NONE - равносильно NOINDEX, NOFOLLOW
Значение по умолчанию: <meta name="Robots" content="INDEX, FOLLOW">.

В следующем примере робот может индексировать документ, но не должен выделять из него ссылки для поиска дальнейших документов:

<META name="ROBOTS" content="index, nofollow">

Имя тега, названия и значения полей нечувствительны к регистру.
Антивирусы. SaaS. Купить антивирус для дома и для офиса
Заправка картриджей, ремонт принтеров для дома и для офиса
UKsystem
Администратор
 
Сообщения: 363
Зарегистрирован: 11 мар 2010, 22:56
Благодарил (а): 0 раз.
Поблагодарили: 6 раз.


Вернуться в SEO продвижение сайта в поисковых системах

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1

cron