РУКОВОДСТВО ПОЛЬЗОВАТЕЛЯ
Карта сайта
Система управления web-сайтом WebDirector
Главная
|
Быстрый старт
|
Руководство администратора
|
Руководство разработчика
|
Руководство SEO
|
FAQ
»Яндекс - официально
    Положение страницы на выдаче Yandex
    Индексирование Yandex
  »Типичные ошибки
    Общие вопросы
    Параллелизм в поисковой архитектуре Яндекса
    Некоторые аспекты полнотекстового поиска и ранжирования в Яндекс. 2004
    Тезисы выступления на Диалоге-99
Главная > Руководство SEO > Руководство по продвижению веб-сайта > Библиотечка оптимизатора > Яндекс - официально > Типичные ошибки

Типичные ошибки мешающие индексации Yandex

Неправильно обрабатывается ошибка 404 "Not found"
Проверьте, что делают ваши скрипты в случае ошибок. Если скрипт сообщает об ошибке и при этом выдает код нормального завершения 200, то сообщение будет проиндексировано. Если же ваш скрипт вернет HTTP код 404, это сообщение об ошибке проиндексировано не будет.
Это относится и к обычным документам. Некоторые сервера настроены таким образом, что они в случае ошибки отсылают сообщение с кодом нормального завершения 200. Это мешает роботу удалить ссылку на страницу в базе данных. Любой современный web-сервер позволяет изменять стандартные сообщения об ошибках и отсылать их с правильным кодом ошибки.

Спам, или не нужно обманывать пользователя
Спам - это заголовки и ключевые слова, сдобренные большим количеством слов из самых популярных запросов, большие массивы текста, "написанные" на странице цветом фона или очень мелким шрифтом, а также многие другие уловки с целью привлечения пользователя на свои страницы обманом.
Их не стоит применять по двум причинам. Во-первых, это не добавляет славы создателю страниц и вызывает естественное раздражение пользователей. Во-вторых, Яндекс отслеживает такие ненормальные изменения и снижает место документа на странице результатов. Кроме этого, спам увеличивает размер документа и, следовательно, уменьшает контрастность слов в нем, что также влияет на место документа в списке найденного. В случаях злостного использования спама администрация Яндекса может исключить такие страницы и сайты из базы.
Страницы со временем перенаправления на другие страницы (redirect) равным нулю также исключаются из индексирования.
Поиск в Яндексе не решает задачу "раскрутки сайтов", он решает задачу удовлетворения потребности пользователя в нужной ему информации. Желающие раскрутить свой сайт с помощью Яндекса, однако, тоже могут это сделать, разместив у нас рекламу. Условия размещения рекламы можно прочитать по адресу: http://www.yandex.ru/advertising/.

Неправильные даты
На Яндексе работает поиск и сортировка по датам, но в 20% случаев серверы не выдают реальную дату изменения файлов. Настройте свой сервер правильно. Не лишайте пользователя дополнительной информации и воспользуйтесь возможностью корректно показать свои страницы при поиске по датам.

Веб-сервер, вместе с самим HTML-документом, присылает также дополнительную информацию в так называемых "заголовках HTTP". В частности, он может присылать дату последнего изменения документа в заголовке "Last-Modified". Настоятельно рекомендуем, чтобы ваш веб-сервер присылал эту дату. Добиться этого можно, соответствующим образом настроив сервер и, возможно, слегка исправив используемые CGI или ISAPI скрипты.

Неправильная кодировка
Веб-сервер, вместе с самим HTML-документом, присылает также дополнительную информацию в так называемых "заголовках HTTP". В частности, кодировка документа указывается в заголовке "Content-Type", параметр charset, например, так:

Content-Type: text/html; charset=windows-1251

или так:

Content-Type: text/html; charset=koi8-r

Веб-сервер должен указывать кодировку всех документов, написанных не на английском языке. Если кодировка не указана, пользователь будет вынужден самостоятельно устанавливать кодировку в браузере, что очень неудобно. Заставить сервер присылать кодировку можно, исправив конфигурацию сервера.

Индексирование одинаковых документов в разных кодировках
Много ресурсов расходуется впустую при индексации одних и тех же документов, выдаваемых web-серверами в разных кодировках. При этом русские поисковые системы все равно держат в базах документы в одной из кодировок. Рекомендуется запрещать для индексирования все кодировки, кроме одной. Если кодировки выдаются по портам серверам, то надо выдавать на разных портах (серверах) разный robots.txt. Это значит, во всех портах/серверах, кроме основного, должно быть написано

user-agent: *
disallow: /

Если кодировки выдаются, к примеру, по директориям, то надо сделать один файл robots.txt, в котором будет написано

user-agent: *
disallow: /alt
disallow: /mac
disallow: /koi

Индексирование одного сайта на разных серверах
Эта проблема возникает, когда у сервера существуют зеркала, и/или кодировки делаются префиксами в имени хоста, например, для хоста www.chto-to.ru:
win.chto-to.ru, koi-www.chto-to.ru, wwwmac.chto-to.ru и т.д.
Робот не в состоянии самостоятельно определить "главный" адрес. Единственное, что он может делать (и делает) - это определить, что два документа совпадают с точностью до кодировок, и проиндексировать только один из них.
Таким образом, может оказаться, что разные части вашего сайта проиндексированы на разных хостах. Если вы хотите, чтобы весь ваш сайт был проиндексирован по одному адресу (хосту), задав соответствующий файл robots.txt. Через некоторое время (по мере обхода роботом) все проиндексированные документы будут ссылаться на этот хост.

Не стоит открывать для роботов поисковых машин содержимое своего сайта под разными именами или портами. Это НЕ даст улучшения индексации вашего сайта, а, наоборот, приведет к излишней нагрузке на ваш сервер и сеть, а также может вызвать самые разные отрицательные эффекты.

Например, поисковые системы часто не в состоянии понять, какие "зеркала" вашего сайта являются главными, и могут выбрать из них произвольное, не согласующееся с вашими ожиданиями. Некоторые поисковые системы (напр. Альтависта) вообще могут удалить серверы с повторяющимся содержанием.

Для решения этой проблемы ваш сайт robots.txt (находящийся в корневой директории сервера), стоит написать так, чтобы запретить в нем индексирование всех "не основных" адресов.

Перечисленные выше проблемы присущи всем серверам, с установленным на них веб-сервером "Русский Apache". "Русский Apache" содержит механизм выдачи одного и того же документа в разных кодировках под разным URL. В результате роботы сканируют ваш сервер несколько раз, а именно - столько, сколько установлено кодировок. При этом роботы отечественных поисковых машин это учитывают и используют алгоритмы автоматического определения кодировок, чтобы слить все варианты в один документ. Принятая в "Русском Apache" система попарных перекодирующих таблиц, редактируемых пользователем, приводит к появлению нестандартных и некорректных символов в теле документов. Из-за этого документы при "формальном" сравнении отличаются и, таким образом, остаются неслитыми.

источник: http://www.yandex.ru/info/webmaster5.html