РУКОВОДСТВО ПОЛЬЗОВАТЕЛЯ
Карта сайта
Система управления web-сайтом WebDirector
Главная
|
Быстрый старт
|
Руководство администратора
|
Руководство разработчика
|
Руководство SEO
|
FAQ
»Яндекс - официально
    Положение страницы на выдаче Yandex
    Индексирование Yandex
    Типичные ошибки
    Общие вопросы
    Параллелизм в поисковой архитектуре Яндекса
    Некоторые аспекты полнотекстового поиска и ранжирования в Яндекс. 2004
  »Тезисы выступления на Диалоге-99
Главная > Руководство SEO > Руководство по продвижению веб-сайта > Библиотечка оптимизатора > Яндекс - официально > Тезисы выступления на Диалоге-99

Тезисы выступления на Диалоге-99

Михаил Маслов, Илья Сегалович

Введение.


Яндекс.ру работает по такому же принципу, как и остальные наиболее
известные поисковые системы.

Он состоит из двух основных частей – робота и поискового механизма.
  • поисковому роботу сообщаются URL-адреса документов, которые
    нужно проиндексировать (каждый день добавляется порядка 100
    URL-ей)
  • поисковый робот индексирует эти документы, т. е. для каждого
    слова запоминает все позиции в документе, где это слово
    встречается
  • гиперссылки, обнаруженные в проиндексированных документах,
    добавляются в список документов, подлежащих индексированию
  • поисковый механизм осуществляет поиск, используя индекс,
    построенный роботом.

Свойства коллекции документов:
  • Довольно большая – 7.2 млн. документов (на 1 июня 1999 года)
    Аудитория пользователей составляет около 20 тыс. чел. в день и
    порядка 120–150 тыс. человек в месяц
  • "Политематическая"
  • Документы неравноценны по содержанию: есть содержательные и
    актуальные документы по большинству из тем, интересующих нынешнюю
    пользовательскую аудиторию Яндекса в то же время много
    "неинтересных" документов, создающих "поисковый шум":

    • неточные дубликаты
    • протоколы доступа к серверам
    • отчеты, генерируемые базами данных, имеющими WEB-интерфейс
      ("скрипты") К этой категории относятся, например, списки найденных
      документов, генерируемые самим Яндексом и другими поисковыми
      системами
    • поисковый спам

На этапе индексироваения слова приводятя к нормальной форме.
Используется морфологическая обработка посредством словаря,
передставленного в виде бора.

В отличие от традиционного словарного подхода в случае
отсутствия слова в словаре, не требуется проводить отдельный
сложный поиск на частичное совпадение. Ближайший к предъявленному
неизвестному системе слову ключ и есть его морфологический
образец.

Отличие от несловарного т.е. использующего набор правил,
подхода, состоит в более высоком качестве обработки весьма
частотных нерегулярных слов русского языка. Например, при
несловарной обработке некоторые словоформы глагола молоть
будут скорее слиты с прилагательным мелкий, чем с самим
глаголом молоть

Нечеткий поиск.


Есть две наиболее распространенных трактовки понятия "нечеткого
поиска".

Fuzzy search – "поиск с учетом возможных опечаток, ошибок
сканирования и грамматических ошибок".

Мы считаем, что для Web-страниц эта задача не очень актуальна,
поскольку в Интернете таких ошибок немного - от 2 до 5%

Quorum (level?) search – "поиск по кворуму":

Простая формулировка:
найти документы, содержащие не менее наперед заданного количества
слов из запроса.

Необходимость поиска по кворуму:
пользователь нередко попадает в ситуацию, которую можно назвать
"вилкой" между поиском по объединению и поиском по пересечению
терминов.

При поиске по пересечению терминов (задаваемом логическим
оператором "AND") часто не находится ничего.
При поиске по объединению терминов (задаваемом логическим
оператором "OR") находится длинный список найденных документов. Его
ранжирование отнимает ресурсы поисковой машины, и при этом
результат ранжирования может иметь пониженное качество из-за
большого количества "шумовых" документов.
Нечеткий поиск, или "мягкое AND" – это некоторый вариант золотой
середины, когда должно находиться не слишком много, но и не слишком
мало.

При поиске по кворуму некоторые поисковые системы (в их числе и
Яндекс) практикуют взвешивание терминов. "Взвешенный" поиск по
кворуму от "простого" поиска по кворуму отличается тем, что
документ с меньшим количеством весомых терминов может попасть в
результат, а документ большим количеством менее весомых терминов
может в результат не попасть.
Например при запросе

личная веб-страница Миттельбрехенмахера
документ со вхождением очень редкого термина "Миттельбрехенмахер"
может быть включен в результат, а документ со вхождением более
частотных терминов "личная веб-страница Эйнштейна" – не
включен.

Особенности поиска по кворуму в Яндексе.


Кроме поиска по кворуму, задающего обязательность вхождений
терминов из запроса в искомые документы, существует и другое мощное
средство регулирования полноты и точности поиска – это задание
ограничений контекста. Это средство тоже есть во многих поисковых
системах.
В Яндексе можно выделить три основных типа ограничений контекста
(приводятся в порядке возрастания полноты и убывания точности)
  • искомые термины должны быть рядом друг с другом
  • искомые термины должны быть в одном предложении
  • искомые термины должны быть в одном документе

(Яндекс, впрочем, допускает и более тонкую настройку ограничений
контекста)

Яндекс отличается тем, что позволяет сочетать эти два способа
улучшения поиска – нечеткий поиск и ограничения контекста. А
именно, есть возможность задавать ограничения контекста между
соседними терминами при поиске по кворуму. В ряде случаев это
позволяет существенно повысить как точность, так и полноту
поиска.

Например, в запросе
схема проезда к пансионату Березовая роща
можно расставить ограничения контекстов следующим образом:
схема проезда && к пансионату "Березовая
роща"


то есть
'схема' и 'проезд' должны находиться в одном
предложении
'"Березовая роща"' – это фраза (т. е. рядом и в указанном
порядке)
выражения 'пансионат' и '"Березовая роща"' – в одном
предложении
выражения 'схема проезда' и 'к пансионату "Березовая роща"'
– в одном документе
На этот запрос можно "наложить" оператор нечеткого поиска,
который будет проведен с учетом всех указанных ограничений
контекста.

Поиск похожих документов.


Сейчас реализована очень простая схема поиска похожих документов,
основанная на применении нечеткого поиска. Эта схема, тем не менее,
вполне удовлетворительно работает в большинстве случаев.
При запросе на поиск похожего документа документ скачивается,
выбираются несколько (12) терминов, из них составляется запрос с
использованием операции нечеткого поиска.
Принцип отбора терминов для "поискового образа" документа:
Используется функция "контрастности" термина, применяемая в
Яндексе при обычном поиске, но в несколько модифицированном
виде.

Поведение исходной функции "контрастности" термина: чем чаще
термин встречается в документе, и чем реже - во всей коллекции
документов, тем выше контрастность термина для документа.
Такая функция "контрастности" для поиска по образцу не годится,
поскольку она зачастую выбирает термины, встречающиеся только в
этом и, возможно, в нескольких других документах. Как правило, это
либо редкие имена собственные и сокращения и т.п, либо опечатки или
грамматические ошибки.
Ясно, что если искать документы по таким терминам, то мы скорее
всего найдем лишь сам документ-образец, и, возможно, несколько
документов того же автора и с такими же грамматическими ошибками
либо опечатками.

Поправка функции "контрастности" термина состоит в подавлении
слишком редких терминов.

Подавление поискового спама.


Поисковый спам – это многократное повторение слов в тексте в
расчете на повышение ранга документа в выдаче поисковых машин.
Как правило, спам стараются скрыть от глаз посетителя
веб-странички с помощью различных "дизайнерских" ухищрений:
  • установлением цвета шрифта идентичным или близким к цвету
    фона
  • сильным уменьшением размера шрифта
  • заданием инструкции браузеру на переход к другому документу
    (redirect) и т.д.

Поисковый спам можно (довольно условно) разделить на две категории:
Спам по определенной тематике. Как правило, тематика совпадает с
тематикой содержательной части документа. В этом случае автор
спама, расчитывает на получение преимущества перед документами
конкурентов на ту же тему. Можно считать такой вид спама не очень
вредным, поскольку пользователь в этом случае получает примерно то,
что искал.

Спам по "самым популярным словам в запросах". В этом случае
автор рассчитывает обеспечить максимально возможную популярность
документу, пытаясь высоко позиционировать документ в выдаче
поисковых систем по самым популярным запросам. При этом нередко сам
документ абсолютно бессодержателен, поскольку практически ничего,
кроме спама, он не содержит. Такие документы могут ухудшить
качество поиска по самым популярным запросам до полной
непригодности - если спам не подавлять.
В Яндексе обеспечена возможность подавлять спам избирательно.
Более конкретно,..
...
Из 7.2 млн. проиндексированных документов этот фильтр обнаружил
спам с уровнем более 5% в 600 тысячах документов. В среднем в этих
документах "загрязнено" 25% содержания.

источник: http://company.yandex.ru/articles/article6.html