12 сентября 2016 г.
4 августа в Москве прошла конференция на тему «Как устроен поиск Яндекса: о чём невозможно прочитать».
Первый докладчик, Петр Попов, рассказал об основных технических характеристиках поисковой системы Яндекс, а также о том, как поисковик обрабатывает миллиарды документов и за доли секунды выделяет среди них наиболее релевантные.
Следующий доклад, автором которого выступил Олег Фёдоров, был посвящён вопросам организации эффективной работы дата-центров.
Пожалуй, наибольший интерес представляет 3-ий доклад об основных принципах отбора веб-документов по степени соответствия их запросам в поисковой выдаче. Автор доклада, Александр Сафронов, озвучил несколько фактов, о которых ранее сотрудники Яндекса не говорили столь открыто. О самых важных моментах данного доклада мы хотели бы подробнее рассказать в нашей новости.
В докладе были обозначены 3 направления, по которым поисковик определяет качество веб-страниц:
Официально было заявлено, что на сегодняшний день в WEB-поиске более 1500 факторов, каждый из которых в той или иной мере влияет на ранжирование (сортировку сайтов в поисковой выдаче). Среди них можно выделить поведенческие, текстовые, ссылочные, персональные факторы и др. До этого Яндекс не озвучивал конкретные цифры – ранее в SEO-кругах бытовало мнение о наличии более 800 факторов, но выяснилось, что их почти в 2 раза больше, чем предполагалось. Более того, по словам докладчика, количество факторов увеличивается в среднем на 100 в год.
Специальный алгоритм машинного обучения MatrixNet позволяет собрать все факторы воедино и представить общую картину о веб-странице и сайте в целом. Также данный алгоритм постоянно совершенствуется за счёт работы экспертов по улучшению качества поиска (асессоров), которые в ручном режиме проводят оценку веб-документов по случайным запросам, тем самым обучая поисковую систему. Здесь принципиально
Яндекс уделяет особое внимание морфологии, синонимам и связанным расширениям. Среди общеизвестной информации в докладе был приведён интересный пример того, как поисковик определяет, насколько хорошо веб-страница раскрывает смысл запроса. Когда поисковый робот сканирует контент, он определяет не только вхождение ключевого запроса, но и наличие слов и фраз, относящихся к заданной теме. Например, если взять запрос «достопримечательности праги», то упоминание в тексте конкретных достопримечательностей позволяет странице быть более ценой для поисковой системы, чем документы, где этого не сделано.
Данный пример, по сути, раскрывает один из самых существенных факторов, которые учитывает поисковик при сканировании контентной части страницы. И не случайно представитель Яндекса сделал на нём особенный акцент.
Примечателен тот факт, что сотрудники Яндекса официально подтвердили ряд основных факторов, по которым поисковая система отбирает наиболее качественные документы. И важно понимать, что SEO-продвижение – это не просто употребление ключевых фраз в контенте, а целый комплекс работ, позволяющий сайту высоко цениться не только поисковыми системами, но и пользователями. Именно эта мысль тянется красной нитью в выступлениях специалистов Яндекса.