Яндекс сообщил о внедрении новой поисковой технологии, которая позволяет находить совсем свежие документы, буквально через минуты после их появления в интернете.
Последние несколько лет в Яндексе существовал так называемый «быстрый робот». В его задачу входила быстрая индексация и выкладывание на поиск наиболее ценных свежепоявившихся документов. Построенный по «пакетному» принципу, быстроробот какое-то время готовил версию индекса с новыми документами, потом выкладывал ее на поиск. Это вносило задержку на время обработки, которую можно было сократить с помощью разных ухищрений для части документов до 20 минут, но нельзя было устранить полностью.
Чтобы в поиске можно было найти документы, созданные только что, Яндекс внедряет новые технологии — «Orange Crawler» и «Real-Time поиск». Основная разработка была сделана калифорнийским отделением Яндекса — Yandex Labs в сотрудничестве с программистами московского офиса.
Поисковой робот Orange работает в режиме реального времени. Он умеет находить свежие документы, как только они появились в интернете, индексировать их и выкладывать на поисковые сервера буквально за несколько секунд.
Orange познает ссылочную структуру интернета. Для этого ему достаточно скачивать и переобходить только часть «старых» страниц — хоть и достаточно большую. Полученные знания позволяют Orange обнаруживать почти все новые страницы, выбирать из огромного их количества все хоть сколько-нибудь интересные и мгновенно рассчитывать для них ссылочные факторы ранжирования. Вслед за роботом Orange документы обрабатывает Real-Time поиск — он подхватывает выбранные документы, индексирует их и за секунды выкладывает на поиск.
«В интернете сейчас все больше real-time информации, которая нужна людям прямо сейчас. И мы хотим дать им возможность находить её прямо сейчас, — говорит Федор Романенко, менеджер качества поиска. — Это только первый шаг, конечно, мы будем улучшать качество поиска по новостным запросам и дальше. Новая технология дает возможность делать это сравнительно легко».
Константин Ермаков (Intermedia) , правда, в своем блоге обращает внимание на то, что «запросы типа [orange] или [яндекс orange] возвращают стандартные результаты, безо всякого риaл-тайма. И даже без новостийного колдунщика. Тогда как основной конкурент уже примешивает к выдаче новости на тему оранжевого робота. Причём, буквально с каждой минутой таких результатов становится всё больше».