В исследовательской работе Google DeepMind предлагается новый алгоритм ранжирования результатов поиска на основе искусственного интеллекта под названием BlockRank, который настолько эффективен, что делает расширенный семантический поиск доступным не только для крупных компаний, но и для отдельных пользователей и организаций.
В исследовательской статье описывается прорыв в использовании контекстного ранжирования (ICR) — метода, при котором веб-страницы оцениваются с учетом контекстного понимания текста крупной языковой модели.
ICR использует три ключевых компонента:
Этот подход впервые был подробно изучен исследователями Google DeepMind и Google Research в 2024 году. Ранние эксперименты показали, что ICR может конкурировать по качеству с системами, специально разработанными для поиска информации.
Однако у метода был существенный недостаток — снижение производительности при увеличении числа документов. Крупная языковая модель (LLM), оценивая большое количество файлов, должна учитывать каждое слово и его связь с остальными предложениями, делая процесс крайне ресурсоемким, замедляя работу. Но новое исследование решает эту проблему, демонстрируя масштабируемое контекстное ранжирование с использованием BlockRank.
Исследователи изучили, как модель распределяет внимание при обработке документов, и выявили два ключевых паттерна:
Разреженность блоков между документами
Модель при чтении группы документов в основном фокусируется на каждом из них отдельно, а не на сравнении всех документов друг с другом. Исследователи называют это «разреженностью блоков». На основе этого они изменили способ обработки данных: теперь модель анализирует каждый документ отдельно, но при этом сопоставляет его с поисковым запросом. Такой подход сохраняет ключевую часть: соответствие запроса документу и исключает ненужные вычислительные операции, значительно ускоряя работу без потери точности.
Релевантность блока запроса и документа
При анализе запроса модель не оценивает все слова одинаково. Ключевые слова и знаки препинания, отражающие намерение пользователя, помогают определить, какой документ более важен. Модель обучена распознавать эти паттерны, чтобы эффективнее фокусироваться на релевантных документах.
Объединение этих подходов позволило создать BlockRank — метод, который исключает ненужные сравнения и учит модель фокусироваться на действительно значимых элементах для ранжирования.
BlockRank тестировался на трех основных наборах данных:
Сравнение проводилось на модели Mistral LLM (7B параметров) с другими сильными системами ранжирования, включая FIRST, RankZephyr, RankVicuna и полностью настроенную базовую модель Mistral.
Результаты показали, что BlockRank не только соответствует, но часто превосходит другие модели по всем трем тестам, демонстрируя высокую точность и эффективность. Но результаты актуальны только для модели Mistral-7B и не тестировались на других LLM.
В исследовании не сообщается, используется ли BlockRank в реальных продуктах Google, поэтому любые предположения о его коммерческом применении остаются спекулятивными.
Также BlockRank отличается от таких технологий, как FastSearch или RankEmbed, используемых в AI Mode, поэтому маловероятно, что он интегрирован в эти системы.
Сейчас BlockRank считается прорывной технологией, позволяющей расширить доступ к передовому семантическому ранжированию:
Сейчас Google, судя по всему, планирует сделать BlockRank доступным на GitHub, но к настоящему времени кода в открытом доступе еще нет.
👍🏻 Инфа была полезной? Ставь лайк!
Всем конверта и ROI высоченного
Официальный сайт 👉🏻 rocketprofit.com
Наш Telegram-чат 👉🏻 t.me/rocketprofitchat
