Нечеткий поиск: умный поиск с учетом синонимов и обработкой ошибок пользователей
Решение расширяет базовый функционал стандартного модуля «Поиск» от Битрикс, позволяя эффективно обрабатывать синонимичные значения, опечатки и ошибки в поисковым запросе. Высокая эффективность модуля обеспечивается комбинированной работой различных алгоритмов поиска по сходству (fuzzy string search) и компьютерной лингвистики.Модуль включает в себя следующие функциональные блокиРасширение выборки. Из исходного запроса строится множество «ошибочных» слов, для каждого из которых затем производится точный поиск в словаре.Поиск по сходству.Поиск по словарю синонимов.Обработка поисковых запросов пользователей. Анализируется поисковая статистика, обрабатываются те запросы, для которых не нашлось ни одного совпадения.Установка и настройка модуля проста и не требует специальных знаний. Одновременно с этим, модуль предоставляет систему настроек, рассчитанную на самых взыскательных пользователей. Все настройки модуля подробно объяснены и задокументированы.В комплекте с модулем поставляются компоненты catalog.search, search.title и search.page, которые, работая в «нечетком» режиме, повторяют функционал и шаблоны одноименных стандартных компонентов.Преимущества модуляКомбинация различных алгоритмов нечеткого поискаАнализ статистики поисковых запросовСовместимость со SphinxГибкая система настроекВозможность ограничения зоны действия модуляСовместимость как с UTF-8, так и с Windows-1251Словарь 80 000+ синонимовПодробная документацияУстановка и настройка модуляУстановите решениеВыберите опции модуля на вкладке Настройки продукта > Настройки модулей > Нечеткий поискЗапустите переиндексациюЕсли используется режим поиска по сходству, замените компоненты bitrix:catalog.search, bitrix:search.title и bitrix:search.page на одноименные компоненты модуляТребования к ПОPhp >= 5.6.0Mysql >= 5.6В требованиях указана протестированная конфигурация. Если хостинг не удовлетворяет указанным требованиям, то напишите в нашу техническую поддержку, мы проверим совместимость модуля конкретно с Вашим ПО.Расширение поисковой выборкиИсходный поисковый индекс Bitrix искусственно расширяется: строится множество «ошибочных» слов, а также слов-синонимов (опционально). Таким образом, если пользователь введет поисковый запрос с ошибкой, который ранее попал в расширенный индекс, ему будет автоматически возвращена релевантная выдача. Данный режим не требует изменений стандартных компонентов.Ниже рассмотрен пример работы модуля с индексируемым словом «платье».Поиск по сходствуПри ошибочном поисковом запросе проиндексированные данные последовательно сравниваются с запрашиваемой строкой, ищутся максимально похожие на основании расстояния Левенштейна. Доступно сравнение на основании стемминга (морфологический основ) и metaphone (фонетического звучания).Для работы в режиме поиска по сходству, модуль использует как стандартный индекс Bitrix, так и собственные таблицы индексации.Данный режим требует замены стандартных компонентов bitrix:catalog.search, bitrix:search.title и bitrix:search.page на одноименные компоненты модуля.Обработка поисковых запросов пользователейПри включенной опции «Собирать статистику по поисковым фразам» модуля «Поиск» будет производиться автоматический сбор информации по поисковым запросам пользователей. Ознакомиться с собранной статистикой можно на вкладке Настройки > Поиск > Статистика > Список фраз. Модуль «Нечеткий поиск» расширяет данный функционал, выбирая из статистики те запросы, для которых не нашлось ни одного совпадения. Фразы запросов разбиваются на отдельные слова, для слов находятся морфологические основы. При индексации данных на сайте выделенные морфологические основы будут сравниваться с основами индексируемых слов, близкие основы будут добавлены в индекс.Пример работыПользователь ввел поисковый запрос с опечаткой «фцтболка». Для данного запроса на сайте не было найдено совпадений, запрос попал специальную таблицу модуля «Нечеткий поиск». На сайте есть проиндексированное слово «футболка». Поскольку основа слова «футболка» близка к основе слова «фцтболка», происходит расширение поискового индекса. Теперь при запросе «фцтболка» пользователю будет возвращены данные, соответствующие поисковому индексу для «футболка».ОсобенностиФункционал включается/отключается опцией «Добавлять к индексу поисковые фразы» модуля «Нечеткий поиск» на вкладке Общие настройки.Функционал будет работать только при включенной опции «Собирать статистику по поисковым фразам» модуля «Поиск».Функционал работает как в режиме I «Расширение выборки», так и в режиме II «Поиск по сходству».Описанное выше сравнение морфологических основ подчиняется общим правилам сравнения, задаваемым в настройках модуля «Нечеткий поиск» на вкладке Общие настройки.Ознакомиться с обработанными поисковыми фразами мы можете на вкладке Настройки > Нечеткий поиск > Обработанные поисковые фразы.У пользователя есть возможность деактивировать часть обработанных фраз на вкладке Настройки > Нечеткий поиск > Обработанные поисковые фразы. Деактивированные данные не будут учитываться при индексации.Словарь синонимовМодуль «Нечеткий поиск» предоставляет удобный функционал для поиска по синонимам. Синонимы добавляются к поисковому индексу в случае, если морфологическая основа какого-либо слова из индекса совпадает с основой слова из таблицы синонимов.Вместе с модулем поставляется обширный словарь синонимов, который пользователь может добавлять самостоятельно. Список синонимов смотрите в разделе Настройки > Нечеткий поиск > Словарь синонимов.Пример работыДопустим, что в поисковый индекс попало слово «футболки», при этом в словаре активна запись для слова «футболка» с синонимами «рубашка, майка». Морфологические основы слов «футболки» и «футболка» совпали, поэтому слова «рубашка» и «майка» расширят поисковую выдачу для «футболки».ОсобенностиФункционал синонимов включается и отключается опцией «Добавлять к индексу синонимы» в настройках модуля «Нечеткий поиск» на вкладке Общие настройки.У каждой записи словаря синонимов есть флаг активности. Деактивированные синонимы не будут участвовать в поиске.Пользователь может настроить использование только своих собственных синонимов, исключив словарь, поставляемый вместе с модулем. Для этого необходимо включить опцию «Использовать словарь синонимов пользователя» и отключить «Использовать словарь синонимов по умолчанию» в настройках модуля «Нечеткий поиск» на вкладке Общие настройки. Обратным действием можно исключить словарь собственных синонимов.Часто задаваемые вопросыОбрабатывает ли модуль ошибки раскладки клавиатуры?Да, обрабатывает. Данный функционал есть в стандартных компонентах bitrix (параметр «Включить автоопределение раскладки клавиатуры»), и он сохранен в компонентах модуля. Это позволяет, например, обработать ситуацию, когда пользователь ввел в строку поиска «gkfnmt» вместо «платье». Кроме того, в настройках модуля доступен режим сравнения по фонетическому сходству, что позволяет корректно обработать созвучные запросы разных языков, например «platie» вместо «платье».
Нечеткий поиск: умный поиск с учетом синонимов и обработкой ошибок пользователей
Описание
Технические данные
- Опубликовано:
- 04.06.2020
- Обновлено:
- 20.11.2024
- Версия:
- 2.0.1
- Установлено:
- 500 - 999 раз
- Подходящие редакции:
-
«Первый сайт», «Старт», «Стандарт», «Малый бизнес», «Бизнес»
- Адаптивность:
- Да
- Поддержка Композита:
- Да
- Совместимо с Сайты24
- Нет
- Совместимо с PHP 8.1
- Да
Пользовательское соглашение
Описание
Решение расширяет базовый функционал стандартного модуля «Поиск» от Битрикс, позволяя эффективно обрабатывать синонимичные значения, опечатки и ошибки в поисковым запросе. Высокая эффективность модуля обеспечивается комбинированной работой различных алгоритмов поиска по сходству (fuzzy string search) и компьютерной лингвистики.
| Модуль включает в себя следующие функциональные блоки
| Расширение выборки. Из исходного запроса строится множество «ошибочных» слов, для каждого из которых затем производится точный поиск в словаре. | | Поиск по сходству. | | Поиск по словарю синонимов. | | Обработка поисковых запросов пользователей. Анализируется поисковая статистика, обрабатываются те запросы, для которых не нашлось ни одного совпадения. | | Установка и настройка модуля проста и не требует специальных знаний. Одновременно с этим, модуль предоставляет систему настроек, рассчитанную на самых взыскательных пользователей. Все настройки модуля подробно объяснены и задокументированы. | | В комплекте с модулем поставляются компоненты catalog.search, search.title и search.page, которые, работая в «нечетком» режиме, повторяют функционал и шаблоны одноименных стандартных компонентов. |
|
Преимущества модуля
| Комбинация различных алгоритмов нечеткого поиска |
| | Анализ статистики поисковых запросов |
| | Совместимость со Sphinx |
|
| Гибкая система настроек |
| | Возможность ограничения зоны действия модуля |
| | Совместимость как с UTF-8, так и с Windows-1251 |
|
| Словарь 80 000+ синонимов |
| | Подробная документация |
|
Установка и настройка модуля
| Установите решение |
| | Выберите опции модуля на вкладке Настройки продукта > Настройки модулей > Нечеткий поиск |
| | Запустите переиндексацию |
| | Если используется режим поиска по сходству, замените компоненты bitrix:catalog.search, bitrix:search.title и bitrix:search.page на одноименные компоненты модуля |
|
| Требования к ПО
| Php >= 5.6.0 | | Mysql >= 5.6 |
В требованиях указана протестированная конфигурация. Если хостинг не удовлетворяет указанным требованиям, то напишите в нашу техническую поддержку, мы проверим совместимость модуля конкретно с Вашим ПО. |
Расширение поисковой выборкиИсходный поисковый индекс Bitrix искусственно расширяется: строится множество «ошибочных» слов, а также слов-синонимов (опционально). Таким образом, если пользователь введет поисковый запрос с ошибкой, который ранее попал в расширенный индекс, ему будет автоматически возвращена релевантная выдача. Данный режим не требует изменений стандартных компонентов.
Ниже рассмотрен пример работы модуля с индексируемым словом «платье».
Поиск по сходству
При ошибочном поисковом запросе проиндексированные данные последовательно сравниваются с запрашиваемой строкой, ищутся максимально похожие на основании расстояния Левенштейна. Доступно сравнение на основании стемминга (морфологический основ) и metaphone (фонетического звучания). Для работы в режиме поиска по сходству, модуль использует как стандартный индекс Bitrix, так и собственные таблицы индексации. Данный режим требует замены стандартных компонентов bitrix:catalog.search, bitrix:search.title и bitrix:search.page на одноименные компоненты модуля. | |
Обработка поисковых запросов пользователейПри включенной опции «Собирать статистику по поисковым фразам» модуля «Поиск» будет производиться автоматический сбор информации по поисковым запросам пользователей. Ознакомиться с собранной статистикой можно на вкладке Настройки > Поиск > Статистика > Список фраз. Модуль «Нечеткий поиск» расширяет данный функционал, выбирая из статистики те запросы, для которых не нашлось ни одного совпадения. Фразы запросов разбиваются на отдельные слова, для слов находятся морфологические основы. При индексации данных на сайте выделенные морфологические основы будут сравниваться с основами индексируемых слов, близкие основы будут добавлены в индекс.
Пример работы Пользователь ввел поисковый запрос с опечаткой «фцтболка». Для данного запроса на сайте не было найдено совпадений, запрос попал специальную таблицу модуля «Нечеткий поиск». На сайте есть проиндексированное слово «футболка». Поскольку основа слова «футболка» близка к основе слова «фцтболка», происходит расширение поискового индекса. Теперь при запросе «фцтболка» пользователю будет возвращены данные, соответствующие поисковому индексу для «футболка». | Особенности Функционал включается/отключается опцией «Добавлять к индексу поисковые фразы» модуля «Нечеткий поиск» на вкладке Общие настройки. Функционал будет работать только при включенной опции «Собирать статистику по поисковым фразам» модуля «Поиск». Функционал работает как в режиме I «Расширение выборки», так и в режиме II «Поиск по сходству». Описанное выше сравнение морфологических основ подчиняется общим правилам сравнения, задаваемым в настройках модуля «Нечеткий поиск» на вкладке Общие настройки. Ознакомиться с обработанными поисковыми фразами мы можете на вкладке Настройки > Нечеткий поиск > Обработанные поисковые фразы. У пользователя есть возможность деактивировать часть обработанных фраз на вкладке Настройки > Нечеткий поиск > Обработанные поисковые фразы. Деактивированные данные не будут учитываться при индексации.
|
Словарь синонимовМодуль «Нечеткий поиск» предоставляет удобный функционал для поиска по синонимам. Синонимы добавляются к поисковому индексу в случае, если морфологическая основа какого-либо слова из индекса совпадает с основой слова из таблицы синонимов.
Вместе с модулем поставляется обширный словарь синонимов, который пользователь может добавлять самостоятельно. Список синонимов смотрите в разделе Настройки > Нечеткий поиск > Словарь синонимов.
Пример работы Допустим, что в поисковый индекс попало слово «футболки», при этом в словаре активна запись для слова «футболка» с синонимами «рубашка, майка». Морфологические основы слов «футболки» и «футболка» совпали, поэтому слова «рубашка» и «майка» расширят поисковую выдачу для «футболки». | Особенности Функционал синонимов включается и отключается опцией «Добавлять к индексу синонимы» в настройках модуля «Нечеткий поиск» на вкладке Общие настройки. У каждой записи словаря синонимов есть флаг активности. Деактивированные синонимы не будут участвовать в поиске. Пользователь может настроить использование только своих собственных синонимов, исключив словарь, поставляемый вместе с модулем. Для этого необходимо включить опцию «Использовать словарь синонимов пользователя» и отключить «Использовать словарь синонимов по умолчанию» в настройках модуля «Нечеткий поиск» на вкладке Общие настройки. Обратным действием можно исключить словарь собственных синонимов.
|
Часто задаваемые вопросы
Обрабатывает ли модуль ошибки раскладки клавиатуры? |
Да, обрабатывает. Данный функционал есть в стандартных компонентах bitrix (параметр «Включить автоопределение раскладки клавиатуры»), и он сохранен в компонентах модуля. Это позволяет, например, обработать ситуацию, когда пользователь ввел в строку поиска «gkfnmt» вместо «платье». Кроме того, в настройках модуля доступен режим сравнения по фонетическому сходству, что позволяет корректно обработать созвучные запросы разных языков, например «platie» вместо «платье». | |
Обсуждения (13)
Обсуждения (13)
Что нового
2.0.1 (20.11.2024) |
-
Добавлена возможность исключения чисел из обработки поиском
-
Установлены оптимальные стартовые настройки модуля
|
2.0.0 (19.02.2023) |
Добавлена функциональность настраиваемой обработки артикулов |
1.7.0 (27.11.2022) |
Добавлена настройка исключений при автопереключении раскладки |
1.6.0 (17.07.2022) |
Добавлено включение поиска по сходству в зависимости от количества результатов в стандартной выдаче
|
1.5.0 (18.06.2022) |
Добавлен инструмент очистки поискового индекса
|
1.4.4 (27.05.2022) |
-
Повышена скорость создания поискового индекса
-
Улучшена работа компонентов tega.fuzzysearch:catalog.search и tega.fuzzysearch:search.title
|
1.4.3 (21.07.2021) |
Улучшение совместимости со sphinx
|
1.4.2 (25.06.2021) |
Исправление совместимости с модулем Поиск версии 21.0.100
|
1.4.1 (17.05.2021) |
Исправлены незначительные ошибки ранжирования
|
1.4.0 (26.04.2021) |
-
Улучшена обработка запросов из нескольких слов
-
Улучшены алгоритмы ранжирования
|
1.3.0 (22.01.2021) |
Добавлена возможность задания условий, при которых работает транслитерация слов |
1.2.2 (08.12.2020) |
Небольшие исправления полнотекстового поиска
|
1.2.1 (12.11.2020) |
Оптимизация поисковых алгоритмов |
1.2.0 (10.11.2020) |
- Добавлен инструмент отладки поисковых запросов
- Улучшен поиск по metaphone
|
1.1.2 (30.10.2020) |
- Исправлена ошибка переключения опции "Сравнивать слова через"
- Улучшен поиск по сходству при включении опции "Первая буква обязана совпадать"
|
1.1.1 (11.09.2020) |
Добавлена возможность транслитерации слов в режиме расширения поисковой выборки
|
1.1.0 (27.08.2020) |
- У компонента catalog.search добавлена возможность сортировки по релевантности
- Исправлены недочеты в шаблонах компонентов
- Добавлены описания параметров на английском языке
|
Установка
- Установите решение
- Выберите опции модуля на вкладке Настройки продукта > Настройки модулей > Нечеткий поиск
- Запустите переиндексацию
- Замените компоненты bitrix:catalog.search, bitrix:search.title и bitrix:search.page на одноименные компоненты модуля
Документация к модулю:
http://fuzzy-search.tega.ru/module-description/В связи с высокой гибкостью решения, наши специалисты готовы бесплатно оказать помощь в настройке модуля для решения Ваших задач, в том числе, во время действия тестового периода. Время бесплатных консультаций и настроек ограничено и не превышает 2-х часов для одного проекта.
Поддержка
Бесплатная техническая поддержка предоставляется клиентам с активной лицензией, а также всем обратившимся во время демо-периода.
Телефон/факс: (473) 239-03-04 /многоканальный/
E-mail: web@tega.ruВремя работы: пн-пт: 9:00 - 18:00; сб-вс: выходной
Время ответа: 24 рабочих часа
Документация:
http://fuzzy-search.tega.ru/module-description/
Другие решения разработчика