Игорь Чакрыгин: Sphinx - Индексация базы данных и дельта-индексы

14 апреля 2013 г.

Sphinx - Индексация базы данных и дельта-индексы

В предыдущей статье я кратко рассказал про основные возможности Sphinx. Пришло время применить эти знания на практике.

В этой статье я покажу как можно использовать Sphinx для индексации базы данных MS SQL Server, а также расскажу про дельта-индексы. В конце статьи вы также сможете найти архив со скриптами и файлами конфигурации, чтобы, при желании, повторить всю последовательность действий.

Подготовка базы данных

Прежде чем перейти к созданию индексов нам потребуются данные, которые мы могли бы индексировать. Чтобы не тратить время на создание собственной базы данных, я решил воспользоваться готовой базой AdventureWorks, которую можно скачать с сайта codeplex.com.

Скачаем эту базу данных и установим её на локальный компьютер. В следующих статьях я буду предполагать, что она уже будет установлена.

В этой статье мы будем индексировать таблицу Production.Product (Товар), а именно колонки ProductID (Идентификатор), Name (Название) и ListPrice (Цена). При этом индексировать будем только те товары, которые имеют флаг FinishedGoodsFlag (Полностью описанный товар). Также нам понадобится колонка ModifiedDate (Дата изменения).

Чтобы было более понятно, приведу пример запроса:

Подготовка файла конфигурации

Первым делом добавим в файл конфигурации блок searchd. Я уже описывал его в самой первой статье:

Далее при помощи блока source нам необходимо описать источник данных. Воспользуемся тем, что эти блоки можно наследовать и разобьём один блок на несколько.

Добавим в файл конфигурации блок source base, который будет отвечать за подключение к базе данных:

В этом блоке мы указываем, что собираемся использовать базу данных MS SQL Server (опция type). Также указываем название сервера и базы данных (опции sql_host и sql_db). Чтобы подключиться к базе данных можно либо указать логин и пароль пользователя (опции sql_user и sql_pass), либо использовать Windows-аутентификацию (опция mssql_winauth).

Следующим шагом добавим в файл конфигурации блок source product_base, в котором будут перечислены поля и атрибуты, которые мы собираемся индексировать:

При использовании баз данных в качестве источника в блоке source необходимо явно перечислить все поля и атрибуты, которые мы собираемся индексировать. При этом необходимо указать их тип, название и дополнительные параметры, если они есть.

В нашем случае мы объявляем поле и атрибут name при помощи опции sql_field_string (эта опция сразу объявляет поле и атрибут с одним и тем же названием, поэтому отдельно объявлять атрибут не требуется) и атрибут price при помощи опции sql_attr_float. Также любой источник данных неявно содержит целочисленный атрибут id, который не требуется объявлять. Более подробный список опций для объявления полей и атрибутов можно найти в документации.

Пример 1: Простая индексация

В самом простом случае для создания индекса достаточно одного sql-запроса. Sphinx выполнит этот запрос и, получив результаты его выполнения, построит индекс.

Добавим в файл конфигурации блок source product, содержащий sql-запрос:

Как вы уже, наверное, догадались, запрос указывается с помощью опции sql_query. Обратные слеши нужны, чтобы несколько строк воспринимались как одна. Я также изменил названия возвращаемых колонок, чтобы они совпадали с названиями полей и атрибутов в источнике данных.

Далее, добавим в файл конфигурации блок index product:

В этом блоке мы указываем источник данных (опция source), который будет использоваться при индексации, и путь (опция path), по которому будут сохраняться файлы индекса.

Чтобы выполнить индексацию, нам потребуется утилита indexer.exe, которая входит в состав дистрибутива Sphinx (её можно найти в папке bin вместе с утилитой searchd.exe).

Запустим командную строку от имени администратора и выполним следующую команду (вообще, для всех команд лучше создавать bat-файлы):

c:\sphinx\bin\indexer product --config c:\sphinx\data\config.txt --rotate --print-queries

В этой команде мы указываем утилите indexer.exe индекс, который нужно обновить (в данном случае индекс product), и файл конфигурации, который при этом нужно использовать. Опцию --rotate необходимо использовать в тех случаях, когда обновляемый индекс должен оставаться доступен во время индексации. В этом случае Sphinx фактически создаст ещё один индекс, а потом просто заменит старый индекс на новый. Опция --print-queries не является обязательной и нужна, чтобы все sql-запросы к базе данных выводились на экран. После выполнения этой команды мы должны увидеть нечто подобное:

Мы успешно создали первый индекс. Теперь мы можем подключиться к Sphinx и выполнить какой-нибудь запрос, например:

select * from product;

Пример 2: Индексация по частям

В предыдущем примере мы получали все данные для индексации одним sql-запросом. Для больших таблиц такой способ может быть неприемлем, поскольку такие запросы могут требовать много памяти и приводить к нежелательным блокировкам.

К счастью, Sphinx поддерживает индексацию по частям, при которой вместо одного sql-запроса, сразу возвращающего все строки из базы данных, делается несколько, возвращающих строки с идентификаторами в определённом интервале.

Изменим блок source product, следующим образом:

Во-первых, мы при помощи опции sql_query_range определяем sql-запрос, который будет возвращать минимальный и максимальный идентификаторы строк, которые мы собираемся индексировать.

Во-вторых, мы изменяем запрос в опции sql_query таким образом, чтобы он возвращал только строки, идентификаторы которых находятся в определённом интервале, который можно задать при помощи макросов $start и $end.

Также мы используем две дополнительные опции: sql_range_step, которая задаёт максимальное количество строк, которое может быть получено из базы данных за один запрос, и sql_ranged_throttle, которая задаёт задержку в миллисекундах после каждого запроса.

Теперь, снова запустив индексацию той же командой, мы должны увидеть следующий результат:

Как мы видим, Sphinx выполнил три запроса к базе данных, сначала получив строки с идентификаторами от 680 до 829, потом от 830 до 979, и потом от 980 до 999. При этом после каждого запроса должна была происходить секундная задержка.

Пример 3: Дельта-индексы

Очень часто встречается ситуация, когда объём данных, которые нужно индексировать, слишком большой, чтобы регулярно обновлять индекс целиком, поскольку это может занимать много часов. При этом новые данные добавляются в базу постоянно и необходимо, чтобы они тоже попадали в индекс. В таких случаях обычно применяются дельта-индексы.

Идея заключается в том, чтобы вместо одного индекса создать два: основной и дельта-индекс. Основной индекс будет содержать в себе все данные и обновляться будет либо очень редко, либо вообще не будет обновляется, а вместо этого будет периодически объединяться с дельта-индексом. Дельта-индекс же будет содержать в себе только те данные, которые изменялись с момента последнего обновления основного индекса. Поскольку дельта-индекс обычно значительно меньше основного, его обновление можно производить гораздо чаще, а выполняться оно будет значительно быстрее.

Шаг 1: Создание таблицы для отслеживания обновлений индексов

Поскольку при обновлении дельта-индекса необходимо будет знать, когда в последний раз обновлялся основной индекс, нам потребуется таблица ProductIndexLog, в которую будут записываться дата и время каждого обновления индексов.

Создадим в базе данных таблицу ProductIndexLog при помощи следующего скрипта:

Шаг 2: Настройка источников данных в файле конфигурации

Удалим из файла конфигурации блок source product и добавим вместо него два других блока: source product_main и source product_delta:

Мы создаём два новых источника данных: product_main и product_delta. Каждый из этих источников имеет свой собственный запрос в опции sql_query. Источник product_main будет получать из базы данных все записи, а источник product_delta только те, ModifiedDate которых больше последней даты обновления основного индекса в таблице ProductIndexLog.

Кроме этого, в таблицу ProductIndexLog нам необходимо сохранять информацию о том, что основной или дельта-индекс обновились. Помимо опции sql_query, блок source может иметь ещё три опции, которые могут содержать sql-запросы: sql_query_pre, sql_query_post и sql_query_post_index. Они позволяют выполнить дополнительные sql-запросы до и после выполнения основного запроса и после полного обновления индекса. Мы используем опцию sql_query_post_index, чтобы после каждой индексации добавлять новую запись в таблицу ProductIndexLog.

Шаг 3: Настройка индексов в файле конфигурации

Заменим в файле конфигурации существующий блок index product на три блока: index products_main, index product_delta и index product:

Тут мы создаём два индекса, использующих источники данных product_main и product_delta, а также один распределённый индекс product, который просто ссылается на два других.

Шаг 4: Обновление основного индекса

Запустим командную строку от имени администратора и выполним команду для обновления основного индекса:

c:\sphinx\bin\indexer product_main --config c:\sphinx\data\config.txt --rotate --print-queries

Теперь подключимся к Sphinx и попробуем найти товары по слову «men»:

select * from product where match('men');

Мы нашли семь товаров. Тот же самый результат мы получим, если вместо индекса product будем искать в индексе product_main. В индексе же product_delta результатов по такому запросу не будет, поскольку его мы ещё не обновляли.

Шаг 5: Обновление дельта индекса

Перед тем, как обновлять дельта-индекс, нам необходимо изменить данные в базе.

Первым четырём товарам изменим название и немного поднимем цену при помощи следующего скрипта (не забудем обновить колонку с датой изменения):

Последние три товара вообще удалим из индекса, присвоив колонке FinishedGoodsFlag значение 0:

После того, как данные в базе изменены, снова запустим командную строку от имени администратора и выполним команду для обновления дельта-индекса:

c:\sphinx\bin\indexer product_delta --config c:\sphinx\data\config.txt --rotate --print-queries

Теперь ещё раз подключимся к Sphinx и повторим поиск товаров по слову «men»:

select * from product where match('men');

Мы получили немного не тот результат, которого хотели добиться. Товары, которые мы обновили в базе, обновились и в индексе. Но товары, которые мы хотели удалить из индекса всё равно в нём остались.

Попробуем снова поискать товары, но уже по фразе «men sports»:

select * from product where match('men sports');

Теперь мы получили совершенно не тот результат, которого ожидали. Несмотря на то, что мы изменили товары в базе и обновили дельта-индекс, Sphinx нашёл и вернул старые значения.

Шаг 6: Kill-lists

В последних запросах мы получили неправильные результаты. Дело в том, что когда Sphinx ищет документы в распределённом индексе, он по сути ищет в каждом индексе, на который тот ссылается. После того, как результаты получены, они объединяются в том же порядке, в котором определены локальные индексы внутри распределённого.

В нашем случае, Sphinx сначала ищет в индексе product_main, а потом в индексе product_delta, после чего объединяет результаты.

Получается, что когда мы ищем товары по слову «men», то в основном индексе находятся всё те же семь товаров. Четыре из них (у которых мы обновляли название и цену) также находятся и в дельта индексе. Они тоже добавляются к результатам поиска и по атрибуту id заменяют собой ранее найденные товары. Но при этом другие три товара, которые нашлись только в основном индексе, из результатов поиска не удаляются.

Похожая ситуация происходит и в случае поиска по фразе «men sports». Старые товары находятся в основном индексе, но не находятся в дельта-индексе, т.к. не соответствуют поисковой фразе (мы же изменили им название). В итоге, результаты поиска полностью состоят из товаров, которые находятся в основном индексе.

Чтобы исправить ситуацию, добавим в блок source product_delta опцию sql_query_killlist:

При помощи этой опции мы указываем sql-запрос, возвращающий список идентификаторов тех товаров, которые не должны возвращаться из других индексов (но могут возвращаться из этого же индекса).

Теперь ещё раз обновим дельта-индекс и попробуем повторить оба запроса:

select * from product where match('men');

select * from product where match('men sports');

Теперь всё работает так, как мы и хотели.

Заключение

В этой статье я рассказал про создание индексов с использованием в качестве источника базы данных MS SQL Server, а также рассказал про дельта-индексы и kill-list`ы.

В следующих статьях я планирую немного рассказать про индексацию xml-файлов, а также про особый вид атрибутов - атрибуты с несколькими значениями (multi-valued attributes), которые играют особую роль в группировках.

Скачать материалы к этой статье (скрипты и файлы конфигурации)

Sphinx

57 комментариев

Unknown17 мая 2013 г. в 12:08
Здарова, автор!
Я делаю как вы, но у меня выскакивает ошибка -

WARNING: attribute 'name' not found - IGNORING
ERROR: index 'order': No fields in schema - will not index.

---------- Это в файле config.txt

source base
{
type = mssql
sql_host = localhost
sql_db = MySearch
sql_user = search
sql_pass = 1111
}

source order_base : base
{
sql_field_string = name
}

source order : order_base
{
sql_query = \
select \
sName AS 'name' \
from MySearch.dbo.tOrder
}

index order
{
source = order
path = c:/sphinx/data/index/order
}

----------

Как решить?
ОтветитьУдалить
Ответы
Unknown20 мая 2013 г. в 11:26
млиин..., не могу протестировать поиск по полученным индексам.
Игорь, хелп. Покажи пожалста, как хотя бы в консоли протестировать поиск, какие команды надо ввести.
Ищу в сети, много умных статей, а тупо как искать не пишут (кстати и настройка сфинкса по разному у разных авторов).
--------
Пробую на пхп, вот так:

include('c:\sphinx\api\sphinxapi.php');
// Создадим объект - клиент сфинкса и подключимся к нашей службе
$cl = new SphinxClient();
$cl->SetServer( "localhost", 9306 );

// Собственно поиск
$cl->SetMatchMode( SPH_MATCH_ANY ); // ищем хотя бы 1 слово из поисковой фразы
$result = $cl->Query("контракты"); // поисковый запрос

// обработка результатов запроса
if ( $result === false ) {
echo "Query failed: " . $cl->GetLastError() . ".\n"; // выводим ошибку если произошла
}
else {
if ( $cl->GetLastWarning() ) {
echo "WARNING: " . $cl->GetLastWarning(); // выводим предупреждение если оно было
}

if ( ! empty($result["matches"]) ) { // если есть результаты поиска - обрабатываем их
foreach ( $result["matches"] as $product => $info ) {
echo $product . "
"; // просто выводим id найденных товаров
}
}
}
exit;
--------
Возвращает ошибку: Query failed: failed to send client protocol version.
По всей видимости он не может подключиться к сфинксу, тока не пойму почему, вроде пути верные. Пробовал подключиться залив доки сфинкса в сайт, та же история
------
Че делать, как искать?
ОтветитьУдалить
Ответы
Unknown22 мая 2013 г. в 09:20
Добрый день.

Я реализовал описанный в статье пример, за одним исключением - я подключился к своей MSSQL базе к табличке streets, которая имеет поля ID и Name.
В поле Name содержатся названия улиц на русском языке. Когда я сделал в mysql запрос select * from streets, то получил в результате вместо названий улиц псевдографику.
Подскажите что и где нужно докрутить, чтобы результат возвращался русскими буквами? Привожу ниже описание источника из конфига.

source base
{
type = mssql
sql_host = host
sql_db = mybase
sql_user = user
sql_pass = password
mssql_unicode = 1
}
source streets : base
{
sql_field_string = name
sql_query = \
select id, name\
from dbo.streets
}
index streets
{
source = streets
path = c:/sphinx/data/index/streets
charset_type = utf-8
}
ОтветитьУдалить
Ответы
Unknown22 мая 2013 г. в 10:46
Заработало (правда криво немного)) ). Игорь ты красава! Спасибо за терпение и помощь:)
Даже в РНР запрос нормально отработал, тока почему-то при обновлении страницы снова показывает Query failed, через несколько обновлений опять выводит результат на экран. не знаешь из-за чего может быть?
Работает в командной строке после этой команды - c:\mysql\bin\mysql -h 127.0.0.1 -P 9306
Тока с кодировкой проблема, как и у товарища Konstantin S, пробовал добавить кодировки и в конфиг и в командной строке, не помогает.
какие у меня кодировки и настройки -
- В БД MS SQL у меня все в кодировке cp1251,
- поля имеют тип (nchar, nvarchar),
- в конфиге прописал строки mssql_unicode = 1 и charset_type = utf-8
Проверил индексный файл order.sps, так там все в крякозябах, может из-за этого? может на этапе формирования индекса как-нибудь правильно кодировку настроить? только как?
ОтветитьУдалить
Ответы
Unknown24 мая 2013 г. в 12:13
Добрый день!
Все получилось, теперь вопросы о связи фильтра по таблицам MS SQL и полнотекстового поиска в Сфинксе.
Есть большая форма с множеством пунктов, до Сфинкса я строил запрос проверяя участие пункта в фильтре, в том числе и поисковой строки. Теперь же получается я слова ищу как бы в отдельной БД, а сам фильтр по основной БД MSSQL.
Вопросы:
- 1) Что первее делать, поиск фразы в Сфинксе и найденные фильтровать (ну например, по региону, дате, сумме...) или, наоборот? И чесна говоря незнаю как их соединить:)
- 2) Или можно (а главное, правильно ли?) добавлять поля из БД, по которым полнотекстового поиска не будет (по дате например, слова не поишешь), зато фильтровать прямо в запросе к индексам Сфинкса?
-----------------------------------------------
>>> Если индекс по заказам, то Sphinx и верёнт тебе id заказов, к которым прикреплены документы в которых у тебя совпали какие-то поля.
- а нужно ли использовать join'ы и т.п, как написано в этой статье http://chakrygin.ru/2013/04/multi-valued-attrs-and-joined-fields.html ??
ОтветитьУдалить
Ответы
Unknown24 мая 2013 г. в 17:20
А можно ли как-нибудь сделать так, чтобы Сфинкс искал по корням слов.
Например, я ищу "контракты на выполнение" - все ок. Если я введу - "контрак на выполн", то ничего не выводится, точнее выводится те записи. где есть "на".
Я на Хабре нашел такую команду - morphology = stem_ru, пересоздал индекс, но ничего не изменилось.
Может ты сталкивался в работе с этой задачей?
И заметил, что Сфинкс по умолчанию возвращает 20 строк, можно ли это как-то регулировать?
ОтветитьУдалить
Ответы
Unknown29 мая 2013 г. в 14:52
Даров!
Вопрос о SphinxAPI / SphinxQL / SphinxSE
Вот ты хвалишь SphinxQL, в сети находил статьи (на том же хабре), что SphinxSE хорошая вешчь, а я вот пользую апи, ну потому что наверное, во-первых - удобно (можно настроить поиск по точному совпадению или наоборот, вес задать...), во вторых - не понимаю плюсы 2-х других вариантов.
Разговоров много, что те лучше, а что конкретно они делают, ну кроме того, что они могут использоваться в тех языках, для которых апи сфинкса не существует?
Как использовать тот же SphinxQL? Как подключить?
Если его использовать мне придется все ф-ии из SphinxAPI с нуля писать?
И как считаешь что лучше SphinxQL или SphinxSE? или это не сравнимые вещи?
ОтветитьУдалить
Ответы
madjardi13 июня 2013 г. в 13:16
Большая благодарность за такой подробный материал, у Вас так доходчиво объяснено. Ваше терпение и Талант на редкость, огромное спс
ОтветитьУдалить
Ответы
Игорь Чакрыгин13 июня 2013 г. в 13:25
Большое спасибо =)
ОтветитьУдалить
Ответы
madjardi13 июня 2013 г. в 14:01
Вы могли бы прояснить мне(жуткий новичок), почему отличается кол-во в 1 и во 2 случае

1. Если через MуSQL сделать запрос

SELECT COUNT(*) FROM `catalog_catalog` WHERE (`name` LIKE '%Therm%') \
AND `price` > 0 AND `num` > 0 ORDER BY price;
То результат 87

2. запрос через Sphinx:
SELECT * from catalog_catalog_idx WHERE MATCH('@name Therm');
То результат 3

Вообще можно настроить чтобы sphinx выдавал такой же результат как и первый?

sphinx же в данном случае ищет Therm Therms а то чтобы в результат входил и ThermalTake он его пропускает, а вот mysql его подхватывает, в какую сторону хоть копать
ОтветитьУдалить
Ответы
Игорь Чакрыгин13 июня 2013 г. в 14:20
>> почему отличается кол-во в 1 и во 2 случае

Потому что из БД возвращаются все строки, где в колонке name есть подстрока "Therm". Это может быть "Thermal", "Thermometer" и даже "ABCTherm".

Сфинкс так не работает. Он ищет не подстроки, а слова в разных словоформах. Т.е. он по запросу "Печенька" может найти "Печеньки", "Печеньку", "Печенькой" итп. Но не найдёт эти слова по слову "Печень", потому что это разные слова, а не разные формы одного и того же слова.

>> Вообще можно настроить чтобы sphinx выдавал такой же результат как и первый?

Теоретически можно, но работать такой поиск будет не быстрее чем поиск по БД. Сфинкс лучше использовать именно для полнотекстового поиска. Например по запросу "Вишнёвые печеньки" можно найти текст "Печенька с вишнёвым вареньем - это здорово!" несмотря на то, что слова в других словоформах и переставлены местами. MySql так искать не умеет.
ОтветитьУдалить
Ответы
madjardi13 июня 2013 г. в 14:55
спасибо прояснили, то что очень нужно было, тогда наверное мне Sphinx не очень подойдет (, не скажете может мне лучше mongodb использовать? чтобы поиск не нагружал основную базу?
ОтветитьУдалить
Ответы
Игорь Чакрыгин13 июня 2013 г. в 14:59
Смотря какой поиск нужен. Если, например, поиск товаров в интернет магазине, то Сфинкс - это самое то. Он даёт наиболее релевантные ответы на запросы пользователя.
Если нужен поиск по подстрокам, то можно индексы в БД настроить попробовать.
ОтветитьУдалить
Ответы
madjardi13 июня 2013 г. в 15:06
Да в том то и дело что для магазина, но проблема в том что придет пользователь и захочет поискать "1GB" у меня mysql выдает 250 запросов, а sphinx 204, все-таки где-то утечка, хотя я в sphinx sql_query настроил такой же как и у mysql, за исключением LIKE =(, вот и думаю что с этим делать, оставить как есть или ....?
ОтветитьУдалить
Ответы
Игорь Чакрыгин13 июня 2013 г. в 15:16
Надо смотреть конкретно, что именно Сфинкс не находит. Если что, его и настроить можно.
Если он не найдёт "101GB" по запросу "1GB", то это правильно с точки зрения пользователя.
К тому же если пользователь будет искать "Флешки 1GB", а в БД товар называется "1GB Флешка", то будет наоборот. MySql товар не найдёт, а Сфинкс найдёт. Так что всё компенсируется =) Я уже не говорю про намного большую скорость поиска.
ОтветитьУдалить
Ответы
madjardi13 июня 2013 г. в 16:14
Спс после вашего объяснения стало ясно как днем, буду пробовать, уже только наверное завтра, а вот запросы mysql типа
SELECT id FROM catalog_catalog WHERE (`name` LIKE '%1GB%'') AND (`name` LIKE'%видеокарта%' ) AND `price` > 0 AND `num` > 0, (но зато не влияет расположение слов)
это уже наверное будет дольше обрабатываться чем в sphinx
ОтветитьУдалить
Ответы
Евгений12 февраля 2014 г. в 13:20
Добрый день,

Делаю все по инструкции:) добавил sql_query_post_index для дельта индексирования с использованием доп таблици, как указано в статье. но по сле запуска indexer product_main --config /etc/sphinxsearch/sphinx.conf --rotate --print-queries получаю ID = 0 в таблице логов? что делаю не так? и что должно быть в колонке ID, id продукта?
ОтветитьУдалить
Ответы
Игорь Чакрыгин12 февраля 2014 г. в 13:24
Это просто id записи в таблице. (primary key) Он должен генерироваться в БД. Поэтому там стоит "identity"
ОтветитьУдалить
Ответы
Daniel Galper2 мая 2014 г. в 12:17
Игорь , добрый день. Делаю все по вашему посту, но к сожалению не могу приконектиться к sql server.
Подскажите, что делать. Вылезает вот такая ошибка, при запуске батника.
using config file 'c:\sphinx\data\config.txt'...

indexing index 'product'...

SQL-CONNECT: FAIL

ERROR: index 'product': sql_connect: [Microsoft][SQL Server Native Client 11.0][

SQL Server]Login failed for user 'Daniel-Pc\─рэш¤ы№'. (DSN=odbc://:***@localhost

:0/AdventureWorks).

total 0 docs, 0 bytes

total 0.023 sec, 0 bytes/sec, 0.00 docs/sec

total 0 reads, 0.000 sec, 0.0 kb/call avg, 0.0 msec/call avg

total 0 writes, 0.000 sec, 0.0 kb/call avg, 0.0 msec/call avg
ОтветитьУдалить
Ответы

Добавить комментарий

Игорь Чакрыгин