Tag: sphinx

Встал на извилистую тропинку "русификации" поиска

Сегодня 2 часа трепались с сэром Аксёновым, чего можно улучшить в русском поиске сфинкса. Самое веселое, что он сказал, что из нашего разговора вынес для себя что-то полезное. А мне казалось, что процесс был исключительно односторонний. В смысле, он учил меня уму-разуму.

В общем, смысл такой, что в итоге куча проблем упирается в базы (всякие словари). Которых нет. Причем для natural language search базы слепить почти нереально, но для более узких задач можно обойтись словарями попроще. Хотя нарабатывать их все равно понадобится.

Чисто условно, процесс можно поделить на 2 части - индексирование и ранжирование. Для хорошей индексации надо хотя бы правильно разбирать фразы на слова. Причем, если учесть, что у нас Savage пишут как савадж, и еще склоняют - получается весело. Есть тонны нюансов с дробными числами, которые пишут то через точку, то через запятую. И вообще много интересного и противоречивого.

В общем, завел на гитхабе репозиторий, куда скинул статистику запросов за год. Сделал по ней несколько базовых сортировок, и написал там на бамажке типовые косяки, которые надо прорабатывать. Адрес тут:

github.com/rcdesign/search-tune/

Пообщался с Аксеновым по поводу Sphinx Search

А суперский человек оказался. В скайпе поболтали. Поплакался, что мне не ответили на запрос о платной поддержке, и что простым пацанам со штукой баков стремно стучаться в суппорт, где пакеты по 5 и 15 кило в год. Оказывается, мой реквест натурально просрали, и никто меня “по английски” не посылал. Плюс, обещал сделать большую надпись “пацаны, не ссать, простые кейзы начинаются всего от 500 долларов”.

500 баксов за небольшие фиксы - совсем другой расклад. Эдак я со своими проблемами спокойно в тысячу вписываюсь. Получается весьма бюджетно для моего скромного некоммерческого проекта. Теперь можно садиться и спокойно систематизировать, чего у меня не сложилось с поиском.