- PVSM.RU - https://www.pvsm.ru -

Sphinx для ASP.NET через jTemplates

Sphinx для ASP.NET через jTemplates
Есть у нас хобби — развивать интернет-магазин по продаже напитков и продуктов оптом.
Товары у нас появляются путем привлечения поставщиков и размещения их товаров в магазине.
Клиенты — владельцы ресторанов и кафе, которые заказывают товары оптом с доставкой на следующий день.
Когда количество позиций по товарам перевалило за 20 тыс., поиск через like в MS SQL стал слишком уж неверный, тем более когда поставщики загружали товар с ошибками или названия товаров были латиницей/кириллицей. После месяца различных ухищрений в процедуре поиска с конвертацией latin-cyrilic-latin, исправления грамматических ошибок, мы в конце концов осознали, что это тупиковый путь развития поиска.

Поиск решения

Нахмурив брови, мы решили подсмотреть, как же подобные проблемы решаются в других проектах, скажем на том же викимарте. К нашей зависти, поиск у них работал хорошо, даже исправлял наши ошибки в словах товаров. Например, по запросу «Коко кола», мы могли найти и «Кока-колы» и «Cocain». Что же за СУБД у них такая волшебная у них, воскликнули мы.
После недолгого поиска в интернетах технического решения, мы поняли, что нам нужен FullText Search Engine. Полетав в облаках, что мы сможем, наверное очень скоро, реализовать «поиск для людей», да еще и как бесплатный пирожок у нас могут появиться facets [1] фильтры, мы стали искать на чем это реализовать.
И как оказалось, FullText Search есть в MS SQL 2008 Advanced Services уже встроенная в нашу СУБД! Поковырявшись в MS SQL с неделю и не найдя бесплатного пирожка в виде facets, мы набрели на статью [2] о волшебных Lucene.NET [3], Solr [4], Sphinx [5].

Выбор движка

После небольших тестов движков выше, мы отобрали Sphinx по следующим критериям:

  1. Работает под Microsoft Windows
  2. Есть поддержка разработчиков и большой FAQ
  3. Работает с MS SQL
  4. Есть готовый адаптер для .NET для связи с движком
  5. Есть facets [1]

К делу

Конфигурация Sphinx

Наш конфиг [6], в котором, собственно, ничего особенного.
Использование морфологий stem_enru, soundex, metaphone (что это такое, хорошо описано здесь [7], за что спасибо Puma [8]).
Подключение к базе MS SQL и использование View по товарам, которые Sphinx периодически дергает. Но мы пошли немного дальше и расширили область Sphinx на поиск не только по товарам, но и по брендам, поставщикам и категориям.

Работа с Sphinx в ASP.NET

Для работы с Sphinx, мы используем опенсорсный Sphinx.Client [9].
Наш класс-помощник SphinxHelper для работы с Sphinx через Sphinx.Client.

SphinxHelper

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using Sphinx.Client.Connections;
using Sphinx.Client.Commands.Search;
using System.Collections;
using Sphinx.Client.Commands.Collections;
using Sphinx.Client.Commands.Attributes.Filters;

namespace Project.Helpers
{
    public class SphinxHelper
    {
        private static ConnectionBase CreateConnection()
        {
            PersistentTcpConnection p_connection = new PersistentTcpConnection("127.0.0.1", 9312);
            p_connection.ConnectionTimeout = 10000;
            return p_connection;
        }

        public static IList<SearchQueryResult> Query(string queryText, string indexes, int limitPerIndex)
        {
            return Query("", queryText, indexes, null, limitPerIndex, 0, MatchMode.Extended2, MatchRankMode.WordCount, ResultsSortMode.Extended, "@weight DESC", "");
        }

        public static IList<SearchQueryResult> Query(string select, string match, string indexes, AttributeFilterList filters, int pageSize, int offset, MatchMode matchMode, MatchRankMode rankingMode, ResultsSortMode sortMode, string sortBy, string groupBy)
        {
            IEnumerable<string> p_idxArray = indexes.Split(',');
            SearchQuery p_query = null;
            pageSize = pageSize <= 0 ? 99999999 : pageSize;
            IList<SearchQueryResult> p_ret = new System.Collections.Generic.List<SearchQueryResult>();

            using (ConnectionBase connection = CreateConnection())
            {

                SearchCommand p_search = new SearchCommand(connection);
                foreach (string p_idx in p_idxArray)
                {

                    p_query = new SearchQuery(match, p_idx);
                    p_query.Select = select;


                    p_query.MatchMode = matchMode;
                    p_query.RankingMode =  rankingMode;
                    p_query.SortMode = sortMode;
                    p_query.SortBy = sortBy;
                    
                    if (!String.IsNullOrEmpty(groupBy))
                    {
                        p_query.GroupBy = groupBy;
                        p_query.GroupSort = sortBy;
                        p_query.GroupFunc = ResultsGroupFunction.Attribute;
                        if (!String.IsNullOrEmpty(sortBy))
                        {
                            p_query.SortBy = string.Empty;
                        }
                    }
                    

                    p_query.Limit = pageSize;
                    p_query.Offset = offset;

                    // Если есть фильтры, скопируем их
                    if (filters != null && filters.Count > 0)
                        foreach (AttributeFilterBase p_filter in filters)
                            p_query.AttributeFilters.Add(p_filter);
                    p_query.Select = select;
                    //Когда заработает переиндекс, надо будет делать мультиазапрос
                    //search.QueryList.Add(p_query);

                    p_search.QueryList.Clear();
                    p_search.QueryList.Add(p_query);
                    p_search.Execute();
                    foreach (SearchQueryResult p_result in p_search.Result.QueryResults)
                        p_ret.Add(p_result);
                }
                return p_ret;
            }
        }
    }
}

Из SearchQueryResult в браузер пользователя

При генерации страницы поиска с брендами и товарами, мы используем jTemplates [10], который получает данные от веб-сервиса, который в свою очередь дергает SphinxHelper.

Генерация страницы поиска

	// Отрисовка данных
	//brandId - фильтр по бренду
	//sellerId - фильтр по поставщику
	//categoryId - фильтр по категории
	//specIds - Фильтр facets
	//searchText - Фильтр по тексту
    this.GetGroups = function (brandId, sellerId, categoryId, specIds, searchText) {

        var waiter = $('#waiter_' + brandId);
        waiter.css({ visibility: 'visible' });

        var brandGroups = $('#brandGroups_' + brandId);
        brandGroups.attr('loaded', true);

        $.ajax({
            type: "POST",
            context: { brandId: brandId, sellerId: sellerId, categoryId: categoryId, specIds: specIds, searchText: searchText },
            url: currentHost() + "WebServices/Products.asmx/GetBrandGroups",
            data: "{brandID:'" + brandId + "',sellerID:'" + sellerId + "', categoryID:'" + categoryId + "', specIds:'" + specIds + "',searchText:'" + searchText + "'}",
            contentType: "application/json; charset=utf-8",
            dataType: "json",
            success: brandsInRow2.GroupCallSuccess,
            error: brandsInRow2.GroupCallError
        });


    }

    this.GroupCallError = function (request, status, error) {
        alert(request.responseText);
    }

    this.GroupCallSuccess = function (data, status) {
        var data_decoded = $.parseJSON(data.d);
        var brandGroups = $('#brandGroups_' + this.brandId);


        brandGroups.setTemplate($("#templateProducts").html());
        brandGroups.setParam('GetProductPriceActuality', brandsInRow2.GetProductPriceActuality);
        brandGroups.setParam('GetProductPriceActuality1', brandsInRow2.GetProductPriceActuality1);
        brandGroups.setParam('GetSpecDescription', brandsInRow2.GetSpecDescription);
        brandGroups.setParam('GetBrandPriceName', brandsInRow2.GetBrandPriceName);
        brandGroups.setParam('GetOrderProductFrameLink', brandsInRow2.GetOrderProductFrameLink);
        brandGroups.setParam('GetSellerInfoFrameLink', brandsInRow2.GetSellerInfoFrameLink);
        brandGroups.setParam('GetMessageSendFrameLink', brandsInRow2.GetMessageSendFrameLink);
        brandGroups.processTemplate(data_decoded);
        brandGroups.css({ display: 'block' });
        // активируем подсказки
        brandsInRow2.InitTips();

        var waiter = $('#waiter_' + this.brandId);
        waiter.css({ visibility: 'hidden' });
    }



    this.GetLinkOfferName = function (prodCnt, sellersCnt) {

        var p_offers = prodCnt + ' ' + formatToRussian1(prodCnt, "предложени");
        if (sellersCnt > 1)
            p_offers = p_offers + ' ' + formatToRussian(sellersCnt, "поставщик");

        return p_offers;
    }

    this.GetBrandCountName = function (brandsCnt) {
        return brandsCnt.toString() + ' ' + formatToRussian(brandsCnt, "бренд");
    }

    this.GetBrandPriceName = function (minPrice, maxPrice) {
        if (minPrice == maxPrice)
            return formatPrice(minPrice);
        return 'От ' + formatPrice(minPrice) + ' до ' + formatPrice(maxPrice)
    }

    this.GetProductPriceActuality = function (product) {
        return product.DaysUpdated > 30 ? "Цена может быть неактуальна на сегодняшний день, точную цену необходимо уточнить у дистрибьютора " + product.CompanyName + "." : "";
    }

    this.GetProductPriceActuality1 = function (product) {
        return product.DaysUpdated > 30 ? "" : "hidden";
    }


    this.GetSpecDescription = function (specs) {
        var escaped = specs;
        var findReplace = [[/&/g, "&"], [/</g, "<"], [/>/g, ">"], [/"/g, '"'], [/'/g, "'"]]
        for (var item in findReplace)
            escaped = escaped.replace(findReplace[item][0], findReplace[item][1]);
        return escaped;
    }

    this.GetOrderProductFrameLink = function (productId) {
        return currentHost() + "OrderProductFrame.aspx?ProductID=" + productId;
    }

    this.GetSellerInfoFrameLink = function (sellerId) {
        return currentHost() + "SellerShortInfoFrame.aspx?SellerID=" + sellerId;
    }

    this.GetMessageSendFrameLink = function (productId) {
        return currentHost() + "MessageSendFrame.aspx?ProductID=" + productId;
    }

Также было очень просто реализовать AutoComplete [11] для строки поиска, которая тоже получает данные от веб-сервиса.

AutoComplete

function setAutoComplete(s) {

    var elem = $("#searchTextBox");
    elem.autocomplete({
        minLength: 2,
        source: function (request, response) {
            $.ajax({ type: "POST",
                url: currentHost() + "WebServices/Common.asmx/GetSearchComplete",
                data: "{searchTerm:'" + elem.val() + "'}",
                contentType: "application/json; charset=utf-8",
                success: function (msg) {
                    if (msg.d != "") response($.parseJSON(msg.d)); else response('')
                }
            });
        },
        select: function (event, ui) {
            elem.addClass('ui-autocomplete-loading');
            window.location.href = ui.item.linkUrl;
            elem.selected = ui.item;
            return false;
        },
        dataType: "json"
    })
    .data("autocomplete")._renderItem = function (ul, item) {
        return $("<li></li>")
				.data("item.autocomplete", item)
				.append("<a href='" + item.linkUrl + "'><ul class='search-complete'><li class='pict'><img src='" + item.pictUrl + "'/></li><li class='name'>" + item.label + "</li></ul></a>")
				.appendTo(ul);
    };

    elem.keydown(function (e) {
        if (e.keyCode == 13) {
            if (typeof (elem.selected) == 'undefined') {
                elem.addClass('ui-autocomplete-loading');
                SearchClick(); // Переход на страницу поиска
                e.preventDefault();
            }
        }
    });
}

От перехода на Sphinx, мы получили следующие пирожки:

  1. Человеческий поиск
  2. Генерация страниц поиска — на клиенте
  3. Разгрузка базы данных

Не могу привести точные замеры времени генерации страниц до и с помощью Sphinx, так как на радостях забыли записать что было до. Но скажу, что теперь у нас в базе более 20 тыс. продуктов и всё работает просто очень быстро (генерация менее секунды).

Для поддержки индекса продуктов в актуальном состоянии (а актуальные они в базе данных) мы будем использовать дельта-индекс [12], обновляемый каждые 10 минут. А пока, основной индекс у нас полностью перестраивается за 5 секунд каждые пол часа. Разгрузка MS SQL помогла избежать блокировок таблиц во время выполнения длительных запросов, которые происходят при импорте прайс-листа поставщиком.

P.S. Ссылки на проект, вроде бы, почистил, так как хабраэффект он не переживет.

Автор: andy_joyful

Источник [13]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/jquery/52139

Ссылки в тексте:

[1] facets: http://sphinxsearch.com/blog/2013/06/21/faceted-search-with-sphinx/

[2] статью: http://stackoverflow.com/questions/4501729/what-search-tools-are-available-for-asp-net-site/4501783#4501783

[3] Lucene.NET: http://lucenenet.apache.org/

[4] Solr: http://lucene.apache.org/solr/

[5] Sphinx: http://sphinxsearch.com/

[6] конфиг: http://yadi.sk/d/dbWA0D_LFX5nF

[7] здесь: http://habrahabr.ru/post/147745/

[8] Puma: http://habrahabr.ru/users/puma/

[9] Sphinx.Client: https://code.google.com/p/sphinx-dotnet-client/

[10] jTemplates: http://jtemplates.tpython.com

[11] AutoComplete: http://jqueryui.com/autocomplete/

[12] дельта-индекс: http://sphinxsearch.com/docs/archives/1.10/delta-updates.html

[13] Источник: http://habrahabr.ru/post/208236/