Еще одна реализация регистронезависимого поиска по кириллическим символам в SQLite

в 6:52, , рубрики: C, cyrillic, source code, sqlite, sqlite3

Доброго времени суток, Хабровчане!

Проблема поиска по русским символам в SQLite давно уже стала притчей во языцех, причины ее появления довольно подробно описаны здесь. Впрочем, есть довольно распространенные решения данной проблемы, самым популярным из которых является подключение ICU, библиотеки, с помощью которой можно реализовать полноценный поиск по Unicode. Но мне хотелось более короткого в плане кода решения чтобы в результате поиск был:

  • регистронезависимым;
  • по русским и английским символам;
  • игнорирование символа ё/Ё при поиске;
  • быстрым;
  • использовал встроенный NOCASE collation.


В результате пришла идея поковыряться в исходном коде SQLite и несколько его поправить. Инструментарий был следующий: сборка System.Data.Sqlite в которую включен исходный код SQLite Amalgamation (где весь исходный код ядра хранится в одном файле), Visual Studio 2017 и тестовая база данных.

Для сравнения строк в ядре БД есть функция patternCompare. Как известно, она реализует nocase сравнение только для первых 128 символов UTF-8, на что есть соответствующие проверки в коде. Идеей было написать ещё небольшой блок кода, выполняющей проверку на то, является ли символ кириллическим. Если заглянуть в таблицу UTF-8, то для знакомых сердцу символов выделены позиции с 0x400 по 0x45F. Теперь создадим проверку на кириллический символ и таблицы перевода в верхний и нижний регистр. Немного кода.

#define IsCyrillic(A)(A >= 0x400 && A <= 0x45F)

static const unsigned short CyrillicUpper[128] =
{
	1024, 1045, 1026, 1027, 1028, 1029, 1030, 1031, 1032, 1033, 1034, 1035, 1036, 1037, 1038, 1039,
	1040, 1041, 1042, 1043, 1044, 1045, 1046, 1047, 1048, 1049, 1050, 1051, 1052, 1053, 1054, 1055,
	1056, 1057, 1058, 1059, 1060, 1061, 1062, 1063, 1064, 1065, 1066, 1067, 1068, 1069, 1070, 1071,
	1040, 1041, 1042, 1043, 1044, 1045, 1046, 1047, 1048, 1049, 1050, 1051, 1052, 1053, 1054, 1055,
	1056, 1057, 1058, 1059, 1060, 1061, 1062, 1063, 1064, 1065, 1066, 1067, 1068, 1069, 1070, 1071,
	1104, 1045, 1106, 1107, 1108, 1109, 1110, 1111, 1112, 1113, 1114, 1115, 1116, 1117, 1118, 1119,
	1120, 1121, 1122, 1123, 1124, 1125, 1126, 1127, 1128, 1129, 1130, 1131, 1132, 1133, 1134, 1135,
	1136, 1137, 1138, 1139, 1140, 1141, 1142, 1143, 1144, 1145, 1146, 1147, 1148, 1149, 1150, 1151
};

static const unsigned short CyrillicLower[128] =
{
	1024, 1177, 1026, 1027, 1028, 1029, 1030, 1031, 1032, 1033, 1034, 1035, 1036, 1037, 1038, 1039,
	1072, 1073, 1074, 1075, 1076, 1077, 1078, 1079, 1080, 1081, 1082, 1083, 1084, 1085, 1086, 1087,
	1088, 1089, 1090, 1091, 1092, 1093, 1094, 1095, 1096, 1097, 1098, 1099, 1100, 1101, 1102, 1103,
	1072, 1073, 1074, 1075, 1076, 1077, 1078, 1079, 1080, 1081, 1082, 1083, 1084, 1085, 1086, 1087,
	1088, 1089, 1090, 1091, 1092, 1093, 1094, 1095, 1096, 1097, 1098, 1099, 1100, 1101, 1102, 1103,
	1104, 1177, 1106, 1107, 1108, 1109, 1110, 1111, 1112, 1113, 1114, 1115, 1116, 1117, 1118, 1119,
	1120, 1121, 1122, 1123, 1124, 1125, 1126, 1127, 1128, 1129, 1130, 1131, 1132, 1133, 1134, 1135,
	1136, 1137, 1138, 1139, 1140, 1141, 1142, 1143, 1144, 1145, 1146, 1147, 1148, 1149, 1150, 1151
};

#define CyrillicToUpper(ch)(CyrillicUpper[(unsigned char)(ch&~0x400)])

#define CyrillicToLower(ch)(CyrillicLower[(unsigned char)(ch&~0x400)])

Дело за малым, посмотреть все проверки на то, что символ меньше 0x80 и добавить еще одну проверку на кирилличность. Это происходит в двух местах, при проверке первого символа и всех остальных. Не буду приводить всю функцию patternCompare, лишь эти два места (уже заботливо подправленные).

Первый блок кода:

      if( c<=0x80 ){
        u32 cx;
        int bMatch;
        if( noCase ){
          cx = sqlite3Toupper(c);
          c = sqlite3Tolower(c);
        }else{
          cx = c;
        }
        while( (c2 = *(zString++))!=0 ){
          if( c2!=c && c2!=cx ) continue;
          bMatch = patternCompare(zPattern,zString,pInfo,matchOther);
          if( bMatch!=SQLITE_NOMATCH ) return bMatch;
        }
      }	  
	  else if (noCase && IsCyrillic(c))
	  {
		  u32 cx;
		  int bMatch;
		  if (noCase) {
			  cx = CyrillicToUpper(c);
			  c = CyrillicToLower(c);
		  }
		  else {
			  cx = c;
		  }
		  while ((c2 = Utf8Read(zString)) != 0) {
			  if (c2 != c && c2 != cx) continue;
			  bMatch = patternCompare(zPattern, zString, pInfo, matchOther);
			  if (bMatch != SQLITE_NOMATCH) return bMatch;
		  }
	  }

Второй блок кода:

    if( noCase  && sqlite3Tolower(c)==sqlite3Tolower(c2) && c<0x80 && c2<0x80 ){
      continue;
    }
	if (noCase && CyrillicToLower(c) == CyrillicToLower(c2) && IsCyrillic(c) && IsCyrillic(c2)) {
		continue;
	}

Все, можно поливать соусом и есть компилировать, регистронезависимый поиск русского и английского текста теперь исправно работает для пэттерна WHERE LIKE '%xxx%' но не будет работать для WHERE LIKE 'xxx%', если поле индексировано стандартной nocase функцией, простой запрос к БД REINDEX NOCASE; исправит эту проблему.

Автор: Евгений Зайцев

Источник

Поделиться

* - обязательные к заполнению поля