- PVSM.RU - https://www.pvsm.ru -
DaData.ru [1] — сервис автоматической проверки, исправления и дедупликации контактных данных (ФИО, адресов, телефонов, email, паспортов).
У меня в телефоне 453 контакта. Среди них встречаются дубли: один и тот же человек записан то как «Леха», то как «Алексей Мегафон», а то и как «Зиновьев, Алексей Иванович». У Лехи указан скайп и день рождения, у «Алексея Николаевича» — емейл и основной мобильный номер, а у «Мегафона» — запасной номер от понятнокакого оператора.
В телефонных контактах дубли неприятны, но не особо напрягают. Хуже, когда такая чехарда начинается с клиентской базой компании.
Когда контактные данные клиентов «размазаны» по нескольким Excel-файлам или базам данных, они усложняют жизнь:
Найти и уничтожить объединить одинаковых клиентов. Именно это и делает DaData.ru: находит дубли [2] среди клиентов, адресов и телефонов. Объединяет их и строит «эталонную» клиентскую базу для маркетинга, CRM и аналитики.
Кому пригодится:
Пффф, найти дубли, подумаешь. Вот, не благодарите:
address1 == address2
Ах да, могут же еще быть опечатки. Тогда так:
similarity (address1, address2) > 0.95
Ну-ка:
> similarity (
"мск сухонска 11/-89",
"сухонская, москва, 11 дом, кв89") > 0.95
False
Получается, данные сначала нужно нормализовать, привести к «каноническому» виду («мск сухонска 11/-89» → «127642, г Москва, ул Сухонская, д 11, кв 89»). И сравнивать с осторожностью, а то получится так:
> similarity (
"Москва, Тверская-Ямская 1-я, д 20",
"Москва, Тверская-Ямская 3-я, д 20") > 0.95
True # упс
А еще не забыть при поиске дублей:
Не самое простое дело. А в Дадате все уже готово.
Люди часто ошибаются в адресах и телефонах, или пишут одно и то же по-разному:
г. Новосибирск, ул. Жемчужная, д. 2
жмчужная нск 2, подъезд 4
Советский район, Новосибирская область,
улица Жемчужная, дом 2, квартира 98
Поэтому вручную сравнивать клиентов тяжело: человек не воспринимает эти данные как одинаковые. Конечно, можно нанять 200 операторов, чтобы они прошерстили всю базу. Работать будут долго, обойдется дорого, а в результате все равно много дублей пропустят.
Дадата обработает 100 тысяч записей за полчаса и разобьет данные на три группы:
Одинаковых Дадата объединит сама. А похожих лучше посмотреть вручную:
«Овчинников Федор, 12.10.1990, Самара Кирова 12» и «Fedor ovchinnikov, Samara, fedor@thefedor.ru» — один и тот же человек? Можно поднять историю его заказов и разобраться, Дадата здесь не поможет.
Дадата использует готовые алгоритмы сравнения ФИО, адресов и телефонов с учетом ошибок и опечаток. За восемь лет мы отладили их на проектах с крупными корпоративными заказчиками и теперь даем доступ всем.
Когда Дадата объединяет похожих клиентов, от каждого берет лучшее: ФИО, адрес, телефон. Если адресов или телефонов несколько, берет все. Одинаковые — объединяет в один.
Если клиенты недостаточно похожи, чтобы объединить, сообщает об этом:
Таких клиентов объединим Елена Баева, родилась 10.11.1990 г Москва, ул Норильская, д 17, кв 25 Елена Баева |
А этих — нет (отец и сын) Алексей Ефремов, 18.06.1951 г Новошахтинск, ул Красных Зорь, д 7 Алексей Ефремов, 12.03.1976 |
Работает с файлами, API пока нет. Напишите в комментариях, если нужно (и как стали бы использовать).
Стоит 25 копеек за запись в файле (10 000 записей = 2 500 рублей). Статистика по файлу и просмотр 100 записей — бесплатно. Попробуйте сами [3].
Автор: HumanFactorLabs
Источник [4]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/veb-razrabotka/106407
Ссылки в тексте:
[1] DaData.ru: https://dadata.ru
[2] находит дубли: https://dadata.ru/merging/
[3] Попробуйте сами: https://dadata.ru/merging
[4] Источник: http://habrahabr.ru/post/273251/
Нажмите здесь для печати.