Рубрика «дубликаты»

DaData.ru автоматически исправляет ошибки в адресах, ФИО и телефонах. Находит и объединяет одинаковых клиентов в базе. Помогает быстро ввести адрес и ФИО покупателя, а также и реквизиты компании на форме заказа. Есть API и javascript-виджет.

В предыдущем выпуске Дадата помогала бороться с дублями. А сейчас мы снова причинили добро:

  • бесплатно находим дубликаты в файлах до 100 записей;
  • снизили стоимость сервиса дедупликации до 5-10 копеек за запись;
  • подключили актуальные справочники налоговой службы в подсказках по компаниям.

Подсказываем реквизиты компаний по данным ФНС РФ и бесплатно ищем дубли - 1
Читать полностью »

DaData.ru находит и уничтожает одинаковых людей - 1

DaData.ru — сервис автоматической проверки, исправления и дедупликации контактных данных (ФИО, адресов, телефонов, email, паспортов).

У меня в телефоне 453 контакта. Среди них встречаются дубли: один и тот же человек записан то как «Леха», то как «Алексей Мегафон», а то и как «Зиновьев, Алексей Иванович». У Лехи указан скайп и день рождения, у «Алексея Николаевича» — емейл и основной мобильный номер, а у «Мегафона» — запасной номер от понятнокакого оператора.

В телефонных контактах дубли неприятны, но не особо напрягают. Хуже, когда такая чехарда начинается с клиентской базой компании.
Читать полностью »

Всего несколько дней назад я описывал набор процедур, помогающих бороться с дубликатами в БД PostgreSQL. Напомню, что под дубликатами я понимаю записи внесенные в справочники повторно, например по ошибке. Как выяснилось, для Oracle аналогичный инструмент также может быть полезен.
Читать полностью »

Продолжая тему использования динамического SQL, я хочу рассказать об одном полезном инструменте, реализованном мной в рамках одного из текущих проектов. Речь пойдет о дубликатах в справочниках. Под дубликатами, в этой статье, я понимаю записи, внесенные в справочники повторно, например в результате орфографической ошибки при вводе наименования.
Читать полностью »

Сегодня в клубе Яндекс.Субботник появилось интересное видео о том, как Яндекс обрабатывает изображения для исключения дубликатов. Рассказывает Александр Крайнов: он с 2000 года занимается проектами, связанными с обработкой медиаданных. В Яндексе отвечает за проекты, в которых задействовано компьютерное «зрение».

О докладе

Легко найти дубликаты среди тысяч картинок. Сложнее – среди миллионов. И совсем трудно – среди миллиардов. Чем выше полнота работы алгоритма, тем больше проблем. Но в то же время полнота кластеризации дубликатов – это основа качества поиска изображений.

Думаю, многие не следят за этим клубом и мне кажется, что после этого видео есть над чем поразмыслить.
Всем кому интересно — прошу под кат.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js