Привет! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии.
Рубрика «качество данных»
Как меняется рынок и зачем нужны конференции по Ai
2025-07-28 в 9:00, admin, рубрики: AI, data quality, data quality management, llm-модели, геоданные, ИИ, ии-ассистенты, качество данных, конференцияКак посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками
2020-01-15 в 10:52, admin, рубрики: cdi, data mining, data quality, Алгоритмы, Анализ и проектирование систем, Блог компании HFLabs, дедупликация, документы, информационная безопасность, качество данных, номера паспортов, паспорта
Продукты HFLabs ищут дублированных клиентов в базах федеральных компаний. Очевиднейший способ найти одинаковые клиентские карточки — сравнить паспорта или другие документы, удостоверяющие личность.
Раньше мы сравнивали номера документов строго: одинаковые — отлично, нет — извините. На ручной разбор из-за опечатки в номере уходили даже те карточки, у которых совпадали ФИО и адреса́ проживания. Такой подход излишне нагружал персонал заказчиков.
Поэтому мы с головой залезли в данные, изучили статистику и вывели критерии — когда разные номера действительно разные, а когда дело в опечатках. Рассказываю, как работает алгоритм.
Читать полностью »
Собрали всем «Хабром» справочник «Кем выдан…» для паспортов. Качайте на здоровье
2019-04-18 в 11:02, admin, рубрики: data quality, Блог компании HFLabs, качество данных, Клиентская оптимизация, краудсорсинг, открытые данные, паспорта, паспортные данные, подсказки при вводе, Разработка веб-сайтов, справочники
С пару месяцев назад мы поэкспериментировали: получится ли на «Хабре» собрать справочник подразделений, выдающих российские паспорта. Дело полезное: эти данные нужны много кому, канонического источника нет, а существующие — очень так себе.
И знаете, все получилось. Пригодный к использованию справочник готов, можно качать и пользоваться. А еще мы сделали подсказки, которые ускоряют ввод подразделений в формы.
Читать полностью »
Эксперимент: собираем справочник подразделений УФМС, выдающих паспорт
2019-02-28 в 11:04, admin, рубрики: data quality, Блог компании HFLabs, качество данных, открытые данные, паспорта, паспортные данные, подсказки при вводе, Разработка веб-сайтов, Разработка под e-commerce, уфмс
Самое утомительное поле при вводе паспорта — «Кем выдан». Вбивать в форму какое-нибудь «Отделом внутренних дел Медведевского района республики Марий Эл» муторно. Люди злятся, сокращают название как придется, ошибаются.
Было бы здо́рово подсказывать варианты по коду подразделения.
Читать полностью »
Игра для улучшения качества Википедии
2018-07-30 в 16:38, admin, рубрики: big data, WikiBest, Википедия, игры, искусственный интеллект, качество данных, машинное обучение, наука о данных, открытые данные, разработка игрСегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.
Повышаем качество данных с Oracle Enterprise Data Quality
2017-06-30 в 12:58, admin, рубрики: data quality, edq, enterprise data quality, oracle, siebel, Анализ и проектирование систем, Блог компании Инфосистемы Джет, высокая производительность, дедупликация, качество данных, метки: data quality, enterprise data quality, siebelВ большинстве проектов по внедрению Siebel, так или иначе, приходится сталкиваться с проблемами качества данных. В этой части Oracle предлагает интересное решение – Enterprise Data Quality с возможностью интегрирования в Siebel (что нас собственно и привлекло). В данном материале я вкратце расскажу о самом продукте, его архитектуре, а также покажу, как можно создать простой процесс повышения качества данных.
Коротко о продукте
EDQ ‒ продукт, позволяющий управлять качеством информации. Основой для анализа EDQ могут служить разные источники данных, такие как:
- базы данных (Oracle, Postgres, DB2, MySql и т.д.),
- текстовые файлы,
- XML-файлы,
- MS Office файлы,
- системные файлы и прочее.
Показатели качества публичных данных
2017-02-10 в 13:53, admin, рубрики: open data, Исследования и прогнозы в IT, качество данных, открытые данныеПроблема качества данных представляет собой достаточно серьезную тему и не только в связи с их обработкой и анализом. На данных в современном цифровом мире построено множество процессов, в том числе и связанных с безопасностью. Поэтому от того, насколько качественные данные используются в государственных и коммерческих организациях зависит эффективность и результат их работы.

Рассмотрим несколько показателей, которые могли бы составить интегрированную оценку качества публичных (открытых) данных.
Читать полностью »


