Рубрика «качество данных»
Почему ваши dbt-тесты врут, или Зачем дата-инженеру статистика
2026-02-13 в 8:21, admin, рубрики: data quality, etl, etl-пайплайн, ETL-процессы, качество данных, статистикаПривет! Меня зовут Черняховский Денис, и я Data Engineer. Я достаточно продолжительное время работаю с данными и увлекаюсь математической статистикой. Совсем недавно решил поискать в интернете, как другие опытные дата-инженеры исследуют качество данных при помощи статистики, и обнаружил, что никак… пум-пум-пум. А далее обнаружил, что проблема уходит корнями гораздо глубже, чем может показаться.
В этой статье я постараюсь рассказать:
-
почему дата-инженерам необходимо использовать статистику и почему её не используют
-
проведём тесты на реальных примерах данных
Взгляд разметчика данных
2026-01-09 в 17:36, admin, рубрики: data science, аннотация данных, бинарная классификация, дата сайенс, качество данных, опыт работы, разметка данных, разметка изображенийДисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты.
Всем добрый день!
Как меняется рынок и зачем нужны конференции по Ai
2025-07-28 в 9:00, admin, рубрики: AI, data quality, data quality management, llm-модели, геоданные, ИИ, ии-ассистенты, качество данных, конференцияПривет! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии.
Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками
2020-01-15 в 10:52, admin, рубрики: cdi, data mining, data quality, Алгоритмы, Анализ и проектирование систем, Блог компании HFLabs, дедупликация, документы, информационная безопасность, качество данных, номера паспортов, паспорта
Продукты HFLabs ищут дублированных клиентов в базах федеральных компаний. Очевиднейший способ найти одинаковые клиентские карточки — сравнить паспорта или другие документы, удостоверяющие личность.
Раньше мы сравнивали номера документов строго: одинаковые — отлично, нет — извините. На ручной разбор из-за опечатки в номере уходили даже те карточки, у которых совпадали ФИО и адреса́ проживания. Такой подход излишне нагружал персонал заказчиков.
Поэтому мы с головой залезли в данные, изучили статистику и вывели критерии — когда разные номера действительно разные, а когда дело в опечатках. Рассказываю, как работает алгоритм.
Читать полностью »
Собрали всем «Хабром» справочник «Кем выдан…» для паспортов. Качайте на здоровье
2019-04-18 в 11:02, admin, рубрики: data quality, Блог компании HFLabs, качество данных, Клиентская оптимизация, краудсорсинг, открытые данные, паспорта, паспортные данные, подсказки при вводе, Разработка веб-сайтов, справочники
С пару месяцев назад мы поэкспериментировали: получится ли на «Хабре» собрать справочник подразделений, выдающих российские паспорта. Дело полезное: эти данные нужны много кому, канонического источника нет, а существующие — очень так себе.
И знаете, все получилось. Пригодный к использованию справочник готов, можно качать и пользоваться. А еще мы сделали подсказки, которые ускоряют ввод подразделений в формы.
Читать полностью »
Эксперимент: собираем справочник подразделений УФМС, выдающих паспорт
2019-02-28 в 11:04, admin, рубрики: data quality, Блог компании HFLabs, качество данных, открытые данные, паспорта, паспортные данные, подсказки при вводе, Разработка веб-сайтов, Разработка под e-commerce, уфмс
Самое утомительное поле при вводе паспорта — «Кем выдан». Вбивать в форму какое-нибудь «Отделом внутренних дел Медведевского района республики Марий Эл» муторно. Люди злятся, сокращают название как придется, ошибаются.
Было бы здо́рово подсказывать варианты по коду подразделения.
Читать полностью »
Игра для улучшения качества Википедии
2018-07-30 в 16:38, admin, рубрики: big data, WikiBest, Википедия, игры, искусственный интеллект, качество данных, машинное обучение, наука о данных, открытые данные, разработка игрСегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.
Повышаем качество данных с Oracle Enterprise Data Quality
2017-06-30 в 12:58, admin, рубрики: data quality, edq, enterprise data quality, oracle, siebel, Анализ и проектирование систем, Блог компании Инфосистемы Джет, высокая производительность, дедупликация, качество данных, метки: data quality, enterprise data quality, siebelВ большинстве проектов по внедрению Siebel, так или иначе, приходится сталкиваться с проблемами качества данных. В этой части Oracle предлагает интересное решение – Enterprise Data Quality с возможностью интегрирования в Siebel (что нас собственно и привлекло). В данном материале я вкратце расскажу о самом продукте, его архитектуре, а также покажу, как можно создать простой процесс повышения качества данных.
Коротко о продукте
EDQ ‒ продукт, позволяющий управлять качеством информации. Основой для анализа EDQ могут служить разные источники данных, такие как:
- базы данных (Oracle, Postgres, DB2, MySql и т.д.),
- текстовые файлы,
- XML-файлы,
- MS Office файлы,
- системные файлы и прочее.



