Рубрика «data quality»
Почему ваши dbt-тесты врут, или Зачем дата-инженеру статистика
2026-02-13 в 8:21, admin, рубрики: data quality, etl, etl-пайплайн, ETL-процессы, качество данных, статистикаПривет! Меня зовут Черняховский Денис, и я Data Engineer. Я достаточно продолжительное время работаю с данными и увлекаюсь математической статистикой. Совсем недавно решил поискать в интернете, как другие опытные дата-инженеры исследуют качество данных при помощи статистики, и обнаружил, что никак… пум-пум-пум. А далее обнаружил, что проблема уходит корнями гораздо глубже, чем может показаться.
В этой статье я постараюсь рассказать:
-
почему дата-инженерам необходимо использовать статистику и почему её не используют
-
проведём тесты на реальных примерах данных
WAP паттерн в data-engineering
2025-08-16 в 6:15, admin, рубрики: big data, BigData, data engineering, data quality, data warehouse, DataLake, etl, warehouseВ русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными.
В данной статье я хочу рассказать о паттерне Write-Audit-Publish, о предпосылках его появления, а также наглядно рассмотреть как он работает.
История зарождения
С момента появления концепции data lake, компании старались собирать как можно данных, иногда не слишком задумываясь об их качестве. Появилось четкое понимание, что данные "когда-нибудь" могут быть использованы. Так, согласно исследованиям market.usЧитать полностью »
Как меняется рынок и зачем нужны конференции по Ai
2025-07-28 в 9:00, admin, рубрики: AI, data quality, data quality management, llm-модели, геоданные, ИИ, ии-ассистенты, качество данных, конференцияПривет! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии.
Миф о чистых данных: почему ваш аналитик похож на сапёра
2024-12-01 в 10:16, admin, рубрики: data quality, визуализация данных, витрина данных, данные, обработка данных, очистка данных, ошибки в бизнесе, подготовка данных, целостность данныхПредставьте: вы — аналитик данных, перед вами — гора необработанных данных, и каждый неверный шаг может привести к катастрофическим последствиям для бизнеса. Звучит как сценарий фильма-катастрофы? К сожалению, для многих аналитиков это повседневная реальность.
Часто, начиная проект по бизнес-аналитике, заказчик заявляет: «У нас идеально чистые данные, просто заходите и визуализируйте!» Эта фраза, увы, часто предвещает долгие часы кропотливой работы по очистке, обогащению и агрегации данных — настоящее разминирование информационного поля.
Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.
В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.
Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись.
Что такое Data Quality
Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая
2020-02-21 в 15:43, admin, рубрики: big data, data accuracy, data analysis, data anomaly, data cleansing, data completeness, data consistency, data engineering, data mining, data preparation, data quality, data structures, dirty data, Алгоритмы, грязные данные, обработка данных, открытые данные, очистка данныхВ части первой описывалось, что данная публикация сделана на основе датасета результатов кадастровой оценки объектов недвижимости в Ханты-Мансийском АО.
Практическая часть представлена в виде шагов. Проводилась вся очистка в Excel, так как самый распространенный инструмент и описанные операции может повторить большинство специалистов знающих Excel. И достаточно неплохо подходит для работы в «рукопашную».
Нулевым этапом поставлю работы по запуску, сохранению файла, так как он размером 100 мб, то при количестве этих операций десятки и сотни на них уходит существенное время.
Открытие, в среднем, — 30 сек.
Сохранение – 22 сек.
Первый этап начинается с определения статистических показателей датасета.
Таблица 1. Статпоказатели датасета

Читать полностью »
Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками
2020-01-15 в 10:52, admin, рубрики: cdi, data mining, data quality, Алгоритмы, Анализ и проектирование систем, Блог компании HFLabs, дедупликация, документы, информационная безопасность, качество данных, номера паспортов, паспорта
Продукты HFLabs ищут дублированных клиентов в базах федеральных компаний. Очевиднейший способ найти одинаковые клиентские карточки — сравнить паспорта или другие документы, удостоверяющие личность.
Раньше мы сравнивали номера документов строго: одинаковые — отлично, нет — извините. На ручной разбор из-за опечатки в номере уходили даже те карточки, у которых совпадали ФИО и адреса́ проживания. Такой подход излишне нагружал персонал заказчиков.
Поэтому мы с головой залезли в данные, изучили статистику и вывели критерии — когда разные номера действительно разные, а когда дело в опечатках. Рассказываю, как работает алгоритм.
Читать полностью »
Собрали всем «Хабром» справочник «Кем выдан…» для паспортов. Качайте на здоровье
2019-04-18 в 11:02, admin, рубрики: data quality, Блог компании HFLabs, качество данных, Клиентская оптимизация, краудсорсинг, открытые данные, паспорта, паспортные данные, подсказки при вводе, Разработка веб-сайтов, справочники
С пару месяцев назад мы поэкспериментировали: получится ли на «Хабре» собрать справочник подразделений, выдающих российские паспорта. Дело полезное: эти данные нужны много кому, канонического источника нет, а существующие — очень так себе.
И знаете, все получилось. Пригодный к использованию справочник готов, можно качать и пользоваться. А еще мы сделали подсказки, которые ускоряют ввод подразделений в формы.
Читать полностью »
Эксперимент: собираем справочник подразделений УФМС, выдающих паспорт
2019-02-28 в 11:04, admin, рубрики: data quality, Блог компании HFLabs, качество данных, открытые данные, паспорта, паспортные данные, подсказки при вводе, Разработка веб-сайтов, Разработка под e-commerce, уфмс
Самое утомительное поле при вводе паспорта — «Кем выдан». Вбивать в форму какое-нибудь «Отделом внутренних дел Медведевского района республики Марий Эл» муторно. Люди злятся, сокращают название как придется, ошибаются.
Было бы здо́рово подсказывать варианты по коду подразделения.
Читать полностью »

