Рубрика «качество данных»

AI и Data engineering: Что реально происходит с профессией?

2026-02-20 в 17:25, admin, рубрики: AI, data engineer, data engineering, data quality, etl, schema, инженер данных, искусственный интеллект, качество данных, Модель данных

Читать полностью »

Почему ваши dbt-тесты врут, или Зачем дата-инженеру статистика

2026-02-13 в 8:21, admin, рубрики: data quality, etl, etl-пайплайн, ETL-процессы, качество данных, статистика

Привет! Меня зовут Черняховский Денис, и я Data Engineer. Я достаточно продолжительное время работаю с данными и увлекаюсь математической статистикой. Совсем недавно решил поискать в интернете, как другие опытные дата-инженеры исследуют качество данных при помощи статистики, и обнаружил, что никак… пум-пум-пум. А далее обнаружил, что проблема уходит корнями гораздо глубже, чем может показаться.

В этой статье я постараюсь рассказать:

почему дата-инженерам необходимо использовать статистику и почему её не используют
проведём тесты на реальных примерах данных
Читать полностью »

Взгляд разметчика данных

2026-01-09 в 17:36, admin, рубрики: data science, аннотация данных, бинарная классификация, дата сайенс, качество данных, опыт работы, разметка данных, разметка изображений

Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты.

Всем добрый день!

Читать полностью »

Как меняется рынок и зачем нужны конференции по Ai

2025-07-28 в 9:00, admin, рубрики: AI, data quality, data quality management, llm-модели, геоданные, ИИ, ии-ассистенты, качество данных, конференция

Привет! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии.

Читать полностью »

Что такое метаданные в BI и как ими управлять? Обзор инструмента OpenMetadata

2024-12-20 в 10:16, admin, рубрики: BI, Business Intelligence, MetaData, аналитика данных, каталог данных, качество данных, метаданные, управление данными, управление качеством данных

Метаданные или метаинформация – это данные, которые предоставляют информацию о других данных.

Например, текст книги – это сами данные, а главы книги – это уже метаданные. Эту информацию также можно обрабатывать, например, посчитать количество глав в книге.

Читать полностью »

Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками

2020-01-15 в 10:52, admin, рубрики: cdi, data mining, data quality, Алгоритмы, Анализ и проектирование систем, Блог компании HFLabs, дедупликация, документы, информационная безопасность, качество данных, номера паспортов, паспорта

Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками - 1

Продукты HFLabs ищут дублированных клиентов в базах федеральных компаний. Очевиднейший способ найти одинаковые клиентские карточки — сравнить паспорта или другие документы, удостоверяющие личность.

Раньше мы сравнивали номера документов строго: одинаковые — отлично, нет — извините. На ручной разбор из-за опечатки в номере уходили даже те карточки, у которых совпадали ФИО и адреса́ проживания. Такой подход излишне нагружал персонал заказчиков.

Поэтому мы с головой залезли в данные, изучили статистику и вывели критерии — когда разные номера действительно разные, а когда дело в опечатках. Рассказываю, как работает алгоритм.
Читать полностью »

Собрали всем «Хабром» справочник «Кем выдан…» для паспортов. Качайте на здоровье

2019-04-18 в 11:02, admin, рубрики: data quality, Блог компании HFLabs, качество данных, Клиентская оптимизация, краудсорсинг, открытые данные, паспорта, паспортные данные, подсказки при вводе, Разработка веб-сайтов, справочники

Собрали всем «Хабром» справочник «Кем выдан…» для паспортов. Качайте на здоровье - 1

С пару месяцев назад мы поэкспериментировали: получится ли на «Хабре» собрать справочник подразделений, выдающих российские паспорта. Дело полезное: эти данные нужны много кому, канонического источника нет, а существующие — очень так себе.

И знаете, все получилось. Пригодный к использованию справочник готов, можно качать и пользоваться. А еще мы сделали подсказки, которые ускоряют ввод подразделений в формы.
Читать полностью »

Эксперимент: собираем справочник подразделений УФМС, выдающих паспорт

2019-02-28 в 11:04, admin, рубрики: data quality, Блог компании HFLabs, качество данных, открытые данные, паспорта, паспортные данные, подсказки при вводе, Разработка веб-сайтов, Разработка под e-commerce, уфмс

Эксперимент: собираем справочник подразделений УФМС, выдающих паспорт - 1

Самое утомительное поле при вводе паспорта — «Кем выдан». Вбивать в форму какое-нибудь «Отделом внутренних дел Медведевского района республики Марий Эл» муторно. Люди злятся, сокращают название как придется, ошибаются.

Было бы здо́рово подсказывать варианты по коду подразделения.
Читать полностью »

Игра для улучшения качества Википедии

2018-07-30 в 16:38, admin, рубрики: big data, WikiBest, Википедия, игры, искусственный интеллект, качество данных, машинное обучение, наука о данных, открытые данные, разработка игр

Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.

Читать полностью »

Повышаем качество данных с Oracle Enterprise Data Quality

2017-06-30 в 12:58, admin, рубрики: data quality, edq, enterprise data quality, oracle, siebel, Анализ и проектирование систем, Блог компании Инфосистемы Джет, высокая производительность, дедупликация, качество данных, метки: data quality, enterprise data quality, siebel

В большинстве проектов по внедрению Siebel, так или иначе, приходится сталкиваться с проблемами качества данных. В этой части Oracle предлагает интересное решение – Enterprise Data Quality с возможностью интегрирования в Siebel (что нас собственно и привлекло). В данном материале я вкратце расскажу о самом продукте, его архитектуре, а также покажу, как можно создать простой процесс повышения качества данных.

Коротко о продукте

EDQ ‒ продукт, позволяющий управлять качеством информации. Основой для анализа EDQ могут служить разные источники данных, такие как:

базы данных (Oracle, Postgres, DB2, MySql и т.д.),
текстовые файлы,
XML-файлы,
MS Office файлы,
системные файлы и прочее.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «качество данных»

AI и Data engineering: Что реально происходит с профессией?

Почему ваши dbt-тесты врут, или Зачем дата-инженеру статистика

Взгляд разметчика данных

Как меняется рынок и зачем нужны конференции по Ai

Что такое метаданные в BI и как ими управлять? Обзор инструмента OpenMetadata

Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками

Собрали всем «Хабром» справочник «Кем выдан…» для паспортов. Качайте на здоровье

Эксперимент: собираем справочник подразделений УФМС, выдающих паспорт

Игра для улучшения качества Википедии

Повышаем качество данных с Oracle Enterprise Data Quality

Коротко о продукте