Рубрика «сбор данных»

image

«УРАЛХИМ» делает удобрения. № 1 в России — по производству аммиачной селитры, например, входит в топ-3 отечественных производителей аммиака, карбамида, азотных удобрений. Выпускаются серные кислоты, двух-трёхкомпонентные удобрения, фосфаты и многое другое. Это всё создаёт агрессивные среды, в которых выходят из строя датчики.

Мы строили Data Lake и заодно охотились на те датчики, которые замерзают, выходят из строя, начинают давать ложные данные и вообще ведут себя не так, как должны себя вести источники информации. А «фишка» в том, что невозможно строить матмодели и цифровые двойники на базе «плохих» данных: они просто не будут правильно решать задачу и давать бизнес-эффект.

Но современным производствам нужны Data Lake'и для дата-сайентистов. В 95 % случаев «сырые» данные никак не собираются, а учитываются только агрегаты в АСУТП, которые хранятся два месяца и сохраняются точки «изменения динамики» показателя, которые вычисляются специально заложенным алгоритмом, что для дата-сайентистов снижает качество данных, т. к., возможно, может пропустить «всплески» показателя… Собственно, примерно так и было на «УРАЛХИМЕ». Нужно было создать хранилище производственных данных, подцепиться к источникам в цехах и в MES/ERP-системах. В первую очередь это нужно для того, чтобы начать собирать историю для дата-сайенса. Во вторую очередь — чтобы дата-сайентисты имели площадку для своих расчётов и песочницу для проверки гипотез, а не нагружали ту же самую, где крутится АСУ ТП. Дата-сайентисты пробовали сделать анализ имеющихся данных, но этого не хватило. Данные хранились прореженные, с потерями, часто неконсистентные с датчиком. Взять датасет быстро не было возможности, и работать с ним тоже было особо негде.

Теперь вернёмся к тому, что делать, если датчик «гонит».
Читать полностью »

image

13 сентября 2020 года в России прошёл единый день голосования. В некоторых регионах оппозицией была применена стратегия «Умного Голосования», заключающаяся в том, что оппозиционно настроенные избиратели голосуют за единого кандидата, имеющего наивысшие шансы победить представителя от властей.

Процесс отбора кандидатов для «Умного Голосования» уже второй год вызывает дискуссии на тему своей прозрачности. Кроме того, лично меня смущают сложности с подведением итогов стратегии, с которыми могут столкнуться независимые аналитики. Организаторы УмГ не публикуют подробные итоги стратегии, а лишь диаграммы, демонстрирующие сколько оппозиционных кандидатов прошло в региональный парламент.

На сайте «Умного Голосования» нельзя получить список поддержанных кандидатов, указав, например, город и округ. Если кто-то захочет собрать данные по региону, ему предстоит монотонная работа по подбору адресов для каждого округа.

Ни в коем случае не упрекаю разработчиков сайта УмГ, он имеет весь требуемый функционал для реализации стратегии голосования. Но в связи с тем, что в 2019 году никто не занимался сбором и публикацией подробных данных по итогам УмГ (вне московских выборов), на этих выборах я решил взять инициативу в свои руки.

В итоге получилась вот такая сводная таблица. В данной статье я расскажу, как был получен приведённый набор данных, как собиралась информация с сайтов Умного Голосования и нового веб-сервиса ЦИК.

image

Читать полностью »

Что может пойти не так с Data Science? Сбор данных - 1


Сегодня существует 100500 курсов по Data Science и давно известно, что больше всего денег в Data Science можно заработать именно курсами по Data Science (зачем копать, когда можно продавать лопаты?). Основной минус этих курсов в том, что они не имеют ничего общего с реальной работой: никто не даст вам чистые, обработанные данные в нужном формате. И когда вы выходите с курсов и начинаете решать настоящую задачу — всплывает много нюансов.

Поэтому мы начинаем серию заметок «Что может пойти не так с Data Science», основанных на реальных событиях случившихся со мной, моими товарищами и коллегами. Будем разбирать на реальных примерах типичные задачи по Data Science: как это на самом деле происходит. Начнем сегодня с задачи сбора данных.

И первое обо что спотыкаются люди, начав работать с реальными данными — это собственно сбор этих самых релевантных нам данных. Ключевой посыл этой статьи:

Мы систематически недооцениваем время, ресурсы и усилия на сбор, очистку и подготовку данных.

А главное, обсудим, что делать, чтобы этого не допустить.

По разным оценкам, очистка, трансформация, data processing, feature engineering и тд занимают 80-90% времени, а анализ 10-20%, в то время как практически весь учебный материал фокусируется исключительно на анализе.

Давайте разберем как типичный пример простую аналитическую задачу в трех вариантах и увидим, какими бывают «отягчающие обстоятельства».

И для примера опять же, мы рассмотрим подобные вариации задачи сбора данных и сравнения сообществ для:

  1. Двух сабреддитов Reddit
  2. Двух разделов Хабра
  3. Двух групп Одноклассников

Читать полностью »

Прощай, Google! 15 Альтернативных поисковиков, которые не шпионят, а сажают деревья и раздают воду - 1

Аве Кодер!

В этой статье речь пойдет о крутых инди поисковиках, которые могут составить конкуренцию поисковым гигантам, а также удовлетворить вкусы как утонченного мусьё, так и идейного борца за личную жизнь.
Читать полностью »

Прочитал статьи автора Interfer о трудностях в Iot и решил рассказать о своём опыте IoT-провайдера.

Статья первая не рекламная, большая часть материала без моделей оборудования. Постараюсь написать детали в следующих статьях.

Не вижу проблем применения GSM модемов для сбора данных с приборов учёта т.к принимал участие в создании системы сбора с 795-и жилых домов, периодичность опроса каждый час, стабильность подтвердилась тремя годами эксплуатации.

География рабочей lot сети сейчас насчитывает более 5000 точек сбора по России.

Сложности

Читать полностью »

Перед вами перевод статьи из блога Seattle Data Guy. В ней авторы выделили 5 наиболее популярных ресурсов для обработки Big Data на текущий момент.

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data - 1

Сегодня любая компания, независимо от ее размера и местоположения, так или иначе имеет дело с данными. Использование информации в качестве ценного ресурса, в свою очередь, подразумевает применение специальных инструментов для анализа ключевых показателей деятельности компании. Спрос на аналитику растет пропорционально ее значимости, и уже сейчас можно определить мировые тенденции и перспективы в этом секторе. Согласно мнению International Data Corporation, в 2019 году рынок Big Data и аналитики готов перешагнуть порог в 189,1 миллиарда долларов.Читать полностью »

image
Фото: www.rbc.ru

Центральный банк РФ будет отслеживать сомнительные операции с помощью анализа мобильных устройств и компьютеров юридических лиц. Для этого ЦБ создал проект межбанковской базы данных с информацией о технике пользователей — «Сервис анализа технических устройств». Мера должна помочь бороться с отмыванием доходов, считает Банк России.
Читать полностью »

Еврокомиссия занялась расследованием методов Google по сбору данных - 1

Антимонопольные органы Евросоюза занялись расследованием в отношении Google. Расследование будет касаться методов компании по сбору данных пользователей. В частности, антимонопольная служба сосредоточится на сборе данных, связанных с местными поисковыми службами, использованием браузеров и таргетированной рекламой. Об этом сообщает Reuters со ссылкой на заявление Еврокомиссии.

Представитель Евросоюза сообщил агентству, что антимонопольные органы ищут информацию о том, как и почему подразделение Alphabet — Google — собирает информацию о пользователях. В рамках расследования ЕС направил коммерческим компаниям опросники о методах сбора данных Google. Ответ они обязаны предоставить в течение месяца. В частности, регуляторов интересует, какие данные запрашивает Google и как компания использует полученную информацию. Какие именно компании участвуют в опросе, в Еврокомиссии не уточнили.
Читать полностью »

image
Фото: www.mozilla.org

В Firefox 72 добавят опцию блокировки сбора цифровых отпечатков для защиты пользователей от слежения. Стабильная версия браузера с этой функцией по умолчанию будет доступна 7 января 2020 года.
Читать полностью »

Отказ от таких услуг техногиганта, как Gmail, карты и Chrome, даёт некоторые преимущества в конфиденциальности, но это нелегко сделать

Антигуглеры: пользователи веба предпринимают радикальные шаги для защиты своих данных - 1

В небольшом городке Ньюберри штата Южная Каролина очень сложно найти мюсли Bob’s Red Mill. И это проблема для местного жителя Грегори Келли, который их просто обожает. Ему не хочется ездить по 60 км в Коламбию, чтобы закупиться ими, однако не желает он и покупать их через сайт компании, который, как он утверждает, переполнен отслеживающими программами от Google.

А поскольку свою конфиденциальность он ставит на первое место, Келли, скрепя сердце, периодически направляется в Коламбию – всё лучше, чем отдавать свои данные в Google или раскрывать историю покупок другому онлайн-продавцу. «Я просто не могу понять, зачем Google знать, какие хлопья я ем на завтрак», — говорит 51-летний гражданин.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js