Рубрика «сбор данных»

70+ бесплатных инструментов для компьютерной криминалистики (форензики)

2022-02-22 в 9:00, admin, рубрики: forensic analysis, forensics, open source, Блог компании Бастион, инструменты, информационная безопасность, компьютерная криминалистика, криминалистика, расследование, расследование инцедентов иб, расследование инцидентов, сбор данных, Софт, форензика

Расследование инцидентов в области информационной безопасности не такая горячая тема, как пентесты, но эта научная и практическая дисциплина продолжает развиваться, во многом, благодаря Open Source сообществу.

Читать полностью »

Как мы искали неработающие датчики на «УРАЛХИМЕ» (первый проект Data Lake)

2020-11-05 в 11:24, admin, рубрики: big data, data lake, Блог компании КРОК, датчики, сбор данных, хранение данных, хранилища данных

«УРАЛХИМ» делает удобрения. № 1 в России — по производству аммиачной селитры, например, входит в топ-3 отечественных производителей аммиака, карбамида, азотных удобрений. Выпускаются серные кислоты, двух-трёхкомпонентные удобрения, фосфаты и многое другое. Это всё создаёт агрессивные среды, в которых выходят из строя датчики.

Мы строили Data Lake и заодно охотились на те датчики, которые замерзают, выходят из строя, начинают давать ложные данные и вообще ведут себя не так, как должны себя вести источники информации. А «фишка» в том, что невозможно строить матмодели и цифровые двойники на базе «плохих» данных: они просто не будут правильно решать задачу и давать бизнес-эффект.

Но современным производствам нужны Data Lake'и для дата-сайентистов. В 95 % случаев «сырые» данные никак не собираются, а учитываются только агрегаты в АСУТП, которые хранятся два месяца и сохраняются точки «изменения динамики» показателя, которые вычисляются специально заложенным алгоритмом, что для дата-сайентистов снижает качество данных, т. к., возможно, может пропустить «всплески» показателя… Собственно, примерно так и было на «УРАЛХИМЕ». Нужно было создать хранилище производственных данных, подцепиться к источникам в цехах и в MES/ERP-системах. В первую очередь это нужно для того, чтобы начать собирать историю для дата-сайенса. Во вторую очередь — чтобы дата-сайентисты имели площадку для своих расчётов и песочницу для проверки гипотез, а не нагружали ту же самую, где крутится АСУ ТП. Дата-сайентисты пробовали сделать анализ имеющихся данных, но этого не хватило. Данные хранились прореженные, с потерями, часто неконсистентные с датчиком. Взять датасет быстро не было возможности, и работать с ним тоже было особо негде.

Теперь вернёмся к тому, что делать, если датчик «гонит».
Читать полностью »

Парсинг сайта Умного Голосования и новый API на сайте ЦИК

2020-09-20 в 17:19, admin, рубрики: api, big data, data mining, html, http, json, python, выборы, голосование, интерфейсы, навальный, открытые данные, парсинг, сбор данных, ЦИК РФ

13 сентября 2020 года в России прошёл единый день голосования. В некоторых регионах оппозицией была применена стратегия «Умного Голосования», заключающаяся в том, что оппозиционно настроенные избиратели голосуют за единого кандидата, имеющего наивысшие шансы победить представителя от властей.

Процесс отбора кандидатов для «Умного Голосования» уже второй год вызывает дискуссии на тему своей прозрачности. Кроме того, лично меня смущают сложности с подведением итогов стратегии, с которыми могут столкнуться независимые аналитики. Организаторы УмГ не публикуют подробные итоги стратегии, а лишь диаграммы, демонстрирующие сколько оппозиционных кандидатов прошло в региональный парламент.

На сайте «Умного Голосования» нельзя получить список поддержанных кандидатов, указав, например, город и округ. Если кто-то захочет собрать данные по региону, ему предстоит монотонная работа по подбору адресов для каждого округа.

Ни в коем случае не упрекаю разработчиков сайта УмГ, он имеет весь требуемый функционал для реализации стратегии голосования. Но в связи с тем, что в 2019 году никто не занимался сбором и публикацией подробных данных по итогам УмГ (вне московских выборов), на этих выборах я решил взять инициативу в свои руки.

В итоге получилась вот такая сводная таблица. В данной статье я расскажу, как был получен приведённый набор данных, как собиралась информация с сайтов Умного Голосования и нового веб-сервиса ЦИК.

Читать полностью »

Что может пойти не так с Data Science? Сбор данных

2020-07-17 в 9:30, admin, рубрики: agile, data engineering, data mining, data science, python, reddit, Блог компании RUVDS.com, планирование, сбор данных, Социальные сети и сообщества, хабр

Сегодня существует 100500 курсов по Data Science и давно известно, что больше всего денег в Data Science можно заработать именно курсами по Data Science (зачем копать, когда можно продавать лопаты?). Основной минус этих курсов в том, что они не имеют ничего общего с реальной работой: никто не даст вам чистые, обработанные данные в нужном формате. И когда вы выходите с курсов и начинаете решать настоящую задачу — всплывает много нюансов.

Поэтому мы начинаем серию заметок «Что может пойти не так с Data Science», основанных на реальных событиях случившихся со мной, моими товарищами и коллегами. Будем разбирать на реальных примерах типичные задачи по Data Science: как это на самом деле происходит. Начнем сегодня с задачи сбора данных.

И первое обо что спотыкаются люди, начав работать с реальными данными — это собственно сбор этих самых релевантных нам данных. Ключевой посыл этой статьи:

Мы систематически недооцениваем время, ресурсы и усилия на сбор, очистку и подготовку данных.

А главное, обсудим, что делать, чтобы этого не допустить.

По разным оценкам, очистка, трансформация, data processing, feature engineering и тд занимают 80-90% времени, а анализ 10-20%, в то время как практически весь учебный материал фокусируется исключительно на анализе.

Давайте разберем как типичный пример простую аналитическую задачу в трех вариантах и увидим, какими бывают «отягчающие обстоятельства».

И для примера опять же, мы рассмотрим подобные вариации задачи сбора данных и сравнения сообществ для:

Двух сабреддитов Reddit
Двух разделов Хабра
Двух групп Одноклассников

Читать полностью »

Прощай, Google! 15 Альтернативных поисковиков, которые не шпионят, а сажают деревья и раздают воду

2020-06-21 в 9:17, admin, рубрики: Google, анонимность, куки, поисковик, поисковые технологии, сбор данных, экология, яндекс

Прощай, Google! 15 Альтернативных поисковиков, которые не шпионят, а сажают деревья и раздают воду - 1

Аве Кодер!

В этой статье речь пойдет о крутых инди поисковиках, которые могут составить конкуренцию поисковым гигантам, а также удовлетворить вкусы как утонченного мусьё, так и идейного борца за личную жизнь.
Читать полностью »

GSM IoT-провайдер в ЖКХ (Часть 1)

2020-03-17 в 15:41, admin, рубрики: GPRS, IoT, Беспроводные технологии, Интернет вещей, сбор данных, сотовая связь, учет

Прочитал статьи автора Interfer о трудностях в Iot и решил рассказать о своём опыте IoT-провайдера.

Статья первая не рекламная, большая часть материала без моделей оборудования. Постараюсь написать детали в следующих статьях.

Не вижу проблем применения GSM модемов для сбора данных с приборов учёта т.к принимал участие в создании системы сбора с 795-и жилых домов, периодичность опроса каждый час, стабильность подтвердилась тремя годами эксплуатации.

География рабочей lot сети сейчас насчитывает более 5000 точек сбора по России.

Сложности

Читать полностью »

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data

2019-12-19 в 12:11, admin, рубрики: analytics, big data, big data analytics, BigData, cassandra, data base, data mining, elasticsearch, presto, Talend, анализ данных, аналитические системы, Блог компании Plarium, визуализация данных, инструменты, инструменты анализа данных, обработка данных, работа с данными, сбор данных

Перед вами перевод статьи из блога Seattle Data Guy. В ней авторы выделили 5 наиболее популярных ресурсов для обработки Big Data на текущий момент.

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data - 1

Сегодня любая компания, независимо от ее размера и местоположения, так или иначе имеет дело с данными. Использование информации в качестве ценного ресурса, в свою очередь, подразумевает применение специальных инструментов для анализа ключевых показателей деятельности компании. Спрос на аналитику растет пропорционально ее значимости, и уже сейчас можно определить мировые тенденции и перспективы в этом секторе. Согласно мнению International Data Corporation, в 2019 году рынок Big Data и аналитики готов перешагнуть порог в 189,1 миллиарда долларов.Читать полностью »

ЦБ намерен создать базу электронных устройств для борьбы с отмыванием денег

2019-12-02 в 15:47, admin, рубрики: Администрирование баз данных, афт, базы данных, борьба с преступлениями, Законодательство в IT, информационная безопасность, сбор данных, финансы в IT, цб, цб рф, Центробанк

_{Фото: www.rbc.ru}

Центральный банк РФ будет отслеживать сомнительные операции с помощью анализа мобильных устройств и компьютеров юридических лиц. Для этого ЦБ создал проект межбанковской базы данных с информацией о технике пользователей — «Сервис анализа технических устройств». Мера должна помочь бороться с отмыванием доходов, считает Банк России.
Читать полностью »

Еврокомиссия занялась расследованием методов Google по сбору данных

2019-12-01 в 20:05, admin, рубрики: Google, Google Chrome, антимонопольное расследование, антимонопольное регулирование, Законодательство в IT, информационная безопасность, сбор данных, таргетированная реклама

Еврокомиссия занялась расследованием методов Google по сбору данных - 1

Антимонопольные органы Евросоюза занялись расследованием в отношении Google. Расследование будет касаться методов компании по сбору данных пользователей. В частности, антимонопольная служба сосредоточится на сборе данных, связанных с местными поисковыми службами, использованием браузеров и таргетированной рекламой. Об этом сообщает Reuters со ссылкой на заявление Еврокомиссии.

Представитель Евросоюза сообщил агентству, что антимонопольные органы ищут информацию о том, как и почему подразделение Alphabet — Google — собирает информацию о пользователях. В рамках расследования ЕС направил коммерческим компаниям опросники о методах сбора данных Google. Ответ они обязаны предоставить в течение месяца. В частности, регуляторов интересует, какие данные запрашивает Google и как компания использует полученную информацию. Какие именно компании участвуют в опросе, в Еврокомиссии не уточнили.
Читать полностью »

Mozilla по умолчанию заблокирует снятие цифровых отпечатков в Firefox 72

2019-11-26 в 15:42, admin, рубрики: Firefox, mozilla, Mozilla Firefox, браузеры, сбор данных, фингерпринтинг

_{Фото: www.mozilla.org}

В Firefox 72 добавят опцию блокировки сбора цифровых отпечатков для защиты пользователей от слежения. Стабильная версия браузера с этой функцией по умолчанию будет доступна 7 января 2020 года.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «сбор данных»

70+ бесплатных инструментов для компьютерной криминалистики (форензики)

Как мы искали неработающие датчики на «УРАЛХИМЕ» (первый проект Data Lake)

Парсинг сайта Умного Голосования и новый API на сайте ЦИК

Что может пойти не так с Data Science? Сбор данных

Прощай, Google! 15 Альтернативных поисковиков, которые не шпионят, а сажают деревья и раздают воду

GSM IoT-провайдер в ЖКХ (Часть 1)

Сложности

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data

ЦБ намерен создать базу электронных устройств для борьбы с отмыванием денег

Еврокомиссия занялась расследованием методов Google по сбору данных

Mozilla по умолчанию заблокирует снятие цифровых отпечатков в Firefox 72

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «сбор данных»

Сложности

Новости

Актуальные темы

Архив