Рубрика «сбор данных»

image

13 сентября 2020 года в России прошёл единый день голосования. В некоторых регионах оппозицией была применена стратегия «Умного Голосования», заключающаяся в том, что оппозиционно настроенные избиратели голосуют за единого кандидата, имеющего наивысшие шансы победить представителя от властей.

Процесс отбора кандидатов для «Умного Голосования» уже второй год вызывает дискуссии на тему своей прозрачности. Кроме того, лично меня смущают сложности с подведением итогов стратегии, с которыми могут столкнуться независимые аналитики. Организаторы УмГ не публикуют подробные итоги стратегии, а лишь диаграммы, демонстрирующие сколько оппозиционных кандидатов прошло в региональный парламент.

На сайте «Умного Голосования» нельзя получить список поддержанных кандидатов, указав, например, город и округ. Если кто-то захочет собрать данные по региону, ему предстоит монотонная работа по подбору адресов для каждого округа.

Ни в коем случае не упрекаю разработчиков сайта УмГ, он имеет весь требуемый функционал для реализации стратегии голосования. Но в связи с тем, что в 2019 году никто не занимался сбором и публикацией подробных данных по итогам УмГ (вне московских выборов), на этих выборах я решил взять инициативу в свои руки.

В итоге получилась вот такая сводная таблица. В данной статье я расскажу, как был получен приведённый набор данных, как собиралась информация с сайтов Умного Голосования и нового веб-сервиса ЦИК.

image

Читать полностью »

Что может пойти не так с Data Science? Сбор данных - 1


Сегодня существует 100500 курсов по Data Science и давно известно, что больше всего денег в Data Science можно заработать именно курсами по Data Science (зачем копать, когда можно продавать лопаты?). Основной минус этих курсов в том, что они не имеют ничего общего с реальной работой: никто не даст вам чистые, обработанные данные в нужном формате. И когда вы выходите с курсов и начинаете решать настоящую задачу — всплывает много нюансов.

Поэтому мы начинаем серию заметок «Что может пойти не так с Data Science», основанных на реальных событиях случившихся со мной, моими товарищами и коллегами. Будем разбирать на реальных примерах типичные задачи по Data Science: как это на самом деле происходит. Начнем сегодня с задачи сбора данных.

И первое обо что спотыкаются люди, начав работать с реальными данными — это собственно сбор этих самых релевантных нам данных. Ключевой посыл этой статьи:

Мы систематически недооцениваем время, ресурсы и усилия на сбор, очистку и подготовку данных.

А главное, обсудим, что делать, чтобы этого не допустить.

По разным оценкам, очистка, трансформация, data processing, feature engineering и тд занимают 80-90% времени, а анализ 10-20%, в то время как практически весь учебный материал фокусируется исключительно на анализе.

Давайте разберем как типичный пример простую аналитическую задачу в трех вариантах и увидим, какими бывают «отягчающие обстоятельства».

И для примера опять же, мы рассмотрим подобные вариации задачи сбора данных и сравнения сообществ для:

  1. Двух сабреддитов Reddit
  2. Двух разделов Хабра
  3. Двух групп Одноклассников

Читать полностью »

Прощай, Google! 15 Альтернативных поисковиков, которые не шпионят, а сажают деревья и раздают воду - 1

Аве Кодер!

В этой статье речь пойдет о крутых инди поисковиках, которые могут составить конкуренцию поисковым гигантам, а также удовлетворить вкусы как утонченного мусьё, так и идейного борца за личную жизнь.
Читать полностью »

Прочитал статьи автора Interfer о трудностях в Iot и решил рассказать о своём опыте IoT-провайдера.

Статья первая не рекламная, большая часть материала без моделей оборудования. Постараюсь написать детали в следующих статьях.

Не вижу проблем применения GSM модемов для сбора данных с приборов учёта т.к принимал участие в создании системы сбора с 795-и жилых домов, периодичность опроса каждый час, стабильность подтвердилась тремя годами эксплуатации.

География рабочей lot сети сейчас насчитывает более 5000 точек сбора по России.

Сложности

Читать полностью »

Перед вами перевод статьи из блога Seattle Data Guy. В ней авторы выделили 5 наиболее популярных ресурсов для обработки Big Data на текущий момент.

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data - 1

Сегодня любая компания, независимо от ее размера и местоположения, так или иначе имеет дело с данными. Использование информации в качестве ценного ресурса, в свою очередь, подразумевает применение специальных инструментов для анализа ключевых показателей деятельности компании. Спрос на аналитику растет пропорционально ее значимости, и уже сейчас можно определить мировые тенденции и перспективы в этом секторе. Согласно мнению International Data Corporation, в 2019 году рынок Big Data и аналитики готов перешагнуть порог в 189,1 миллиарда долларов.Читать полностью »

image
Фото: www.rbc.ru

Центральный банк РФ будет отслеживать сомнительные операции с помощью анализа мобильных устройств и компьютеров юридических лиц. Для этого ЦБ создал проект межбанковской базы данных с информацией о технике пользователей — «Сервис анализа технических устройств». Мера должна помочь бороться с отмыванием доходов, считает Банк России.
Читать полностью »

Еврокомиссия занялась расследованием методов Google по сбору данных - 1

Антимонопольные органы Евросоюза занялись расследованием в отношении Google. Расследование будет касаться методов компании по сбору данных пользователей. В частности, антимонопольная служба сосредоточится на сборе данных, связанных с местными поисковыми службами, использованием браузеров и таргетированной рекламой. Об этом сообщает Reuters со ссылкой на заявление Еврокомиссии.

Представитель Евросоюза сообщил агентству, что антимонопольные органы ищут информацию о том, как и почему подразделение Alphabet — Google — собирает информацию о пользователях. В рамках расследования ЕС направил коммерческим компаниям опросники о методах сбора данных Google. Ответ они обязаны предоставить в течение месяца. В частности, регуляторов интересует, какие данные запрашивает Google и как компания использует полученную информацию. Какие именно компании участвуют в опросе, в Еврокомиссии не уточнили.
Читать полностью »

image
Фото: www.mozilla.org

В Firefox 72 добавят опцию блокировки сбора цифровых отпечатков для защиты пользователей от слежения. Стабильная версия браузера с этой функцией по умолчанию будет доступна 7 января 2020 года.
Читать полностью »

Отказ от таких услуг техногиганта, как Gmail, карты и Chrome, даёт некоторые преимущества в конфиденциальности, но это нелегко сделать

Антигуглеры: пользователи веба предпринимают радикальные шаги для защиты своих данных - 1

В небольшом городке Ньюберри штата Южная Каролина очень сложно найти мюсли Bob’s Red Mill. И это проблема для местного жителя Грегори Келли, который их просто обожает. Ему не хочется ездить по 60 км в Коламбию, чтобы закупиться ими, однако не желает он и покупать их через сайт компании, который, как он утверждает, переполнен отслеживающими программами от Google.

А поскольку свою конфиденциальность он ставит на первое место, Келли, скрепя сердце, периодически направляется в Коламбию – всё лучше, чем отдавать свои данные в Google или раскрывать историю покупок другому онлайн-продавцу. «Я просто не могу понять, зачем Google знать, какие хлопья я ем на завтрак», — говорит 51-летний гражданин.
Читать полностью »

Хотите узнать о трех методах получения данных для своего следующего проекта по ML? Тогда читайте перевод статьи Rebecca Vickery, опубликованной в блоге Towards Data Science на сайте Medium! Она будет интересна начинающим специалистам.

Извлечение данных при машинном обучении - 1

Получение качественных данных — это первый и наиболее важный шаг в любом проекте по машинному обучению. Специалисты Data Science часто применяют различные методы получения датасетов. Они могут использовать общедоступные данные, а также данные, доступные по API или получаемые из различных баз данных, но чаще всего комбинируют перечисленные методы.

Цель этой статьи — представить краткий обзор трех разных методов извлечения данных с использованием языка Python. Я расскажу, как делать это с помощью Jupyter Notebook. В своей предыдущей статье я писала о применении некоторых команд, запускаемых в терминале.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js