Рубрика «данные»

image

Привет!

Сегодня будем прорабатывать навык использования средств группирования и визуализации данных в Python. В предоставленном датасете на Github проанализируем несколько характеристик и построим набор визуализаций.

По традиции, в начале, определим цели:

  • Сгруппировать данные по полу и году и визуализировать общую динамику рождаемости обоих полов;
  • Найти самые популярные имена за всю историю;
  • Разбить весь временной промежуток в данных на 10 частей и для каждой найти самое популярное имя каждого пола. Для каждого найденного имени визуализировать его динамику за все время;
  • Для каждого года рассчитать сколько имен покрывает 50% людей и визуализировать (мы увидим разнообразие имен за каждый год);
  • Выбрать 4 года из всего промежутка и отобразить для каждого года распределение по первой букве в имени и по последней букве в имени;
  • Составить список из нескольких известных людей (президенты, певцы, актеры, киногерои) и оценить их влияние на динамику имен. Построить наглядную визуализацию.

Меньше слов, больше кода!

И, поехали.
Читать полностью »

Мы уже давно привыкли, что крупные IT-компании занимаются не только выпуском продуктов и оказанием услуг, но и активно участвуют в развитии интернет-инфраструктуры. DNS от Google, облачные хранилища и хостинг Amazon, дата-центры Facebook по всему миру — пятнадцать лет назад это казалось слишком амбициозным, а сейчас является нормой, к которой все привыкли.

И вот, четверка крупнейших IT-компаний в лице Amazon, Google, Microsoft и Facebook дошли до того, что начали вкладываться не только в непосредственно дата-центры и серверы, но и в сами магистральные кабели — то есть зашли на территорию, которая традиционно являлась зоной ответственности совершенно иных структур. Причем, судя по выводам в блоге APNIC, упомянутый квартет технологических гигантов замахнулся не просто на наземные сети, а на магистральные трансконтинентальные линии связи, т.е. на всем нам знакомые подводные кабели.

Вести со дна: IT-гиганты начали активно строить собственные подводные магистральные сети - 1

Самое удивительное, что острой необходимости в новых сетях сейчас нет, но компании активно наращивают пропускную способность «про запас». К сожалению, найти внятную статистику о мировой генерации трафика почти невозможно благодаря многочисленным маркетологам, которые оперируют размерностями вида «65 миллионов постов в инстаграме ежедневно» или «N поисковых запросов в Google» вместо прозрачных и понятных техническим специалистам петабайт. Можно осторожно предположить, что ежедневный трафик составляет ≈2,5*10^18 байт или около 2500 петабайт данных.
Читать полностью »

Машины становятся умнее. Уже сейчас они генерируют контент такого качества, что даже профессионал не всегда отличает его от «человеческого». О том, почему журналистам и редакторам не стоит опасаться конкуренции, и о перспективах автоматизации журналистики на нашей конференции «Контентинга» рассказал Сергей Марин из «Студии данных».

Роботы в журналистике, или Как использовать искусственный интеллект для создания контента - 1

Под катом расшифровка его доклада.
Читать полностью »

Наверное, можно сказать «традиционно» на Хабре в комментариях на темы, содержащие слово «Роскомнадзор», появляются комментарии вроде «вот сделают спутниковый планетарный интернет и…». И… Пока идут разговоры об орбитах, количестве спутников, запусках, ФСБ, Роскосмосе, SpaceX,… уже как минимум пару лет Роскомнадзор строит. А что строит — об этом в этой статье.

Сразу скажу, что если вы под спойлером ожидаете увидеть документацию на объект, то у меня её нет. В публикации есть фото станции и информация для размышления.

Космическая станция Роскомнадзора - 1

Читать полностью »

Наверное любому из тех, кто хоть как-то причастен к области анализа данных хотя-бы раз приходилось сталкиваться с поиском сторонних источников получения этих самых данных. Сегодня я хотел бы поделиться с Вами одним из самых неожиданных для меня мест, где эти данные лежат почти что на поверхности, да еще и в огромных количествах. Знакомьтесь — это 2GIS.

Image

Читать полностью »

Данные бывают смешными (и вот примеры) - 1

Мы в HFLabs перелопачиваем колоссальное количество данных: адреса, ФИО, реквизиты компаний, документы. Весь год писали о сложных и полезных штуках, но пора и честь знать. Перед праздниками — подборка смешных данных, что нам принес 2018-й.
Читать полностью »

Редактируем CSV-файлы, чтобы не сломать данные - 1

Продукты HFLabs в промышленных объемах обрабатывают данные: адреса, ФИО, реквизиты компаний и еще вагон всего. Естественно, тестировщики ежедневно с этими данными имеют дело: обновляют тест-кейсы, изучают результаты очистки. Часто заказчики дают «живую» базу, чтобы тестировщик настроил сервис под нее.

Первое, чему мы учим новых QA — сохранять данные в первозданном виде. Все по заветам: «Не навреди». В статье я расскажу, как аккуратно работать с CSV-файлами в Excel и Open Office. Советы помогут ничего не испортить, сохранить информацию после редактирования и в целом чувствовать себя увереннее.

Материал базовый, профессионалы совершенно точно заскучают.
Читать полностью »

Уязвимости SSD с аппаратным шифрованием позволяют злоумышленникам легко обходить защитные меры - 1

Исследователи из университета Радбоуд (Нидерланды) рассказали об уязвимостях в системе защиты некоторых твердотельных накопителях. Они позволяют взломщику обходить функцию шифрования данных диском и получать доступ к информации на диске без необходимости знать пароль доступа.

Правда, озвученная проблема касается лишь тех моделей SSD, которые поддерживают аппаратное шифрование благодаря наличию встроенного чипа, который отделен от основного модуля.
Читать полностью »

Расследование Bloomberg: зачем биржевой стартап Robinhood продает данные о заявках пользователей - 1

Недавно мы писали о том, что финтех-стартап Robinhood, оказывающий услуги по биржевой торговле на американских биржах без комиссий, обвинил и в продаже данных о заявках пользователей фирмам по высокочастотной торговле.

После этого журналисты Bloomberg провели собственное расследование, и опубликовали материал с описанием схемы сотрудничества Robinhood и HFT-торговцев. Мы представляем вашему вниманию главные факты этой статьи.Читать полностью »

Использование данных пользователей и продажу big data предложили узаконить - 1

Сегодня стало известно о появлении нового законопроекта, который уже внесен в Госдуму и опубликован в базе документов ее законодательной деятельности. Он вводит понятие регулирования больших данных, содержимое документа доступно для обсуждения на площадке regulation.gov.ru, о чем сообщают «Ведомости».

Речь идет о пользовательских данных, собираемых телекоммуникационными компаниями. Они деперсонализированы, то есть личность человека которому они принадлежат определить нельзя. Обработкой же данных такого рода считаются любые действия с ними — от сбора и систематизации до передачи и удаления. Автор документа предлагает предоставить компаниям использовать данные для своих нужд, либо же передавать другим компаниям, включая продажу.
Читать полностью »