Рубрика «big data» - 108

image

Независимый интернет-исследователь Гверн Брэнвен выложил на своём сайте всеобъемлющий архив с данными торговых площадок т.н. «даркнета», которые он тщательно собирал с 2013 года. Объём данных составляет около 50 Гб в архиве (и более 1,6 Тб в распакованном виде). Среди них – интернет-магазины, форумы, доски объявлений и другие сайты, находившиеся на «скрытых сервисах» Tor и торговавшие всякими интересными, и поэтому запрещёнными, товарами.

Всего в выборку попало 89 магазинов, 37 форумов и 5 других сайтов, которые неутомимый исследователь, рискуя своей репутацией перед правоохранительными органами, посещал и скачивал в ежедневном режиме. Архив доступен для скачивания в виде торрента.

Это исследование, по признанию автора, было вдохновлено возникновением первого масштабного магазина Silk Road, владельца которого не так давно арестовали и осудили. Когда в 2013 году магазин прекратил своё существование, в образовавшийся вакуум хлынули его конкуренты мелкого масштаба – и вот тогда-то и началось всё самое интересное. Развитие даркнета сподвигло Гверна на сбор подробной информации с целью её дальнейшего изучения.
Читать полностью »

Все интернет-магазины сталкиваются с одной распространенной проблемой поведения посетителей:

  • 98% ничего не покупают;
  • 25% аудитории проявляют активную заинтересованность, просматривая более 3 страниц на сайте магазина;
  • 12% пользователей формируют корзины и не завершают покупку.

Обычно работа с аудиторией сводится к использованию двух инструментов:

  • Лидогенерации — сбору емейлов пользователей в зависимости от его поведения на сайте. Позволяет собрать до 5−7% эл. адресов потенциальных клиентов.
  • Читать полностью »

Первый зампред Сбербанка Лев Хасис рассказал РБК, сколько банк тратит на IT, как конкурировать с Google, правильно "спамить" клиентов и планирует ли банк увеличивать долю в «Яндекс.Деньгах» (по словам Хасиса — не планирует).

О конкуренции с Google:

Читать полностью »

Есть темы, по которым очень мало статей по специальности data science, но которые представляют интерес для специалистов по безопасности. Это статистические исследования логинов и паролей пользователей – данные, добытые «черными археологами» дата майнинга.

image

Мне было интересно посмотреть некоторые закономерности и для этой цели я взял базу данных паролей, утёкших в 2014 году – от Яндекса, Гугла и Мейлру, объемом 6 миллионов записей.
Читать полностью »

Измеряемое рабочее пространство: Большие Данные или Большой Брат? - 1

В компаниях сейчас больше данных на сотрудников, чем когда либо в истории и анализ Больших Данных (big data) довольно быстро входит в практику HR. В анализе работы персонала нет ничего нового, но масштаб собираемых и анализируемых данных выходит за пределы норм.
Читать полностью »

В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data. В этой серии поговорим о лингво-аналитике высокоскоростных потоков неструктурированных текстов и сообщений соцмедиа и представим «Эврику» — наш ответ «Алхимикам».

Интернет, в своем нынешнем восприятии обществом, это связанный набор сообщений: личной переписки в мессенджерах, ссылки между статьями в СМИ, обсуждений в блогах, игровые чаты, тематические сериалы на Хабре, или, как преобразилось в мировоззрении новых поколений — ссылки на ответы поисковика после набора запроса «Чем сегодня заняться?»

Если приглядеться, то основа основ: Связи и Тематики. Про аналитику «связей» говорить не будем (это к АНБ, на чьи возможности по электронной слежке сегодня отказался покушаться даже «всемогущий Сенат США»). А вот Тематическая аналитика (что недавно получило свое название — Brand Analytics — в пресс-релизе между Facebook и DataSift, а в России сущестует уже 3 года в виде названия проекта) и связанные с ней разнообразные вкусности — прекрасная тема (! :-) ) для новой серии.
Читать полностью »

digital_stormВ последнее время очень много информации о пользе «больших данных». Большие данные то, большие данные се. Помогут всем, и вообще из-за них все изменится и наступит полный коммунизм.

Но есть и другая сторона появления и распространения больших данных. Большие данные — это прежде всего данные. Маркетинговые изыски информационного сектора пытаются представить большие данные строго определенным образом, как не подающиеся физическому измерению и осмыслению дискретные информационные биты. На самом деле, большие данные все еще данные с присущими им свойствами, и они нуждаются в местах хранения.

«Цунами данных» — термин, которым разбрасываются все кому не лень, чтобы описать массу данных, начинающих захлестывать наш цифровой мир. Данная ситуация немного драматична, но не настолько, как многие думают. Хотя это совершенно не значит, что ей можно пренебречь. Сегодня многие компании обладают решениями для хранения данных, но есть одно «НО», все это было до появления и распространения больших данных. Сейчас большинство этих решений потеряло свою актуальность. Мы вступили в мир, где даже лоток для яиц в холодильнике может генерировать данные. Как подготовить свою компанию к цифровому цунами?

Вот три шага, которые могут помочь разрешить наклевывающиеся проблемы.Читать полностью »

Для микрофинансовых организаций определение платежеспособности клиента — едва ли не самая важная часть работы. В ход идёт всё — данные соцсетей, история поиска, информация о платежах на мобильный, machine learning, big data и даже такие экзотические показатели, как то, насколько быстро и часто вы двигаете ползунки. Roem.ru спросил у представителей рынка МФО, Читать полностью »

wifi
Представляю публичную базу геопозиций телефонных вышек и Wi-Fi роутеров. Мне понадобилась стабильная и безлимитная база для приложения Android, в котором нужна была точная геолокация из всех доступных источников (GPS, Wi-Fi, Mobile). Пришлось создать базу данных положений сотовых вышек и Wi-Fi. Всех заинтересовавшихся прошу под кат.
Читать полностью »

Когда я начал пользоваться фитнес-браслетом Jawbone UP, а затем перешел на Jawbone Move (обзор на ГТ), самым удивительным для меня стал следующий факт – стоит пройти 8-10 тысяч шагов в день, и ты автоматом попадаешь в 30% наиболее активных пользователей браслета. Блин, в 30%. Это значит, что остальные 70% двигаются гораздо меньше, хотя 8000 тысяч шагов – это реально немного.

Затем были еще какие-то данные, говорящие о том, что мое представление о жизни большинства людей нифига не соответствуют действительности. Но завершила картину мира недавняя статистика от Sony, собираемая по функционально сходим браслетам SmartBand.

Немного статистики по пользователям фитнес-трекеров - 1Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js