Рубрика «анализ данных»

Приглашаем на итоги конкурса по анализу данных - 1

В эту пятницу (15 декабря) мы приглашаем читателей Хабра присоединиться к онлайн трансляции награждения победителей конкурса по прогнозированию невозврата кредита. Состязание длилось 4 месяца, задача была предоставлена Банком Хоум Кредит (собственно, как и данные).

Мы наградим победителей и призеров, послушаем презентации их решений.

  • 1 место и Академический приз — Анзор Березгов
  • 2 место — Иван Тимошилов
  • 3 место — Александр Дьяконов
  • Приз SAS — Дарья Соболева

Читать полностью »

Всегда приятно осознавать, что применение технологий сводится не только к финансовой выгоде, бывают ещё и идеи, делающие мир лучше. Об одном из проектов с такой идеей мы и расскажем в этот морозный пятничный день. Вы узнаете о решении, которое позволило увеличить точность экспресс-анализа крови, с помощью применения алгоритмов машинного обучения для выявления связей между микро-РНК и генами. Также, стоит отметить, что методы, описанные ниже можно использовать не только в биологии.

Учим машину разбираться в генах человека - 1
Читать полностью »

Как мы расписание общественного транспорта в 2ГИС добавляли - 1

2ГИС помогает ориентироваться в городе. Открываешь приложение, вводишь в поиск название улицы или организации, находишь, радуешься. После того, как нужная организация найдена, возникает резонный вопрос: как же туда добраться? И если автомобильным сценариям мы в последнее время уделяли значительное внимание, то поиск проезда на общественном транспорте оказался немного подзабыт. Я расскажу про то, как создавался поиск проезда, поделюсь тонкостями сбора и обработки информации.
Читать полностью »

GoTo в ИТМО: Ботали неделю. Порвали 2 баяна - 1

Совсем недавно закончилась очередная школа GoTo в СПб. В отличие от прошлой осени, в этот раз Питер порадовал нас большим количеством солнечных и теплых ноябрьских дней, их было целых два. В один из этих дней боевые единицы из юных и не очень программистов отправились добывать код: поцеловать незнакомых петербуржских девушек, пройти кастинг в Мариинку на эскалаторе, накормить Олега Георгиевича кровью невинного программиста и запечатлить лик Наполеона между ног коня.
В остальные дни мы по старинке делали мы не менее увлекательные проекты по биоинформатике, машинному обучению, распределенным системам и гоняли чаи на кухне с разговорами о прекрасном. Отчет ИТМО можно прочесть здесь.
Не возьмемся судить о том, что читателю интереснее, обо всем по порядку под катом.
Читать полностью »

Дашборд — что это и почему он будет вам полезен или современный способ сделать тайное явным - 1
Наверное, мало кто из нас задумывался, что практически с рождения пользовался дашбордами. Мы получали некую информацию, анализировали, принимали решение или даже испытывали какие-то эмоции благодаря им. Да-да, градусник, измеряющий температуру, когда вы болели; часы; стрелка спидометра, перевалившая за 200 км/час (ну, это может быть не у всех) — все эти приборы по сути являются дашбордами или их элементом. Но мне бы хотелось рассказать об интерактивных аналитических дашбордах. И, самое главное — показать, что в наше время такие дашборды могут быть полезны каждому человеку, а не только крупным банкам или корпорациям.
Если у вас есть данные — не важно, домохозяйка вы с пачкой чеков от закупок продуктов, спортсмен с данными о пробежках из Strava или кто-либо ещё — вы сможете представить это наглядно, оценить важные показатели, в результате чего принимать более оптимальные решения.
Вы не используете дашборды и думаете, что вам это не нужно? Мнение может поменяться, а кругозор расширится, так как далее: что такое дашборды, какие цели достигаются с помощью них, ключевые понятия и сферы использования, существующие инструменты, множество ссылок на актуальные ресурсы по теме, а также реальный пример, как из обычных на первый взгляд данных, можно извлечь интересные знания…
Читать полностью »

Исследование: более 400 крупных популярных сайтов записывают пользовательские сессии - 1

На большинстве популярных и посещаемых сайтов есть сторонние аналитические скрипты, которые записывают, на какие страницы заходит пользователь и какие запросы он вводит в поисковую строку. Но прогресс не стоит на месте, и некоторые компании стали использовать на своих сайтах скрипты, которые записывают нажатия клавиш, движения мыши и даже направление прокрутки вместе со всем содержимым страниц, а потом отправляют эти данные на сторонние серверы.

В отличие от обычных аналитических сервисов, которые предоставляют общую статистику, эти скрипты записывают и воспроизводят отдельные сеансы просмотра так, будто за поведением пользователя наблюдают через его плечо. На некоторых сайтах с высокой нагрузкой выполняется ПО, которое записывает момент нажатия и каждое введенное слово. Такие скрипты получили название скриптов повторного сеанса.

Заявленная цель сбора таких данных — поиск ответа на вопрос, как пользователи взаимодействуют с веб-страницами, а также нахождение криво работающих страниц. Однако объем данных, собираемый такими скриптами, куда выше того, что можно было бы ожидать от оговариваемого пользовательским соглашением. Например, если перейти на сайт и начать заполнять форму, а затем отказаться от нее, введенная информация все равно будет записана. Случайно вставленное содержимое буфера обмена тоже запишется.Читать полностью »

КДПВ

Я начал писать этот текст уже давно, так что он не планировался как политически актуальный. Но так вышло, что именно в эти дни у СМИ появился инфоповод, связанный с малыми (миноритарными) языками России. Возможно, что исследование, о котором я пишу ниже, что-то кому-то в этом смысле прояснит.

Сколько в России языков?

Это не так просто осознать, но в России говорят на внушительном числе языков. Более того, в России говорят на таких языках, которые больше нигде не распространены. Скажем, в России обитают миллионы украинцев и узбеков, вместе с тем существуют и суверенные государства Украина и Узбекистан, где соответствующие языки являются государственными. А вот в России говорят на башкирском, тувинском, удмуртском и многих (действительно многих) других языках, у которых своего государственного статуса больше нигде нет.
Государственный статус — это важно. В эпоху глобализации языкам, чтобы выжить, нужна поддержка, которая позитивно влияет на печать, масс-медиа, искусство, в конечном счёте — на желание и возможность людей говорить на родном языке.
А насколько эти языки адаптировались к новым цифровым реалиям? Правда ли, что на них говорят только в отдалённых горных аулах? Или всё-таки они являются полноправным способом онлайн-общения? Несколько лет назад мы с коллегами решили это выяснить.

Читать полностью »

image

В задачах машинного обучения качество моделей очень сильно зависит от данных.
Но сами данные в реальных задачах редко бывают идеальными. Как правило, самих данных не много, количество доступных для анализа параметров ограничено, в данных шумы и пропуски. Но решать задачу как-то нужно.

Я хочу поделиться практическим опытом успешного решения задач машинного обучения. И дать простой набор шагов, позволяющих выжать из данных максимум.
Читать полностью »

Splunk Discovery Day 2017 в Москве. Как все прошло… - 1

На прошлой неделе в московской гостинице Украина состоялось самое масштабное мероприятие посвященное Splunk в России, и хотя всего месяц назад в Вашингтоне проходил Splunk .conf, московская конференция испытала большой ажиотаж со стороны участников. Наиболее интересной частью мероприятия стала сессия с выступлениями уже существующих заказчиков со своими историями успеха. Это такие компании как: Мегафон, Yota, Банк ДельтаКредит, служба доставки SPSR Express, телеканал Russia Today. В этот момент зал был полон и некоторые участники слушали доклады стоя, в целом конференцию посетило порядка трехсот человек.
Читать полностью »

На протяжении последних нескольких лет я управляю разработкой и мне регулярно приходится набирать новых сотрудников.

И хотя у меня нет профессионального образования в области управления персоналом, я, тем не менее, осмелюсь дать достаточно негативную оценку текущему состоянию дел в этом вопросе в IT-отрасли: на мой взгляд, собеседования полны субъективности и случайности, а среднее качество отбора получается весьма посредственным — работодатели жалуются на неадекватность запросов кандидатов, вакансии могут оставаться незакрытыми месяцами, а принятые в штат сотрудники часто не оправдывают ожиданий.

Повышение качества отбора персонала на основе данных - 1Предположу, что причиной является тот факт, что мало кто из технарей, проводящих собеседования, имеет образование в сфере управления персоналом (естественно), либо хотя бы что-то читали об этом. А рекрутеры, в свою очередь, слабо смыслят в анализе данных. В итоге, пара этих компетенций редко соединяется в одном человеке и нанимающие просто повторяют внешние признаки понравившихся им самим собеседований, не понимая, какой цели они служили исходно и какую информацию были задуманы извлечь. В итоге, с каждой такой копипастой, качество принятия решений падает.

Учитывая мою техническую специализацию, я попытался повысить качество отбора и попутно снизить затраты времени, требуемые для этого, разработав процесс, опирающийся на объективные данные, и внедрив его для найма разработчиков в свой отдел. В итоге, процесс продемонстрировал эффективность, широко распространился по компаниям, в которых я работал, и применяется сейчас для найма специалистов самого разного профиля.

Пару лет назад я уже рассказывал о нëм на HR Unconference. Но записи выступления нет, а знакомые, которые не могут найти себе людей в отдел, всë чаще интересуются деталями, так что я решил, наконец, подробно всë расписать, а заодно и опубликовать свой первый пост на Хабре, поделившись своими наработками с широким кругом читателей.Читать полностью »