Рубрика «анализ данных» - 22

Pandasql vs Pandas для решения задач анализа данных

2016-03-14 в 10:40, admin, рубрики: pandas, pandasql, python, анализ данных

О чем речь?

В этой статье я бы хотела рассказать о применении python-библиотеки Pandasql.

Многие люди, сталкивающиеся с задачами анализа данных, уже, скорее всего, знакомы с библиотекой Pandas. Pandas позволяет быстро и удобно работать с табличными данными: фильтровать, группировать, делать join над данными; строить сводные таблицы и даже рисовать графики (для простых визуализации достаточно функции plot(), а если хочется чего-то позаковыристее, то поможет библиотека matplotlib). На Хабре не раз рассказывали о применении этой библиотеки для работы с данными: раз, два, три.

Но по моему опыту далеко не все знают о библиотеке Pandasql, которая позволяет работать с Pandas DataFrames как с таблицами и обращаться к ним, используя язык SQL. В некоторых задачах проще выразить желаемое с помощью декларативного языка SQL, поэтому я считаю, что людям, работающим с данными, полезно знать о наличии такой функциональности. Если говорить о реальных задачах, то я использовала эту библиотеку для решения задачи join'a таблиц по нечетким условиям (необходимо было объединить записи о событиях из разных систем по примерно совпадающему времени, разрыв порядка 5 секунд).

Рассмотрим использование этой библиотеки на конкретных примерах.
Читать полностью »

Как самостоятельно проанализировать рынок труда

2016-03-06 в 16:32, admin, рубрики: анализ данных, визуализация данных, открытые данные, поиск работы в it

На данный момент IT в целом — это одно из самых динамично развивающихся направлений. Каждый день появляется сотня новых библиотек, каждый месяц кто-нибудь придумывает новый язык или платформу — да что там, появляются целые направления. Время бежит и какие-то строки в Вашем резюме устаревают — грубо говоря, они больше не добавляют Вам очков в глазах работодателя. А какие-то навыки наоборот, могли бы существенно поднять Ваш рейтинг.
Как не потеряться в этом море возможностей, выбрать главное и не ошибиться? Очевидно, нужно держать руку на пульсе и отслеживать рынок труда. О том как это можно сделать с помощью собственного велосипеда — под катом.
Читать полностью »

5 отчётов, которые будут полезны каждому проекту

2016-03-04 в 10:46, admin, рубрики: анализ данных, аналитика, Аналитика мобильных приложений, аналитика приложений, Блог компании devtodev, интернет-маркетинг, мобильный маркетинг, монетизация игр

Конкуренция между приложениями за трафик и за единицу свободного времени пользователя постоянно усиливается. В таких суровых условиях важно правильно оценивать состояние своего проекта, находить узкие места и точки роста, принимать быстрые решения по его развитию – во всех этих ситуациях вам помогает аналитика. Мы в devtodev собрали подборку самых важных отчетов, которые пригодятся и маркетологу, и аналитику, и руководителю проекта.Читать полностью »

Приглашаем на Data Fest 5 и 6 марта

2016-02-25 в 15:59, admin, рубрики: data fest, data mining, data science, kaggle, mail.ru, Алгоритмы, анализ данных, Блог компании Mail.Ru Group, конференция, машинное обучение

Приглашаем на Data Fest 5 и 6 марта - 1

5 и 6 марта в московском офисе компании Mail.Ru Group состоится Data Fest² — двухдневная серия митапов российских Data Science-сообществ Moscow Data Fest и Moscow Data Science. Data Fest² — это конференция, на которой участникам представится возможность познакомиться с разными направлениями в современном анализе данных: от сугубо практических вопросов внедрения результатов исследований до самых последних теоретических разработок в анализе текстов и глубоком обучении.

В рамках конференции также пройдут два мероприятия, где все участники смогут проявить себя: хакатон для желающих посоревноваться друг с другом в предсказании исхода турнира по Dota 2 и питч-постер сессия для исследователей, где можно будет представить результаты своих исследований и разработок.
Читать полностью »

Школа Данных «Билайн», для менеджеров

2016-02-08 в 8:02, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных

Школа Данных «Билайн», для менеджеров - 1

Привет!

Итак, мы запустили третий курс Школы Данных «Билайн». Подробный отчет о занятиях от одного из участников можно почитать здесь.

Отчеты о работе Школы мы также будем выкладывать на официальной странице Школы в Facebook. Там же будем отвечать на вопросы, которые также можно направлять на dataschool@beeline.digital.

Набираем 4-ый курс, который стартует с 4 апреля. Запись, как всегда, на странице Школы.

Однако, данный пост не только об этом. До сих пор в Школе Данных мы учили аналитиков, учили тому, как применять методы машинного обучения для решения практических задач. Однако, практически любая практическая задача начинается с бизнес-потребности и бизнес- постановки.

Мы сейчас не будем говорить о том, что на заре больших данных считалось, что основные инсайты и применения аналитики идут скорее от данных. Это безусловно есть, но в нашей практике это происходит в соотношении 80 к 20, где 80 процентов всех задач для аналитика или даже больше рождается от бизнеса.

Однако, как же бизнес генерит эти задачи, если он, бизнес, не разбирается в аналитике данных? Да, очень просто. В нашей компании мы потратили какое-то время на объяснение бизнесу возможностей аналитики данных и теперь разные подразделения заваливают нас заказами придумывая все новые применения этим инструментам.
Читать полностью »

6 задач создания курсов по machine learning

2016-02-07 в 20:22, admin, рубрики: data analysis, data science, machine learning, анализ данных, Блог компании Московский физико-технический институт (МФТИ), машинное обучение, управление проектами, Учебный процесс в IT

На платформе Coursera запускается специализация по анализу данных и машинному обучению от специалистов из Яндекс и МФТИ. Специализация состоит из 6 курсов, которые будут стартовать с февраля до июля. На первый можно записаться уже сейчас.

В основе обучения на курсах лежит решение реальных задач анализа данных. Но чтобы сделать специализацию максимально удобной для изучения, его создатели тоже решали задачи. И решили! В этом посте они сами рассказывают о результатах.

Читать полностью »

AI, BigData & HPC Digest #4

2016-02-06 в 13:24, admin, рубрики: AI, big data, BigData, data mining, FlyElephant, high performance computing, HPC, R, анализ данных, Блог компании FlyElephant, Большие данные, видео, высокая производительность, дайджест, искусственный интеллект, Мероприятия, Новости, подкасты, статьи

alt

Команда FlyElephant подготовила для Вас новый дайджест, включающий в себя подборку ссылок на интересные материалы по направлениям: искусственный интеллект, большие данные и высокопроизводительные вычисления.
Читать полностью »

Census Analyzer 1.0: новый инструмент для анализа данных

2016-02-01 в 16:57, admin, рубрики: big data, data mining, анализ данных, Блог компании JetBrains, визуализация данных, машинное обучение, новый продукт

Привет!

Мы в компании JetBrains только что выпустили Census Analyzer — новое веб-приложение для визуализации и анализа данных. Попробуйте его и расскажите нам, что вы думаете!

Census Analyzer является прототипом, “preview”-версией, призванной познакомить пользователей с принципами работы более глобального продукта по анализу данных, который пока в разработке. Но уже сейчас с помощью Census Analyzer вы можете в облаке анализировать данные Бюро переписи населения США (US Census Bureau), работать с графиками и сводными таблицами, составлять графические отчеты, публиковать их и делиться ими в сети.

Давайте посмотрим, чем отличается Census Analyzer.

Читать полностью »

Используем Apache Spark как SQL Engine

2016-01-21 в 8:52, admin, рубрики: Apache, Apache Spark, big data, open source, spark sql, sql, анализ данных, Блог компании Wrike

Используем Apache Spark как SQL Engine - 1

Привет! Мы, Wrike, ежедневно сталкиваемся с потоком данных от сотен тысяч пользователей. Все эти сведения необходимо сохранять, обрабатывать и извлекать из них ценность. Справиться с этим колоссальным объёмом данных нам помогает Apache Spark.

Мы не будем делать введение в Spark или описывать его положительные и отрицательные стороны. Об этом вы можете почитать здесь, здесь или в официальной документации. В данной статье мы делаем упор на библиотеку Spark SQL и её практическое применение для анализа больших данных.

Читать полностью »

Школа Данных «Билайн», каникулы закончились

2016-01-15 в 12:22, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных

Школа Данных «Билайн», каникулы закончились - 1

Привет!

Надеемся, что в Новогодние праздники многие из Вас отлично отдохнули. Но, каникулы закончились. Пора вернуться к машинному обучению и анализу данных. С 25 января мы запускаем третий набор Школы Данных «Билайн».

В прошлом посте мы обещали вам более детально рассказать, чему мы учим на наших занятиях по анализу текстов. В данном посте мы данное обещание исполняем.

Кстати, если вы уже активно занимаетесь анализом и обработкой текстов и хотите попробовать себя, рекомендуем поиграться с задачей The Allen AI Science Challenge на Kaggle=) и заодно поучаствовать в DeepHack, хакатоне по анализу текстов и построению ответных систем.

Про то, чему мы учим на наших занятиях по обработке текстов дальше.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «анализ данных» - 22

Pandasql vs Pandas для решения задач анализа данных

О чем речь?

Как самостоятельно проанализировать рынок труда

5 отчётов, которые будут полезны каждому проекту

Приглашаем на Data Fest 5 и 6 марта

Школа Данных «Билайн», для менеджеров

6 задач создания курсов по machine learning

AI, BigData & HPC Digest #4

Census Analyzer 1.0: новый инструмент для анализа данных

Используем Apache Spark как SQL Engine

Школа Данных «Билайн», каникулы закончились

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «анализ данных» - 22

О чем речь?

Новости

Актуальные темы

Архив