Рубрика «visualization» - 2

Анализ результатов 2018 Kaggle ML & DS Survey

2019-01-09 в 11:00, admin, рубрики: kaggle, machine learning, ods, python, visualization, Блог компании Open Data Science, визуализация данных, демография, Исследования и прогнозы в IT, машинное обучение

Анализ результатов 2018 Kaggle ML & DS Survey - 1

Kaggle — известная платформа для проведения соревнований по машинному обучению на которой количество зарегистрированных пользователей перевалило за 2.5 миллиона. В соревнованиях участвуют тысячи data scientist из разных стран, и Kaggle стал интересоваться тем, что из себя представляет аудитория. В октябре 2018 года был организован уже второй опрос и на него ответило 23859 людей из 147 стран.

В опросе было несколько десятков вопросов на самые разные темы: пол и возраст, образование и сфера работы, опыт и навыки, используемые языки программирования и софт и многое другое.
Но Kaggle — не просто площадка для соревнований, там также можно публиковать исследования данных или решения соревнований (они называются кернелы и похожи на Jupyter Notebook), поэтому датасет с результатами опроса был выложен в открытый доступ, и было организовано соревнование на лучшее исследование этих данных. Я тоже принимал участие и пусть денежный приз не получил, но мой кернел занял шестое место по количеству голосов. Я хотел бы поделиться результатами моего анализа.

Данных довольно много и их можно рассматривать с разных сторон. Меня заинтересовали различия между людьми из разных стран, поэтому большая часть исследования будет сравнивать людей из России (поскольку мы тут живём), Америки (как самая продвинутая страна в плане DS), Индии (как бедная страна с большим количеством DS) и других стран.

Большая часть графиков и анализа взята из моего кернела (желающие могут там увидеть код на Python) но есть и новые идеи.

Читать полностью »

Визуализация данных при помощи Angular и D3

2018-06-24 в 17:24, admin, рубрики: angular, angular2, angular5, D3, d3.js, data, datavisualization, javascript, TypeScript, visualization

D3.js — это JavaScript библотека для манипулирования документами на основе входных данных. Angular — фреймворк, который может похвастаться высокой производительностью привязки данных.

Ниже я рассмотрю один хороший подход по использованию всей этой мощи. От симуляций D3 до SVG-инъекций и использования синтаксиса шаблонизатора.

Демо: положительные числа до 300 соединенные со своими делителями.
Читать полностью »

Визуализация процесса обучения нейронной сети средствами TensorFlowKit

2017-11-22 в 9:29, admin, рубрики: AI, data mining, iOS, machine learning, swift, TensorFlow, visualization, машинное обучение, разработка под iOS

Hint

Перед прочтением этой статьи советую ознакомиться с предыдущей статьей о TensorFlowKit и поставить star репозиторию.

Я не люблю читать статьи, сразу иду на GitHub

GitHub: TensorFlowKit
GitHub: Example
GitHub: Другое
TensorFlowKit API
Посeтив репозиторий, добавьте его в «Stars» это поможет мне написать больше статей на эту тему.

Начиная работать в сфере машинного обучения, мне было тяжело переходить от объектов и их поведений к векторам и пространствам. Сперва все это достаточно тяжело укладывалось в голове и далеко не все процессы казались прозрачными и понятными с первого взгляда. По этой причине все, что происходило внутри моих наработок, я пробовал визуализировать: строил 3D модели, графики, диаграммы, изображения и тд.

Говоря об эффективной разработке систем машинного обучения, всегда поднимается вопрос контроля скорости обучения, анализа процесса обучения, сбора различных метрик обучения и тд. Особая сложность заключается в том, что мы (люди) привыкли оперировать 2х и 3х мерными пространствами, описывая различные процессы вокруг нас. Процессы внутри нейронных сетей происходят в многомерных пространствах, что серьезно усложняет их понимание. Осознавая это, инженеры по всему миру стараются разработать различные подходы к визуализации или трансформации многомерных данных в более простые и понятные формы.

Существуют целые сообщества, решающие такого рода задачи, например Distill, Welch Labs, 3Blue1Brown.
Читать полностью »

Barnes-Hut t-SNE и LargeVis: визуализация больших объёмов данных

2017-11-03 в 6:08, admin, рубрики: data analysis, data mining, data science, exploratory data analysis, large data, tsne, visualization, Алгоритмы, математика, машинное обучение

Наборами данных в миллионы экземпляров в задачах машинного обучения уже давным давно никого не удивишь. Однако мало кто задаётся вопросом, как качественно визуализировать эти титанические пласты информации. Когда размер датасета превышает миллион, становится довольно грустно использовать стандартный t-SNE; остаётся играться с даунсэмплированием или вовсе ограничиваться грубыми статистическими инструментами. Но на каждую задачу найдётся свой инструмент. В своей статье я бы хотел рассмотреть два алгоритма, которые преодолевают барьер квадратичной сложности: уже хорошо известный Barnes-Hut t-SNE и новый претендент на звание «золотого молотка infovis'a» LargeVis.

Barnes-Hut t-SNE и LargeVis: визуализация больших объёмов данных - 1

(Это не картина художника-абстракциониста, а визуализация LiveJournal-датасета с высоты птичьего полёта)
Читать полностью »

Визуализация результатов выборов в Москве на карте в Jupyter Notebook

2017-09-25 в 11:00, admin, рубрики: data mining, jupyter notebook, python, visualization, Блог компании Open Data Science, визуализация данных, Геоинформационные сервисы, картограмма, картография

Визуализация результатов выборов в Москве на карте в Jupyter Notebook - 1
Всем привет!

Сегодня мы поговорим о визуализации геоданных. Имея на руках статистику, явно имеющую пространственную привязку, всегда хочется сделать красивую карту. Желательно, с навигацией да инфоокнами В тетрадках. И, конечно же, чтоб потом можно было показать всему интернету свои успехи в визуализации!

В качестве примера возьмем недавно отгремевшие муниципальные выборы в Москве. Сами данные можно взять с сайта мосгоризбиркома, в можно просто забрать датасеты с https://gudkov.ru/. Там даже есть какая-никакая визуализация, но мы пойдем глубже. Итак, что же у нас в итоге должно получиться?

Читать полностью »

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

2017-03-06 в 12:58, admin, рубрики: data mining, data science, mlcourse_open, ods, plotly, python, seaborn, tsne, visualization, анализ данных, Блог компании Open Data Science, визуализация данных, машинное обучение

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python - 1

Привет всем, кто начал проходить курс! Новые участники, добро пожаловать! Второе занятие посвящено визуализации данных в Python. Сначала мы посмотрим на основные методы библиотек Seaborn и Plotly, затем поанализируем знакомый нам по первой статье набор данных по оттоку клиентов телеком-оператора и подглядим в n-мерное пространство с помощью алгоритма t-SNE.

Напомним, что к курсу еще можно подключиться, дедлайн по 1 домашнему заданию – 6 марта 23:59.

Сейчас статья уже будет существенно длиннее. Готовы? Поехали!

Читать полностью »

Визуализация инструментов обработки данных с Github

2016-03-29 в 9:31, admin, рубрики: big data, github, Hadoop, mysql, nosql, postgres, postgresql, spark, sql, visualization

В своей работе вы используете MySQL, Postgres или Mongo, а может даже Apache Spark? Хотите знать с чего начинались эти проекты и куда они движутся сейчас? В этой статье я представлю соответствующую визуализацию

Визуализация инструментов обработки данных с Github - 1

Читать полностью »

Визуализация CSS файлов

2015-02-13 в 7:59, admin, рубрики: css, node.js, specificity, visualization, Веб-разработка

Некоторое время назад мне стало интересно посмотреть, как выглядит CSS код нашего проекта, и как он менялся в течение целого года. Так на свет появился проект node-specificity. Что он делает? Он позволяет получить ответы на следующие вопросы:

Как много селекторов в коде? Как их количество изменялось со временем?
Каковы максимальное и среднее значения специфичности селекторов? Какова медиана? Как они изменялись со временем?
Как выглядит распределение специфичности селекторов? Как оно изменялось со временем?
В скольких селекторах используется !important директива? Как их количество изменялось со временем?

Визуализация CSS файлов - 1
Хорошо, почему это вообще важно? Может быть и нет, пока вы не работаете c кодом, состоящим из десятков тысяч строк, который сложно поддерживать, или вы довольно много экспериментируете. Ну и, конечно, если это не важно, то, по крайней мере, это должно показаться интересным.
Читать полностью »

BlackHole.js с привязкой к картам leaflet.js

2014-10-21 в 11:33, admin, рубрики: blackhole.js, data visualization, dataviz, filereader, Google Maps, javascript, javascript library, maps, Maps API, visualization, визуализация данных

Приветствую вас, сообщество!

Хочу предложить вашему вниманию, все таки доведенную до определенной точки, свою библиотеку для визуализации данных blackHole.js использующую d3.js.
Данная библиотека позволяет создавать визуализации подобного плана:
картинки кликабельные
или

Статья будет посвящена примеру использования blackHole.js совместно с leaflet.js и ей подобными типа mapbox.
Но так же будут рассмотрено использование: google maps, leaflet.heat.

Получится вот так =)

Поведение точки зависит от того где я находился по мнению google в определенный момент времени

Посмотрите, а как перемещались вы?...
Читать полностью »

Lean Big Data на 6 сервисах Google

2014-07-18 в 3:51, admin, рубрики: big data, Big Query, dashboard, Google, google analytics, Google Charts, Hadoop, lean, spreadsheets, visualization, визуализация данных

Здравствуй Хабр! Хочу рассказать как мы делали свою собственную Big Data.

Каждый стартап хочет собрать что-то дешевое, качественное и гибкое. Обычно так не бывает, но у нас, похоже, получилось! Ниже идёт описание нашего решения и много моего сугубо субъективного мнения по этому поводу.

И да, секрет в том, что используется 6 сервисов гугла и собственного кода почти не писалось. Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «visualization» - 2

Анализ результатов 2018 Kaggle ML & DS Survey

Визуализация данных при помощи Angular и D3

Визуализация процесса обучения нейронной сети средствами TensorFlowKit

Barnes-Hut t-SNE и LargeVis: визуализация больших объёмов данных

Визуализация результатов выборов в Москве на карте в Jupyter Notebook

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

Визуализация инструментов обработки данных с Github

Визуализация CSS файлов

BlackHole.js с привязкой к картам leaflet.js

Lean Big Data на 6 сервисах Google