Рубрика «визуализация данных» - 16

Предыдущий выпуск

Новости ML, новые технологии, идеи по применению и гипотезы.

Nvidia GauGan

Изображение сделано в Nvidia GauGan. Видео, статья и исходный код.

Читать полностью »

Гибридные сортировки - 1

Как все уже знают, в основу сортировки могут быть положены обмены, вставки, выбор, слияние и распределение.

Но если в алгоритме комбинируются разные методы, то тогда он относится к классу гибридных сортировок.Читать полностью »

Время отчётности в Excel стремительно уходит — тренд на удобные инструменты представления и анализа информации виден во всех сферах. Мы давно обсуждали внутри цифровизацию построения отчётности и выбрали систему визуализации и self-service аналитики Tableau. Александр Безуглый, руководитель отдела аналитических решений и отчётности Группы «М.Видео-Эльдорадо», рассказал об опыте и итогах построения боевого дашборда.

Скажу сразу, не все, что было задумано, удалось реализовать, но опыт был интересный, надеюсь, он будет полезен и вам. А если у кого-то возникнут идеи, как можно было сделать лучше – буду очень признателен за советы и идеи.

Tableau в рознице, реально? - 1

Под катом о том, с чем мы столкнулись и о чем узнали.
Читать полностью »

Визуализация многомерных данных очень полезна для выявления их важных закономерностей и свойств. Для этой цели используются алгоритмы снижения размерности. Среди наиболее распространенных алгоритмов можно отметить метод главных компонент (англ. principal component analysis, PCA) и стохастическое вложение соседей с t-распределением (англ. t-distributed Stochastic Neighbor Embedding, t-SNE). Оба этих алгоритма обладают высокой временной сложностью: $inline$O(n^3)$inline$ у PCA, $inline$O(n^2)$inline$ у t-SNE, где $inline$n$inline$ — количество объектов. К тому же у t-SNE есть по меньшей мере 3 гиперпараметра, к подбору которых он очень чувствителен. Я хочу вам рассказать о новом алгоритме полигональной системы координат (англ. polygonal coordinate system, PCS). Это алгоритм без гиперпараметров и со сложностью $inline$O(n)$inline$ от числа объектов.
Читать полностью »

Введение

Понимание того, как классификатор разбивает исходное многомерное пространство признаков на множество целевых классов, является важным шагом для анализа любой задачи классификации и оценки решения, полученного с помощью машинного обучения.

Современные подходы к визуализации решений классификаторов в основном либо используют диаграммы рассеивания, которые могут отображать лишь проекции исходных обучающих выборок, но явно не показывают фактические границы принятия решений, либо используют внутреннее устройство классификатора (например kNN, SVM, Logistic Regression) для которых легко построить геометрическую интерпретацию. Такой способ не подойдет для визуализации, например, нейросетевого классификатора.

В статье "Image-based Visualization of Classifier Decision Boundaries" (Rodrigues et al., 2018) предлагается эффективный, красивый и достаточно простой альтернативный метод для визуализации решений классификатора, который лишен вышеописанных недостатков. А именно метод подходит для классификаторов любого вида и строит границы принятия решений с помощью изображений с произвольной частотой дискретизации.

Этот пост — краткий обзор основных идей и результатов из оригинальной статьи.

Читать полностью »

Хабра-анализ: когда лучше публиковать свой пост? - 1
Вы ведь заходите на Хабр больше одного раза в день? Не чтобы прочитать что-то полезное, а просто пролистать главную в поисках "чего бы добавить в список на прочитать позже"? Когда-то замечали, что посты, опубликованные посреди ночи, собирают меньше просмотров и рейтинга, чем дневные? А что скажете о публикациях, вишедших посреди выходных?

Когда я опубликовал предыдущий пост-анализ о зависимости показателей публикации от её длины, Exosphere в комментариях сказала, что "есть некоторая связь времени выхода и показателей публикации (но также корелляция слабая)". Вы ведь понимаете, что я не мог пройти мимо?

Итак, важно ли публиковаться на Хабре с 09:00 до 18:00? Или может только во вторники? А что скажете о дне после зарплаты? Период отпусков? Ну, вы поняли. Сегодня попробуем узнать временной рецепт лучшей публикации на свете.

Читать полностью »

Хабра-анализ: важна ли длина публикации? - 1
Вы ведь знаете, что Хабр — это вам не одна популярная социальная площадка с ограничением на длину публикации в 280 символов? И хотя периодически появляются посты длиной в один абзац, они достаточно редко встречают одобрение от вас, Хабра-жители.

Сегодня мы узнаем, правда ли, что длинные публикации более популярны, а короткие — наоборот. Или снова наоборот? В общем, есть ли на Хабре дискриминация по длине статьи.

Итак, 5 самых популярных хабов из раздела "Разработка". Все профильные, у всех по более чем 100 000 подписчиков. Что же они могут нам рассказать? Приступим!

Читать полностью »

Рисуем морозные узоры на SQL - 1

Немного SQL-магии под катом: математика, рекурсия, псевдографика.

Вспоминаем под Новый год формулу угла между векторами:
Рисуем морозные узоры на SQL - 2
Читать полностью »

Сортировка «Американский флаг» - 1


Чтобы понять принцип действия этой «многополосной» сортировки проще для начала разобраться на примере флага с тремя полосами. А чтобы легко разобраться с трёхцветным флагом, лучше сначала посмотреть, как это работает на примере двухцветного. А чтобы разобраться с двухцветным...Читать полностью »

В уходящем году я столкнулся с довольно оригинальным и высокотехнологичным способом мошенничества. По всей видимости далеко не новым, но я раньше не встречал подробных описаний того как работают подобные схемы, так что попробую восполнить этот пробел.

Итак, в этой статье мы поговорим о мошенниках скрывающихся под видом торговых (STP) брокеров занимающихся маржинальной торговлей. Это ребята которые предоставляют услуги в покупке контрактов на акции компаний, контрактов FOREX и прочих CFD инструментов.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js