Рубрика «визуализация данных»

Хабра-детектив: у вас картинка потерялась - 1
Вы когда-нибудь задумывались, сколько информации бесследно потеряно? Ведь информация — это то, ради чего Хабр существует. Знаете, что чаще всего случается с ресурсами основанными на пользовательских публикациях? Авторы вставляют изображения, картинки и видео со сторонних сайтов и через какое-то время они больше не доступны. Именно для этого когда-то был создан Habrastorage. Практика показала, что никто (кроме редакторов и нескольких энтузиастов) не загружает туда изображения самостоятельно. Потому в какой-то момент администрация Хабра сделала эту функцию автоматической — каждое изображение, которое встречается в публикации, автоматически загружается в хранилище и оттуда не пропадёт, пока существует сам Хабр. Конечно же, есть и исключения, но сейчас не о них.

Самая большая проблема во всей этой схеме с загрузкой изображений в Habrastorage произошла во время её внедрения. К тому моменту некоторые старые публикации уже были без рисунков, а потому такими и остались. Сегодня мы попробуем выяснить, сколько же графической информации потерял Хабр с момента своего рождения. Кроме того, может нам удастся найти что-то из пропавшего? Ведь раздражает эта заглушка "изображение не может быть загружено", не так ли? Сегодняшний детектив посвящён именно этому. Приступим!

Читать полностью »

Предыдущий выпуск

Новости ML, новые технологии, идеи по применению и гипотезы.

Nvidia GauGan

Изображение сделано в Nvidia GauGan. Видео, статья и исходный код.

Читать полностью »

Гибридные сортировки - 1

Как все уже знают, в основу сортировки могут быть положены обмены, вставки, выбор, слияние и распределение.

Но если в алгоритме комбинируются разные методы, то тогда он относится к классу гибридных сортировок.Читать полностью »

Время отчётности в Excel стремительно уходит — тренд на удобные инструменты представления и анализа информации виден во всех сферах. Мы давно обсуждали внутри цифровизацию построения отчётности и выбрали систему визуализации и self-service аналитики Tableau. Александр Безуглый, руководитель отдела аналитических решений и отчётности Группы «М.Видео-Эльдорадо», рассказал об опыте и итогах построения боевого дашборда.

Скажу сразу, не все, что было задумано, удалось реализовать, но опыт был интересный, надеюсь, он будет полезен и вам. А если у кого-то возникнут идеи, как можно было сделать лучше – буду очень признателен за советы и идеи.

Tableau в рознице, реально? - 1

Под катом о том, с чем мы столкнулись и о чем узнали.
Читать полностью »

Визуализация многомерных данных очень полезна для выявления их важных закономерностей и свойств. Для этой цели используются алгоритмы снижения размерности. Среди наиболее распространенных алгоритмов можно отметить метод главных компонент (англ. principal component analysis, PCA) и стохастическое вложение соседей с t-распределением (англ. t-distributed Stochastic Neighbor Embedding, t-SNE). Оба этих алгоритма обладают высокой временной сложностью: $inline$O(n^3)$inline$ у PCA, $inline$O(n^2)$inline$ у t-SNE, где $inline$n$inline$ — количество объектов. К тому же у t-SNE есть по меньшей мере 3 гиперпараметра, к подбору которых он очень чувствителен. Я хочу вам рассказать о новом алгоритме полигональной системы координат (англ. polygonal coordinate system, PCS). Это алгоритм без гиперпараметров и со сложностью $inline$O(n)$inline$ от числа объектов.
Читать полностью »

Введение

Понимание того, как классификатор разбивает исходное многомерное пространство признаков на множество целевых классов, является важным шагом для анализа любой задачи классификации и оценки решения, полученного с помощью машинного обучения.

Современные подходы к визуализации решений классификаторов в основном либо используют диаграммы рассеивания, которые могут отображать лишь проекции исходных обучающих выборок, но явно не показывают фактические границы принятия решений, либо используют внутреннее устройство классификатора (например kNN, SVM, Logistic Regression) для которых легко построить геометрическую интерпретацию. Такой способ не подойдет для визуализации, например, нейросетевого классификатора.

В статье "Image-based Visualization of Classifier Decision Boundaries" (Rodrigues et al., 2018) предлагается эффективный, красивый и достаточно простой альтернативный метод для визуализации решений классификатора, который лишен вышеописанных недостатков. А именно метод подходит для классификаторов любого вида и строит границы принятия решений с помощью изображений с произвольной частотой дискретизации.

Этот пост — краткий обзор основных идей и результатов из оригинальной статьи.

Читать полностью »

Хабра-анализ: когда лучше публиковать свой пост? - 1
Вы ведь заходите на Хабр больше одного раза в день? Не чтобы прочитать что-то полезное, а просто пролистать главную в поисках "чего бы добавить в список на прочитать позже"? Когда-то замечали, что посты, опубликованные посреди ночи, собирают меньше просмотров и рейтинга, чем дневные? А что скажете о публикациях, вишедших посреди выходных?

Когда я опубликовал предыдущий пост-анализ о зависимости показателей публикации от её длины, Exosphere в комментариях сказала, что "есть некоторая связь времени выхода и показателей публикации (но также корелляция слабая)". Вы ведь понимаете, что я не мог пройти мимо?

Итак, важно ли публиковаться на Хабре с 09:00 до 18:00? Или может только во вторники? А что скажете о дне после зарплаты? Период отпусков? Ну, вы поняли. Сегодня попробуем узнать временной рецепт лучшей публикации на свете.

Читать полностью »

Хабра-анализ: важна ли длина публикации? - 1
Вы ведь знаете, что Хабр — это вам не одна популярная социальная площадка с ограничением на длину публикации в 280 символов? И хотя периодически появляются посты длиной в один абзац, они достаточно редко встречают одобрение от вас, Хабра-жители.

Сегодня мы узнаем, правда ли, что длинные публикации более популярны, а короткие — наоборот. Или снова наоборот? В общем, есть ли на Хабре дискриминация по длине статьи.

Итак, 5 самых популярных хабов из раздела "Разработка". Все профильные, у всех по более чем 100 000 подписчиков. Что же они могут нам рассказать? Приступим!

Читать полностью »

Рисуем морозные узоры на SQL - 1

Немного SQL-магии под катом: математика, рекурсия, псевдографика.

Вспоминаем под Новый год формулу угла между векторами:
Рисуем морозные узоры на SQL - 2
Читать полностью »

Сортировка «Американский флаг» - 1


Чтобы понять принцип действия этой «многополосной» сортировки проще для начала разобраться на примере флага с тремя полосами. А чтобы легко разобраться с трёхцветным флагом, лучше сначала посмотреть, как это работает на примере двухцветного. А чтобы разобраться с двухцветным...Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js