Рубрика «визуализация данных» - 55

Рассмотрим такую задачу: есть 1000 новостных сайтов, например: engadget.com, huffingtonpost.com, sbnation.com. Их нужно распределить по классам про игры, про бизнес и финансы, про IT, про кино и музыку, например. Как это сделать? Можно просто брать один сайт за другим и назначать ему класс, но чтобы обработать таким образом 1000 сайтов нужно иметь крепкую психику и уйму времени. Можно сделать более технично: взять граф похожих сайтов, выделить интересующий подграф на 1000 вершин и кластеризовать его. Про граф похожих сайтов было написано несколько месяцев назад мной и ребятами из DCA. Граф про новостные сайты будет выглядеть примерно так:
Полуавтоматическая классификация сайтов - 1

Действительно, некоторые классы получается выделить автоматически, например «игры» и «технологии»:
Полуавтоматическая классификация сайтов - 2
Читать полностью »

Вольвеллы – «аналоговые приложения» прошлого из бумаги - 1
Это — аналоговое бумажное «приложение», вольвелла. То, что на фото — полетный портативный компьютер (относительно современная вольвелла)

Каждая современная программа благодаря своему продуманному (будем оптимистично смотреть на вещи) интерфейсу позволяет человеку быстро получать нужную информацию. Для того, чтобы получить данные, нужно поводить по экрану кончиком пальца, и — вуаля, информация уже здесь. Возможно, вы будете удивлены, но эта идея не появилась в наше время. Ей сотни лет!

Конечно, многие десятки, а то и сотни лет назад не было никаких экранов, тем более, сенсорных. Зато были так называемые вольвеллы, их вполне можно назвать предками современных приложений. Что такое вольвелла? Об этом давайте поговорим чуть ниже, а сейчас – представим, как определяли время в старину без наличия портативного часового механизма.
Читать полностью »

На пост натолкнул регрессионный анализ PlayBoy моделей бегло на MatLab здесь и продолжение использования этого датасета для анализа выбросов методом опорных векторов на питоне
здесь.
Собственно цель поста — провести беглую диагностику модели регрессионного анализа используя в языке R пакет CAR созданный Джонном Фоксом и сотоварищами а так же попробуем найти те же выбросы методами регрессии (насколько возможно применять формулировку «выброс» к таким объектам исследований).
Читать полностью »

3D-лаборатория для людей из МИЭМа, сующих голову внутрь прототипов трассировки печатных плат - 1

В конце 2014 года был сдан в эксплуатацию новый учебно-административный комплекс МИЭМ НИУ ВШЭ в Строгине, где реализовано много разных крутых вещей для обучения студентов. Один из таких проектов — лаборатория для прототипирования электронно-вычислительных средств. Под это дело был выделен небольшой бюджет, выбраны мы в качестве подрядчика. И дальше мы решали не совсем типичную задачу по созданию комнаты, где вокруг вас летают разные виртуальные 3D-объекты. Например, чтобы было удобно разбираться в электронных микросхемах.

Для достижения эффекта обратной проекции (это когда ты проходишь мимо экрана, но тень при этом на него не отбрасывается) пришлось применять творческое воображение и как раз ту самую математику, которую бодро осваивают студенты.Читать полностью »

Теория визуализации информации. Часть 1 - 1

Мне нравится открывать для себя новые способы мышления. Особенно нравится наблюдать, как смутная идея трансформируется в конкретную концепцию. Ярким примером этого является теория информации.

Теория информации дает нам точный язык для описания многих вещей. Какова степень неопределённости? Как ответить на вопрос B, зная ответ на вопрос A? Чем похож один набор убеждений на другой?

Когда я был ребенком, у меня имелись некоторые нестандартные мысли по этому поводу, но именно теория информации сформировала их в конкретные, мощные идеи, которые имеют множество сфер применения: от сжатия данных до квантовой физики и машинного обучения.

Теория информации выглядит пугающей, но я думаю, что это не так. На самом деле, многие основные идеи можно наглядно объяснить.Читать полностью »

imageВ то время как за окном температура на пути к очередным рекордам, интересно посмотреть, а какие вообще бывали температуры в произвольный интервал времени, за любые года за последние несколько десятилетий в 30 000 точках по всему миру. А может не прогадать с днями отпуска, и взять их в те дни, когда есть какое-то «статистическое преимущество» в выбранном местоположении по теплой погоде, а может быть по холодной, оценив его визуально на любой из трех типов диаграмм. Ну или можно просто повращать глобус, визуально оценить разнообразие температур и «как прекрасен этот мир».
Читать полностью »

image

Atlassian Confluence — мощное решение для развертывания Enterprise Wiki в организации (хотя, нет никаких технических проблем с тем, чтобы использовать его и дома — лицензия на 10 пользователей стоит всего 10 американских долларов в год). И лично мне Confluence нравится тем, что имеет дружелюбный интерфейс и позволяет интуитивно понятно редактировать контент, с легкостью дополняя его визуальными составляющими, что позволяет в итоге получить красивые и удобные для просмотра страницы. Кстати, этот пост тоже написан в Confluence.
Читать полностью »

«Война и мир» – испытание временем - 1

4 декабрьских дня подряд, порядка 1300 человек на протяжении 60 часов из 30 городов читали «Войну и мир». Беспрецедентный мультимедийный проект от ВГТРК, в течении которого произведение Льва Толстого было прочитано от первой и до последней строчки. Проект захватывает своей грандиозностью и тянет на книгу рекордов Гиннесса.

Помимо литературного марафона была выпущена серия интерактивных инфографических работ под эгидой аналитического сообщества Tolstoy Digital. Каждая инфографика, а всего их 4, анализирует произведение под различнымы углами: человеческие отношения, места, время, история, предметы, культура в целом.

Под катом отрывки из романа, немного кода и мои мысли по процессу инфографирования данных на примере событийного таймлайна.
Читать полностью »

image

Кто-то ждёт рождества, кто-то – новой серии Звёздных войн, «Пробуждение силы». А в это время я решила обработать весь шестисерийный цикл с количественной точки зрения и вычленить социальные сети, содержащиеся в нём – как из каждого фильма по отдельности, так и из всей вселенной ЗВ вместе. Пристальное разглядывание соцсетей выявляет интересные различия между оригинальными частями и их приквелами.

Ниже – соцсеть, добытая из всех 6 фильмов в сумме.

image

открыть
Читать полностью »

Смотрите в оба или немного об инфографике - 1

Сегодня, в век информационных технологий и коммуникаций люди перестают читать. Люди перестают читать художественную литературу, газеты, журналы и уж тем более научные публикации. Если вдруг некто захотел узнать что-то новое, он залез в интернет, открыл статью и не стал её читать в полном смысле этого слова. Человек «сканирует» информацию глазами, находит интересные для себя моменты, бегло читает их, бежит дальше и вскоре все забывает. Как помочь человеку узнать что-то новое? Как сделать это интереснее? И как помочь запомнить хоть что-то из увиденного? Об этом дальше, но для начала небольшое видео.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js