Рубрика «Большие данные»

Как машины анализируют большие данные: введение в алгоритмы кластеризации - 1

Перевод How Machines Make Sense of Big Data: an Introduction to Clustering Algorithms.

Взгляните на картинку ниже. Это коллекция насекомых (улитки не насекомые, но не будем придираться) разных форм и размеров. А теперь разделите их на несколько групп по степени похожести. Никакого подвоха. Начните с группирования пауков.

Как машины анализируют большие данные: введение в алгоритмы кластеризации - 2
Читать полностью »

1. Постановка задачи

Наборы числовых упорядоченных данных можно разделить на две группы: гауссовы и странные (негауссовы). Если к гауссовым данным можно применять количественное сравнение, то к странным данным такой подход неприменим ввиду их относительности и отсутствия стандарта, что оставляет возможным лишь качественный анализ, который во многих случаях является неоднозначным и трудоемким. При этом такие данные широко распространены, а задача их анализа является актуальной для многих областей науки.

Далее будет представлен вычислительный метод, преобразующий исходные негауссовы данные в гауссовы, что позволяет в дальнейшем сравнивать количественно структурные характеристики больших наборов данных.

Читать полностью »

image

Что школьники говорят про олимпиаду:

  • «Это похоже на олимпиаду, которую пишут в школе, только раз в пять сложнее.»
  • «Космос — это здорово, но металл лучше. Немножечко.»
  • «Ищу команду. 11 класс. На С++ с рождения.»
  • «Хотел бы воплотить в жизнь портал-пушку из Рика и Морти.»

Что происходило на самом деле:

  • Семиклассники ловят мюоны.
  • От школьников сбежала рыба.
  • В бассейне поселилась выдра.
  • Школьник взломал зачетный этап по ИК-каналу.
  • 7-ми и 9-ти классницы победили 11-ти классников.
  • Команда написала алгоритм предсказаний, который предсказал, что с этим алгоритмом они проиграют.

Для начала — пару задачек, чтоб всё с самого начала было ясно. А потом — подробности.
Читать полностью »

Как создать приложение c 3D аналитикой для iPhone за пару часов? - 1

Существует множество трендов и направлений в анализе данных, и все мы знакомы с популярными словами Business Intelligence, Big Data, Machine Learning и т.д. Эти слова знакомы сейчас даже тем, кто не знает как написать SQL-запрос, не знаком с правилами визуализации и отображения информации, и тем более не сможет написать Python-скрипт. Но всегда в нас остаётся незыблемое желание, воплощение мечты любого руководителя и/или даже аналитика данных: «нажимаешь на клавишу» и через миллисекунды нам уже приходит ответ на вопрос «Что делать?», а желательно пусть сразу «Прибыль компании увеличена».

Читать полностью »

Каждый год ученые, аналитики, профессионалы сфере IT, да и просто блогеры и обычные юзеры делают прогнозы на будущий год. Какой продукт или технология выстрелит, что уйдет в тень или прекратит свое грандиозное восхождение на олимп IT славы, а что медленно и верно будет прогрессировать, и занимать все больше места в сердцах и устройствах юзеров?

Вспомнить всё. Ожидание и реальность в сфере IT: 2017 vs 2018 - 1

Мы тоже не остались в стороне. Порыскав во всемирной паутине, мы собрали самые частые и громкие прогнозы на 2017 года. Что же произошло – оправдались ли ожидания или они разбились о суровую действительность?
Возможно, вы тоже делали какие-либо прогнозы, поэтому сейчас у вас есть отличная возможность понять насколько точны были ваши предсказания.
Ну и конечно же, соблюдая все традиции интернет сообщества, во второй части мы попробуем спрогнозировать, что же нам принесет 2018 год. Промерим через годик.
Читать полностью »

Disclaimer

Все мы видим, что сфера продвинутой аналитики набирает обороты и все больше специалистов интересуются данной областью. При этом понятной и доступной информации о построении процесса бизнес-анализа при разработке аналитических приложений в открытых источниках не так много. Поэтому очень сложно определиться с правильным рецептом (последовательностью действий) в рамках данного направления. В связи с этим я решил систематизировать ключевые ингредиенты и поделиться с вами пошаговой инструкцией, которая описывает действия аналитика по проработке предметной области и превращении туманной задачи «сделай то, не знаю что» в детальные требования к будущему приложению.

Построение процесса бизнес-анализа в проектах по разработке BI-приложений с продвинутой визуализацией - 1

Читать полностью »

«Мы разработали более совершенные технологии для подбора обуви на Amazon, чем для выбора типа лечения больных раком», — так отзывается профессор MIT Регина Барзилай (Regina Barzilay) о текущем состоянии высокотехнологичных медицинских проектов. Оценка неутешительная: зачастую «популярные» направления, такие как электронная коммерция, по уровню использующихся технологий опережают более социально важные сферы.

Однако есть и хорошие новости: решения, которые разрабатывались для условного «поиска обуви» можно использовать и для помощи больным. И спрос на такие разработки только растет: по прогнозам агентства Frost & Sullivan, объем одного только рынка медицинских разработок, использующих машинное обучение и большие данные, увеличивается на 40% ежегодно и к 2021 году составит 6,6 миллиардов долларов.

Сегодня расскажем о том, как большие данные используются в медицинских проектах и какие разработки в этом направлении ведутся в Университете ИТМО.

Большие данные и машинное обучение: новые возможности для медицины - 1Читать полностью »

image

Когда я сдавал экзамены в универе, я всегда садился готовиться на ближайшую к преподу парту и никогда не шел первым, а пропускал вперед 8-10 человек. Тем самым я успевал «подслушать» дополнительные вопросы и, частично, ответы на них.

И тут у меня возникла идея, как сделать подсказки по олимпиаде для тех старшеклассников, которые читают Хабр (что говорит о том, что у них действительно продвинутые мозги). Я нашел тех ребят, которые показали отличные результаты на предыдущих олимпиадах НТИ и поспрашивал их, какие дополнительные материалы могут помочь разобраться в теме лучше и дадут дополнительные преимущества на завершающем практическом этапе.

Прием заявок на олимпиаду идет до 22 октября, а там есть еще время подготовиться.
Читать полностью »

У Одноклассников не отнять главного — это вторая по посещаемости соцсеть в России (4-е место среди всех сайтов Рунета). А, например, в Армении и вовсе первая. Миллионы людей ежедневно заходят на сайт сети и оставляют там терабайты данных, которые можно анализировать. Какие данные соцсеть собирает с пользователей? На каком стеке можно влегкую обрабатывать десятки терабайт данных в сутки? И всегда ли больше данных — лучше?
 
Big Data и Одноклассники: как поступают с данными во 2-й по посещаемости соцсети в России - 1

Мы взяли интервью у Дмитрия Бугайченко, который рассказал нам про Big data в Одноклассниках.
 
Читать полностью »

Что значит имя? Роза пахнет розой,
Хоть розой назови ее, хоть нет.

  • Шекспир "Ромео и Джульетта" (пер. Пастернака)

Ромео и Джульетта

Данная статья не может служить поводом для выражения нетолерантности или дискриминации по какому-либо признаку.

В этой статье я расскажу о том, что несмотря на то, каким бы странным это не казалось для образованного человека, вероятность быть одинокой/одиноким зависит от имени человека. То есть, по сути, мы поговорим про любовь и отношения.

Это примерно все равно, что сказать: вероятность быть сбитым машиной, если тебя зовут Сережа, выше, чем если бы тебя звали Костя! Звучит довольно дико, не правда ли? Ну, как минимум, ненаучно. Однако социальные сети сделали возможным сравнительно просто проверить приведенное выше утверждение.

Подробно мы рассмотрим только девушек, а про мужчин поговорим в самом конце. Более того, я не ставлю своей целью установить причину происходящего или даже выдвинуть какую-то сколько угодно серьезную гипотезу, а хочу лишь рассказать о своих наблюдениях и фактах, которые можно измерить.

Читать полностью »