Рубрика «Большие данные»

Памятки по искусственному интеллекту, машинному обучению, глубокому обучению и большим данным - 1

В течение нескольких месяцев мы собирали памятки по искусственному интеллекту, которыми периодически делились с друзьями и коллегами. В последнее время сложилась целая коллекция, и мы добавили к памяткам описания и/или цитаты, чтобы было интереснее читать. А в конце вас ждёт подборка по сложности «О большое» (Big-O). Наслаждайтесь.
Читать полностью »

Как мы в хакатоне AI.HACK победили, или Когда нужно выключить искусственный интеллект и включить естественный - 1

В марте команда наших разработчиков с гордым названием «Руки-Ауки» двое суток неусыпно сражалась на цифровых полях хакатона AI.HACK. Всего было предложено пять задач от разных компаний. Мы сосредоточились на задаче «Газпромнефти»: прогнозирование спроса на топливо со стороны В2В-клиентов. Нужно было по обезличенным данным — регион приобретения топлива, номер заправки, вид топлива, цена, дата и ID-клиента — научиться прогнозировать, сколько в будущем купит тот или иной клиент. Забегая вперёд — наша команда решила эту задачу с наивысшей точностью. Клиенты были разбиты на три сегмента: крупные, средние и мелкие. И помимо основной задачи мы также построили прогноз суммарного потребления по каждому из сегментов.
Читать полностью »

Как машины анализируют большие данные: введение в алгоритмы кластеризации - 1

Перевод How Machines Make Sense of Big Data: an Introduction to Clustering Algorithms.

Взгляните на картинку ниже. Это коллекция насекомых (улитки не насекомые, но не будем придираться) разных форм и размеров. А теперь разделите их на несколько групп по степени похожести. Никакого подвоха. Начните с группирования пауков.

Как машины анализируют большие данные: введение в алгоритмы кластеризации - 2
Читать полностью »

1. Постановка задачи

Наборы числовых упорядоченных данных можно разделить на две группы: гауссовы и странные (негауссовы). Если к гауссовым данным можно применять количественное сравнение, то к странным данным такой подход неприменим ввиду их относительности и отсутствия стандарта, что оставляет возможным лишь качественный анализ, который во многих случаях является неоднозначным и трудоемким. При этом такие данные широко распространены, а задача их анализа является актуальной для многих областей науки.

Далее будет представлен вычислительный метод, преобразующий исходные негауссовы данные в гауссовы, что позволяет в дальнейшем сравнивать количественно структурные характеристики больших наборов данных.

Читать полностью »

image

Что школьники говорят про олимпиаду:

  • «Это похоже на олимпиаду, которую пишут в школе, только раз в пять сложнее.»
  • «Космос — это здорово, но металл лучше. Немножечко.»
  • «Ищу команду. 11 класс. На С++ с рождения.»
  • «Хотел бы воплотить в жизнь портал-пушку из Рика и Морти.»

Что происходило на самом деле:

  • Семиклассники ловят мюоны.
  • От школьников сбежала рыба.
  • В бассейне поселилась выдра.
  • Школьник взломал зачетный этап по ИК-каналу.
  • 7-ми и 9-ти классницы победили 11-ти классников.
  • Команда написала алгоритм предсказаний, который предсказал, что с этим алгоритмом они проиграют.

Для начала — пару задачек, чтоб всё с самого начала было ясно. А потом — подробности.
Читать полностью »

Как создать приложение c 3D аналитикой для iPhone за пару часов? - 1

Существует множество трендов и направлений в анализе данных, и все мы знакомы с популярными словами Business Intelligence, Big Data, Machine Learning и т.д. Эти слова знакомы сейчас даже тем, кто не знает как написать SQL-запрос, не знаком с правилами визуализации и отображения информации, и тем более не сможет написать Python-скрипт. Но всегда в нас остаётся незыблемое желание, воплощение мечты любого руководителя и/или даже аналитика данных: «нажимаешь на клавишу» и через миллисекунды нам уже приходит ответ на вопрос «Что делать?», а желательно пусть сразу «Прибыль компании увеличена».

Читать полностью »

Каждый год ученые, аналитики, профессионалы сфере IT, да и просто блогеры и обычные юзеры делают прогнозы на будущий год. Какой продукт или технология выстрелит, что уйдет в тень или прекратит свое грандиозное восхождение на олимп IT славы, а что медленно и верно будет прогрессировать, и занимать все больше места в сердцах и устройствах юзеров?

Вспомнить всё. Ожидание и реальность в сфере IT: 2017 vs 2018 - 1

Мы тоже не остались в стороне. Порыскав во всемирной паутине, мы собрали самые частые и громкие прогнозы на 2017 года. Что же произошло – оправдались ли ожидания или они разбились о суровую действительность?
Возможно, вы тоже делали какие-либо прогнозы, поэтому сейчас у вас есть отличная возможность понять насколько точны были ваши предсказания.
Ну и конечно же, соблюдая все традиции интернет сообщества, во второй части мы попробуем спрогнозировать, что же нам принесет 2018 год. Промерим через годик.
Читать полностью »

Disclaimer

Все мы видим, что сфера продвинутой аналитики набирает обороты и все больше специалистов интересуются данной областью. При этом понятной и доступной информации о построении процесса бизнес-анализа при разработке аналитических приложений в открытых источниках не так много. Поэтому очень сложно определиться с правильным рецептом (последовательностью действий) в рамках данного направления. В связи с этим я решил систематизировать ключевые ингредиенты и поделиться с вами пошаговой инструкцией, которая описывает действия аналитика по проработке предметной области и превращении туманной задачи «сделай то, не знаю что» в детальные требования к будущему приложению.

Построение процесса бизнес-анализа в проектах по разработке BI-приложений с продвинутой визуализацией - 1

Читать полностью »

«Мы разработали более совершенные технологии для подбора обуви на Amazon, чем для выбора типа лечения больных раком», — так отзывается профессор MIT Регина Барзилай (Regina Barzilay) о текущем состоянии высокотехнологичных медицинских проектов. Оценка неутешительная: зачастую «популярные» направления, такие как электронная коммерция, по уровню использующихся технологий опережают более социально важные сферы.

Однако есть и хорошие новости: решения, которые разрабатывались для условного «поиска обуви» можно использовать и для помощи больным. И спрос на такие разработки только растет: по прогнозам агентства Frost & Sullivan, объем одного только рынка медицинских разработок, использующих машинное обучение и большие данные, увеличивается на 40% ежегодно и к 2021 году составит 6,6 миллиардов долларов.

Сегодня расскажем о том, как большие данные используются в медицинских проектах и какие разработки в этом направлении ведутся в Университете ИТМО.

Большие данные и машинное обучение: новые возможности для медицины - 1Читать полностью »

image

Когда я сдавал экзамены в универе, я всегда садился готовиться на ближайшую к преподу парту и никогда не шел первым, а пропускал вперед 8-10 человек. Тем самым я успевал «подслушать» дополнительные вопросы и, частично, ответы на них.

И тут у меня возникла идея, как сделать подсказки по олимпиаде для тех старшеклассников, которые читают Хабр (что говорит о том, что у них действительно продвинутые мозги). Я нашел тех ребят, которые показали отличные результаты на предыдущих олимпиадах НТИ и поспрашивал их, какие дополнительные материалы могут помочь разобраться в теме лучше и дадут дополнительные преимущества на завершающем практическом этапе.

Прием заявок на олимпиаду идет до 22 октября, а там есть еще время подготовиться.
Читать полностью »