Рубрика «анализ данных»

35% доходность акций на альтернативных данных - 1

Торговля на альтернативных (нестандартных) данных становится модным и перспективным. На днях попал в руки любопытный датасет от Московской Биржи по популярным акциям. После поверхностного исследования удалось получить привлекательный результат c хорошими доходностями. Подробности под катом
Читать полностью »

Когда у вас возникает какая-то проблема, вы начинаете искать способы ее решения, параллельно думая, как бы снова не пройтись по этим же самым граблям в следующий раз. Что бы вы ни делали, от небольших мобильных приложений до громоздких информационных систем, у ошибки всегда есть цена, и чем более критична отрасль, в которой используется ваш продукт, тем выше цена этой ошибки. Поэтому идеальной видится ситуация, когда вы работаете на опережение, а именно — пытаетесь предсказать возникновение проблемы до ее фактического наступления.

Для чего нам в СИБУРе продвинутая аналитика - 1
Экструдер на производстве полипропилена

У нас в СИБУРе есть функция «Цифровые технологии», одно из направлений которой занимается продвинутой аналитикой. Мы участвуем во всех процессах, так или иначе связанных с анализом данных, которые есть в компании: от показаний множества датчиков с производства до биржевых сводок и прогнозов. Используя эти данные, мы создаем цифровые продукты, которые ощутимо помогают повысить операционную эффективность компании.

Меня зовут Александр Крот, я представляю направление продвинутой аналитики, и под катом расскажу вам вот о чем:

  • как сократить количество внеплановых остановок экструдера, который нарезает полипропилен на гранулы и имеет свойство забиваться;
  • как с помощью анализа данных и настроенной модели можно увеличить производство бутадиена более, чем на 100 тонн в месяц;
  • почему проблемы реактора проще предсказать, чем исследовать его с помощью рентгена.

Читать полностью »

Не для селфи: цифровой иммуноферментный анализ посредством нового чипа, встраиваемого в смартфон - 1

Из какого кабинета в любой больнице периодически доносятся крики детей, а порой и взрослых? Что родители, нагло обманывая нас в детстве, сравнивали с укусом комарика? Я думаю вы уже догадались, что речь идет об анализе крови. Сейчас эта процедура стала более быстрой и менее болезненной. Не изменилось одно — ее важность. Диагностика в медицине играет самую важную роль на первых этапах борьбы с каким-либо заболеванием. Ведь чтобы победить недуг, его нужно сначала обнаружить. Пережив процедуру забора крови на анализ, вы спокойно отправляетесь ждать его результатов. В это время в лабораториях люди с помощью сложных, громоздких и весьма дорогих устройств анализируют вашу кровь, узнавая что в ней есть и в каком количестве. И хорошо, когда такая лаборатория есть в вашей местной больнице, но это не всегда так. А что если бы была карманная лаборатория, маленькая и недорогая, но при этом анализирующая образцы с той же точностью и эффективностью, что и обычная? Звучит, как научная фантастика, не так ли? Так же футуристично звучала и фраза «карманный анализатор сахара в крови» в свое время. Сегодня мы с вами познакомимся с исследованием и реализацией технологии количественного анализа белков и аминокислот посредством компактного устройства нового типа. Из чего состоит сие чудо, как оно работает и насколько эффективно? На эти и другие вопросы мы получим ответы в докладе ученых. Поехали.Читать полностью »

Реверс-инжиниринг бинарного формата на примере файлов Korg SNG. Часть 2 - 1

В прошлой статье я описал ход рассуждений при разборе неизвестного двоичного формата данных. Используя Hex-редактор Synalaze It!, я показал как можно разобрать заголовок двоичного файла и выделить основные блоки данных. Так как в случае формата SNG эти блоки образуют иерархическую структуру, мне удалось использовать рекурсию в грамматике для автоматического построения их древовидного представления в понятном человеку виде.

В этой статье я опишу похожий подход, который я использовал для разбора непосредственно музыкальных данных. С помощью встроенных возможностей Hex-редактора я создам прототип конвертера данных в распространенный и простой формат Midi. Нам придется столкнуться с рядом подводных камней и поломать голову над простой на первый взгляд задачей конвертации временных отсчетов. Наконец, я объясню как можно использовать полученные наработки и грамматику двоичного файла для генерации части кода будущего конвертера.
Читать полностью »

Курсы по анализу данных в CS центре читает Вадим Леонардович Аббакумов — кандидат физ.-мат. наук, он работает главным экспертом-аналитиком в компании Газпромнефть-Альтернативное топливо.

Лекции предназначены для двух категорий слушателей. Первая — начинающие аналитики, которым сложно начинать с изучения, например, книги The Elements of Statistical Learning. Курс подготовит их к дальнейшей работе. Вторая — опытные аналитики, не получившие систематического образования в области анализа данных. Они могут заполнить пробелы в знаниях. С прошлого года на занятиях используется язык программирования Python.

Чтобы понимать материал, достаточно когда-то прослушанных курсов математического анализа, линейной алгебры и теории вероятностей и базовых знаний языка Python.

Приятного просмотра!
Читать полностью »

Реверс-инжиниринг бинарного формата на примере файлов Korg .SNG - 1

Мы живем в удивительное время. Вокруг нас изобилие техники: телефоны, компьютеры, умные часы и прочие гаджеты. Каждый день производители выпускают на рынок все новые и новые устройства. Большинству их них предначертана короткая и яркая (или не очень) жизнь: мощная маркетинговая компания в момент выпуска, 1-2 года полноценной поддержки производителем, а затем медленное забвение. Простые устройства могут годами работать и после окончания срока официальной поддержки. С «умными» девайсами все сложнее. Хорошо если гаджет хотя бы продолжит работу после отключения серверов/сервисов производителя. И повезет, если очередное обновление ОС, драйверов или другого ПО не прибьет совместимость.
Читать полностью »

При использовании библиотеки pandas для анализа маленьких наборов данных, размер которых не превышает 100 мегабайт, производительность редко становится проблемой. Но когда речь идёт об исследовании наборов данных, размеры которых могут достигать нескольких гигабайт, проблемы с производительностью могут приводить к значительному увеличению длительности анализа данных и даже могут становиться причиной невозможности проведения анализа из-за нехватки памяти.

В то время как инструменты наподобие Spark могут эффективно обрабатывать большие наборы данных (от сотен гигабайт до нескольких терабайт), для того чтобы полноценно пользоваться их возможностями обычно нужно достаточно мощное и дорогое аппаратное обеспечение. И, в сравнении с pandas, они не отличаются богатыми наборами средств для качественного проведения очистки, исследования и анализа данных. Для наборов данных средних размеров лучше всего попытаться более эффективно использовать pandas, а не переходить на другие инструменты.

Руководство по использованию pandas для анализа больших наборов данных - 1

В материале, перевод которого мы публикуем сегодня, мы поговорим об особенностях работы с памятью при использовании pandas, и о том, как, просто подбирая подходящие типы данных, хранящихся в столбцах табличных структур данных DataFrame, снизить потребление памяти почти на 90%.
Читать полностью »

Я учусь в CS центре в Новосибирске уже второй год. До поступления у меня уже была работа в IT — я работал аналитиком в Яндексе, но мне хотелось развиваться дальше, узнать что-то за пределами текущих задач и, по совету коллеги, я поступил в CS центр. В этой статье я хочу рассказать о практике, которую проходил во время учебы.

В начале первого семестра нам предложили несколько проектов. Мое внимание сразу зацепилось за проект под названием «Метод оценки цвета зерна по фотографии». Эту тему предложили специалисты из Института цитологии и генетики СО РАН, но сам проект был больше связан с анализом и обработкой изображений, чем с биологией. Я выбрал его, потому что интересовался машинным обучением и распознаванием образов и мне хотелось попрактиковаться в этих областях.
Читать полностью »

image

Обнаружение атак является важной задачей в информационной безопасности на протяжении десятилетий. Первые известные примеры реализации IDS относятся к началу 1980-х годов.

Спустя несколько десятилетий сформировалась целая индустрия средств для обнаружения атак. На данный момент существуют различные виды продуктов, такие как IDS, IPS, WAF, брандмауэры, большинство из которых предлагает обнаружение атак на основе правил. Идея использовать техники выявления аномалий для обнаружения атак на основе статистики на производстве не кажется такой реалистичной, как в прошлом. Или всё-таки?..Читать полностью »

Распознавание рентгеновских снимков: precision=0.84, recall=0.96. А нужны ли нам еще врачи? - 1

В последнее время все чаще обсуждается применение AI в медицине. И, конечно, область медицины, которая прямо напрашивается для такого применения это областей диагностики.

Кажется, и раньше можно было применять экспертные системы и алгоритмы классификации к задачам постановки диагноза. Однако, есть одна область AI, которая добилась наибольших успехов в последние годы, а именно область распознавания изображений и сверточные нейронные сети. На некоторых тестах алгоритмы AI в распознавании картинок превзошли человека. Вот два примера: Large Scale Visual Recognition Challenge и German Traffic Sign Recognition Benchmark.

Соответственно, возникла идея применить AI к области распознавания изображений там, где и врачи занимаются распознаванием изображений, а именно к анализу снимков и, для начала, рентгеновских снимков.Читать полностью »