Рубрика «анализ данных»

Наши правила жизни: начинать название статей с буквы «Т» и искать текстовые заимствования быстро, точно и, самое главное, красиво. Уже больше года мы успешно находим переводные заимствования и рерайт с помощью нейросетей. Но иногда нужно намеренно «стрелять себе в ногу» и, прихрамывая, идти другой дорожкой, т.е. не проверять ни на парафраз, ни на плагиат, а просто оставить кусочек текста в покое. Парадоксально, больно, но надо. Скажем сразу: трогать не будем библиографию. Как отыскать её в тексте? Почему это легко сказать, но сделать гораздо сложнее, чем кажется? Всё это в продолжении корпоративного блога компании Антиплагиат, единственного блога, где не любят зачёркнутый текст.

Так сложно найти, легко пропустить и невозможно оформить - 1

Источник изображения:Fandom.com

Читать полностью »

Фероподы не помогут: исследование и математическое моделирование ям-ловушек личинок муравьиных львов - 1

Исследователь, завороженный величием и красотой мира за пределами своего города, волей судьбы оказывается в местах, где раньше никогда не был. Раненый и обессиленный, он ищет путь домой, встречая на своем пути бездушных и безучастных прохожих, готовых с благоговением наблюдать за гибелью другого. Не готовый мириться с такой социальной несправедливостью, он вмешивается и спасает неизвестное ему существо от прожорливых челюстей страшного монстра. Существо это маленькое, но с большим сердцем, предлагает ему свою помощь в ответ на спасение. А прожорливый монстр становится по иронии судьбы добычей еще большего существа, перед которым трепещут все без исключения.

Звучит, как завязка какого-то голливудского приключенческого фильма, но на самом деле это «Путешествие муравья» (1983) — прекрасный мультфильм, который уже давно разобрали на цитаты. Муравей спасает козявку («от козявки слышу!») из ловушки, сделанной одним очень занятным существом — муравьиным львом. И сегодня мы поговорим именно о них, а точнее о том, как биологи в содружестве с физиками провели исследование структуры ловушек муравьиных львов. Почему такие ловушки нельзя назвать простыми ямами, как личинки муравьиных львов их делают и каковы точные параметры этих смертоносных построек? На эти и другие вопросы мы найдем интереснейшие ответы в докладе ученых. Поехали.Читать полностью »

Продуктовая аналитика ВКонтакте на базе ClickHouse - 1

Развивая любой продукт, будь то видеосервис или лента, истории или статьи, хочется уметь измерять условное «счастье» пользователя. Понимать, делаем мы своими изменениями лучше или хуже, корректировать направление развития продукта, опираясь не на интуицию и собственные ощущения, а на метрики и цифры, в которые можно верить.

В этой статье я расскажу, как нам удалось запустить продуктовую статистику и аналитику на сервисе с 97-миллионной месячной аудиторией, получив при этом чрезвычайно высокую производительность аналитических запросов. Речь пойдёт о ClickHouse, используемых движках и особенностях запросов. Я опишу подход к агрегации данных, который позволяет нам за доли секунды получать сложные метрики, и расскажу о преобразовании и тестировании данных.

Сейчас у нас около 6 миллиардов продуктовых событий в сутки, в ближайшее время дойдём до 20–25 миллиардов. А дальше — не такими быстрыми темпами поднимемся до 40–50 миллиардов к концу года, когда опишем все интересующие нас продуктовые события.

1 rows in set. Elapsed: 0.287 sec. Processed 59.85 billion rows, 59.85 GB (208.16 billion rows/s., 208.16 GB/s.)

Подробности под катом.
Читать полностью »

35% доходность акций на альтернативных данных - 1

Торговля на альтернативных (нестандартных) данных становится модным и перспективным. На днях попал в руки любопытный датасет от Московской Биржи по популярным акциям. После поверхностного исследования удалось получить привлекательный результат c хорошими доходностями. Подробности под катом
Читать полностью »

Когда у вас возникает какая-то проблема, вы начинаете искать способы ее решения, параллельно думая, как бы снова не пройтись по этим же самым граблям в следующий раз. Что бы вы ни делали, от небольших мобильных приложений до громоздких информационных систем, у ошибки всегда есть цена, и чем более критична отрасль, в которой используется ваш продукт, тем выше цена этой ошибки. Поэтому идеальной видится ситуация, когда вы работаете на опережение, а именно — пытаетесь предсказать возникновение проблемы до ее фактического наступления.

Для чего нам в СИБУРе продвинутая аналитика - 1
Экструдер на производстве полипропилена

У нас в СИБУРе есть функция «Цифровые технологии», одно из направлений которой занимается продвинутой аналитикой. Мы участвуем во всех процессах, так или иначе связанных с анализом данных, которые есть в компании: от показаний множества датчиков с производства до биржевых сводок и прогнозов. Используя эти данные, мы создаем цифровые продукты, которые ощутимо помогают повысить операционную эффективность компании.

Меня зовут Александр Крот, я представляю направление продвинутой аналитики, и под катом расскажу вам вот о чем:

  • как сократить количество внеплановых остановок экструдера, который нарезает полипропилен на гранулы и имеет свойство забиваться;
  • как с помощью анализа данных и настроенной модели можно увеличить производство бутадиена более, чем на 100 тонн в месяц;
  • почему проблемы реактора проще предсказать, чем исследовать его с помощью рентгена.

Читать полностью »

Не для селфи: цифровой иммуноферментный анализ посредством нового чипа, встраиваемого в смартфон - 1

Из какого кабинета в любой больнице периодически доносятся крики детей, а порой и взрослых? Что родители, нагло обманывая нас в детстве, сравнивали с укусом комарика? Я думаю вы уже догадались, что речь идет об анализе крови. Сейчас эта процедура стала более быстрой и менее болезненной. Не изменилось одно — ее важность. Диагностика в медицине играет самую важную роль на первых этапах борьбы с каким-либо заболеванием. Ведь чтобы победить недуг, его нужно сначала обнаружить. Пережив процедуру забора крови на анализ, вы спокойно отправляетесь ждать его результатов. В это время в лабораториях люди с помощью сложных, громоздких и весьма дорогих устройств анализируют вашу кровь, узнавая что в ней есть и в каком количестве. И хорошо, когда такая лаборатория есть в вашей местной больнице, но это не всегда так. А что если бы была карманная лаборатория, маленькая и недорогая, но при этом анализирующая образцы с той же точностью и эффективностью, что и обычная? Звучит, как научная фантастика, не так ли? Так же футуристично звучала и фраза «карманный анализатор сахара в крови» в свое время. Сегодня мы с вами познакомимся с исследованием и реализацией технологии количественного анализа белков и аминокислот посредством компактного устройства нового типа. Из чего состоит сие чудо, как оно работает и насколько эффективно? На эти и другие вопросы мы получим ответы в докладе ученых. Поехали.Читать полностью »

Реверс-инжиниринг бинарного формата на примере файлов Korg SNG. Часть 2 - 1

В прошлой статье я описал ход рассуждений при разборе неизвестного двоичного формата данных. Используя Hex-редактор Synalaze It!, я показал как можно разобрать заголовок двоичного файла и выделить основные блоки данных. Так как в случае формата SNG эти блоки образуют иерархическую структуру, мне удалось использовать рекурсию в грамматике для автоматического построения их древовидного представления в понятном человеку виде.

В этой статье я опишу похожий подход, который я использовал для разбора непосредственно музыкальных данных. С помощью встроенных возможностей Hex-редактора я создам прототип конвертера данных в распространенный и простой формат Midi. Нам придется столкнуться с рядом подводных камней и поломать голову над простой на первый взгляд задачей конвертации временных отсчетов. Наконец, я объясню как можно использовать полученные наработки и грамматику двоичного файла для генерации части кода будущего конвертера.
Читать полностью »

Курсы по анализу данных в CS центре читает Вадим Леонардович Аббакумов — кандидат физ.-мат. наук, он работает главным экспертом-аналитиком в компании Газпромнефть-Альтернативное топливо.

Лекции предназначены для двух категорий слушателей. Первая — начинающие аналитики, которым сложно начинать с изучения, например, книги The Elements of Statistical Learning. Курс подготовит их к дальнейшей работе. Вторая — опытные аналитики, не получившие систематического образования в области анализа данных. Они могут заполнить пробелы в знаниях. С прошлого года на занятиях используется язык программирования Python.

Чтобы понимать материал, достаточно когда-то прослушанных курсов математического анализа, линейной алгебры и теории вероятностей и базовых знаний языка Python.

Приятного просмотра!
Читать полностью »

Реверс-инжиниринг бинарного формата на примере файлов Korg .SNG - 1

Мы живем в удивительное время. Вокруг нас изобилие техники: телефоны, компьютеры, умные часы и прочие гаджеты. Каждый день производители выпускают на рынок все новые и новые устройства. Большинству их них предначертана короткая и яркая (или не очень) жизнь: мощная маркетинговая компания в момент выпуска, 1-2 года полноценной поддержки производителем, а затем медленное забвение. Простые устройства могут годами работать и после окончания срока официальной поддержки. С «умными» девайсами все сложнее. Хорошо если гаджет хотя бы продолжит работу после отключения серверов/сервисов производителя. И повезет, если очередное обновление ОС, драйверов или другого ПО не прибьет совместимость.
Читать полностью »

При использовании библиотеки pandas для анализа маленьких наборов данных, размер которых не превышает 100 мегабайт, производительность редко становится проблемой. Но когда речь идёт об исследовании наборов данных, размеры которых могут достигать нескольких гигабайт, проблемы с производительностью могут приводить к значительному увеличению длительности анализа данных и даже могут становиться причиной невозможности проведения анализа из-за нехватки памяти.

В то время как инструменты наподобие Spark могут эффективно обрабатывать большие наборы данных (от сотен гигабайт до нескольких терабайт), для того чтобы полноценно пользоваться их возможностями обычно нужно достаточно мощное и дорогое аппаратное обеспечение. И, в сравнении с pandas, они не отличаются богатыми наборами средств для качественного проведения очистки, исследования и анализа данных. Для наборов данных средних размеров лучше всего попытаться более эффективно использовать pandas, а не переходить на другие инструменты.

Руководство по использованию pandas для анализа больших наборов данных - 1

В материале, перевод которого мы публикуем сегодня, мы поговорим об особенностях работы с памятью при использовании pandas, и о том, как, просто подбирая подходящие типы данных, хранящихся в столбцах табличных структур данных DataFrame, снизить потребление памяти почти на 90%.
Читать полностью »