Рубрика «big data» - 10

Будни аналитиков в «М.Видео—Эльдорадо»

2021-02-04 в 7:14, admin, рубрики: big data, job, Анализ и проектирование систем, аналитика, Блог компании М.Видео-Эльдорадо, данные, Карьера в IT-индустрии, М.Видео, Читальный зал, Эльдорадо

Будни аналитиков в «М.Видео—Эльдорадо» - 1

Профессию аналитика многие связывают с анализом данных ради поиска неочевидных закономерностей и тенденций. Однако это лишь одно из направлений деятельности, которое в русском языке называется «обработка и анализ данных», а в английском — data science, наука о данных. Другое направление деятельности в аналитике посвящено разработке новых и оптимизации существующих бизнес-процессов. И таких специалистов даже больше, чем «дата-сатанистов».

Меня зовут Дмитрий Кольцов, я Delivery Manager в «М.Видео—Эльдорадо», и хочу рассказать о том, как бизнес и системные аналитики встроены в организационную структуру нашей компании и какие задачи они решают. Кстати, в конце статьи вас ждёт анонс нашего первого онлайн-конкурса для аналитиков.Читать полностью »

Как сделать Data Science приложение для Windows (и не только) с графическим интерфейсом с помощью PySimpleGUI

2021-01-23 в 11:39, admin, рубрики: artificial intelligence, big data, data science, machine learning, python, skillfactory, Блог компании SkillFactory, искусственный интеллект, машинное обучение

Работать с Data Science в Jupyter, конечно, очень приятно, но если вы хотите пойти дальше и развернуть свой проект или модель на облачном сервере, то здесь есть много отличных решений — с помощью Flask, Django или Streamlit. Хотя облачные решения по-прежнему самые популярные, часто хочется создать быстрое приложение с графическим интерфейсом. Например:

Модель ML тестируется на различных наборах данных. Вы можете перетащить файлы CSV в модель и отрисовать кривую AUS/ROC. Здесь GUI проявит себя прекрасно, правда?
Построить случайную переменную или статистическое распределение в заданном диапазоне и динамически управлять параметрами с помощью графического интерфейса.
Быстро запустить некоторые задачи обработки или предварительной обработки данных в наборе с помощью GUI вместо того, чтобы писать кучу кода.

В этой статье мы покажем, как создать такой графический интерфейс, потратив минимум усилий на изучение библиотеки Python.

Как сделать Data Science приложение для Windows (и не только) с графическим интерфейсом с помощью PySimpleGUI - 1

Читать полностью »

Строим надёжную конкурентность с FSP и моделированием процессов

2021-01-15 в 14:17, admin, рубрики: big data, data science, python, skillfactory, Блог компании SkillFactory, Программирование, разработка программного обеспечения

Делаем систему параллелизма надёжнее

Сегодня посмотрим как смоделировать программу с конкурентностью на FSP. Сначала давайте разберемся, зачем вообще нужна конкурентность. Вот что можно сделать с её помощью:

Повысить производительность многопроцессорного железа, это и называется параллелизм;
Увеличить пропускную способность приложения (вызову ввода-вывода нужно блокировать только один поток);
Сделать приложение отзывчивее за счёт выполнения основных задач параллельно фоновым (высокоприоритетный поток для запросов пользователей);
Структурировать программу, повысив её эффективность (взаимодействующие со средой программы управляют несколькими действиями и обрабатывают несколько событий).

Строим надёжную конкурентность с FSP и моделированием процессов - 1

Сгенерированная инструментом LTSA диаграмма состояний
Читать полностью »

ЦОДД заказал за 153 млн систему отслеживания москвичей по MAC-адресам, которая не должна была работать

2021-01-14 в 11:14, admin, рубрики: big data, базы данных, Госвеб, госзакупки, ДИТ Москвы, Москва, персональные данные, Текучка, ЦОДД Москвы, метки: big data, базы данных, Госвеб, госзакупки, ДИТ Москвы, Москва, персональные данные, Текучка, ЦОДД Москвы

Москва может свернуть проект по запуску на остановках столицы аппаратно-программных комплексов (АПК), собирающих со смартфонов пешеходов MAC-адреса (уникальные номера устройств) для анализа пассажиропотока, передаёт «Коммерсант» слова своего источника в мэрии.

Проблема в том, что в последних обновлениях Android и iOS предусмотрена функция динамичной замены MAC-адресов,Читать полностью »

Как быть билингвом в Data Science

2021-01-09 в 16:19, admin, рубрики: big data, data engineering, data mining, data science, python, skillfactory, Блог компании SkillFactory

В этой статье я хочу продемонстрировать R Markdown — удобную надстройку для программирования вашего проекта как на R, так и на Python, позволяющую программировать некоторые элементы вашего проекта на двух языках и управлять объектами, созданными на одном языке, с помощью другого языка. Это может быть полезно потому, что:

Позволяет писать код на привычном языке, но при этом использовать функции, существующие только в другом языке.
Позволяет напрямую сотрудничать с коллегой, который программирует на другом языке.
Даёт возможность работать с двумя языками и со временем научиться свободно владеть ими.

Читать полностью »

Самообучение в Data science, с нуля до Senior за два года

2021-01-08 в 14:55, admin, рубрики: big data, data science, python, Карьера в IT-индустрии, машинное обучение, самообучение

Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к самообучению, которые мне помогли (отдельно планирую потом детальные статьи по отдельным темам).

Отличные материалы уже существуют по большинству конкретных тем, я сам по ним учился.
Читать полностью »

Как экономить память и удваивать размеры моделей PyTorch с новым методом Sharded

2021-01-07 в 15:13, admin, рубрики: big data, data science, deep learning, machine learning, python, pytorch, skillfactory, Блог компании SkillFactory, глубокое обучение, искусственный интеллект, машинное обучение

Модели глубокого обучения улучшаются с увеличением количества данных и параметров. Даже с последней моделью GPT-3 от Open AI, которая использует 175 миллиардов параметров, нам ещё предстоит увидеть плато роста количества параметров.

Для некоторых областей, таких как NLP, рабочей лошадкой был Transformer, который требует огромных объёмов памяти графического процессора. Реалистичные модели просто не помещаются в памяти. Последний метод под названием Sharded [букв. ‘сегментированный’] был представлен в Zero paper Microsoft, в котором они разработали метод, приближающий человечество к 1 триллиону параметров.

Специально к старту нового потока курса по Machine Learning, делюсь с вами статьей о Sharded в которой показывается, как использовать его с PyTorch сегодня для обучения моделей со вдвое большей памятью и всего за несколько минут. Эта возможность в PyTorch теперь доступна благодаря сотрудничеству между командами FairScale Facebook AI Research и PyTorch Lightning.

Как экономить память и удваивать размеры моделей PyTorch с новым методом Sharded - 1

Читать полностью »

Apache Kafka в вопросах и ответах

2021-01-06 в 11:05, admin, рубрики: apache kafka, big data, rabbit mq, Блог компании Southbridge, митап, Программирование, системное администрирование, Слёрм

Что такое Kafka? Где стоит, а где не стоит применять этот инструмент? Чем Kafka отличается от RabbitMQ и других брокеров сообщений? Как её правильно эксплуатировать? Всё это обсудили на митапе «Apache Kafka в вопросах и ответах», который Слёрм провёл в ноябре 2020. В разговоре участвовали спикеры из Авито, Stripe, ITSumma и Confluent. Запись митапа доступна на YouTube, а текстовую версию разговора читайте ниже.

Apache Kafka в вопросах и ответах - 1

Читать полностью »

Как дата-саентисты в ВК делают рекламу эффективной

2021-01-04 в 12:30, admin, рубрики: big data, ml, ruvds_расшифровка, андрей попов, Блог компании RUVDS.com, машинное обучение, медийная реклама, таргетированная реклама

Еще в прошлом году у нас выступал Артем Попов, тимлид команды VK Performance Advertising. Делимся с вами расшифровкой эфира и записью.

Меня зовут Артем, я – руководитель performance advertising в ВК. Наша команда занимается тем, что, с одной стороны, делает рекламу в ВК эффективнее, выгоднее для рекламодателей, интереснее для пользователей. Это большая продуктовая цель.

С другой стороны, технически, мы – команда ML-инженеров, довольно обычных разработчиков, которые много времени занимаются задачами, связанными с data science и ML. Сегодня я хочу поговорить про эти две темы, потому что обе они мне интересны, я о них люблю поговорить. Я очень рассчитываю на то, что у нас будет живое общение; если кто-то смотрит трансляцию, будет интереснее, если вы будете писать вопросы.
Читать полностью »

4 месяца борьбы за место DS джуна (перекатиться в 37 лет)

2021-01-03 в 16:39, admin, рубрики: big data, Data Analyst, data engineering, data science, Карьера в IT-индустрии, смена профессии, собеседования

Делюсь собственным опытом, т.к., наверняка, это будет интересно таким же как я, но может и не только. Заранее предупрежу, многие термины и сокращения будут понятны только тем, кто имеет базовые знания и какой-то опыт в Data Science и Машинном обучении.

Итак, в наличии на август 2020:

8-летний бэкграунд в интернет-торговле и таргетированной рекламе
4 курса известной в ds-тусовке Machine Learning специализации Яндекса на курсере
пара курсов по нейронным сетям на "стэпике"
слегка взъерошенный в памяти вышмат
пара сертификатов по питону

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «big data» - 10

Будни аналитиков в «М.Видео—Эльдорадо»

Как сделать Data Science приложение для Windows (и не только) с графическим интерфейсом с помощью PySimpleGUI

Строим надёжную конкурентность с FSP и моделированием процессов

Делаем систему параллелизма надёжнее

ЦОДД заказал за 153 млн систему отслеживания москвичей по MAC-адресам, которая не должна была работать

Как быть билингвом в Data Science

Самообучение в Data science, с нуля до Senior за два года

Как экономить память и удваивать размеры моделей PyTorch с новым методом Sharded

Apache Kafka в вопросах и ответах

Как дата-саентисты в ВК делают рекламу эффективной

4 месяца борьбы за место DS джуна (перекатиться в 37 лет)