Рубрика «Apache Spark»

Путь, который занял 100* лет: встречаем CatBoost 1.0.0

2021-10-01 в 10:09, admin, рубрики: Apache Spark, catboost, open source, R, Блог компании Яндекс, машинное обучение, распределенные системы, релизы

Всем привет. Меня зовут Станислав Кириллов, я работаю в команде, которая отвечает за развитие библиотеки машинного обучения CatBoost. Мы впервые поделились ей с сообществом четыре года назад — хотя мы привыкли строить бинарные деревья, поэтому и отсчёт лет предпочитаем вести так же. Это шутка, конечно, но «столетие» — хороший повод для выпуска первой «production ready» версии библиотеки с символичным номером 1.0.0.

Сегодня я кратко отвечу, почему мы считаем выпуск версии 1.0.0 важной вехой, и подсвечу главные изменения (и в новой версии, и в целом за год). А уже завтра выступлю с рассказом на встрече, которая будет целиком и полностью посвящена практике применения CatBoost и противостоянию нейросетей и градиентного бустинга. Если эти слова для вас что-то значат, то добро пожаловать под кат.

Читать полностью »

6 самых свежих курсов по Azure

2019-12-03 в 7:00, admin, рубрики: .net core, ACI, Apache Spark, azure, Azure Cosmos DB, Azure Databricks, devops, docker, kubernetes, microsoft, Microsoft Azure, nosql, pipelines, polybase, Power BI, sql, Администрирование контейнеров, Блог компании Microsoft, контейнеры, Облачные вычисления, облачные сервисы, Учебный процесс в IT

Привет! Ранее мы опубликовали уже 3 статьи из 5 в нашей серии подборок интересных учебных курсов от Microsoft. Сегодня – уже четвертая часть, и в ней мы расскажем про самые свежие курсы по облаку Azure.

Кстати!

Все курсы бесплатные (вы даже сможете попробовать платные продукты бесплатно);
5/6 на русском языке;
Начать обучение можно мгновенно;
По окончании вы получите бейдж об успешном прохождении обучения.

Присоединяйтесь, подробности под катом!

Все статьи из серии

Этот блок будет обновляться с выходом новых статей

7 бесплатных курсов для разработчиков

5 бесплатных курсов для IT-Администраторов

7 бесплатных курсов для архитекторов решений

6 самых свежих курсов по Azure

** самых ********** ****** от M******** на *******

6 самых свежих курсов по Azure - 1 Читать полностью »

Как заглянуть в глаза Кассандре и не потерять при этом данные, стабильность и веру в NoSQL

2019-08-28 в 15:07, admin, рубрики: apache cassandra, Apache Spark, C, nosql, nosql базы данных, Администрирование баз данных, архитектура it решения, хранилища данных

Говорят, в жизни все стоит попробовать хотя бы раз. И если вы привыкли работать с реляционными СУБД, то познакомиться на практике с NoSQL стоит в первую очередь хотя бы для общего развития. Сейчас в силу бурного развития этой технологии очень много противоречивых мнений и горячих споров на эту тему, что особенно подогревает интерес.
Если вникнуть в суть всех этих споров, то можно увидеть, что они возникают из-за неправильного подхода. Те, кто использует NoSQL базы именно там, где они нужны, довольны и получают от данного решения все его плюсы. А экспериментаторы, уповающие на данную технологию как панацею там, где она не применима вовсе, испытывают разочарование, потеряв сильные стороны реляционных баз без приобретения весомых выгод.

Я расскажу про наш опыт внедрения решения, основанного на СУБД Cassandra: с чем пришлось столкнуться, как выкручивались из трудных ситуаций, удалось ли нам получить выигрыш от использования NoSQL и где пришлось вложить дополнительные усилия/средства.
Исходная задача — это построение системы, записывающей звонки в некое хранилище.

Принцип действия системы следующий. На вход приходят файлы с определенной структурой, описывающей структуру вызова. Затем приложение обеспечивает сохранение этой структуры в соответствующие колонки. В дальнейшем сохраненные вызовы используются – для отображения информации по потреблению трафика для абонентов (начисления, звонки, история баланса).

Почему выбрали Кассандру вполне понятно — она пишет как пулемет, легко масштабируема, отказоустойчива.

Читать полностью »

Ускоряем распределенную обработку больших графов с помощью вероятностных структур данных и не только

2019-08-26 в 13:36, admin, рубрики: algorithms, Apache Spark, big data, data mining, data structures, graphs, Алгоритмы, Блог компании Одноклассники, машинное обучение

Ускоряем распределенную обработку больших графов с помощью вероятностных структур данных и не только - 1

Одним из самых ценных ресурсов любой социальной сети является "граф дружб" — именно по связям в этом графе распространяется информация, к пользователям поступает интересный контент, а к авторам контента конструктивный фидбэк. При этом граф является еще и важным источником информации, позволяющим лучше понять пользователя и непрерывно совершенствовать сервис. Однако в тех случаях когда граф разрастается, технически извлекать из него информацию становится все сложнее и сложнее. В данной статье мы поговорим о некоторых трюках, используемых для обработки больших графов в OK.ru.

Читать полностью »

Митап в Петербурге: Data Engineering и не только

2018-10-29 в 10:37, admin, рубрики: Apache Spark, big data, data, data mining, spark, wrike, wriketechclub, Блог компании Wrike, визуализация данных

Митап в Петербурге: Data Engineering и не только - 1

Дата инженеры — люди, без которых аналитики уснут до окончания запроса к БД, а дата сайентисты захлебнутся в данных. Пришло время рассказать окружающим и самим себе, зачем и как мы работаем.

К сожалению, чуть ли не единственная специализированная конференция для дата-аналитиков и дата-инженеров в Питере в этом году отменилась, но мы в Wrike Tech Club решили дольго не грустить и устроить ламповый уютный митап с классными спикерами.
Читать полностью »

Распределенная обработка графов со Spark GraphX

2018-07-02 в 12:22, admin, рубрики: Apache Spark, big data, scala, spark graphx, графы

«Simplicity is prerequisite for reliability» by Edsger Dijkstra

Пролог

Графы — столь наглядная и проста для понимания структура данных, еще со времен Леонарда Эйлера заставляла ломать умы человечества над разнородными задачами, вроде того как можно пройти по всем семи мостам Кёнигсберга, не проходя ни по одному из них дважды или как разъездному посреднику, найти самый выгодный маршрут.
Читать полностью »

Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения

2018-06-01 в 10:49, admin, рубрики: akka, Apache, Apache Spark, CleverDATA, machine learning, Reactive Streams, scala, Блог компании ГК ЛАНИТ, машинное обучение

Часть 2: Решение

И снова здравствуйте! Сегодня я продолжу свой рассказ о том, как мы классифицируем большие объёмы данных на Apache Spark, используя произвольные модели машинного обучения. В первой части статьи мы рассмотрели саму постановку задачи, а также основные проблемы, которые возникают при организации взаимодействия между кластером, на котором хранятся и обрабатываются исходные данные, и внешним сервисом классификации. Во второй части мы рассмотрим один из вариантов решения данной задачи с использованием подхода Reactive Streams и его реализации с использованием библиотеки akka-streams.

Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения - 1

Читать полностью »

Просто добавь воды: разработка с H2O.ai

2018-05-23 в 7:46, admin, рубрики: AI, Apache Spark, azure, azure iot, data science, DSVM, h2o, machine learning, microsoft, Microsoft Azure, python, R, spark, Блог компании Microsoft, ИИ, искусственный интеллект, машинное обучение, Питон, Разработка для интернета вещей

Привет! В течение последних нескольких лет интерес к технологиям машинного обучения и искусственного интеллекта быстро рос. Решение H2O.ai становится все более популярным в этой сфере: оно поддерживает быстрые алгоритмы машинного обучения в оперативной памяти и недавно получило поддержку глубокого обучения. Сегодня поговорим о разработке с использованием H2O.

Просто добавь воды: разработка с H2O.ai - 1 Читать полностью »

Глобальная теплокарта Strava: теперь в 6 раз горячее

2017-11-08 в 8:30, admin, рубрики: Apache Spark, big data, C, CDF, gps, iphone, Mapbox GL, parquet, s3, scala, Strava, алгоритм Брезенхэма, Алгоритмы, билинейная интерполяция, нормализация, обработка изображений, Проектирование и рефакторинг, теплокарта, функция распределения

Рад объявить о первом крупном обновлении глобальной тепловой карты в Strava Labs c 2015 года. Это обновление включает в себя в шесть раз больше данных, чем раньше — в сумме 1 миллиард активностей со всей базы Strava по сентябрь 2017 года.

Наша глобальная теплокарта — самая крупная и подробная, и это самый прекрасный в мире набор данных такого рода. Это прямая визуализация активностей глобальной сети атлетов Strava. Чтобы дать представление о масштабе, то новая теплокарта включает в себя:

1 миллиард активностей
3 триллиона точек долготы/широты
13 триллионов пикселей после растрирования
10 терабайт исходных данных
Общая дистанция маршрутов: 27 миллиардов километров
Запись общего времени активности: 200 тысяч лет
5% земной суши покрыто тайлами

Глобальная теплокарта Strava: теперь в 6 раз горячее - 1
Тепловая карта Москвы демонстрирует функцию поворота/наклона в Mapbox GL
Читать полностью »

Запуск регулярных задач на кластере или как подружить Apache Spark и Oozie

2017-09-28 в 19:45, admin, рубрики: apache oozie, Apache Spark, big data

Запуск регулярных задач на кластере или как подружить Apache Spark и Oozie - 1

Давно уже витала в воздухе необходимость реализовать запуск регулярных Spark задач через Oozie, но всё руки не доходили и вот наконец свершилось. В этой статье хочу описать весь процесс, возможно она упростит Вам жизнь.

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «Apache Spark»

Путь, который занял 100* лет: встречаем CatBoost 1.0.0

6 самых свежих курсов по Azure

Как заглянуть в глаза Кассандре и не потерять при этом данные, стабильность и веру в NoSQL

Ускоряем распределенную обработку больших графов с помощью вероятностных структур данных и не только

Митап в Петербурге: Data Engineering и не только

Распределенная обработка графов со Spark GraphX

Пролог

Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения

Часть 2: Решение

Просто добавь воды: разработка с H2O.ai

Глобальная теплокарта Strava: теперь в 6 раз горячее

Запуск регулярных задач на кластере или как подружить Apache Spark и Oozie

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «Apache Spark»

Пролог

Часть 2: Решение

Новости

Актуальные темы

Архив