Рубрика «data engineering»

Готовим Json в Apache NiFi или снова Jolt Transform - 1

На текущем проекте у нас начинает активно использоваться Apache NiFi в качестве основного ETL/ELT-инструмента. NiFi используется для получения данных из различных источников (Kafka, REST, HDFS) и подготовки данных для их последующей загрузки в основное хранилище на базе GreenplumЧитать полностью »

Как классифицировать данные без разметки - 1

Пользователи iFunny ежедневно загружают в приложение около 100 000 единиц контента, среди которого не только мемы, но и расизм, насилие, порнография и другие недопустимые вещи.

Читать полностью »

Перевод статьи A Recipe for Training Neural Networks от имени автора (Andrej Karpathy). С некоторыми дополнительными ссылками.

Также доступна версия на украинском языке в личном блоге: Рецепт навчання нейрнонних мереж.

Рецепт обучения нейросетей - 1

Несколько недель назад я опубликовалЧитать полностью »

В этой статье я хочу продемонстрировать R Markdown — удобную надстройку для программирования вашего проекта как на R, так и на Python, позволяющую программировать некоторые элементы вашего проекта на двух языках и управлять объектами, созданными на одном языке, с помощью другого языка. Это может быть полезно потому, что:

  1. Позволяет писать код на привычном языке, но при этом использовать функции, существующие только в другом языке.
  2. Позволяет напрямую сотрудничать с коллегой, который программирует на другом языке.
  3. Даёт возможность работать с двумя языками и со временем научиться свободно владеть ими.

Как быть билингвом в Data Science - 1


Читать полностью »

Немного веселья с компьютерным зрением и CNN с маленькой базой данных.

Как я научила свой компьютер играть в пары используя OpenCV и Глубокое обучение - 1

Читать полностью »

Делюсь собственным опытом, т.к., наверняка, это будет интересно таким же как я, но может и не только. Заранее предупрежу, многие термины и сокращения будут понятны только тем, кто имеет базовые знания и какой-то опыт в Data Science и Машинном обучении.

Итак, в наличии на август 2020:

  • 8-летний бэкграунд в интернет-торговле и таргетированной рекламе

  • 4 курса известной в ds-тусовке Machine Learning специализации Яндекса на курсере

  • пара курсов по нейронным сетям на "стэпике"

  • слегка взъерошенный в памяти вышмат

  • пара сертификатов по питону

Читать полностью »

Завтра, 28 декабря в 20:00 у нас выступает Артем Попов — тимлид команды VK Performance Advertising.

Артем руководит командой, которая занимается задачами, связанными с Data Science в рекламе. Их задача делать рекламу в ВК эффективнее и выгодней.

Все члены команды, занимающиеся машинным обучением погружены как в инженерную часть, так и в продукт – культура разработки в ВК исторически развивалась таким образом, что разработчики занимаются продуктом от начала до конца, начиная постановкой задачи, заканчивая всем этапа разработки и жизни продукта в продакшене.

Артем расскажет про интересные задачи для дата-саентистов в мире рекламы.

Анонс: как дата-саентисты в ВК делают рекламу эффективной - 1Анонс: как дата-саентисты в ВК делают рекламу эффективной - 2Анонс: как дата-саентисты в ВК делают рекламу эффективной - 3Анонс: как дата-саентисты в ВК делают рекламу эффективной - 4
Читать полностью »

Заметки Датасатаниста: реляционные vs связанные данные - 1

Сегодня мы поговорим о простой, казалось бы, теме, как реляционные и связанные данные.

Несмотря на всю ее простоту, замечаю, что иногда люди действительно путаются в них — я решил это исправить, написав краткое и неформальное объяснение, чем они являются и зачем нужны.

Мы обсудим, что такое реляционная модель и связанные с ней SQL и реляционная алгебра. Потом перейдем к примерам связанных данных из Викидата, а далее RDF, SPARQL и чутка поговорим про Datalog и логическое представление данных. В конце выводы — когда применять реляционную модель, а когда связно-логическую.

Основная цель заметки — это описать, когда что имеет смысл применять и почему. Так как тут немало непростых концепций сошлись в одном месте, то конечно же можно было бы по каждой написать книгу — но наша задача сегодня дать представление о теме и мы будем разбирать неформально на простых примерах.

Если у вас есть сомнения, чем одно отличается от второго и зачем вообще нужны связанные данные (LinkedData), то добро пожаловать под кат.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js