Рубрика «data engineering» - 3

Любопытные и неочевидные особенности при работе со Snowflake - 1

Без долгих вступлений, сразу к делу.

Знаете ли вы, что в Snowflake можно создавать объекты с пустыми именами? Например:

CREATE DATABASE "";
CREATE SCHEMA ""."";
CREATE TABLE ""."".""("" NUMBER);

Читать полностью »

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью. 

Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Читать полностью »

Всем привет! Эта статья - обобщение моего опыта 30+ проектов, связанных с обработкой данных и машинным обучением. Здесь не будет теории про управление рисками и общего перечня проектных рисков. Я перечислил только наиболее частые “грабли” именно из data-специфики, с которыми приходилось сталкиваться за последние 7 лет. Надеюсь, что эта статья поможет менеджеру проекта или менеджеру продукта сохранить свой цвет волос, ценное время команды и удовлетворенность заказчиков. Риски я разделил на три группы:

  • риски моделей машинного обучения,

  • риски источников данных,

  • риски пользовательских данных.

Читать полностью »

Кластеризация изображений с помощью нейросети CLIP - 1

В статье пойдёт речь о том, как можно автоматически разделить датасет изображений на кластеры, которые поделены по качественному контекстному признаку, благодаря эмбедингам из нашумевшей нейронной сети CLIP от компании Илона Маска. Расскажу на примере контента из нашего приложения iFunny.

Читать полностью »

Преамбула

Я люблю собеседоваться в разных компаниях. Во-первых, я нанимаю и сам тоже, и мне интересно смотреть, как это делают другие, и перенимать разные фишки. Во-вторых, это мой способ понять свою ценность и посмотреть, куда движется рынок.

Вот лишь небольшая часть истории моих собеседований:

  • GetYourGuide (оффер, и до сих пор счастлив сотрудничать)

  • Facebook (оффер)

  • Amazon (не прошёл техническое собеседование)

  • Zalando (отказали уже в самом конце, но я и правда не очень подходил на позицию)

  • SumUp (пре-оффер, не сошлись по условиям)

  • Canonical (провалился с громким треском)

  • Читать полностью »

Готовим Json в Apache NiFi или снова Jolt Transform - 1

На текущем проекте у нас начинает активно использоваться Apache NiFi в качестве основного ETL/ELT-инструмента. NiFi используется для получения данных из различных источников (Kafka, REST, HDFS) и подготовки данных для их последующей загрузки в основное хранилище на базе GreenplumЧитать полностью »

Как классифицировать данные без разметки - 1

Пользователи iFunny ежедневно загружают в приложение около 100 000 единиц контента, среди которого не только мемы, но и расизм, насилие, порнография и другие недопустимые вещи.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js