Рубрика «работа с данными»

Внедрение CRM-системы — сложный процесс, требующий погружения в технологии, взаимодействия между сотрудниками и понимания целей бизнеса. Важно не просто выбрать систему, но и помочь компании преодолеть трудности, которые могут возникнуть на разных этапах.

Какие проблемы возникают при внедрении CRM и как наша система помогает их решить — расскажем в этой статье.

Зачем внедрять CRM

Читать полностью »

Запустили векторный поиск в YDB: рассказываем, как он работает - 1

В новой версии YDBЧитать полностью »

Привет! Меня зовут Никита, я руководитель команды разработки умного поиска на основе генеративного AI в Just AI. В этой статье я расскажу о нашем опыте в умный поиск — как от mvp RAG-сервиса для Q&A бота нашей службы поддержки мы пришли к облачной платформе Jay Knowledge Hub (сокращенно KHUB), которая помогает нашим клиентам автоматизировать поиск по различным источникам знаний.

Как все начиналось: прототип на базе RAG

Наш основной продукт — диалоговая система для создания чат-ботов JAICPЧитать полностью »

Обсуждаем мнения ИТ-сообщества и экспертов индустрии. Также рассмотрим пару проектов, в рамках которых разрабатывают инструменты для генерации «искусственных» данных. Один из них представили выходцы из Агентства национальной безопасности США и Google.

Почему в машинном обучении используют «синтетические» данные - 1Читать полностью »

Перед вами перевод статьи из блога Seattle Data Guy. В ней авторы выделили 5 наиболее популярных ресурсов для обработки Big Data на текущий момент.

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data - 1

Сегодня любая компания, независимо от ее размера и местоположения, так или иначе имеет дело с данными. Использование информации в качестве ценного ресурса, в свою очередь, подразумевает применение специальных инструментов для анализа ключевых показателей деятельности компании. Спрос на аналитику растет пропорционально ее значимости, и уже сейчас можно определить мировые тенденции и перспективы в этом секторе. Согласно мнению International Data Corporation, в 2019 году рынок Big Data и аналитики готов перешагнуть порог в 189,1 миллиарда долларов.Читать полностью »

В плане знаний от специалистов по data science ждут многого: машинное обучение, программирование, статистика, математика, визуализация данных, коммуникация и глубокое обучение. Каждая из этих областей охватывает десятки языков, фреймворков, технологий, доступных для изучения. Так как же специалистам по работе с данными лучше распорядиться своим бюджетом времени на обучение, чтобы быть в цене у работодателей?

Я тщательно изучил сайты с вакансиями, чтобы выяснить, какие же навыки сейчас пользуются наибольшей популярностью у работодателей. Я рассматривал как более широкие дисциплины, связанные с работой с данными, так и конкретные языки и инструменты, в рамках отдельного исследования. За материалами я обратился к сайтам LinkedIn, Indeed, SimplyHired, Monster и AngelList, по состоянию на 10 октября 2018 года. На графике ниже показано, сколько вакансий по data science представлено на каждом из этих ресурсов.

Самые востребованные навыки в сфере data science - 1

Читать полностью »

Аннотация

Итак, мои коллеги-ученые, не спрашивайте, что вы можете сделать для воспроизводимости — спросите, что воспроизводимость может сделать для вас!

Здесь я перечислю пять причин, по которым возможность воспроизводимости данных окупается в долгосрочной перспективе и представляет личный интерес для каждого амбициозного, ориентированного на карьеру ученого.


Сложное уравнение в левой половине черной доски, еще более сложное уравнение — в правой. Краткое предложение связывает два уравнения: «Здесь происходит чудо». Два математика, в глубоких раздумьях. «Я думаю, Вы должны быть более конкретны на втором шаге», — говорит один другому.
image

Примерно так выглядит ситуация, когда вы пытаетесь понять, как автор перешел от большого и сложного набора данных к плотной статье с множеством сложных графиков. Без доступа к данным и аналитическому коду такой переход можно объяснить разве что чудом. А в науке не должно быть чудес.

Читать полностью »

«5П»: О качестве данных и распространенных ошибках при их сборе - 1
Многие компании считают, что работают и принимают решения на основе данных, но часто это не так. Ведь для того чтобы управление велось на основе данных, их, эти самые данные, недостаточно только собрать и свести в статистику.

Намного важнее провести правильный анализ, а для этого они должны быть «чисты».
Разбираться в чистоте данных и в основных качественных параметрах я начну с этой статьи.
Для достоверной аналитики должны быть соблюдены все «П» данных: правильные, правильно собранные, собранные в правильной форме, в правильном месте и в правильное время.
Если один из параметров нарушен, это может сказаться на достоверности всей аналитики, а значит нужно понимать, на что важно обращать внимание при  работе с данными.
Читать полностью »

Постановка задач машинного обучения математически очень проста. Любая задача  классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

Методология анализа данных CRISP-DM упоминается во многих постах на Хабре, но я не смог найти ее подробных русскоязычных описаний и решил своей статьей восполнить этот пробел. В основе моего материала – оригинальное описание и адаптированное описание от IBM. Обзорную лекцию о преимуществах использования CRISP-DM можно посмотреть, например, здесь.

CRISP-DM: проверенная методология для Data Scientist-ов - 1
* Crisp (англ.) — хрустящий картофель, чипсы
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js