Рубрика «data science» - 3

Всем привет!

Сегодня я расскажу, как наша студенческая команда из СПбПУ разработала систему для сбора и анализа данных о российском IT-рынке труда с помощью платформы hh.ru. Вместо громоздкого монолита мы построили модульное асинхронное приложение на Python, сфокусировавшись на высокой производительности при массовом сборе данных, устойчивости к ошибкам и построении чёткого аналитического конвейера.

Читать полностью »

Специализации наука о данных (Data Science) и искусственный интеллект (artificial intelligence) похожи, и у начинающих специалистов может возникнуть путаница. В этой статье мы рассмотри сходства и различия этих направлений, используемые инструменты и требования, которые предъявляются к специалистам.

Читать полностью »

Обезьянья предобработка данных

Обезьянья предобработка данных

Мы частенько шутим с коллегами , что любые действия можно поделить на «обезьяньи» и «smart»Читать полностью »

Стать Middle NLP Engineer за 6 месяцев — реально.

Не за два года, не через бесконечные курсы — а за полгода нормальной учебы.

Эта статья - про оптимальный путь. Без матана, без академизма, без «прочитай пять книг». Только то, что реально нужно для собеседований и работы.

Почему это реально:

  • Мой путь от нуля до стажёра занял два года, и сейчас я понимаю, как пройти его быстрее

  • После нахождения первой работы я вырос до Senior за год;

  • Я регулярно провожу собеседования и знаю реальные требования;

  • Уже помог нескольким людям войти в профессию.

Читать полностью »

Надеюсь, все знают что такое RAG :) Для тех, кто не знает: это такая система, которая позволяет искать информацию и отвечать на вопросы по внутренней документации.

Архитектура RAG может быть как очень простой, так и весьма замысловатой. В самом простом виде она состоит из следующих компонентов:

  • Векторное хранилище — хранит документы в виде чанков - небольших фрагментов текста.

  • Ретривер — механизм поиска. Получает на вход искомую строку и ищет в векторном хранилище похожие на нее чанки (по косинусному сходству).

  • Читать полностью »

Электроэнцефалография (ЭЭГ) — это неинвазивный метод регистрации электрической активности мозга через электроды на поверхности головы. За последние годы ЭЭГ-данные перестали быть исключительно медицинской прерогативой и прочно вошли в мир data science. Сегодня их используют в нейромаркетинге для оценки реакций на рекламу, в когнитивных исследованиях для измерения внимания и памяти, в разработке Brain-Computer Interface (BCI) и даже в спортивной аналитике.

Популярность ЭЭГ объясняется несколькими факторами:

  • Доступность: относительно недорогие портативные устройства (Emotiv, Muse, OpenBCI)

  • БезопасностьЧитать полностью »

Если вы хотите поиграться с LLM у вас есть несколько вариантов: можно задействовать LLM через код, можно воспользоваться чатом одного из облачных провайдеров, а можно развернуть у себя UI-клиента для работы с LLM. Их довольно много. И функционал у них может сильно различаться. В самом простом виде есть только чат. У наиболее продвинутых есть встроенные базы знаний, работа с изображениями и много других функций.

Ниже краткий обзор 9 таких клиентов (отсортированы по предпочтению автора):

  1. Open WebUI

  2. LM Studio

  3. Msty Studio

  4. Librechat

  5. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js