Рубрика «Блог компании Open Data Science»

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе

2023-04-06 в 4:25, admin, рубрики: ai alignment, gpt, gpt-4, llm, Блог компании Open Data Science, будущее, будущее здесь, Илон Маск, искусственный интеллект, машинное обучение, экзистенциальные угрозы, элиезер юдковский

История про «восстание машин» давно знакома всем любителям научной фантастики, но после взрывного роста возможностей нейросетевых языковых моделей (вроде ChatGPT) об этом риске заговорили и вполне серьезные исследователи. В этой статье мы попробуем разобраться — есть ли основания у таких опасений, или это всего лишь бред воспаленной кукухи?

Читать полностью »

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели

2023-03-06 в 5:26, admin, рубрики: chatgpt, gpt, natural language processing, OpenAI, T9, Блог компании Open Data Science, будущее здесь, генеративные модели, генерация, искусственный интеллект, машинное обучение, нейросети, языковые модели

В последнее время нам почти каждый день рассказывают в новостях, какие очередные вершины покорили языковые нейросетки, и почему они уже через месяц совершенно точно оставят лично вас без работы. При этом мало кто понимает — а как вообще нейросети вроде ChatGPT работают внутри? Так вот, устраивайтесь поудобнее: в этой статье мы наконец объясним всё так, чтобы понял даже шестилетний гуманитарий!

Читать полностью »

Как машинное обучение помогает проекту «ЗабастКом» освещать трудовые конфликты

2023-01-16 в 9:14, admin, рубрики: diy или сделай сам, IT в НКО, nlp, nlp (natural language processing), Алгоритмы, Блог компании Open Data Science, искусственный интеллект, классификация текстов, НКО, Новости, новостной агрегатор, общество, общество и IT, текстовая аналитика

Как машинное обучение помогает проекту «ЗабастКом» освещать трудовые конфликты - 1

В посте расскажу о моем успешном взаимодействии с некоммерческим проектом ЗабастКом, который поддерживает наемных работников в отстаивании своих трудовых прав и интересов. Моя цель была реализовать что-то похожее на ML4SG проект, где волонтеры-специалисты по анализу данных направляют свою энергию на пользу обществу. Например, применяют алгоритмы искусственного интеллекта для спасения потерявшихся людей, для мониторинга качества воздуха или для анализа новостного потока.

Для Забасткома получилось улучшить систему автоматической обработки новостей с помощью алгоритмов машинного обучения. Это привело к увеличению охвата важных событий и уменьшению ручного труда редакторов. Добавлю, что работа с ребятами была похожа на мечту любого DS специалиста: "заказчик" легко шел на контакт; присутствовала заинтересованность и неплохое понимание ML алгоритмов; некоторая продакшн-система уже функционировала; данные для обучения алгоритмов легко собирались. А под катом — поделюсь подробностями и кодом.

Читать полностью »

Третья жизнь пет-проекта по распознаванию рукописных цифр

2022-12-23 в 11:23, admin, рубрики: dataScience, detection, huggingface, machinelearning, open source, pet, streamlit, yolo, Блог компании Open Data Science, искусственный интеллект, машинное обучение, обработка изображений

В этом блогпосте я поделюсь историей о том, как я обновлял свой старенький пет-проект по распознаванию цифр, как делал разметку для него, и почему модель предсказывает 12 классов, хотя цифр всего 10.

Вступление

Читать полностью »

Трекинг без разметки или как следить за тысячами пузырьков на производстве

2022-12-15 в 11:00, admin, рубрики: sort, Tracking, unsupervised learning, unsupervised tracking, Анализ и проектирование систем, Блог компании Open Data Science, венгерский алгоритм, искусственный интеллект, машинное обучение, Научно-популярное, сегментация изображений, слежение за объектами, трекинг, трекинг без разметки, трекинг объектов, флотация

Трекинг без разметки или как следить за тысячами пузырьков на производстве - 1

Привет! Меня зовут Клоков Алексей, сегодня поговорим об алгоритмах компьютерного зрения, обработке видеопотока и подходах к трекингу без разметки (unsupervised tracking). Методичка будет полезна как опытным специалистам, перед которыми стоит подобная задача, так и начинающим энтузиастам.

В этой статье вы найдете:
— описание домена данных и технологического процесса флотации;
— подход к cегментации множества подобных объектов;
— существующие методы трекинга без разметки;
— подход к одновременному сопровождению множества подобных объектов;
— сравнение качества работы алгоритмов, полезный python-код и демонстрации!

Читать полностью »

Как мы заняли 1-е место в задаче Matching в соревновании Data Fusion Contest 2022, или как нейронка обогнала бустинг

2022-06-09 в 16:01, admin, рубрики: big data, data mining, machine learning, neural networks, Блог компании Open Data Science, машинное обучение

На платформе ODS.ai прошло соревнование по машинному обучению Data Fusion Contest 2022 от банка ВТБ.

Мы, команда Лаборатории ИИ Сбера и Института искусственного интеллекта AIRI, приняли решение поучаствовать в контесте, когда увидели, что тема соревнования сильно пересекалась с нашими исследованиями. Мы заняли первое место на private leaderboard в основной задаче Matching. Здесь я хотел бы описать решение, которое у нас получилось.

Читать полностью »

DIY. Книги для всех, даром

2022-06-08 в 12:32, admin, рубрики: diy или сделай сам, natural language processing, open source, Блог компании Open Data Science, изучение иностранных языков, изучение языков, книгоиздание, Компьютерная лингвистика, лингвистика, параллельные корпуса

Lingtrain cover

Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.

Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.

Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.

Читать полностью »

Система распознавания шрифта Брайля. Читаем написанное белым по белому

2022-05-31 в 10:34, admin, рубрики: accessibility, braille, cnn, machine learning, object detection, Блог компании Open Data Science, Брайль, машинное обучение, обработка изображений

В 2018 году мы взяли из детдома в семью слепую девочку Анжелу. Тогда я думал, что это чисто семейное обстоятельство, никак не связанное с моей профессией разработчика систем компьютерного зрения. Но благодаря дочери через два года появилась программа и интернет-сервис для распознавания текстов, написанных шрифтом Брайля - Angelina Braille Reader.

Читать полностью »

Проблемы современного машинного обучения

2022-02-14 в 10:30, admin, рубрики: artificial intelligence, computer vision, natural language processing, natural language understanding, Блог компании Open Data Science, искусственный интеллект, машинное обучение, Научно-популярное

Во многих популярных курсах машинного и глубокого обучения вас научат классифицировать собак и кошек, предсказывать цены на недвижимость, покажут еще десятки задач, в которых машинное обучение, вроде как, отлично работает. Но вам расскажут намного меньше (или вообще ничего) о тех случаях, когда ML-модели не работают так, как ожидалось.

Частой проблемой в машинном обучении является неспособность ML-моделей корректно работать на большем разнообразии примеров, чем те, что встречались при обучении. Здесь идет речь не просто о других примерах (например, тестовых), а о других типахЧитать полностью »

Выбираем инструмент для разметки текста (и не только!)

2021-12-23 в 11:14, admin, рубрики: Блог компании Open Data Science

Рано или поздно перед любой компанией, которая хочет внедрить системы машинного обучения в свою инфрастуктуру, встает вопрос разметки данных. Чистые данные в достаточно большом количестве - залог хорошей модели, все мы прекрасно знаем правило "Garbage in - garbage out". Такой вопрос недавно встал и передо мной. В этом посте я поделюсь своим опытом поиска инструментов для разметки текста и звука под in-house разметчиков, постараюсь описать их плюсы и минусы, а в конце расскажу на чем мы в итоге остановились и что из этого вышло. Задачи на данном этапе относительно стандартные для NLP: классификация, NERЧитать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «Блог компании Open Data Science»

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели

Как машинное обучение помогает проекту «ЗабастКом» освещать трудовые конфликты

Третья жизнь пет-проекта по распознаванию рукописных цифр

Вступление

Трекинг без разметки или как следить за тысячами пузырьков на производстве

Как мы заняли 1-е место в задаче Matching в соревновании Data Fusion Contest 2022, или как нейронка обогнала бустинг

DIY. Книги для всех, даром

Система распознавания шрифта Брайля. Читаем написанное белым по белому

Проблемы современного машинного обучения

Выбираем инструмент для разметки текста (и не только!)