Рубрика «векторизация»

Как мы сделали гибридный AI-поиск по смыслу книг: двухконтурная архитектура и семантическое ранжирование

2026-01-21 в 15:59, admin, рубрики: AI, ai-поиск, векторизация, гибридные системы, ИИ, книги, поиск, технологии

Читать полностью »

Как мы учили AI-поиск в сервисе книги билайн понимать запросы вроде «хочу что-нибудь как Сумерки»

2025-11-20 в 17:00, admin, рубрики: AI, ai-поиск, агенты, билайн, векторизация, гибридные системы, ИИ, кейс, книги, поисковые технологии

Читать полностью »

Об ошибках округления и способах борьбы с ними

2025-06-26 в 12:15, admin, рубрики: векторизация, вычисления, Параллелизм, погрешности округления, числа с плавающей точкой

Современные алгоритмы машинного обучения и искусственного интеллекта обсчитывают огромные массивы чисел, интенсивно используя параллельные аппаратные ускорители. Одним из побочных эффектов параллельных вычислений является то, что порядок, в котором обрабатываются элементы данных, неочевиден и часто плохо предсказуем.

Многие алгоритмы быстрых вычислений, к примеру, матричного умножения, намеренно "портят", изменяют порядок действий, за счет этого добиваясь существенного сокращения количества необходимых операций.

Читать полностью »

Простой механизм поиска с нуля

2025-06-22 в 9:01, admin, рубрики: ruvds_перевод, word2vec, векторизация, косинусное сходство, поиск, эмбеддинги

Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо.

Читать полностью »

Как мы внедрили векторный поиск в Postgres Pro

2025-06-18 в 13:36, admin, рубрики: postgres, Postgres Pro, Администрирование баз данных, вектор, векторизация, векторные базы данных, векторный поиск, разработка баз данных

Представьте, что вы зашли в интернет-магазин купить пару кроссовок. Вы открываете описание модели, которая вам нравится, и сайт тут же предлагает похожие товары — и они действительно похожи. Как это работает?

Ответ прост и сложен одновременно: это векторный поиск — одна из самых перспективных технологий, меняющих подходы к работе с информацией.

Читать полностью »

Векторизация в RISC-V. Основы

2025-03-21 в 11:00, admin, рубрики: asic, risc-v, simd, SystemVerilog, векторизация

Многие современные вычислительные задачи, в частности повсеместная обработка изображений и звука или работа с матрицами для ИИ, хорошо поддаются параллелизации на уровне данных. Входные данные таких задач представлены в виде большого вектора данных, элементы которого можно обрабатывать независимо. Чтобы ускорить вычисления с векторами, производители процессоров добавили в архитектуры специальные Single Instruction, Multiple Data инструкции, которые позволяют работать за одну инструкцию сразу с несколькими элементами.

Читать полностью »

Новый взгляд на оценку русскоязычных моделей: обновлённый бенчмарк ruMTEB и лидерборд

2024-09-23 в 12:35, admin, рубрики: Massive Text Embedding Benchmark, rumteb, векторизация, искусственный интеллект, лидерборд, эмбеддинги, языковые модели

Всем привет! Меня зовут Роман Соломатин, я представляю команду AI-Run из X5 Tech, мы занимаемся генеративными сетями в целом и языковыми моделями в частности. Несколько месяцев назад русскоязычное сообщество разработчиков искусственного интеллекта получило инструмент для оценки моделей — бенчмарк ruMTEB (Massive Text Embedding Benchmark). Он предназначен для оценки репрезентации русскоязычных текстов и позволяет объективно сравнивать различные эмбеддинговые модели, которые превращают текст в вектора чисел, ориентированные на работу с русским языком (Читать полностью »

Нейронки «с нуля», или Как мы делали помощника для наших диспетчеров техподдержки

2020-07-23 в 8:55, admin, рубрики: Encog, nlp (natural language processing), service desk, Алгоритмы, Блог компании DataLine, векторизация, классификация, машинное обучение, нейронные сети, обучение с учителем, Программирование

Привет! Меня зовут Александр Соловьев, я программист компании DataLine.

Хочу поделиться опытом внедрения модных нынче нейронных сетей в нашей компании. Все началось с того, что мы решили строить свой Service Desk. Зачем и почему именно свой, можно почитать моего коллегу Алексея Волкова (cface) тут.

Я же расскажу о недавнем новшестве в системе: нейросеть в помощь диспетчеру первой линии поддержки. Если интересно, добро пожаловать под кат.

Нейронки «с нуля», или Как мы делали помощника для наших диспетчеров техподдержки - 1
Читать полностью »

Большой туториал по обработке спортивных данных на python

2020-05-02 в 20:42, admin, рубрики: pandas, python, анализ данных, векторизация, визуализация данных, Восстановление данных, парсинг сайтов, скраппинг, спорт, статистика

Большой туториал по обработке спортивных данных на python - 1

Последние пару лет в свободное время занимаюсь триатлоном. Этот вид спорта очень популярен во многих странах мира, в особенности в США, Австралии и Европе. В настоящее время набирает стремительную популярность в России и странах СНГ. Речь идет о вовлечении любителей, не профессионалов. В отличие от просто плавания в бассейне, катания на велосипеде и пробежек по утрам, триатлон подразумевает участие в соревнованиях и системной подготовке к ним, даже не будучи профессионалом. Наверняка среди ваших знакомых уже есть по крайней мере один “железный человек” или тот, кто планирует им стать. Массовость, разнообразие дистанций и условий, три вида спорта в одном – все это располагает к образованию большого количества данных. Каждый год в мире проходит несколько сотен соревнований по триатлону, в которых участвует несколько сотен тысяч желающих. Соревнования проводятся силами нескольких организаторов. Каждый из них, естественно, публикует результаты у себя. Но для спортсменов из России и некоторых стран СНГ, команда tristats.ru собирает все результаты в одном месте – на своем одноименном сайте. Это делает очень удобным поиск результатов, как своих, так и своих друзей и соперников, или даже своих кумиров. Но для меня это дало еще и возможность сделать анализ большого количества результатов программно. Результаты опубликиваны на трилайфе: почитать.

Это был мой первый проект подобного рода, потому как лишь недавно я начал заниматься анализом данных в принципе, а также использовать python. Поэтому хочу рассказать вам о техническом исполнении этой работы, тем более что в процессе то и дело всплывали различные нюансы, требующие иногда особого подхода. Здесь будет про скраппинг, парсинг, приведение типов и форматов, восстановление неполных данных, формирование репрезентативной выборки, визуализацию, векторизацию и даже параллельные вычисления.
Читать полностью »

Краеугольные камни уничтожения медленного кода в Wolfram Language: ускоряем код в десятки, сотни и тысячи раз

2019-11-08 в 15:01, admin, рубрики: CUDA, opencl, Wolfram, wolfram language, wolfram mathematica, абсолютная точность, Алгоритмы, ассоциативные массивы, Блог компании Wolfram Research, векторизация, вычисления, дебаг, компиляция, компиляция в c, машинная точность, мемоизация, оптимизация кода, отладка, плавающая запятая, правила замены, Программирование, распараллеливание, символьные вычисления, списки, точность, ускорение кода, функциональное программирование, хеш-таблицы, хэширование, шаблоны

Скачать файл с кодом и данные можно в оригинале поста в моем блоге

Картинка к вебинару и посту взята не просто так: в определенном смысле символьное ядро Wolfram Language можно сравнить с Таносом — если бы его мощь была бы направлена в правильное русло, он мог бы стать самым мощным и полезным «добряком». Так же и с символьным ядром Wolfram — его чудовищную мощь нужно правильно использовать, а если это делать не так, оно может стать настоящим «злом», замедляющим все очень сильно. Начинающие разработчики не знают многих важнейших парадигм, идей и принципов языка Wolfram Language, пишут код, который на самом деле дико неэффективен и после этого разочаровываются, хотя тут нет вины Wolfram Language. Эту ситуацию призвана исправить эта статья.

Мне довелось работать с Wolfram Language начиная с (уже довольно далекого) 2005 года (тогда еще была версия Mathematica 5.2, сейчас уже 12-я). За эти почти 15 лет произошло очень много: добавились тысячи новых встроенных функций и областей, в которых они работают (машинное обучение, точная геометрия, работа с аудио, работа в вебе, облачные возможности, глубокая поддержка единиц измерения, интеграция с базами данных Wolfram|Alpha, географические вычисления, поддержка работы с CUDA, Python, распараллеливание операций и многое многое другое), появились новые сервисы — облако Wolfram Cloud, широко известная система вычислительных значeний Wolfram|Alpha, репозиторий функций, репозиторий нейросетей и пр.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «векторизация»

Как мы сделали гибридный AI-поиск по смыслу книг: двухконтурная архитектура и семантическое ранжирование

Как мы учили AI-поиск в сервисе книги билайн понимать запросы вроде «хочу что-нибудь как Сумерки»

Об ошибках округления и способах борьбы с ними

Простой механизм поиска с нуля

Как мы внедрили векторный поиск в Postgres Pro

Векторизация в RISC-V. Основы

Новый взгляд на оценку русскоязычных моделей: обновлённый бенчмарк ruMTEB и лидерборд

Нейронки «с нуля», или Как мы делали помощника для наших диспетчеров техподдержки

Большой туториал по обработке спортивных данных на python

Краеугольные камни уничтожения медленного кода в Wolfram Language: ускоряем код в десятки, сотни и тысячи раз