Цели исследования и задачи
Мы занимаемся созданием HRTech-сервисов для оценки и развития компетенций специалистов. В наших сервисах применяются LLM и в качестве базового варианта мы использовали разные модели ChatGPT.
Основные задачи LLM включают:
-
Сортировку и оценку резюме
-
Оценку и формирование навыков кандидатов
-
Ведение диалогов с кандидатами
-
Оценку соответствия требованиям вакансий
Траектория развития наших продуктов предполагает перевод их опен-сорс либо на российские LLM, поэтому мы регулярно проводим оценку этих моделей с точки зрения их применимости к нашим задачам. В этой статье поделюсь полученным результатами сравнения некоторых моделей.
Методика тестирования
Тестирование проводилось на 20 вопросах, отражающих реальные HR-сценарии, например:
-
Формирование списка навыков с описанием для вакансии аналитика
-
Разработка комплексной рабочей ситуации для проведения кейс-интервью
-
Генерация вопросы для собеседования
-
Оценка резюме по заданному набору критериев и т.д.
Фиксировалось время ответа и оценивалось качество по критериям релевантности, полноты и корректности. Тесты выполнялись на сервере с видеокартами 1650 и 3050, а также на процессоре Ryzen 5 5600, что соответствует условиям промышленной эксплуатации.
Основные критерии выбора — качество ответов и быстродействие.
Качество оценивалось экспертно – эксперты независимо оценивали правильность ответа моделей по каждому вопросу, выставляли баллы, затем эти баллы усреднялись и суммировались. Возможный максимум по нашему внутреннему бенчмарку – 40 баллов (сейчас близкий к нему результат выдает ChatGPT)
Быстродействие оценивалось как среднее время ответа (в секундах).
Результаты сравнения
Всего в сравнении принимало участие свыше 40 моделей, самые лучшие результаты показали следующие:
|
Модель |
|
Время (с) |
Качество |
|
Qwen 2.5 7b q3 |
|
37.84 |
28 |
|
Llama 3.2 3b q8 |
|
24.44 |
30 |
|
Llama 3.2 3b q4 |
|
21.63 |
32 |
|
Qwen 2.5 3b q8 |
|
50.20 |
25 |
|
Qwen 2.5 3b q4 |
|
47.41 |
27 |
|
Gemma2 9b q8 |
|
63.54 |
22 |
|
Gemma2 9b q5 |
|
51.54 |
24 |
|
Qwen 2 0.5b |
|
11.75 |
18 |
|
Llama 3.2 1b q8 |
|
10.47 |
20 |
|
Яндекс |
|
12.75 |
14.3 |
Какие выводы мы сделали
-
ChatGPT пока остается лидером в универсальных задачах, но для нишевых решений оправданно применение альтернатив.
Для большинства прикладных HR-задач вполне удовлетворительно работают open-source модели среднего размера (например, Llama 3.2 3b q4/q8, Qwen 2.5 7b q3) – они демонстрируют оптимальный баланс качества и времени отклика.
-
Квантование эффективно снижает время отклика без значительной потери качества. Модели с более низким уровнем квантования (q3, q4) работают быстрее, сохраняя приемлемое качество.
Автор: KonstantinKosvintsev
