На проходящей в эти дни конференции Микроэлектроника 2025 анонсировано новое процессорное ядро компании CloudBear – BI-672. Согласно представленным материалам, данное ядро преодолело рубеж микроархитектурной скорости 1 на GHz на SpecInt2017, что является значимым достижением и делает его самым производительным из когда-либо разработанных в России. Давайте вкратце пробежимся по деталям, доступным на данный момент.
На одном из первых слайдов можно видеть, какой прогресс был совершён по сравнению с предыдущей версией BI-671 с OoO исполнением:

Чтобы достигнуть таких результатов, потребовалась большая работа. Итоговая микроархитектура выглядит следующим образом:

Подробнее, вклад в улучшение производительности выглядит следующим образом:
Улучшение Микроархитектуры:
-
Декодирование до 3-х инструкций в такт
-
Новая подсистема подкачки кода
-
Окно внеочередного исполнения 96 команд
-
Увеличены размеры OoO структур
-
Новый блок Load/Store с улучшенными механизмами внеочередного исполнения
-
2-х уровневая подсистема трансляции виртуальных адресов
-
8-канальные кэши инструкций и данных размером 32 КБ с поддержкой parity/ECC
-
7 каналов исполнения инструкций: branch, 3 ALU, 2 FPU, Load/Store (комбайнинг до 4 инструкций)
Подсистема подкачки кода:
-
Подкачка по 16 байт в такт
-
L0 микро BTB (Branch Target Buffer)
-
L1 основной BTB
-
Branch History Table
-
Return Address Stack
-
Предсказание косвенных переходов I-BTB
-
Раздельные очереди для подкачки кода и предсказания переходов
-
Неблокируемый предсказатель переходов работает как префетчер для L1 кэша
-
Объединение последовательностей из 2-х часто встречающихся команд в макро-операции
Блок управления чтением/записью (load/store unit):
-
Внеочередное и спекулятивное исполнение операций
Load вперед load
Load вперед store
Store вперед load
-
Store to Load forwarding – использование данных из store буфера для load операций
-
Комбайнинг чтений/записей до 4-х подряд идущих операций
-
Канал чтения/записи в D-кэш шириной 32 байта
-
Отдельные каналы трансляции виртуальных адресов для чтений и записей
-
Поддержка невыравненного доступа (обязательна в RVA22)
Подсистема трансляции виртуальных адресов:
-
Режим виртуальной памяти Sv39
-
Полностью ассоциативные I-TLB и D-TLB 1-ого уровня с кэшированием страниц любых размеров (по 64 элемента каждый)
-
Отдельные каналы load и store в D-TLB
-
Кэш 4КБ страниц в S-TLB 2-ого уровня (2-канальный кэш с 1024 элементами)
-
Аппаратный обход таблицы трансляции для нескольких промахов в I-TLB/D-TLB параллельно
-
Аппаратное обновление A/D флагов (Svadu)
-
Поддержка Svnapot расширения: 64КБ страницы (=16x4КБ) с заполнением 4КБ страниц в S-TLB кэш
Подсистема памяти:
-
Полностью когерентный кластер с общим L2
-
Поддержка снуп-запросов в I и D кэшах
-
Неблокируемая внеочередная обработка L1/L2 запросов
-
L2 префетчерс определяемым шагом
-
Parity в L1 I-кэше
-
ECC в L1 D и L2 кэше
-
Поддержка poison бит с гранулярностью L1 – 32 бита, L2 - 64 бита
-
Поддержка Cache Management операций
-
Новые типы сообщений в протоколе когерентности
Теперь посмотрим, как новое ядро выглядит на тесте Coremark по сравнению с конкурентами:

Coremark, конечно, хорошо, но как мы знаем, всё же это «детский» тест. А серьёзно говорить о производительности процессорного ядра можно только имея на руках цифры SpecINT2006/2017. И авторы порадовали нас и такими результатами:

Также присутствует данные для SpecFP2006/2017, которые являются чуть менее важными для процессорного ядра общего назначения, но тем не менее тоже интересны:

Конечно, данные графики показывают не настоящий перф, а лишь «микроархитектурную скорость», что часто является очень спекулятивной вещью. Для понимания настоящей производительности нам необходимо как минимум знать частоту, на которой может процессор работать. И эта информация также присутствует, частота может достигать 1.8 ГГц на 12нм техпроцессе:

Суммарно, можно резюмировать, что новое ядро BI-672 является большим шагом вперёд для отечественной индустрии разработки процессоров. Оно (и его младшие братья) позволяет закрыть все потребности от микроконтроллеров до встраиваемых систем и десктопов среднего класса, приближаясь в своих характеристиках к достаточно серьёзному ядру Arm Cortex A75. Да, для серверных решений и high-end десктопов оно ещё слабовато, но вектор развития, выбранный компанией CloudBear, позволяет надеяться на достижение и этих амбициозных целей.
Планы по разработке на следующий год выглядят следующим образом:

Желаем нашим коллегам из CloudBear (и, конечно же, всех других компаний, разрабатывающих IP-блоки процессорных ядер) не останавливаться на достигнутом и в ближайшие годы преодолеть гроссмейстерские 2 SpecINT2017 на GHz, а потом и вовсе посрамить своих конкурентов из Arm, AMD, Intel и даже Apple!
Автор: Armmaster
