Рубрика «VTune»

Маленькое эссе о техдолге

2025-08-12 в 13:36, admin, рубрики: scrum, VTune, технический долг

Везде долги: мужской, супружеский,

гражданский, родственный и дружеский,

долг чести, совести, пера,

и кредиторов до х*ра.

И. Губерман

Ко мне тут пришло одно уважаемое айтишное издание и попросило комментарий на тему Читать полностью »

Node-SPICE: Моделирование переходных процессов в электрической сети

2016-06-06 в 7:16, admin, рубрики: c++, GPL, Node-spice, VTune, Блог компании Intel, отладка, Программирование

Всем привет! Сегодня я хочу рассказать об одном своем проекте, который создавался как один из инструментов получения данных для диссертации, и так как на данный момент он свою основную задачу выполнил, я хочу пустить его в GPLv3-плавание — быть может, он будет полезен кому-то еще. Однако перед тем, как отдать швартовы, я решил воспользоваться профилировщиком Intel Vtune Implifier, чтобы убедиться в том, что мой пакет имитационного моделирования древовидной сети электроснабжения оптимально расходует вычислительные ресурсы компьютера.

Под катом подробности про себя, про проект и про оптимизацию производительности (которую за полчаса удалось повысить более, чем в два раза)
Читать полностью »

Действительно ли у каждого ядра есть «свой собственный» кэш первого и второго уровней?

2013-03-21 в 6:46, admin, рубрики: cache, Core i7, cpu, Realtime, VTune, Блог компании Intel, высокая производительность, Процессоры, метки: cache, Core i7, cpu, Realtime, VTune

У современных процессоров архитектуры Core i7 существует очевидный, документированный, но отчего-то не очень известный даже среди многих специалистов сценарий priority inversion. Его я опишу в этом посте. В нем есть код на С, три диаграммы, и некоторые подробности работы кэшей в процессорах архитектуры Core i7. Никаких покровов не срывается, вся информация давно общедоступна.

Priority inversion – ситуация, когда низкоприоритетный процесс может блокировать или замедлять высокоприоритетный. Обычно имеется в виду очередность доступа к исполнению на ядре для высокоприоритетного кода относительно низкоприоритетного. С этим должно неплохо справляться ядро ОС. Однако помимо вычислительных ядер, которые несложно распределять посредством affinity и MSI-X, в процессоре есть ресурсы, общие для всех задач – контроллер памяти, QPI, общий кэш третьего уровня, PCIe устройства. В вопросы PCIe я углубляться не буду, т.к. не являюсь экспертом в данной теме. Priority inversion на почве доступа к памяти и QPI я давно не наблюдал – пропускной способности современного многоканального контроллера как правило хватает и высокоприоритетным, и низкоприоритетным задачам. Остановлюсь на кэшах.
Читать полностью »

Как и зачем мерить FLOPSы

2012-05-24 в 7:52, admin, рубрики: FLOPS, VTune, Алгоритмы, Блог компании Intel, Программирование, метки: FLOPS, VTune

Как известно, FLOPS – это единица измерения вычислительной мощности компьютеров в (~~попугаях~~) операциях с плавающей точкой, которой часто пользуются, чтобы померить у кого больше. Особенно важно померяться FLOPS’ами в мире Top500 суперкомпьютеров, чтобы выяснить, кто же среди них самый-самый. Однако, предмет измерения должен иметь хоть какое-нибудь применение на практике, иначе какой смысл его замерять и сравнивать. Поэтому для выяснения возможностей супер- и просто компьютеров существуют чуть более приближенные к реальным вычислительным задачам бенчмарки, например, SPEC: SPECint и SPECfp. И тем не менее, FLOPS активно используется в оценках производительности и публикуется в отчетах. Для его измерения давно уже использовали тест Linpack, а сейчас применяют открытый стандартный бенчмарк из LAPACK. Что эти измерения дают разработчикам высокопроизводительных и научных приложений? Можно ли легко оценить производительность реализации своего алгоритма в FLOPSaх? Будут ли измерения и сравнения корректными? Обо всем этом мы поговорим ниже.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «VTune»

Маленькое эссе о техдолге

Node-SPICE: Моделирование переходных процессов в электрической сети

Действительно ли у каждого ядра есть «свой собственный» кэш первого и второго уровней?

Как и зачем мерить FLOPSы