Изучаем дерево исходников Windows 10: от телеметрии до open source

в 9:38, , рубрики: open source, source code, windows, Блог компании Positive Technologies, реверс-инжиниринг
image

Насколько бы закрытым ни было программное обеспечение Microsoft, информации о своем внутреннем устройстве оно выдает предостаточно. К примеру, экспорт функций из библиотеки по именам дает представление о ее интерфейсах. В свободном доступе есть и отладочные символы, которые повсеместно используются для диагностики ошибок в ОС. Однако на руках у нас все равно имеются только скомпилированные бинарные модули. Становится интересно: а какими они были до компиляции? Давайте попробуем разобраться, как вытащить побольше информации об исходных кодах, не делая ничего незаконного.

Идея, конечно, не нова. В свое время подобное делали и Марк Руссинович, и Алекс Ионеску. Мне лишь было интересно получить свежие данные, немного дополнив и уточнив уже проделанную другими работу. Для эксперимента нам понадобятся пакеты отладочных символов, которые есть в свободном доступе. Я взял пакеты для последней релизной версии «десятки» (64 бита), причем решил исследовать и релизный пакет (free build), и отладочный (checked build).

Отладочные символы — это набор файлов с расширением pdb (program database, база данных программы), в которых хранится различная информация для расширения возможностей отладки бинарных модулей в ОС, включая имена глобалов, функций и структур данных, иногда вместе с их содержимым.

Помимо символов можно взять условно доступную отладочную сборку «десятки». Такая сборка богата на ассерты, в которых бывают описаны не только недокументированые и отсуствующие в символьных файлах имена переменных, но и номер строки в файле, в котором сработал ассерт.

image

В примере видно не только имя файла и его расширение, но и структура каталогов до него, очень полезная даже без корня.

Натравливаем на файлы символов утилиту strings от sysinternals и получаем около 13 ГБ сырых данных. А вот кормить все файлы из дистрибутива отладочной сборки подряд — так себе идея, ненужных данных будет слишком много. Ограничимся набором расширений: exe — исполняемые файлы, sys — драйвера, dll — билиотеки, ocx — ActiveX-компоненты, cpl — компоненты панели управления, efi — EFI-приложения, в частности загрузчик. Сырых данных от дистрибутива набралось 5,3 ГБ.

К своему удивлению я обнаружил, что не так много программ способны хотя бы открыть файлы размером в десяток гигабайт, и уж тем более единицы смогли поддержать функцию поиска внутри таких файлов. В данном эксперименте для ручного просмотра сырых и промежуточных данных использовался 010 Editor. Фильтрация данных дешево и сердито осуществлялась скриптами на питоне.

Фильтрация данных из символьных файлов

В символьных файлах помимо прочего содержится информация компоновщика. То есть, в символьном файле присутствует список объектных файлов, которые использовались для компоновки соответствующего бинарника, причем в компоновщике используется полный путь до объектного файла.

image

  • Зацепка-фильтр № 1: ищем строки по маске ":\".

Получаем абсолютные пути, сортируем, удаляем дубликаты. К слову, мусора получилось не так много, и он был удален вручную.

При осмотре полученных данных стала понятна примерная структура дерева исходных кодов. Корень — «d:th», что по всей видимости означает threshold, в соответствии с названием ноябрьской версии Windows 10 — Threshold 1. Однако файлов с корнем «d:th» оказалось мало. Это объясняется тем, что компоновщик принимает уже собранные файлы. А сборка объектников осуществляется в папки «d:th.obj.amd64fre» для релизной сборки и «d:th.obj.amd64chk» для отладочной.

  • Зацепка-фильтр № 2: предполагаем, что исходные файлы хранятся по аналогии с объектными файлами после сборки, и осуществляем «разборку» объектных файлов в исходные. Внимание! Этот шаг может внести искажение структуры для некоторых папок, потому как достоверно не известны параметры сборки исходников.

Для примера:
d:th.obj.amd64freshellosshellgamesfreecellobjfreamd64freecellgame.obj
это бывший
d:thshellosshellgamesfreecellfreecellgame.c??

По поводу расширения файлов: объектный файл получается из кучи разных типов исходного файла: «c», «cpp», «cxx», «asm» и т. д. На данном этапе неясно, какой именно тип исходного файла использовался, поэтому оставим расширение «c??».

Помимо папки «d:th» наблюдается множество других корней. Например, «d:th.public.chk» и «d:th.public.fre». Данную папку мы опустим ввиду того, что в ней хранится публичная часть sdk, то есть она нам не очень интересна. Также стоит отметить различные пути проектов для драйверов, которые, судя по всему, собираются где-то на рабочих местах разработчиков:

c:usersjoseph-liudesktopsourcesrtl819xp_srccommonobjfre_win7_amd64amd64eeprom.obj
C:ALLPROJECTSSW_MODEMpcmamd64pcm.lib
C:Palaupalau_10.4.292.0swhostdriversbecndisinboxWS10sandboxDebugx64eth_tx.obj
C:UsersavardeDesktopinboxworkingContentsSourceswlsysamd64bcmwl63abcmwl63ax64Windows8Debugnicpci.obj

Другими словами, существует набор драйверов устройств, отвечающих стандартам, например, USB XHCI, которые входят в дерево исходных кодов ОС. А все специфичные драйвера собираются где-то в другом месте.

  • Зацепка-фильтр № 3: удаляем бинарные файлы, поскольку нам интересны только исходные. Удаляем «pdb», «lib», «exp» и т. п. Файлы «res» откатываем до «rc» — исходного кода ресурсного файла.

image

Выходные данные становятся все красивее! Однако на этом этапе дополнительные данные получить уже практически невозможно. Переходим к следующему набору сырых данных.

Фильтрация данных из исполняемых файлов

Поскольку абсолютных путей в сырых данных оказалось мало, фильтровать строки будем по расширениям:

  • «c» — исходные файы на языке C,
  • «cpp» — исходные файлы на языке C++,
  • «cxx» — исходные файлы на C или C++,
  • «h» — заголовочные файлы на языке C,
  • «hpp» — заголовочные файлы на языке C++,
  • «hxx» — заголовочные файлы на C или C++,
  • «asm» — исходные файлы на MASM,
  • «inc» — заголовочные файлы на MASM,
  • «def» — описательный файл для библиотек

После фильтрации данных становится видно, что хотя у полученный путей и нет корня, структура каталогов говорит о том, что она строится относительно него. То есть, всем путям достаточно добавить в начале корень «d:th».

На этом этапе есть несколько проблем с данными, полученными из символов. Первая проблема: мы не уверены, что правильно откатили путь сборки исходного файла в объектный файл.

  • Зацепка-фильтр № 4: проверим, есть ли совпадения между путями до объектных файлов и путями до исходных.

И они действительно есть! То есть, для большинства каталогов можно утверждать, что их структура восстановлена правильно. Конечно, все еще остаются сомнительные каталоги, но думаю, эта погрешность вполне приемлема. Попутно можно смело заменять расширение «c??» на расширение совпавшего по пути исходника.

Вторая проблема — заголовочные файлы. Дело в том, что это важная часть исходных файлов, однако из заголовочника не получается объектный файл, а это значит, что из информации об объектных файлах нельзя восстановить заголовочники. Приходится довольствоваться малым, а именно теми заголовочниками, которые мы нашли в сырых данных бинарных файлов.

Третья проблема: мы все еще не знаем большинство расширений исходных файлов.

  • Зацепка-фильтр № 5: будем считать, что в пределах одной папки хранятся исходные файлы одинакового типа.

То есть, если в какой-либо из папок уже присутствует файл с расширением «cpp», скорее всего все его соседи будут иметь такое же расширение.

image

Ну а как же исходники на ассемблере? За последним штрихом можно обратиться к Windows Research Kernel — исходным кодам Windows XP — и часть исходников на ассемблере переименовать вручную.

Изучаем полученные данные

Телеметрия

Какое-то время я изучал вопрос об устройстве телеметрии в Windows 10. К сожалению, анализ на скорую руку не выявил ничего стоящего. Я не нашел никаких кейлоггеров, никакой утечки чувствительных данных, ничего, к чему можно было бы прикопаться. И первым ключевым словом для поиска среди исходных файлов было «telemetry». Результат превзошел мои ожидания: 424 совпадения. Самые интересные приведу ниже.

Телеметрия в исходных файлах

d:thadminenterprisemgmtenterprisecspsv2certificatecorecertificatestoretelemetry.cpp
d:thbaseappcompatappraiserheadstelemetrytelemetryappraiser.cpp
d:thbaseappmodelsearchcommontelemetrytelemetry.cpp
d:thbasediagnosisfeedbacksiuflibstelemetrysiufdatacustom.c??
d:thbasediagnosispduidewizardwizardtelemetryprovider.c??
d:thbaseenterpriseclientsyncsettingsyncazurelibazuresettingsyncprovidertelemetry.cpp
d:thbasefsexfattelemetry.c
d:thbasefsfastfattelemetry.c
d:thbasefsudfstelemetry.c
d:thbasepowerenergyplatformtelemetry.c??
d:thbasepowerenergysleepstudytelemetry.c??
d:thbasestorvdsdiskpartdiskparttelemetry.c??
d:thbasestorvdsdiskraiddiskraidtelemetry.cpp
d:thbasewin32winnlselsadvancedservicesspellingplatformspecificcurrentspellingtelemetry.c??
d:thdriversinputhidhidcorehidclasstelemetry.h
d:thdriversmobilepclocationproductcorecrowdsourcelocationoriontelemetry.cpp
d:thdriversmobilepcsensorscommonhelperssensorstelemetry.cpp
d:thdriverswdmbluetoothuserbthtelemetrybthtelemetry.c??
d:thdriverswdmbluetoothuserbthtelemetryfingerprintcollector.c??
d:thdriverswdmbluetoothuserbthtelemetrylocalradiocollector.c??
d:thdriverswdmusbtelemetryregistry.c??
d:thdriverswdmusbtelemetrytelemetry.c??
d:thdsdnsserverserverdnsexednstelemetry.c??
d:thdsextliveidentitylibtracinglitemicrosoftaccounttelemetry.c??
d:thdssecuritybaselsaservercfilestelemetry.c
d:thdssecurityprotocolsmsv_sspidllntlmtelemetry.c??
d:thdssecurityprotocolsssltelemetrytelemetry.c??
d:thdssecurityprotocolssspcommonssptelemetry.c??
d:thenduserwindowsupdateclientinstallagentcommoncommontelemetry.cpp
d:thenduserwinstorelicensemanagerlibtelemetry.cpp
d:thminiondissysmpndistelemetry.c??
d:thminiosecuritybaselsasecuritydrivertelemetry.cxx
d:thminkernelfscdfstelemetry.c
d:thminkernelfsntfsmptelemetry.c??
d:thminkernelfsrefsmptelemetry.c??
d:thnetnetioiphlpsvcserviceteredo_telemetry.c
d:thnetpeernetngtorinotelemetrynotelemetrypeerdistnotelemetry.c??
d:thnetrrasipnathlpdhcptelemetryutils.c??
d:thnetwinrtnetworkingsrcsocketssocketstelemetry.h
d:thshellcortanacortanauisrctelemetrymanager.cpp
d:thshellexplorertraynotificationareatelemetry.h
d:thshellexplorerframedllribbontelemetry.c??
d:thshellfileexplorerproductfileexplorertelemetry.c??
d:thshellosshellcontrolscrnsavedefaultscreensavertelemetryc.c??
d:thwindowsmoderncoreinputv2inputprocessorsdeviceskeyboardlibkeyboardprocessortelemetry.c??
d:thwindowspublishedmaintouchtelemetry.h
d:thxboxonecoreconnectedstorageservicelibconnectedstoragetelemetryevents.cpp
d:thxboxshelluicommonxbox.shell.datatelemetryutil.c??

Комментировать, пожалуй, не стоит, поскольку все равно достоверно ничего не известно. Однако эти данные могут послужить хорошей отправной точкой для более детального исследования.

Kernel Patch Protection

Следующая находка — всеми любимый PatchGuard. Правда, в дереве исходников ОС присутствует только один файл непонятного, скорее всего бинарного типа.
d:thminkernelntoskepatchgd.wmp
Поискав совпадения в нефильтрованных данных, я обнаружил, что на самом деле Kernel Patch Protection — это отдельный проект.
d:bnb_kpgminkerneloemsrckernelpatchgdmpxcptgen00.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmpxcptgen01.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmpxcptgen02.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmpxcptgen03.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmpxcptgen04.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmpxcptgen05.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmpxcptgen06.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmpxcptgen07.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmpxcptgen08.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmpxcptgen09.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmp_noltcgpatchgd.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmp_noltcgpatchgda.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmp_noltcgpatchgda2.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmp_noltcgpatchgda3.c??
d:bnb_kpgminkerneloemsrckernelpatchgdmp_noltcgpatchgda4.c??

Сомнительные файлы

Не придумав больше ничего меня интересующего, я начал искать все подряд — и остался доволен!

d:thwindowscorentgdifondrvotfdatmdrvrumlibbackdoor.c??
в драйвере шрифтов?

d:thinetcoreedgehtmlsrcsitewebaudioopensourcewtfwtfvector.h
Web Template Framework, это всего лишь Web Template Framework, спорная аббревиатура. Погодите,

Open source?

d:thprintscanprintdriversrenderfiltersmsxpsfiltersutilopensourcelibjpegjaricom.c??
d:thprintscanprintdriversrenderfiltersmsxpsfiltersutilopensourcelibpngpng.c??
d:thprintscanprintdriversrenderfiltersmsxpsfiltersutilopensourcelibtifftif_compress.c??
d:thprintscanprintdriversrenderfiltersmsxpsfiltersutilopensourcezlibdeflate.c??
Думаю, на этой находке пора закругляться.

Архив с текстовым файлом со списком исходников приведен по ссылке. Делитесь своими находками в комментариях!

Автор: Positive Technologies

Источник

Поделиться новостью

* - обязательные к заполнению поля