- PVSM.RU - https://www.pvsm.ru -

Команда Microsoft Research побила мировой рекорд по сортировке

Команда Microsoft Research побила мировой рекорд по сортировкеНа сайте sortbenchmark.org [1] ежегодно проводятся конкурсы по сортировке больших наборов данных. Один из видов соревнований — minute sort, в котором необходимо за минуту прочитать с диска и сортировать как можно большее число записей и сохранить результат в файл. Конкурс проходит в двух категориях — Indy, без ограничений на используемое железо, и Daytona — должны использоваться только обычные компьютеры “из магазина”.

Команде Microsoft Research удалось многократно превысить [2] державшийся с 2009 года рекорд Yahoo в категории Daytona. Их кластер, состоящий из 1033 дисков на 250 машинах, справился с 1401 гигабайтом данных. Это почти втрое лучше результата Yahoo (500 гигабайт), при том, что кластер Yahoo был почти в шесть раз больше (5624 диска на 1406 машинах). Более того, майкрософтовский кластер побил и прошлогодний рекорд в категории Indy (1353 гигабайта).

Таких впечатляющих результатов удалось добиться благодаря технологии Flat Datacenter Storage (FDS). Microsoft не использовала типичные для таких задач решения на базе парадигмы MapReduce. Для некоторых задач, и сортировка — одна из них, невозможно обрабатывать части данных независимо друг от друга на разных узлах, как это делается в MapReduce-решениях. От необходимости перемещать огромные объёмы данных никуда не деться.

Технология FDS использует тот факт, что с того времени, как была создана архитектура MapReduce, сети стали намного быстрее и дешевле. Это позволило построить кластер, в котором каждый компьютер способен общаться с любым другим одновременно на полной скорости своего сетевого интерфейса (такая сеть называется full bisection bandwidth network). Таким образом, вместо инфраструктуры Hadoop, которую использовала в 2009 году Yahoo, команда Microsoft Research использовала сетевую файловую систему, которая позволяет обращаться к любым данным на любом узле так, как будто они находятся на локальном диске.

Microsoft планирует применить архитектуру FDS в датацентрах, обслуживающих поисковик Bing.

Автор: ilya42


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/vy-sokaya-proizvoditel-nost/8016

Ссылки в тексте:

[1] sortbenchmark.org: http://sortbenchmark.org/

[2] многократно превысить: http://research.microsoft.com/en-us/news/features/minutesort-052112.aspx