Intel xeon phi 7120p майнинг

Intel xeon phi 7120p майнинг

Адрес этой статьи в Интернете: http://www.thg.ru/cpu/obzor_intel_xeon_phi/

Intel Xeon Phi: карты Intel в суперкомпьютере TACC

Обзор Intel Xeon Phi | Знакомство

Intel рассчитывает создать суперкомпьютер с производительностью класса exaFLOP (10 в 18-й степени) к 2020 году. В середине 1990-х годов производительность самых быстрых систем составляла один teraFLOP (10 в 12-й). Самые быстрые современные системы достигают десятков petaFLOP (10 в 15-й). Чтобы получить один exaFLOP необходимо тысячекратное ускорение системы с производительность один petaFLOP. Это невероятно большая цифра.

Для этой цели определённо нужны ускорители, или как их называет Intel – акселераторы. AMD и Nvidia соревнуются за право называть свои GPU ответственными за внезапный всплеск производительности операций с плавающей запятой в быстрейших суперкомпьютерах. И каждая сторона согласится, что будущее этой сферы зависит не только от процессоров Xeon или Opteron. Большинство аналитиков считают, что будущее за смесью вычислительных ресурсов больших процессоров и маленьких специализированных ядер.

Чтобы компенсировать преимущества, которые есть у обоих поставщиков GPU в этой сфере, а также ответить на растущий спрос на вычислительную производительность, Intel представила сопроцессор Xeon Phi Coprocessor 5110P и анонсировала Phi Coprocessor серии 3100, которые должны появиться в 2013 году.

По сути, в Intel Xeon Phi интегрировано 60 (по крайней мере, в анонсированной модели 5110P) ядер x86 с большими 512-разрядными векторными модулями, работающими на частоте более 1 ГГц и обеспечивающие скорость вычислений двойной точности более 1 teraFLOPS. Они расположены на двухслотовой карте PCI Express со специальной прошивкой на базе Linux. Intel Xeon Phi 5110P включает 8 Гбайт памяти GDDR5, однако карты 3100 серии Intel планирует оснащать 6 Гбайтами. Безусловно, ядра не рассчитаны на обработку основных задач, с которыми справляются процессоры семейства Core и даже Atom. Они преуспевают в параллельных задачах, способных использовать большое количество ядер для максимального эффекта.

Для чего может понадобиться такая карта-акселератор как Intel Xeon Phi? Моделирование погоды, различные медицинские задачи, исследования в области энергетики, трёхмерное моделирование, финансовый анализ, создание контента и производство – все эти области сейчас используют аппаратные средства AMD и Nvidia для наращивания вычислительной мощности. Intel просто делает то же самое, только её продукция не требует переработки и написания кода для CUDA или OpenCL. Таким образом, независимые поставщики могут оптимизировать свои программы под Intel Xeon Phi используя C, C++ и Fortran с определённым дополнением, которое помогает задействовать этот акселератор.

Конечно, на создание такой карты ушло немало сил. Intel запустила проект Larrabeeв 2004 году, когда поняла, что тактовая частота не может расти бесконечно из-за ограничений материалов (процесса) и энергопотребления. Проект Larrabee находился в разработке несколько лет, за этот период было немало новостей, как многообещающих, так и противоречивых.

Этапы развития данного проекта всегда были интересны общественности, поскольку компания проповедовала концепцию множества интегрированных ядер, и она отличалась от решений конкурентов. Естественно, когда выяснилось, что чипы Larrabee не дотягивают до графических процессоров AMD и Nvidia, Intel поменяла концепцию, оставив идею о собственной видеокарте и вместо этого сфокусировалась на высокопроизводительных вычислениях. И далее мы увидим, что карты Intel Xeon Phi пилотной серии уже установлены в суперкомпьютере из Top500.

В рамках премьеры Intel Xeon Phi, Intel пустила корреспондентов в здание Texas Advanced Computing Center, чтобы продемонстрировать суперкомпьютер Stampede, использующий Intel Xeon Phi. Нам удалось сделать несколько фотографий одного из самых быстрых компьютеров в мире во время экскурсии. Но прежде чем понять подход Intel к сфере HPC, необходимо понять концепцию Larrabee.

Обзор Intel Xeon Phi | Возвращаемся к Larabee: начало многоядерной революции

Larrabee – это кодовое имя ныне печально известного проекта, в рамках которого Intel планировала разрабатывать графические адаптеры на базе многоядерной архитектуры и конкурировать с AMD и Nvidia. «Почему не использовать x86 для всех задач?» – спросила компания и сделала специфические программные и аппаратные оптимизации для сферы GPU в одной из своих архитектур. Огромные инвестиции в шину ISA x86 объясняются заинтересованностью компании в использовании существующей технологии для решения проблем с производительностью в будущем.

Идея Larrabee многих заинтриговала. Мы даже опубликовали наш собственный аналитический материал в 2009 году ( Intel Larrabee: новый GPU от Intel ). К сожалению, в этом же году Intel объявила, что Larrabee в рознице не появится. Затем, в 2010 году нас известили, что проект не только закрывают, но и переносят Larrabee в сферу HPC.

Но вернёмся к настоящему времени. Мало того, что скоро начнутся поставки продукции, над которой инженеры Intel трудились восемь лет, эти карты также уже являются частью суперкомпьютера Stampede класса 10 petaFLOPS, о котором мы говорили на предыдущей странице. Intel и TACC (Texas Advanced Computing Center) сообщили, что «железо», установленное в Stampede, – тестовые образцы, которые по своим характеристикам максимально близки к сопроцессорам серии Intel Xeon Phi 5110P и 3100.

В этой сфере конкуренция очень велика. У Nvidia больше опыта в сфере вычислений на GPU чем у Intel, и недавно она раскрыла, что суперкомпьютер Titan, построенный компанией Cray для Национальной Лаборатории Оук-Ридж (Oak Ridge National Laboratory), использует карты Tesla K20 на архитектуре Kepler для увеличения производительности до 20 petaFLOPS.

AMD тоже пытается привлечь внимание к картам FirePro, особенно в свете выдающейся вычислительной производительности архитектуры Graphics Core Next. К тому же, успехом пользуются процессоры Opteron. Тот же самый суперкомпьютер Titan, оснащённый GPU Nvidia, использует 18 688 процессоров Opteron 6274, каждый процессор состоит из восьми модулей Bulldozer.

Каков же вывод? Несмотря на то, что Intel уже давно является сторонником использования множества ядер в параллельных вычислениях, её подход преимущественно связан с CPU x86 общего назначения, работающими сообща. Тем временем, такие компании как AMD и Nvidia конкурируют с помощью графических архитектур, которые, как оказалось, ловко справляются с вычислениями с плавающей запятой. Intel немного опоздала со своей картой. Однако она делает ставку на распространённость архитектуры x86 для облегчения работы разработчиков софта, многие из которых до сих пор пытаются разобраться в программировании для CUDA или OpenCL.

Обзор Intel Xeon Phi | Архитектура

У корпорации Intel обширный портфель разработанных её инженерами технологий, и Intel Xeon Phi несомненно является его частью. Тем не менее, архитектура Many Integrated Core это нечто большее, чем куча модифицированных процессоров Pentium, созданных по 22-нанометровому техпроцессу. Ниже представлены лишь некоторые характеристики:

  • Дизайн x86 с поддержкой 64-бит
  • Четыре потока на ядро и до 61 ядра на сопроцессор
  • 512-бит SIMD
  • 512 Кбайт кэша L2 на ядро (до 30,5 Мбайт на всю карту Xeon Phi)
  • 22-нанометровые tri-gate транзисторы
  • Поддержка Red Hat Enterprise Linux 6.x или SuSE Linux 12+
  • 6 или 8 Гбайт памяти GDDR5 на карту

Вы наверняка заметили, что даже у самой старшей модели Intel Xeon Phi гораздо меньше ядер, чем у обычного графического процессора. Но нельзя сравнивать ядро MIC с CUDA в соотношении один к одному. Одно ядро Intel Xeon Phi – это четырёхпоточный модуль с 512-бит SIMD. Для верного сопоставления не стоит обращать внимание на маркетинговое определение понятия «ядра».

Любопытно, что карта работает под управлением Linux. Вряд ли на неё можно установить пакет LAMP, но наверняка найдутся те, кто захочет попробовать. Однако в карту Intel Xeon Phi можно войти через протокол SSH и узнать о ней больше информации. Следующий скриншот сделан на опытном образце.


Скриншот сессии по SSH на опытном образце Intel Xeon Phi Coprocessor с началом и концом 6100 строк команды «cat/proc/cpuinfo»

На следующей диаграмме, описывающей архитектуру ядра MIC, Intel утверждает, что менее двух процентов области ядра и кэша на кристалле характерны для логики x86. Хотя процессоры Xeon E5-2680 , работающие в суперкомпьютере Stampede, состоят из 2,27 миллиардов транзисторов каждый, родословная x86 относиться к 20 000 — 30 000 транзисторному процессору 8086.


Ядро Knights Corner

Конечно, даже современные настольные процессоры невероятно сложны, и подчёркивают важность получения и передачи данных наиболее эффективным образом. По аналогии с процессорами Sandy Bridge и Ivy Bridge , прототип с кодовым названием Knights Corner использует кольцевую шину, что позволяет максимально эффективно использовать пропускную способность и доступную площадь кристалла. Поскольку у каждого ядра есть много кэша, процессор способен избежать проседания производительности, связанного с поступлением данных из памяти GDDR.


Микроархитектура Knights Corner

Обзор Intel Xeon Phi | Аппаратная часть

13 ноября Intel представила первую модель на базе Knights Corner под названием Intel Xeon Phi Coprocessor 5110P. Её появление на рынке можно ожидать в начале января следующего года по цене примерно $2700. Позже в 2013 году, мы увидим сопроцессоры серии Intel Xeon Phi Coprocessor 3100 по цене в районе $2000.

Начинаете путаться в кодовых названиях со словом Knights? Intel часто критикуют за повторение этого слова в своих планах. Пока получается вот такой список:

  • Knights Ferry (предпроизводстенные модели)
  • Knights Corner (продукция 2012-2013 года, известная как Xeon Phi)
  • Knights Landing (продукция второго поколения)

Модели Intel Xeon Phi Coprocessor 5110P и серии 3100 основаны на одинаковом железе, но обладают характеристиками, которые лучше подходят для определенных целевых вычислительных задач. В таблице выше видно, что две линейки оснащены разными системами охлаждения. 5110P охлаждается пассивно, а серия 3100 имеет версии с пассивными или активным охлаждением.

У 5110P больше памяти и шире шина. Тепловой пакет процессора с 60 ядрами на частоте более 1 ГГц достигает 225 Вт. Хотя у этой карты нет активного охлаждения, 5110P всё же требуется достаточный воздушный поток для рассеивания такого количества тепла. Таким образом, карта предназначена исключительно для стоечных серверов, корпусные вентиляторы которых продувают воздух через радиатор карты и выпускают его через заднюю скобу.

Термопакет карт серии 3100 составляет уже 300 Вт. Они оснащаются исключительно 6 Гбайтами памяти GDDR5. Всего на карте установлено 28,5 Мбайт кэша второго уровня и 57 ядер. Возникает логичный вопрос, почему TDP у этих моделей выше? Скорее всего, они будут работать на более высокой тактовой частоте. По аналогии с 5110P, пассивно охлаждаемый Intel Xeon Phi 3100 потребует соответствующую серверную систему охлаждения. Однако модель с собственным вентилятором вполне может подойти для рабочих станций.

Поскольку Intel продемонстрировала Intel Xeon Phi в TACC, нам удалось сделать несколько фотографий самих карт по отдельности.

Для энтузиаста Intel Xeon Phi выглядит как двухслотовая видеокарта с интерфейсом PCI Express x16. Два самых больших отличия, по крайней мере с данного ракурса, это отсутствие вентилятора и наличие удерживающей скобы.

Большой и тяжёлый радиатор под кожухом карты имеет уходящие вглубь рёбра, они позволяют воздуху проходить через всю видеокарту. По спецификации слота PCIe, предоставляемая им мощность составляет 75 Вт, этого недостаточно для данной карты, поэтому на ней дополнительно размещены уже хорошо знакомые нам шести и восьмиконтактные разъёмы питания.

Обзор Intel Xeon Phi | Производительность

Во время премьеры представители Intel снова и снова повторяли о важности оптимизированного ядра при сравнении производительности обычного CPU с акселератором. Один из первых примеров компании включал часть кода на Fortran. Сначала мы видели результаты неоптимизированного однопоточного кода, а затем портированного для Intel Xeon Phi . Разница показала, что Intel Xeon Phi был примерно в триста раз быстрее. После, Intel продемонстрировала, почему это сравнение было не совсем корректно. Когда тот же самый эксперимент был проведен на двух процессорах Xeon E5 , Intel Xeon Phi оказалась уже лишь вдвое быстрее.

Это похоже на хитрый маркетинговый ход. Таким компаниям как Nvidia выгодно в качестве базы запускать параллельный код в один поток, а затем запускать этот же код на графическом процессоре, демонстрируя прирост производительности на два порядка. Однако если позволить оптимизированному коду воспользоваться ресурсами многоядерных CPU, реальная разница будет гораздо меньше.

Затем, Intel предоставила некоторые реальные результаты улучшения производительности, полученные при сравнениях двухпроцессорных систем на базе Xeon и Intel Xeon Phi .

У профессиональных финансистов вероятно слюнки текут на такие цифры. Методы Монте Карло часто используются для решения задач с помощью ввода неизвестных данных и вероятностей. Мы сами их использовали для того, чтобы предположить риск и финансовое воздействие больших проектов и программ. Но после краха интернет компаний в 2001 году, более предпочтительным методом оценки стал Black-Scholes. Это было неплохое решение для середины 2000-х годов.

Intel также пригласила представителей компании Altair – поставщика программных и аппаратных комплексов, чтобы намекнуть, насколько легко было портировать код на архитектуру карт Intel Xeon Phi , и продемонстрировала несколько примеров таких задач как имитация краш-теста, в котором наблюдается 2,5 кратный прирост производительности.

Заявления Intel, касающиеся производительности, звучат правдоподобно. Оптимизация может по-разному сказаться на производительности, и некоторые приложения получат больше ускорения благодаря Intel Xeon Phi , чем другие. Но, с учётом сказанного, 2-2,5-кратный прирост скорости в окружениях, рассчитанных на параллельные вычисления, вполне возможен.

Обзор Intel Xeon Phi | Оптимизация

Во время презентации в TACC, Intel выделила два основных аспекта:

  1. С помощью Xeon Phi Intel более чем в два раза улучшает производительность на ватт в приложениях сферы HPC по сравнению с семейством процессоров Xeon E5.
  2. При создании кода для Xeon Phi разработчики используют такой же подход, который применяется для работы с множеством ядер процессоров Xeon.

С первым заявлением всё понятно. Двойной прирост производительности в оптимизированных задачах при допзатратах в 225 и 300 Вт – это совсем неплохо, особенно если учесть, что тепловой пакет пары процессоров Xeon E5 тоже составляет 190 — 300 Вт. Но поскольку Intel Xeon Phi является картой PCI Express, вы также можете использовать более одной такой карты на пару чипов Xeon E5 . Речь идёт о двух, трёх и даже четырёх картах в сервере с процессорами линейки Xeon. Такая аппаратная комбинация может дать гораздо больше производительности на заданное место в стойке, больше производительности в рамках определённого уровня энергопотребления или сравнимый с другими решениями уровень производительности, но при этом система будет занимать меньше места, потреблять меньше энергии и выделять меньше тепла.

Преимущество Intel Xeon Phi связано с относительной простотой разработки программ для максимального использования её потенциала. Intel надеется, что программирование для CUDA и OpenCL до сих пор находится в зачаточном состоянии, а идея использования знакомых языков и инструментов понравится разработчикам софта. Позиция Intel сильна, если корпорация сможет поддерживать конкурентный уровень производительности. Универсальная модель программирования позволяет разработчикам использовать хостпроцессоры и сопроцессоры через набор команд x86, минимизируя время на создание оптимизированного кода.

Во время пресс-конференции касательно Intel Xeon Phi мы задали вопрос: «Если вы продаёте эти акселераторы более чем за $2000, как следующее поколение студентов научится писать код под них?». На него мы получили сразу два ответа. Во-первых, Intel Xeon Phi в розничную продажу не поступит, поэтому необходимое оборудование будут закупать университеты. Во-вторых, подающие надежды программисты, работающие с процессорами Core i3 или старшими моделями, уже могут на них начать осваивать новую модель программирования. Не забывайте, большинство преимуществ многоядерной архитектуры связаны с простой оптимизацией кода под многопоточность.

Intel всё равно, программируете ли вы для Core i3, Xeon E5 или Intel Xeon Phi . Компании нужен код, написанный для многоядерных архитектур x86. В 1990-х годах многоядерных процессоров для настольных компьютеров не было. Сегодня эта модель имеет широкое распространение, и со временем будет только развиваться.

Было бы неплохо, если бы Intel могла отдавать бракованные чипы Intel Xeon Phi (с меньшим количеством работающих ядер) студентам. Это позволило бы им подключаться к проектам, где требуется анализ больших объемов данных. Многие сотрудники и студенты Техасского университета в Остине (University of Texas at Austin) уже с нетерпением ждут доступа в TACC к суперкомпьютеру Stampede, оснащённому картами Intel Xeon Phi .

Обзор Intel Xeon Phi | Экскурсия к суперкомпьютеру Stampede в TACC

Intel хотела продемонстрировать, что Intel Xeon Phi не просто продукт, спасающий престиж компании и оправдывающий последние восемь лет разработок, начиная с проекта Larrabee. Вместо того чтобы просто объявить о появлении новых карт, компания пригласила нас на мероприятие в TACC (Texas Advanced Computing Center), где собирают суперкомпьютер на базе Intel Xeon Phi . Ко времени нашего визита, в нём было установлено более 2000 этих карт.

В процессе установки каждая карта помещается в специальное шасси, а затем монтируется в сервер Dell. Каждый узел PowerEdge C8220X «Zeus» содержит два процессора Xeon E5-2680 и 32 Гбайта оперативной памяти. Вот так выглядит сервер.

Подвешенная карта в верхнем левом углу – поддержка InfiniBand. Два разъёма LGA 2011 прикрыты пассивными радиаторами и каждый окружён четырьмя слотами DIMM. Каждый слот DIMM с ECC поддерживает до 4 Гбайт памяти, всего 32 Гбайт на сервер. Справа находится место под 2,5″ накопитель. Stampede использует обычные жёсткие диски.

Как нам сказали, синие огоньки внутри некоторых узлов – это установленные карты Intel Xeon Phi .

Сопроцессоры Intel Xeon Phi обеспечивают примерно семь из десяти petaFLOPS мощности суперкомпьютера.

Но Stampede состоит не только из тысяч CPU Xeon E5 и сопроцессоров Intel Xeon Phi . Для удалённой визуализации установлено 128 карт Nvidia Tesla K20, наряду с 16 серверами с общим обёмом памяти 1 Тбайт и двумя GPU для анализа больших объёмов данных. На самом деле, вдобавок к перечисленному в суперкомпьютер входит ещё множество других компонентов.

В системах с множеством узлов довольно сложно обеспечить между ними эффективную связь. TACC Stampede работает на оборудовании Mellanox InfiniBand 56 Гбит/с, которое имеет малые задержки и позволяет осуществлять прямой доступ к памяти. Оптоволоконные кабели от сервера подключены к встроенному в каждую стойку коммутатору.

В суперкомпьютере все узлы связаны центральными коммутаторами. На фотографии виден ещё не до конца загруженный соединениями коммутатор Mellanox. Не забывайте, Stampede ещё находится в процессе сборки.

Больший радиус изгиба предотвращает перелом кабеля. Среди 120 километров проводов найти нерабочее соединение будет не так просто.

Вот как выглядит полностью заполненный коммутатор.

Stampede: хранилище данных

Ёмкости отдельных 2,5″ приводов в каждом узле недостаточно для хранения огромных объёмов данных, необходимых для работы суперкомпьютера, поэтому устанавливаются дополнительные узлы хранения.

Мы ожидали увидеть ряды отсеков для дисков с возможность горячей замены, но были поражены увиденным выше (по крайней мере до тех пор, пока нам не объяснили, как диски сконфигурированы).

Обычные 3,5″ диски, размещённые по два в толщину и восемь рядов в длину, обеспечивают хранилище ёмкостью более 14 Пбайт наряду с оперативной памятью на 270 Тбайт. Эти полки можно вытянуть для замены дисков без отключения кабелей. Это действительно очень элегантное решение.

Мы благодарим TACC и Техасский Университет в Остине за отлично проведённое мероприятие и тем более за то, что позволили корреспондентам хорошенько обследовать Stampede.

Обзор Intel Xeon Phi | Конкуренты

Премьеру Intel Xeon Phi стоит рассматривать в контексте других тенденций, происходящих в сфере HPC.

Nvidia движется в нескольких интересных направлениях, имеющих отношение к нашей сегодняшней дискуссии. Во-первых Tegra 3 (и последующие версии Tegra). Более всего в платформе привлекают четыре (плюс одно) ядра ARM и GPU с низким тепловых пакетом. Они обеспечивают минимальное энергопотребление даже на устаревшем 40-нанометровом техпроцессе. Глядя на такие примеры как Mont-Blanc Project в Barcelona Supercomputing Center, становиться понятно, что существуют возможности для создания мощных кластеров на базе энергоэффективного оборудования. Однако компании Nvidia необходимо внедрить ядра с поддержкой ECC.

На примере суперкомпьютера Titan в Национальной лаборатории Оук-Ридж, мы видели, как внедрение Nvidia CUDA дало выдающиеся результаты, особенно если учесть, что производительность окупила дополнительные расходы на разработку. Если Nvidia продолжит демонстрировать преимущества своей архитектуры и платформы, то ей будет гораздо проще переманить независимых поставщиков на свою сторону.

Благодаря своему разнообразию, у AMD, вероятно, самое интересное портфолио HPC-компонентов.

Для начала в нём есть Socket G34, хорошо известный своими дешёвыми четырёхпроцессорными конфигурациями. Компания Cray часто использует Socket G34 и применяла его в суперкомпьютере Titan. Titan использует процессоры серии Opteron 6200, и у серии Opteron 6300 тоже весьма многообещающее будущее.

У AMD есть о чём рассказать и в сфере GPU-вычислений. В настольном сегменте APU Fusion уже демонстрируют потенциал ядер x86 и графических ресурсов на одном кристалле. Учитывая модульность чипов Bulldozer, не трудно представить, что компания может заменить общий блок вычислений с плавающей запятой потоковыми ядрами для оптимизированных под OpenCL приложений.

AMD двигается и в другом направлении. С приобретением SeaMicro, компания смогла кое-что противопоставить преимуществам Intel в облачных вычислениях и будет внедрять технологию Freedom Fabric в следующих поколениях серверных процессоров с 64-разрядными ядрами ARM.

HP и Dell – это очень сильные игроки в сфере HPC. Например, Stampede преимущественно состоит из серверов Dell. У HP и Dell налажены взаимоотношения со множеством поставщиков, и они имеют доступ ко многим технологиям. Оба производителя, как и AMD, присматриваются к ARM для облачных вычислений (и HPC).

В случае Stampede, дизайн Dell, по большей части, основан на железе Intel. С учётом сказанного, в портфолио Dell и HP есть и AMD и ARM, и поскольку они могут предложить различные технологии, у этих компаний огромные объёмы продаж.

Нельзя говорить о суперкомпьютерах, не вспомнив про IBM. В конце концов, благодаря архитектуре IBM PowerPC, суперкомпьютер Sequoia занимал лидирующую позицию в рейтинге Top500, достигнув 16,32 petaFLOPS.

Разрабатывая архитектуру Cell, которая не только прославилась в PlayStation 3, но и обеспечила ещё одно первое место в рейтинге Top500 в 2008 году, IBM внедрила идею использования небольших специализированных ядер для увеличения эффективности вычислений.

Источник

Читайте также:  Как зарегистрировать биржу криптовалют
Оцените статью