- FLOPS
-
Производительность суперкомпьютеров Название год FLOPS флопс 1941 100 килофлопс 1949 103 мегафлопс 1964 106 гигафлопс 1987 109 терафлопс 1997 1012 петафлопс 2008 1015 эксафлопс ~2016 1018 зеттафлопс − 1021 йоттафлопс − 1024 FLOPS (также flops, flop/s, флопс или флоп/с) (акроним от англ. FLoating-point Operations Per Second, произносится как флопс) — внесистемная единица, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система. Существуют разногласия насчёт того, допустимо ли использовать слово FLOP, и что оно может означать. Некоторые считают, что FLOP и FLOPS — синонимы, другие же полагают, что FLOP (или flop или флоп, от англ. FLoating point OPeration) — это просто количество операций с плавающей запятой (например, требуемое для исполнения данной программы).
Поскольку современные компьютеры обладают высоким уровнем производительности, более распространены производные величины от FLOPS, образуемые путём использования кратных приставок системы СИ.
Содержание
Флопс как мера производительности
Как и большинство других показателей производительности, данная величина определяется путём запуска на испытуемом компьютере тестовой программы, которая решает задачу с известным количеством операций и подсчитывает время, за которое она была решена. Наиболее популярным тестом производительности на сегодняшний день является программа Linpack, используемая, в том числе, при составлении рейтинга суперкомпьютеров TOP500.
Одним из важнейших достоинств показателя флопс является то, что он до некоторых пределов может быть истолкован как абсолютная величина и вычислен теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результаты работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.
Границы применимости
Несмотря на кажущуюся однозначность, в реальности флопс является достаточно плохой мерой производительности, поскольку неоднозначным является уже само его определение. Под «операцией с плавающей запятой» может скрываться масса разных понятий, не говоря уже о том, что существенную роль в данных вычислениях играет разрядность операндов, которая также нигде не оговаривается. Кроме того, величина флопс подвержена влиянию очень многих факторов, напрямую не связанных с производительностью вычислительного модуля, таких как: пропускная способность каналов связи с окружением процессора, производительность основной памяти и синхронность работы кэш-памяти разных уровней.
Всё это, в конечном итоге, приводит к тому, что результаты, полученные на одном и том же компьютере при помощи разных программ, могут существенным образом отличаться, более того, с каждым новым испытанием разные результаты можно получить при использовании одного алгоритма. Отчасти эта проблема решается соглашением об использовании единообразных тестовых программ (той же LINPACK) с усреднением результатов, но со временем возможности компьютеров «перерастают» рамки принятого теста и он начинает давать искусственно заниженные результаты, поскольку не задействует новейшие возможности вычислительных устройств. А к некоторым системам общепринятые тесты вообще не могут быть применены, в результате чего вопрос об их производительности остаётся открытым.
Так, например, 24 июня 2006 года общественности был представлен суперкомпьютер MDGrape-3, разработанный в японском исследовательском институте RIKEN (Йокогама), с рекордной теоретической производительностью в 1 Пфлопс. Однако данный компьютер не является компьютером общего назначения и приспособлен для решения узкого спектра конкретных задач, в то время как стандартный тест LINPACK на нём выполнить невозможно в силу особенностей его архитектуры.
Также высокую производительность на специфичных задачах показывают графические процессоры современных видеокарт и игровые приставки. К примеру, заявленная производительность игровой приставки Xbox 360 составляет 1 Тфлопс, а приставки PlayStation 3 и вовсе 2 Тфлопс, что ставит их в один ряд с суперкомпьютерами начального уровня. Столь высокие показатели объясняются тем, что указана производительность над числами 32-битного формата[1][2], тогда как для суперкомпьютеров обычно указывают производительность на 64-разрядных данных[3][4]. Кроме того, данные приставки и видео-процессоры рассчитаны на операции с трёхмерной графикой, хорошо поддающиеся распараллеливанию, однако эти процессоры не в состоянии выполнять многие задачи общего назначения, и их производительность сложно оценить классическим тестом LINPACK[5] и тяжело сравнить с другими системами.
Причины широкого распространения
Несмотря на большое число существенных недостатков, показатель флопс продолжает с успехом использоваться для оценки производительности, базируясь на результатах теста LINPACK. Причины такой популярности обусловлены, во-первых, тем, что флопс, как говорилось выше, является абсолютной величиной. А во-вторых, очень многие задачи инженерной и научной практики в конечном итоге сводятся к решению систем линейных алгебраических уравнений, а тест LINPACK как раз и базируется на измерении скорости решения таких систем. Кроме того, подавляющее большинство компьютеров (включая суперкомпьютеры) построены по классической архитектуре с использованием стандартных процессоров, что позволяет использовать общепринятые тесты с большой достоверностью.
Для подсчета максимального количества FLOPS для процессора нужно учитывать, что современные процессоры в каждом своём ядре содержат несколько исполнительных блоков каждого типа (в том числе и для операций с плавающей точкой), работающих параллельно, и могут выполнять более одной инструкции за такт. Данная особенность архитектуры называется суперскалярность и впервые появилась ещё в самом первом процессоре Pentium в 1993 году. Современное ядро Intel Core 2 так же является суперскалярным и содержит 2 устройства вычислений над 64-битными числами с плавающей запятой, которые могут завершать по 2 связанные операции (умножение и последующее сложение, MAC) в каждый такт, теоретически позволяющих достичь пиковой производительности до 4-х операций за 1 такт в каждом ядре[6][7]. Таким образом, для процессора, имеющего в своём составе 4 ядра (Core 2 Quad) и работающего на частоте 3.5ГГц, теоретический предел производительности составляет 4х4х3.5=56 гигафлопс, а для процессора, имеющего 2 ядра (Core 2 Duo) и работающего на частоте 3ГГц — 2х4х3=24 гигафлопс, что хорошо согласуется с практическими результатами, полученными на тесте LINPACK. Типичная производительность теста LINPACK составляет 80-95 % от теоретического максимума.
Обзор производительности реальных систем
Из-за высокого разброса результатов теста LINPACK, приведены примерные величины, полученные путём усреднения показателей на основе информации из разных источников. Производительность игровых приставок и распределённых систем (имеющих узкую специализацию и не поддерживающих тест LINPACK) приведена в справочных целях в соответствии с числами, заявленными их разработчиками. Более точные результаты с указанием параметров конкретных систем можно получить, например, на сайте The Performance Database Server.
Суперкомпьютеры
- Компьютер ЭНИАК, построенный в 1946 году, при массе 27 т и энергопотреблении 150 кВт, обеспечивал производительность в 300 флопс
- IBM 709 (1957) — 5 Кфлопс
- БЭСМ-6 (1968) — 1 Мфлопс (операций деления)
- Cray-1 (1974) — 160 Мфлопс
- БЭСМ-6 на базе Эльбрус-1К2 (1980-х) — 6 Мфлопс (операций деления)
- Эльбрус-2 (1984) — 125 Мфлопс
- Cray-2 (1985) — 1,9 Гфлопс
- Cray Y-MP (1988) — 2,3 Гфлопс
- Электроника СС БИС (1991, двухмашинный вариант) — 500 Мфлопс
- ASCI Red (1993) — 1 Тфлопс
- Fujitsu FX-1 (2008) — 121 Tфлопс[8]
- IBM Blue Gene/L (2006) — 478,2 Тфлопс
- Cray Jaguar (2008) — 1,059 Пфлопс
- IBM Roadrunner (2008) — 1,042 Пфлопс[9]
- Ломоносов (2011) — 1,3 Пфлопс
- Jaguar Cray XT5-HE (2009) — 1,759 Пфлопс
- Fujitsu K (2010) — 11 Пфлопс[8]
- Тяньхэ-1А (2010) — 2,507 Пфлопс
- Fujitsu K computer (2011) — 10,51 Пфлопс[10]
- IBM Sequoia (2012) — 16,32 Пфлопс[11]
- Cray Titan (бывш. Cray Jaguar; 2012) — >17,59 пфлопс[12]
Планы:
- Fujitsu FX-10 (2012) — 23 Пфлопс
- Intel планирует к 2020 году создать суперкомпьютер производительностью 4 Эфлопс[13]
- По личному мнению Ректора МГУ Садовничего, высказанного в октябре 2011 года, в МГУ через пару лет (к 2014 году) может появиться суперкомпьютер производительностью до 10 Эфлопс[14] В декабре появилось сообщение о начале проектирования 10 ПФлопс компьютера для МГУ[15].
- К 2018—2020 годам планируется увеличить мощность суперкомпьютера Саровского ядерного центра до 1 эксафлопс[16].
Процессоры персональных компьютеров
- AMD Athlon 64 2,211 ГГц (2003) — 8 Гфлопс[17]
- AMD Athlon 64 X2 4200+ 2,2 ГГц (2006) — 13.2 Гфлопс
- Intel Core 2 Duo 2,4 ГГц (2006) — 19,2 Гфлопс[18]
- AMD Athlon II X4 640 (ADX640W) 3.0 ГГц (2010) — 37.39 Гфлопс
- Intel Core 2 Quad Q8300 2,5 ГГц — 40 Гфлопс[19]
- Intel Core i7-975 XE 3,33 ГГц (2009) — 53.328 Гфлопс[20]
- CPU AMD Phenom II X6 1075T (HDT75TFB) 3.0 ГГц/6core/ 3+6Мб/125 Вт/4000 МГц Socket AM3 — 55.6094 Гфлопс[21]
- Intel Core i5-2500K 3.3-3.7 ГГц (2011) — 105,6-118 Гфлопс[22]
- Intel Atom[уточнить] — 2,1 Гфлопс
Карманные компьютеры
- КПК на основе процессора Samsung S3C2440 400 МГц (архитектура ARM9) — 1,3 Мфлопс
- Intel XScale PXA270 520 МГц — 1,6 Мфлопс
- Intel XScale PXA270 624 МГц — 2 Мфлопс
- Samsung Exynos 4210 2х1600 МГц — 84 Мфлопс
Распределённые системы
Данные приведены по состоянию на 26 июля 2011 года
- Bitcoin — более 161.9 Пфлопс одинарной точности (оценочно, так как bitcoin не использует операций с плавающей точкой[23])[24]
- Folding@home — более 6,5 Пфлопс[25]
- BOINC — более 6,1 Пфлопс[26]
- SETI@home — более 549 Тфлопс[27]
- Einstein@Home — более 490 Тфлопс[28]
- Rosetta@home — более 105 Тфлопс[29]
Игровые приставки
Указаны операции с плавающей точкой над 32-разрядными данными
- Sega Dreamcast — 1,4 Гфлопс
- Microsoft Xbox — 5,8 Гфлопс
- Microsoft Xbox 360 — 115,2 Гфлопс
- Sony PlayStation 2 — 6,2 Гфлопс
- Sony PlayStation Portable — 2,6 Гфлопс[30]
- Sony PlayStation 3 — 218 Гфлопс[31]
- Nintendo Wii — 2,9 Гфлопс[32]
GPU-процессоры
Теоретическая производительность (FMA; гигафлопсы):
GPU GFLOPS с точностью 32 бита GFLOPS с точностью 64 бита Источник GeForce GTX 590 2x1253,4 = 2507.4 2x 156,7 = 313.4 [33] GeForce GTX 580 1581,1 197,6 [33] Radeon HD 7970 3789 947 [34] Radeon HD 6990 2x2550 = 5100 2x 637 = 1274 [34] Radeon HD 5970 (AIB vendors) 2x 2320 = 4640 2x 464 = 928 [34] Человек и калькулятор
Калькулятор не случайно попал в одну категорию вместе с человеком, поскольку хотя он и является электронным устройством, содержащим процессор, память и устройства ввода/вывода, режим его работы кардинально отличается от режима работы компьютера. Калькулятор выполняет одну операцию за другой с той скоростью, с какой их запрашивает человек-оператор. Время, проходящее между операциями, определяется возможностями человека и существенно превышает время, которое затрачивается непосредственно на вычисления. Можно сказать, что в среднем производительность обычного карманного калькулятора составляет 10 флопс.
Человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и часто с большой ошибкой. Говоря о производительности нашего вычислительного аппарата, придётся использовать такие единицы как миллифлопс и даже микрофлопс.
См. также
Примечания
- ↑ http://ixbtlabs.com/articles3/video/rv670-part1-page1.html floating-point ALUs .. support for FP32 precision
- ↑ http://insidehpc.com/2009/07/01/personal-gpu-supercomputer-for-the-contrarian-puts-4-tflops-in-1u/ these are single precision GPU peak numbers
- ↑ http://www.top500.org/faq/what_hpl_benchmark HPL is a software package that solves a dense linear system in double precision (64 bits)
- ↑ [1] [2] HPL Faq entries for precision
- ↑ Exploiting the Performance of 32 bit FP Arithmetic in Obtaining 64 bit Accuracy (Revisiting Iterative Refinement for Linear Systems)
- ↑ SSE, SSE2 & SSE3 max throughput: 4 Flop / cycle
- ↑ The net result is that you can now process 2 DP adds and 2 DP multiplies per clock, or 4 FLOPS per cycle. (DP)
- ↑ 1 2 [ http://24gadget.ru/gallery/index/slider/3128/12 Суперкомпьютер Fujitsu K] (рус.)
- ↑ IBM создала самый мощный суперкомпьютер в мире (рус.), Lenta.ru, 9 июня 2008 года
- ↑ Японский суперкомпьютер обогнал по производительности китайский (рус.)
- ↑ Lawrence Livermore’s Sequoia Supercomputer Towers above the Rest in Latest TOP500 List (англ.)
- ↑ Agam Shah (IDG News), Titan supercomputer hits 20 petaflops of processing power // PCWorld, Computers, Oct 29, 2012 (англ.)
- ↑ Intel планирует увеличить мощность суперкомпьютеров в 500 раз к 2020 г. (рус.)
- ↑ Сверхмощный суперкомпьютер может появиться в МГУ в ближайшие годы (рус.) «Я думаю, что в ближайшие год-два в Московском университете будет создан супервычислитель уже эксафлопсной скорости, до 10 эксафлопс (10 тысяч петафлопс).»
- ↑ Последователь Ломоносова
- ↑ Мощность суперкомпьютера в Сарове может достигнуть максимума к 2020 г. РИА Новости (23 февраля 2012). Архивировано из первоисточника 31 мая 2012. Проверено 24 февраля 2012.
- ↑ iXBT: Факты и предположения об архитектуре AMD Opteron и Athlon 64
- ↑ http://download.intel.com/support/processors/core2duo/sb/core_E6000.pdf (pdf) «E6600 2.40 GHz 19.20» GFlops
- ↑ http://download.intel.com/support/processors/core2quad/sb/core_Q8000.pdf (pdf) «Q8300 4 MB 1333 MHz 2.5 GHz 75833 40.00»
- ↑ http://download.intel.com/support/processors/corei7ee/sb/core_i7-900_d_x.pdf (pdf) «i7-975 Base 3.33 GHz, 101101 CTP, 53.328 GFLOPS»
- ↑ НИКС: Сводные таблицы тестирования Intel Linpack x64 Решение системы из 10000 уравнений
- ↑ [3] http://www.intel.com/support/processors/sb/CS-032815.htm
- ↑ bitcoin выполняет вычисления хеш функции sha256, каждое из которых оценивается в 6350 операций над целыми числами или в 12700 операций над 32-битными плавающими числами http://forum.bitcoin.org/index.php?topic=4689.0
- ↑ Bitcoin Watch
- ↑ Folding@Home
- ↑ BOINC
- ↑ BOINCstats:SETI@home
- ↑ BOINCstats:Einstein@Home
- ↑ BOINCstats:Rosetta@home
- ↑ PSP Specs Revealed Processing speed, polygon rate and lots more. // IGN Entertainment, 2003. «PSP CPU CORE…FPU, VFPU (Vector Unit) @ 2.6GFlops»
- ↑ SONY COMPUTER ENTERTAINMENT INC. TO LAUNCH ITS NEXT GENERATION COMPUTER ENTERTAINMENT SYSTEM, PLAYSTATION®3 IN SPRING 2006 (англ.)
- ↑ Update: How many FLOPS are in game consoles? | TG Daily
- ↑ 1 2 Сравнительная таблица графических карт NVIDIA GeForce
- ↑ 1 2 3 Сравнительные таблицы графических карт AMD (ATI) Radeon
Ссылки
- TOP500 Рейтинг суперкомпьютеров TOP500 (англ.)
- The Performance Database Server Большая база данных производительности вычислительных систем (англ.)
- Roy Longbottom’s PC Benchmark Collection Подборка тестовых программ для ПК (включая LINPACK) и результатов испытаний (англ.)
- История суперкомпьютеров (англ. яз; pdf)
- Top50 Опубликована очередная редакция рейтинга суперкомпьютеров Top50 (рус.)
Стиль этой статьи неэнциклопедичен или нарушает нормы русского языка. Статью следует исправить согласно стилистическим правилам Википедии.Категории:- Технологии процессоров
- Единицы измерения
Wikimedia Foundation. 2010.