Fermi以降のNVIDIA製GPUのスペック一覧

Fermi以降のNVIDIA製GPUのスペックを調べたので、なるべくフォーマットを揃えて書き出してみた。
世代を跨いで一覧できることに意義を感じる方々向け、ということで。

なお、複数の情報源で確認をとっているものの、間違っている可能性は0ではない。
この点をご留意いただきたい。

移り変わりを眺めていると、世代が進むほどに制御の粒度が細かくなっている。
また、レジスタ数やスレッド数は大幅に増やさず、相対的にキャッシュを増強している。
また、GDDR5の息の長さには驚いた。
次を担うメモリの決定打が出てこない状況が、キャッシュ増強を加速させている感は否めない。
もっとも、ロジックを詰めすぎると電力密度の関係で放熱が追い付かないのでキャッシュの割合を増やすという要素もあるのだが。

■Volta　GV100
　プロセスルール：12nm（TSMCの12FFN）
　トランジスタ数：210億
　ダイサイズ　　：815mm2
　コアクロック　：1126（ブースト1455）
　メモリクロック：HBM2　900GB/s　（879MHz）
　メモリバス幅　：512bitｘ8＝4096bit
　TDP　　　　　：300W
　CU数　　　　　：16CUｘ4ブロックｘ14SMｘ6GPC＝5376（実効80SMで5120）
　レジスタ数　　：256KBｘ84SM＝20480KB
　　　　　　　　　65536ｘ84SM＝5242880本
　スレッド数　　：2048ｘ84SM
　L1キャッシュ　：↓
　共有メモリ　　：L1と合せて128KBｘ80SM＝10240KB
　L2キャッシュ　：6144KB

■Pascal　GP100
　プロセスルール：16nm（TSMCの16FF+）
　トランジスタ数：153億
　ダイサイズ　　：610mm2
　コアクロック　：1328（ブースト1480）（TDP250WのPCIe版はブースト1303）
　メモリクロック：HBM2　720GB/s　（700MHz）
　メモリバス幅　：512bitｘ8＝4096bit
　TDP　　　　　：300W
　CU数　　　　　：32CUｘ2ブロックｘ10SMｘ6GPC＝3840（実効56SMで3584）
　レジスタ数　　：256KBｘ60SM＝15360KB
　　　　　　　　　65536ｘ60SM＝3932160本
　スレッド数　　：2048ｘ60SM
　L1キャッシュ　：24KBｘ60SM＝1440KB（Read Only）
　共有メモリ　　：64KBｘ60SM＝3840KB
　L2キャッシュ　：4MB

■Pascal　GP104
　プロセスルール：16nm（TSMCの16FF+）
　トランジスタ数：72億
　ダイサイズ　　：314mm2
　コアクロック　：1607（ブースト1733）
　メモリクロック：GDDR5X　320GB/s　10Gtps
　メモリバス幅　：32x8=256bit
　TDP　　　　　：180W
　CU数　　　　　：32CUｘ4ブロックｘ5SMｘ4GPC＝2560
　レジスタ数　　：128KBｘ2ｘ20SM＝5120KB
　　　　　　　　　32768ｘ2ｘ20SM＝1310720本
　スレッド数　　：2048ｘ2ｘ20SM
　L1キャッシュ　：24KBｘ2ｘ20SM＝960KB（Read Only）
　共有メモリ　　：96KBｘ20SM＝1920KB
　L2キャッシュ　：2MB

■Maxwell　GM200
　プロセスルール：28nmHPM（TSMC）
　トランジスタ数：80億
　ダイサイズ　　：601㎜2
　コアクロック　：1000（ブースト1075）
　メモリクロック：GDDR5　7Gtps
　メモリバス幅　：64x6=384bit
　TDP　　　　　：250W
　CU数　　　　　：32CUｘ4ブロックｘ4SMｘ6GPC＝3072
　レジスタ数　　： 64KBｘ4ｘ24SMX＝6144KB
　　　　　　　　　16384ｘ4ｘ24SMX＝1572864本
　共有メモリ　　：96KBｘ24SMX＝2304KB
　L2キャッシュ　：3MB
　※HDMI2.0対応　NVENCの効率向上　H265対応　H264はスループット2.5倍

■Maxwell　GM204
　プロセスルール：28nmHPM（TSMC）
　トランジスタ数：52億
　ダイサイズ　　：398㎜2
　コアクロック　：1126（ブースト1216）
　メモリクロック：GDDR5　7Gtps
　メモリバス幅　：64x4=256bit
　TDP　　　　　：165W
　CU数　　　　　：32CUｘ4ブロックｘ4SMｘ4GPC＝2048
　レジスタ数　　： 64KBｘ4ｘ16SMX＝4096KB
　　　　　　　　　16384ｘ4ｘ16SMX＝1048576本
　共有メモリ　　：96KBｘ16SMX＝1536KB
　L2キャッシュ　：2048KB
　※HDMI2.0対応　NVENCの効率向上　H265対応　H264はスループット2.5倍

■Kepler　GK110
　プロセスルール：28nmHP（TSMC）
　トランジスタ数：71億
　ダイサイズ　　：533㎜2
　コアクロック　：875（ブースト928）
　メモリクロック：GDDR5　7Gtps
　メモリバス幅　：384bit
　TDP　　　　　：250W
　CU数　　　　　：192CUｘ15SMX＝2880
　レジスタ数　　：256KBｘ15SMX＝3840KB
　　　　　　　　　65536ｘ15SMX＝983040本
　共有メモリ　　：64KBｘ15SMX＝960KB（L1と共有・16/48～48/16なので240KB～720KB）
　L2キャッシュ　：1536KB
　※パイプライン見直し　シェーダー倍速動作廃止
　※NVENC一新

■Kepler　GK104
　プロセスルール：28nmHP（TSMC）
　トランジスタ数：35.4億
　ダイサイズ　　：294mm2
　コアクロック　：1006（ブースト1058）
　メモリクロック：GDDR5　6Gtps
　メモリバス幅　：256bit
　TDP　　　　　：195W
　CU数　　　　　：192CUｘ4SMｘ2GPC＝1536
　レジスタ数　　：256KBｘ8SMX＝2048KB
　　　　　　　　　65536ｘ8SMX＝524288本
　共有メモリ　　：64KBｘ8SMX＝512KB（L1と共有・16/48～48/16なので128KB～384KB）
　L2キャッシュ　：512KB
　※パイプライン見直し　シェーダー倍速動作廃止
　※NVENC一新

■Fermi　GF110
　プロセスルール：40nmバルク（TSMC）
　トランジスタ数：30億
　ダイサイズ　　：520mm2
　コアクロック　：772（シェーダー倍速1544）
　メモリクロック：GDDR5　4Gtps
　メモリバス幅　：384bit
　TDP　　　　　：244W
　CU数　　　　　：32CUｘ4SMｘ4GPC＝512
　レジスタ数　　：128KBｘ16SM＝2048KB
　　　　　　　　　32768ｘ16SM＝524288本
　共有メモリ　　：64KBｘ16SMX＝1024KB（L1と共有・16/48or48/16なので256KBor768KB）
　L2キャッシュ　：768KB（Read Write可）
　※レジスタ数増加よりもキャッシュ効率改善に注力

■Fermi　GF100
　プロセスルール：40nmバルク（TSMC）
　トランジスタ数：30億
　ダイサイズ　　：526mm2
　コアクロック　：700（シェーダー倍速1401）
　メモリクロック：GDDR5　4Gtps
　メモリバス幅　：384bit
　TDP　　　　　：250W
　CU数　　　　　：32CUｘ4SMｘ4GPC＝512（有効480）
　レジスタ数　　：128KBｘ16SM＝2048KB
　　　　　　　　　32768ｘ16SM＝524288本
　共有メモリ　　：64KBｘ16SMX＝1024KB（L1と共有・16/48or48/16なので256KBor768KB）
　L2キャッシュ　：768KB（Read Write可）
　※レジスタ数増加よりもキャッシュ効率改善に注力

それでは皆さん、ごきげんよう。

K75thunderbirdのブログ

どちらかというと自分の頭の整理用です。ネタとしてはモバイル、自動車、ロードバイク、電気関係やPC関係の突っ込んだ話題、ややデバイスやコンポーネント寄りの偏った内容になると思われます。

Fermi以降のNVIDIA製GPUのスペック一覧