Fermi以降のNVIDIA製GPUのスペック一覧
Fermi以降のNVIDIA製GPUのスペックを調べたので、なるべくフォーマットを揃えて書き出してみた。
世代を跨いで一覧できることに意義を感じる方々向け、ということで。
なお、複数の情報源で確認をとっているものの、間違っている可能性は0ではない。
この点をご留意いただきたい。
移り変わりを眺めていると、世代が進むほどに制御の粒度が細かくなっている。
また、レジスタ数やスレッド数は大幅に増やさず、相対的にキャッシュを増強している。
また、GDDR5の息の長さには驚いた。
次を担うメモリの決定打が出てこない状況が、キャッシュ増強を加速させている感は否めない。
もっとも、ロジックを詰めすぎると電力密度の関係で放熱が追い付かないのでキャッシュの割合を増やすという要素もあるのだが。
■Volta GV100
プロセスルール:12nm(TSMCの12FFN)
トランジスタ数:210億
ダイサイズ :815mm2
コアクロック :1126(ブースト1455)
メモリクロック:HBM2 900GB/s (879MHz)
メモリバス幅 :512bitx8=4096bit
TDP :300W
CU数 :16CUx4ブロックx14SMx6GPC=5376(実効80SMで5120)
レジスタ数 :256KBx84SM=20480KB
65536x84SM=5242880本
スレッド数 :2048x84SM
L1キャッシュ :↓
共有メモリ :L1と合せて128KBx80SM=10240KB
L2キャッシュ :6144KB
■Pascal GP100
プロセスルール:16nm(TSMCの16FF+)
トランジスタ数:153億
ダイサイズ :610mm2
コアクロック :1328(ブースト1480)(TDP250WのPCIe版はブースト1303)
メモリクロック:HBM2 720GB/s (700MHz)
メモリバス幅 :512bitx8=4096bit
TDP :300W
CU数 :32CUx2ブロックx10SMx6GPC=3840(実効56SMで3584)
レジスタ数 :256KBx60SM=15360KB
65536x60SM=3932160本
スレッド数 :2048x60SM
L1キャッシュ :24KBx60SM=1440KB(Read Only)
共有メモリ :64KBx60SM=3840KB
L2キャッシュ :4MB
■Pascal GP104
プロセスルール:16nm(TSMCの16FF+)
トランジスタ数:72億
ダイサイズ :314mm2
コアクロック :1607(ブースト1733)
メモリクロック:GDDR5X 320GB/s 10Gtps
メモリバス幅 :32x8=256bit
TDP :180W
CU数 :32CUx4ブロックx5SMx4GPC=2560
レジスタ数 :128KBx2x20SM=5120KB
32768x2x20SM=1310720本
スレッド数 :2048x2x20SM
L1キャッシュ :24KBx2x20SM=960KB(Read Only)
共有メモリ :96KBx20SM=1920KB
L2キャッシュ :2MB
■Maxwell GM200
プロセスルール:28nmHPM(TSMC)
トランジスタ数:80億
ダイサイズ :601㎜2
コアクロック :1000(ブースト1075)
メモリクロック:GDDR5 7Gtps
メモリバス幅 :64x6=384bit
TDP :250W
CU数 :32CUx4ブロックx4SMx6GPC=3072
レジスタ数 : 64KBx4x24SMX=6144KB
16384x4x24SMX=1572864本
共有メモリ :96KBx24SMX=2304KB
L2キャッシュ :3MB
※HDMI2.0対応 NVENCの効率向上 H265対応 H264はスループット2.5倍
■Maxwell GM204
プロセスルール:28nmHPM(TSMC)
トランジスタ数:52億
ダイサイズ :398㎜2
コアクロック :1126(ブースト1216)
メモリクロック:GDDR5 7Gtps
メモリバス幅 :64x4=256bit
TDP :165W
CU数 :32CUx4ブロックx4SMx4GPC=2048
レジスタ数 : 64KBx4x16SMX=4096KB
16384x4x16SMX=1048576本
共有メモリ :96KBx16SMX=1536KB
L2キャッシュ :2048KB
※HDMI2.0対応 NVENCの効率向上 H265対応 H264はスループット2.5倍
■Kepler GK110
プロセスルール:28nmHP(TSMC)
トランジスタ数:71億
ダイサイズ :533㎜2
コアクロック :875(ブースト928)
メモリクロック:GDDR5 7Gtps
メモリバス幅 :384bit
TDP :250W
CU数 :192CUx15SMX=2880
レジスタ数 :256KBx15SMX=3840KB
65536x15SMX=983040本
共有メモリ :64KBx15SMX=960KB(L1と共有・16/48~48/16なので240KB~720KB)
L2キャッシュ :1536KB
※パイプライン見直し シェーダー倍速動作廃止
※NVENC一新
■Kepler GK104
プロセスルール:28nmHP(TSMC)
トランジスタ数:35.4億
ダイサイズ :294mm2
コアクロック :1006(ブースト1058)
メモリクロック:GDDR5 6Gtps
メモリバス幅 :256bit
TDP :195W
CU数 :192CUx4SMx2GPC=1536
レジスタ数 :256KBx8SMX=2048KB
65536x8SMX=524288本
共有メモリ :64KBx8SMX=512KB(L1と共有・16/48~48/16なので128KB~384KB)
L2キャッシュ :512KB
※パイプライン見直し シェーダー倍速動作廃止
※NVENC一新
■Fermi GF110
プロセスルール:40nmバルク(TSMC)
トランジスタ数:30億
ダイサイズ :520mm2
コアクロック :772(シェーダー倍速1544)
メモリクロック:GDDR5 4Gtps
メモリバス幅 :384bit
TDP :244W
CU数 :32CUx4SMx4GPC=512
レジスタ数 :128KBx16SM=2048KB
32768x16SM=524288本
共有メモリ :64KBx16SMX=1024KB(L1と共有・16/48or48/16なので256KBor768KB)
L2キャッシュ :768KB(Read Write可)
※レジスタ数増加よりもキャッシュ効率改善に注力
■Fermi GF100
プロセスルール:40nmバルク(TSMC)
トランジスタ数:30億
ダイサイズ :526mm2
コアクロック :700(シェーダー倍速1401)
メモリクロック:GDDR5 4Gtps
メモリバス幅 :384bit
TDP :250W
CU数 :32CUx4SMx4GPC=512(有効480)
レジスタ数 :128KBx16SM=2048KB
32768x16SM=524288本
共有メモリ :64KBx16SMX=1024KB(L1と共有・16/48or48/16なので256KBor768KB)
L2キャッシュ :768KB(Read Write可)
※レジスタ数増加よりもキャッシュ効率改善に注力
それでは皆さん、ごきげんよう。