K75thunderbirdのブログ

どちらかというと自分の頭の整理用です。ネタとしてはモバイル、自動車、ロードバイク、電気関係やPC関係の突っ込んだ話題、ややデバイスやコンポーネント寄りの偏った内容になると思われます。

Fermi以降のNVIDIA製GPUのスペック一覧

Fermi以降のNVIDIAGPUのスペックを調べたので、なるべくフォーマットを揃えて書き出してみた。
世代を跨いで一覧できることに意義を感じる方々向け、ということで。

なお、複数の情報源で確認をとっているものの、間違っている可能性は0ではない。
この点をご留意いただきたい。

移り変わりを眺めていると、世代が進むほどに制御の粒度が細かくなっている。
また、レジスタ数やスレッド数は大幅に増やさず、相対的にキャッシュを増強している。
また、GDDR5の息の長さには驚いた。
次を担うメモリの決定打が出てこない状況が、キャッシュ増強を加速させている感は否めない。
もっとも、ロジックを詰めすぎると電力密度の関係で放熱が追い付かないのでキャッシュの割合を増やすという要素もあるのだが。

 

■Volta GV100
 プロセスルール:12nm(TSMCの12FFN)
 トランジスタ数:210億
 ダイサイズ  :815mm2
 コアクロック :1126(ブースト1455)
 メモリクロック:HBM2 900GB/s (879MHz)
 メモリバス幅 :512bitx8=4096bit
 TDP      :300W
 CU数     :16CUx4ブロックx14SMx6GPC=5376(実効80SMで5120)
 レジスタ数  :256KBx84SM=20480KB
         65536x84SM=5242880本
 スレッド数  :2048x84SM
 L1キャッシュ :↓
 共有メモリ  :L1と合せて128KBx80SM=10240KB
 L2キャッシュ :6144KB

Pascal GP100
 プロセスルール:16nm(TSMCの16FF+)
 トランジスタ数:153億
 ダイサイズ  :610mm2
 コアクロック :1328(ブースト1480)(TDP250WのPCIe版はブースト1303)
 メモリクロック:HBM2 720GB/s (700MHz)
 メモリバス幅 :512bitx8=4096bit
 TDP      :300W
 CU数     :32CUx2ブロックx10SMx6GPC=3840(実効56SMで3584)
 レジスタ数  :256KBx60SM=15360KB
         65536x60SM=3932160本
 スレッド数  :2048x60SM
 L1キャッシュ :24KBx60SM=1440KB(Read Only)
 共有メモリ  :64KBx60SM=3840KB
 L2キャッシュ :4MB

Pascal GP104
 プロセスルール:16nm(TSMCの16FF+)
 トランジスタ数:72億
 ダイサイズ  :314mm2
 コアクロック :1607(ブースト1733)
 メモリクロック:GDDR5X 320GB/s 10Gtps
 メモリバス幅 :32x8=256bit
 TDP      :180W
 CU数     :32CUx4ブロックx5SMx4GPC=2560
 レジスタ数  :128KBx2x20SM=5120KB
         32768x2x20SM=1310720本
 スレッド数  :2048x2x20SM
 L1キャッシュ :24KBx2x20SM=960KB(Read Only)
 共有メモリ  :96KBx20SM=1920KB
 L2キャッシュ :2MB

Maxwell GM200
 プロセスルール:28nmHPM(TSMC
 トランジスタ数:80億
 ダイサイズ  :601㎜2
 コアクロック :1000(ブースト1075)
 メモリクロック:GDDR5 7Gtps
 メモリバス幅 :64x6=384bit
 TDP      :250W
 CU数     :32CUx4ブロックx4SMx6GPC=3072
 レジスタ数  : 64KBx4x24SMX=6144KB
         16384x4x24SMX=1572864本
 共有メモリ  :96KBx24SMX=2304KB
 L2キャッシュ :3MB
 ※HDMI2.0対応 NVENCの効率向上 H265対応 H264はスループット2.5倍

Maxwell GM204
 プロセスルール:28nmHPM(TSMC
 トランジスタ数:52億
 ダイサイズ  :398㎜2
 コアクロック :1126(ブースト1216)
 メモリクロック:GDDR5 7Gtps
 メモリバス幅 :64x4=256bit
 TDP      :165W
 CU数     :32CUx4ブロックx4SMx4GPC=2048
 レジスタ数  : 64KBx4x16SMX=4096KB
         16384x4x16SMX=1048576本
 共有メモリ  :96KBx16SMX=1536KB
 L2キャッシュ :2048KB
 ※HDMI2.0対応 NVENCの効率向上 H265対応 H264はスループット2.5倍

■Kepler GK110
 プロセスルール:28nmHP(TSMC
 トランジスタ数:71億
 ダイサイズ  :533㎜2
 コアクロック :875(ブースト928)
 メモリクロック:GDDR5 7Gtps
 メモリバス幅 :384bit
 TDP      :250W
 CU数     :192CUx15SMX=2880
 レジスタ数  :256KBx15SMX=3840KB
         65536x15SMX=983040本
 共有メモリ  :64KBx15SMX=960KB(L1と共有・16/48~48/16なので240KB~720KB)
 L2キャッシュ :1536KB
 ※パイプライン見直し シェーダー倍速動作廃止
 ※NVENC一新

■Kepler GK104
 プロセスルール:28nmHP(TSMC
 トランジスタ数:35.4億
 ダイサイズ  :294mm2
 コアクロック :1006(ブースト1058)
 メモリクロック:GDDR5 6Gtps
 メモリバス幅 :256bit
 TDP      :195W
 CU数     :192CUx4SMx2GPC=1536
 レジスタ数  :256KBx8SMX=2048KB
         65536x8SMX=524288本
 共有メモリ  :64KBx8SMX=512KB(L1と共有・16/48~48/16なので128KB~384KB)
 L2キャッシュ :512KB
 ※パイプライン見直し シェーダー倍速動作廃止
 ※NVENC一新

■Fermi GF110
 プロセスルール:40nmバルク(TSMC
 トランジスタ数:30億
 ダイサイズ  :520mm2
 コアクロック :772(シェーダー倍速1544)
 メモリクロック:GDDR5 4Gtps
 メモリバス幅 :384bit
 TDP      :244W
 CU数     :32CUx4SMx4GPC=512
 レジスタ数  :128KBx16SM=2048KB
         32768x16SM=524288本
 共有メモリ  :64KBx16SMX=1024KB(L1と共有・16/48or48/16なので256KBor768KB)
 L2キャッシュ :768KB(Read Write可)
 ※レジスタ数増加よりもキャッシュ効率改善に注力

■Fermi GF100
 プロセスルール:40nmバルク(TSMC
 トランジスタ数:30億
 ダイサイズ  :526mm2
 コアクロック :700(シェーダー倍速1401)
 メモリクロック:GDDR5 4Gtps
 メモリバス幅 :384bit
 TDP      :250W
 CU数     :32CUx4SMx4GPC=512(有効480)
 レジスタ数  :128KBx16SM=2048KB
         32768x16SM=524288本
 共有メモリ  :64KBx16SMX=1024KB(L1と共有・16/48or48/16なので256KBor768KB)
 L2キャッシュ :768KB(Read Write可)
 ※レジスタ数増加よりもキャッシュ効率改善に注力

 

 それでは皆さん、ごきげんよう