Nvidia Tesla

Nvidia Tesla 2075

Tesla é um processador com um design fortemente paralelizado, também chamado de processador stream , da Nvidia . O processador baseado na tecnologia GPU pode ser endereçado usando a API CUDA interna e OpenCL . O produto estava em competição direta com FireStream ou FirePro da concorrente AMD .

Depois que as primeiras placas baseadas na GPU G80 foram apresentadas em meados de 2007, as placas Tesla seguiram um ano depois com o chip gráfico GT200, que também é usado para placas de vídeo de desktop da série Geforce 200 .

Sob o codinome “Fermi” , a Nvidia apresentou o processador gráfico de próxima geração em 30 de setembro de 2009 na “Conferência de Tecnologia de GPU” interna, que também está disponível em produtos como Tesla, placas Quadro e em uma forma modificada (por exemplo, aparado com Double Precision) usado na série Geforce 400 . A Nvidia anunciou as placas Tesla baseadas no processador gráfico Fermi para o segundo e terceiro trimestre de 2010 na Supercomputing Exhibition 09.

Com drivers mais recentes, as possibilidades em OpenGL, CUDA e OpenCL foram em alguns casos consideravelmente expandidas.

tecnologia

Tesla

G80

O processador gráfico G80 foi o primeiro processador da Nvidia a ser baseado na arquitetura de shader unificada recentemente desenvolvida . Depois que o G80 foi instalado nas placas de vídeo Geforce 8800 GTX e GTS desde o final de 2006, a Nvidia apresentou os primeiros modelos Tesla em meados de 2007. O G80 é usado principalmente na revisão A3, pois foi instalado na Geforce 8800 Ultra.

GT200

O processador GT200 foi o segundo chip que a Nvidia construiu na série Teslaser. Em contraste com o G80, a Nvidia planejou usar os modelos Tesla desde o início (daí o T no identificador) e implementou os recursos de precisão dupla em 30 unidades MADD adicionais de acordo com a especificação IEEE-754R , que é o que As placas de vídeo Geforce não seriam necessárias.

Fermi

O Fermikern é fabricado usando o processo de fabricação de 40 nm e tem cerca de três bilhões de transistores . Em contraste com seu antecessor, o GT200 , é em grande parte um novo desenvolvimento baseado na arquitetura shader unificada do processador G80 gráficos . Fermi é dividido em 16 clusters de sombreador, com cada cluster tendo 32 processadores de fluxo . Isso significa que há um total de 512 processadores de fluxo. O Fermi-Chip possui 16 unidades de “carga / armazenamento”, bem como quatro “unidades de função especial” separadas para cálculo de seno e cosseno . Além disso, o Fermikern possui seis controladores de memória de 64 bits para memórias GDDR5 , resultando em uma interface de memória de 384 bits. Isso permite que a memória seja expandida para 1,5 GB, 3 GB e 6 GB. Os controladores de memória agora também podem lidar com memória ECC, que tem sua própria correção de erros.

A Nvidia está agora atribuindo uma importância cada vez maior à computação GPU, razão pela qual muitas mudanças arquitetônicas foram feitas no Fermikern para melhorar o desempenho nesta área. Fermi é o primeiro processador gráfico a ter suporte total para C ++ e é totalmente compatível com o padrão IEEE-754-2008 (anteriormente IEEE-754-1985). Este último tornou-se necessário para poder usar o FMA (Fused Multiply-Add), que é mais preciso que o MAD , para melhorar as capacidades de dupla precisão (cálculo com dupla precisão ). Isso permite que cada cluster de sombreador Fermikern execute 16 operações de precisão dupla por ciclo de clock. Isso significa que Fermi pode realizar um total de 256 cálculos com precisão dupla por ciclo, enquanto no GT200 apenas 30 eram possíveis. Além da memória compartilhada , o processador gráfico Fermi também possui um cache L1 e L2 para melhorar os recursos de computação da GPU .

Kepler

GK104

Em 22 de março de 2012, a Nvidia apresentou a Geforce GTX 680, a primeira placa de vídeo da série Geforce 600, com a qual a nova arquitetura Kepler foi apresentada. A Geforce GTX 680 é baseada no processador gráfico GK104, que consiste em 3,54 bilhões de transistores, bem como 1536 processadores de fluxo e 128 unidades de textura, que são organizados em oito clusters de shaders. O GK104-GPU é fabricado no processo de fabricação de 28 nm na TSMC e tem uma área de matriz de 294 mm². Originalmente, o GK104 foi planejado como um chip gráfico para o setor de desempenho, que entre outras coisas. pode ser reconhecido pelo desempenho reduzido de “precisão dupla”. Depois que a Nvidia abandonou o processador gráfico GK100 em favor do GK110, o GK104 também teve que ser usado para o setor de ponta, já que o GK110 estava disponível apenas para a geração de atualização Kepler.

GK110

Com 7,1 bilhões de transistores em cerca de 561 mm² (533 mm² em revisão B1 otimizada para produção), o GK110-GPU é o maior e mais complexo processador gráfico da geração Kepler. Ele consiste em 2880 shaders e 240 unidades de textura, que são distribuídos em 15 blocos SMX (clusters de shader). Estes, por sua vez, são distribuídos em cinco clusters de processamento gráfico, o que significa que o GK110 tem uma proporção de 3: 1 (em contraste com os demais processadores gráficos da geração Kepler, que usam uma proporção de 2: 1). Outra característica especial do GK110 são as 64 ALUs separadas adicionais por bloco SMX, que não são responsáveis ​​pela precisão simples (FP32), mas pela operação de precisão dupla (FP64) . Os recursos "Paralelismo Dinâmico", "Hyper-Q" e "GPUDirect" também se destinam ao setor profissional e estão disponíveis apenas no GK110-GPU.

GK210

Por causa das limitações da arquitetura Maxwell, uma versão aprimorada do GK110 foi projetada para a série Tesla, o processador gráfico GK210.

Maxwell

GM200

O processador gráfico GM200 também funciona como um chip avançado da série Geforce 900 e nesta função substituiu o GPU GK110 da série Geforce 700 . O GM200 tem 8 bilhões de transistores em uma área de chip de 601 mm², tornando-o o maior e mais complexo processador gráfico do mercado até hoje. Do ponto de vista técnico, o GM200 com 96 raster, 3072 shader e 192 unidades de textura é uma variante 50% maior do GM204. Isso também difere significativamente de seus predecessores: as GPUs GF100, GF110 ou GK110 ainda tinham o avançado duplo - recursos de precisão (FP64) e também foi usado nas séries profissionais Quadro e Tesla. Portanto, estavam no GK110 z. Por exemplo, 64 ALUs separadas foram instaladas em cada bloco SMX , o que resultou em uma taxa de DP de 1/3. Uma vez que essas ALUs separadas estão faltando no GM200 (elas provavelmente foram excluídas por razões de espaço, uma vez que a produção de processadores gráficos com um tamanho de mais de 600 mm² dificilmente é possível por razões técnicas e econômicas), ela tem apenas uma taxa de DP de 1 / 32. Já que as operações de precisão dupla não são necessárias para aplicativos 3D, esse aspecto não desempenhou um papel no setor de jogos, mas tornou o GM200 inadequado para as séries profissionais Quadro e Tesla.

Assim, a Nvidia abandonou sua estratégia anterior de desenvolver um chip avançado / entusiasta para todas as três séries, e só usou o GM200 para o Tesla M40. Em vez disso, uma versão melhorada do Kepler GK110, o processador gráfico GK210, foi projetada para o Tesla K80.

GM204

O processador gráfico GM204 foi o primeiro GPU da série Geforce 900 e usa a "arquitetura Maxwell de segunda geração". Assim como a primeira geração do Kepler, a série Geforce 600 , a Nvidia está lançando o chip de desempenho (GM204) no mercado antes do chip topo de linha (GM200). Depois que a Nvidia, como a AMD, ficou sem a produção de 20 nm na TSMC , o GM204 continuará a ser produzido em produção de 28 nm, ao contrário dos planos originais. Possui 5,2 bilhões de transistores em uma área de chip de 398 mm². A estrutura básica é idêntica à da GPU GM107 da primeira geração Maxwell: Os clusters de sombreador (SMM) ainda contêm 128 sombreadores e 8 unidades de textura, mas o cache de nível 1 e as texturas foram alterados de 64 kByte para 96 ​​kByte - O cache aumentou de 24 kByte para 48 kByte por cluster. O GM204 consiste em um total de 16 clusters de shader, com quatro clusters cada um pendurado em um mecanismo de varredura, o que significa que o GM204 possui 2048 processadores de fluxo, 128 unidades de textura, 64 ROPs e um cache de 2 MB de nível 2. Para compensar a pequena interface de memória de 256 bits em comparação com outras GPUs desta classe, a Nvidia introduziu o recurso “Third Generation Delta Color Compression”, que é um protetor de largura de banda que supostamente reduz a carga de memória em cerca de 25%.

Por causa das limitações no desempenho da Dupla Precisão para 1/32 da Precisão Única, os cartões Tesla K com arquitetura Kepler continuarão a ser oferecidos com seu desempenho superior.

Pascal

GP100

Os chips Pascal são chamados de "GP100" e, graças ao seu alto poder de computação e eficiência, são particularmente adequados para computação de alto desempenho e aprendizado profundo. Com o Tesla P100, a Nvidia apresentou o primeiro acelerador de computação com um chip GP100 na primavera de 2016 no GPC 2016. Pascal substituirá os chips gráficos Kepler e Maxwell no setor profissional a médio prazo. GPU100 consiste em 15 bilhões de transistores e contém até 3840 núcleos de sombreador. A Nvidia fabrica a GPU GP100 na TSMC usando o processo FinFET de 16 nm, que é significativamente mais eficiente em termos de energia do que a tecnologia anterior de 28 nm. Quando se trata de memória, a Nvidia usa HBM 2 (High Bandwidth Memory 2) - pelo menos para o Tesla P100. Comparado com o HBM 1, que atualmente só a AMD usa para placas gráficas com GPUs Fiji, o HBM 2 permite taxas de transferência mais altas e mais memória por GPU.

Como a contraparte de Fiji da AMD, o GP100 fica em um interposer (ou "portadora") e é conectado à memória HBM-2 protegida por ECC de 16 GByte através de um total de 4096 linhas de dados. As quatro pilhas de memória estão localizadas muito perto da GPU para reduzir os caminhos do sinal e, conseqüentemente, maximizar a taxa de transferência. Com o Tesla P100, é de 720 GB por segundo.

Volta

GV100

Volta é principalmente adaptado para cálculos no campo da inteligência artificial ou aprendizado profundo. A GPU, chamada "GV100", consiste em 21,1 bilhões de transistores e contém 5376 núcleos de processamento de sombreador em uma área de chip de 815 mm². A Nvidia fabrica a GV100-GPU no fabricante taiwanês TSMC no processo FFN de 12 nanômetros.

No Tesla V100, no entanto, a Nvidia ativa apenas 80 dos 84 clusters de sombreador para aumentar o rendimento do chip. Isso significa que 5120 núcleos de sombreador estão disponíveis para FP32. O GV100-GPU permite que cálculos de precisão simples sejam executados com até 15 TFlops (30 TFlops com FP16), as 2560 unidades de dupla precisão teoricamente gerenciam 7,5 FP64-TFlops. Com a placa PCIe, Volta atinge um poder de computação teórico um pouco menor de 14 ou 7 TFlops em comparação com a variante SXM2 (devido à frequência de clock um pouco menor - 1370 em vez de 1455 MHz). Além disso, Volta contém 640 unidades especiais de aprendizagem profunda. Destes núcleos de tensores chamados, oito núcleos de tensores estão contidos em cada multiprocessador de streaming. Você pode atingir um poder de computação de até 120 TFlops para treinamento, bem como inferência de redes neurais. No entanto, eles só podem ser programados de forma limitada.

A memória HBM-2 (High Bandwidth Memory 2) é usada para a memória, que atinge 900 GB / s no Tesla V100. Tal como acontece com o antecessor Tesla P100, o tamanho da memória permanece em 16 GB. Teoricamente, uma expansão de memória para 32 GB é possível. Comparado com o chip Pascal no Tesla P100, o cache L1 de Volta tem uma latência 4 vezes menor e atinge uma taxa de transferência de cerca de 14 terabytes / s.

Turing

TU104

A nova placa Turing T4 da série Tesla está no limite de potência PCIe 3.0 de 75 watts e, portanto, ideal para servidores.

Processadores

Como a maioria das placas não tem portas de saída devido ao foco em cálculos com GPU, as interfaces de computação OpenCL e CUDA são mais importantes aqui. O suporte de avaliação OpenCL 2.0 está disponível com a versão do driver 378.66 para Kepler, Maxwell e Pascal. OpenGL 4.6 é possível a partir da Fermi com os drivers mais recentes 381 para Linux e 387 para Windows.

lasca Produção unidades interface
Processo
em nm
Transis-
interfere

em milhões
A -
área
em mm²
Funções de
partículas ROP
ROPs Shaders unificados
Modelo shader
Direct
X
Open
GL

CL aberto
Cuda
CAPA
bilidade
Cuda
SDK
(máx.)
hardware

Processadores de fluxo
Shader -
cluster
unidades
Tesla G80 90 681 484 24 128 4,0 10,0 3,3 1,1 1.0 6,5 PCIe
Tesla GT200 / b 65/55 1400 576/470 32 240 10 4,0 10,1 3,3 1,1 1,3 6,5 PCIe 2.0
Fermi GF100 40 3000 526 48 512 16 5.0 11,0 4,6 1,1 2,1 8,0 PCIe 2.0
Fermi GF110 40 3000 526 48 512 16 5.0 11,0 4,6 1,1 2,1 8,0 PCIe 2.0
Kepler GK104 28 3540 294 32 1536 5.0 11,0 4,6 1,2 (2,0) 3,0 10,0 PCIe 3.0
Kepler GK110 28 7100 561 48 2880 Dia 15 5.0 11,0 4,6 1,2 (2,0) 3,0 10,0 PCIe 3.0
Kepler GK210 28 aprox. 7100 aprox. 561 48 2880 Dia 15 5.0 11,0 4,6 1,2 (2,0) 3,5 10,0 PCIe 3.0
Maxwell GM200 28 8.000 601 96 3072 24 5.0 12,0 4,6 1,2 (2,0) 5,2 10,0 PCIe 3.0
Maxwell GM204 28 5.200 398 64 2048 16 5.0 12,1 4,6 1,2 (2,0) 5,2 10,0 PCIe 3.0
Maxwell GM206 28 2.940 227 2 32 1024 5.0 12,1 4,6 1,2 (2,0) 5,2 10,0 PCIe 3.0
Pascal GP100 16 15.300 610 10 96 3840 60 5.0 12,1+ 4,6 1,2 (2,0) 6,0 10,0 PCIe 3.0 , NVLink
Volta GV100 12 21.100 815 128 5376 84 5.0 12,1+ 4,6 1,2 (2,0) 7,0 10,0 PCIe 3.0 , NVLink
Turing TU104 12 13.600 545 64 2560 40 6,3 12,1+ 4,6 1,2 (2,0) 7,5 10,0 PCIe 3.0 , NVLink

Dados do modelo

Nome do modelo processador Armazenamento
Tipo Transmitir
Processador
sors
Chip de relógio
Clock shader
Poder de computação em GFLOPS Tamanho
em MB
Tato
Tipo
Interface de armazenamento
Taxa de
transferência de armazenamento
Half
Prec.
(FP16)

Prec. Único
(MAD + MUL)

Prec. Único
(MAD ou FMA)
Double
Prec.
(FMA)
unidades MHz MHz MB MHz GB / s
Tesla C870 G80 128 600 1350 Não? 519 Não 1536 800 GDDR3 384 bits 77
Tesla D870 2 × G80 256 600 1350 Não? 1037 Não 3072 800 GDDR3 2 × 384 bits 2 × 77
Tesla S870 4 × G80 512 600 1350 Não? 2074 Não 6144 800 GDDR3 4 × 384 bits 4 × 77
Tesla C1060 GT200 240 602 1296 ? 933 622 78 4096 800 GDDR3 512 bits 102
Tesla S1070 4 × GT200 960 602 1296 ? 3732 2488 311 16.384 800 GDDR3 4 × 512 bits 4 × 102
4 × GT200b 1440 ? 4147 2765 345
Tesla C2050 Fermi GF100 448 575 1150 ? Não 1030 515 3072 1500 GDDR5 384 bits 144
Tesla M2050 GF100 448 575 1150 ? Não 1030 515 3072 1550 GDDR5 384 bits 148
Tesla C2070 GF100 448 575 1150 ? Não 1030 515 6144 1500 GDDR5 384 bits 144
Tesla M2070 GF100 448 575 1150 ? Não 1030 515 6144 1550 GDDR5 384 bits 150
Tesla S2050 4 × GF100 1792 575 1150 ? Não 4120 2060 12.288 1500 GDDR5 4 × 384 bits 4 × 144
Tesla S2070 4 × GF100 1792 575 1150 ? Não 4122 2061 24.576 1500 GDDR5 4 × 384 bits 4 × 144
Tesla M2090 Fermi GF110 512 650 1300 ? Não 1331 666 6144 1850 GDDR5 384 bits 177
Tesla K10 2 × GK104 3072 745 ? Não 4580 191 8192 2500 GDDR5 2 × 256 bits 2 × 160
Tesla K20 GK110 2496 705 ? Não 3524 1175 5120 2600 GDDR5 320 bits 208
Tesla K20X GK110 2688 735 ? Não 3935 1312 6144 2600 GDDR5 384 bits 250
Tesla K40 GK110B 2880 745 (Boost: 810/875) ? Não 4290 1430 12.288 3004 GDDR5 384 bits 288
Tesla K80 2 × GK210 5760 590 ? Não 5591-8736 1864-2912 24.576 3004 GDDR5 2 × 384 bits 2 × 288
Tesla M4 GM206 1024 872 (Boost: 1072) ? Não 1786-2195 56-69 4096 2750 GDDR5 128 bits 88
Tesla M40 GM200 3072 948 (Boost: 1114) ? Não 5825-6844 182-214 12288 3000 GDDR5 384 bits 288
Tesla M6 GM204 1536 930 (Boost 1180) ? Não 2857 2857/32 8192 2750 GDDR5 256 bits 160
Tesla M60 2x GM204 4096 900 (Boost: 1180) ? x SP Não 7373-9667 230-302 2 × 8192 2500 GDDR5 2 × 256 bits 2 × 160
Tesla P4 GP104 2560 810 (Boost: 1063) 2x SP Não 5500 1/32 SP 8000 1500 (efetivo 6000) GDDR5 256 bits 192
Tesla P40 GP102 3840 1303 (Boost: 1531) 2x SP Não 12.000 1/32 SP 24000 1251 (ef. 10008) GDDR5 X 384 bits 346
Tesla P100 "PCIe 12 GB 250 W" GP100 3584 1175 (Boost: 1300)? 2x SP Não 8000-9300 4700 12288 700 HBM2 3072 bits 540
Tesla P100 "PCIe 16 GB 250 W" GP100 3584 1175 (Boost: 1300)? 2x SP Não 8000-9300 4700 16384 700 HBM2 4096 bits 720
Tesla P100 "NVLink 300W" GP100 3584 1328 (Boost: 1480) 2x SP Não 9519-10609 5300 16384 700 HBM2 4096 bits 720
Tesla V100 PCle 250 W GV100 5120 (Boost: 1370) 8x Modo Tensor SP Não 14000 7000 16384 876 (efeito 1752) HBM2 4096 bits 900
Tesla V100 SXM2 NVLink 300 W GV100 5120 (Boost: 1455) 8x Modo Tensor SP Não 15.000 7500 16384 876 (efeito 1752) HBM2 4096 bits 900
Tesla T4 PCIe 70 W TU104 2560 1005 (Boost: 1515) 8x Modo Tensor SP Não 8100 1/32 SP 16384 1250 (ef.10.000) GDDR6 256 bits 320

Links da web

Commons : Série Nvidia Tesla  - coleção de fotos, vídeos e arquivos de áudio

Evidência individual

  1. Tecnologia ATI Stream - Comercial ( Memento de 19 de fevereiro de 2010 no Internet Archive )
  2. Tom hardware: velocidade DP da GTX 480 reduzida ( lembrança do originais de 2 de julho de 2010 no Internet Archive ) Info: O arquivo de ligação foi inserido automaticamente e ainda não verificada. Verifique o link original e o arquivo de acordo com as instruções e remova este aviso. , Mensagem datada de 6 de abril de 2010 @ 1@ 2Modelo: Webachiv / IABot / www.tomshardware.de
  3. golem: Nvidia nomeia os primeiros valores de desempenho para Fermi , notícias de 16 de novembro de 2009
  4. de.download.nvidia.com (PDF)
  5. de.download.nvidia.com (PDF)
  6. de.download.nvidia.com (PDF)
  7. Tesla K80 - Kepler duplo com até 8,7 TFLOPS para supercomputadores. ComputerBase, 17 de novembro de 2014, acessado em 6 de agosto de 2015 .
  8. a b Análise de lançamento: nVidia GeForce GTX Titan X. 3DCenter.org, 18 de março de 2015, acessado em 10 de junho de 2015 .
  9. Análise de lançamento: nVidia GeForce GTX 970 e 980.3DCenter, 19 de setembro de 2014, acessado em 3 de fevereiro de 2015 .
  10. heise.de
  11. images.nvidia.com (PDF)
  12. heise online: Tesla V100: A Nvidia entrega as primeiras cartas de cálculo Volta para pesquisadores de aprendizagem profunda. heise online, acessado em 12 de setembro de 2017 .
  13. heise.de
  14. streamcomputing.eu
  15. developer.nvidia.com
  16. Artigo Kepler GK110 (PDF; 1,7 MB)
  17. cópia arquivada ( Memento do originais de 21 de junho de 2016 na Internet Archive ) Info: O arquivo de ligação foi inserido automaticamente e ainda não foi marcada. Verifique o link original e o arquivo de acordo com as instruções e remova este aviso. (PDF; 2 MB) @ 1@ 2Modelo: Webachiv / IABot / international.download.nvidia.com
  18. images.nvidia.com (PDF)
  19. techpowerup.com
  20. anandtech.com
  21. techpowerup.com
  22. techpowerup.com
  23. Potência computacional máxima teórica determinada computacionalmente que nunca pode ser alcançada em termos reais com código de programa significativo.
  24. Especificação da placa do MÓDULO DO PROCESSADOR DE COMPUTAÇÃO TESLA M2090 DUAL-SLOT (PDF; 348 kB)
  25. Visão geral do produto M2090 (PDF; 423 kB)
  26. Especificação da placa TESLA K10 GPU ACCELERATOR (PDF; 650 kB)
  27. Aceleradores de computação GPU NVIDIA® Tesla® Kepler (PDF; 296 kB)
  28. Especificação da placa ACCELERATOR GPU TESLA K10 K20 K20X (PDF; 193 kB)
  29. Hassan Mujtaba: Placa de vídeo NVIDIA Tesla K80 “GK210-DUO” rumo ao mercado profissional - apresenta mais de 2 TFlops de computação de precisão dupla. WCCFtech.com, acessado em 29 de novembro de 2014 .
  30. techpowerup.com
  31. techpowerup.com
  32. techpowerup.com
  33. heise.de
  34. techpowerup.com
  35. heise.de
  36. arquivados copiar ( lembrança do originais de 18 de outubro de 2016 na Internet Archive ) Info: O arquivo de ligação foi inserido automaticamente e ainda não foi marcada. Verifique o link original e o arquivo de acordo com as instruções e remova este aviso. @ 1@ 2Modelo: Webachiv / IABot / www.techpowerup.com
  37. a b NVIDIA Tesla V100 | NVIDIA. NVIDIA Corporation, acessado em 12 de setembro de 2017 (inglês americano).
  38. a b Folha de dados NVIDIA V100 GPU ACCELERATOR. (PDF) NVIDIA Corporation, julho de 2017, acessado em 12 de setembro de 2017 .
  39. xcelerit.com
  40. nvidia.com