Power10 - Power10

Power10
IBM Power10 SCM.jpg
Informação geral
Lançado 2020
Projetado por IBM , parceiros OpenPower
Fabricante (s) comum (is)
atuação
Máx. Taxa de clock da CPU +3,5 GHz a +4 GHz
Cache
Cache L1 48 + 32 KB por núcleo
Cache L2 2 MB por núcleo
Cache L3 120 MB por chip
Arquitetura e classificação
Min. tamanho do recurso 7 nm
Microarquitetura P10
Conjunto de instruções Power ISA ( Power ISA v.3.1 )
Especificações físicas
Núcleos
Pacote (s)
Tomadas)
História
Antecessor POWER9

Power10 designa uma proposta família de microprocessadores superescalar , multithreading e multi-core , baseada no código aberto Power ISA , e anunciada em agosto de 2020 na conferência Hot Chips ; os sistemas com CPUs Power10 devem chegar aos clientes no quarto trimestre de 2021.

O processador foi projetado para ter 15 núcleos disponíveis, mas um núcleo sobressalente será incluído durante a fabricação para permitir problemas de rendimento de maneira econômica .

Os processadores baseados em Power10 serão fabricados pela Samsung usando um processo de 7 nm com 18 camadas de metal e 18 bilhões de transistores em um molde de silício de 602 mm 2 .

As principais características do Power10 são maior desempenho por watt e melhores arquiteturas de memória e E / S , com foco em cargas de trabalho de inteligência artificial (IA).

Projeto

Cada núcleo Power10 dobrou na maioria das unidades funcionais em comparação com seu predecessor POWER9 . O núcleo é multithread de oito vias (SMT8) e tem 48 KB de instruções e 32 KB de caches L1 de dados , um grande cache L2 de 2 MB e um buffer lookaside de tradução muito grande (TLB) com 4096 entradas. Os ciclos de latência para os diferentes estágios de cache e TLB foram reduzidos significativamente. Cada núcleo tem oito fatias de execução, cada uma com uma unidade de ponto flutuante (FPU), unidade lógica aritmética (ALU), preditor de ramificação , unidade de carga-armazenamento e mecanismo SIMD , capaz de receber instruções de 128 bits (64 + 64) de as novas instruções de prefixo / fusível do Power ISA v.3.1. Cada fatia de execução pode lidar com 20 instruções cada, apoiadas por uma tabela de instruções compartilhada de 512 entradas e alimentada para a fila de carregamento de 128 entradas (64 de thread único) e fila de armazenamento de 80 entradas (40 de thread único). Melhores recursos de previsão de galhos dobraram a precisão. Um núcleo tem quatro mecanismos de assistência matemática de matriz (MMA), para melhor manuseio do código SIMD, especialmente para instruções de multiplicação de matriz em que as cargas de trabalho de inferência de IA têm um aumento de desempenho de 20 vezes.

O processador tem dois "hemisférios" com oito núcleos cada, compartilhando um cache L3 de 64 MB para um total de 16 núcleos e caches L3 de 128 MB. Devido a problemas de rendimento, pelo menos um núcleo está sempre desativado, reduzindo o cache L3 em 8 MB para um total utilizável de 15 núcleos e 120 MB de cache L3. Cada chip também possui oito aceleradores de criptografia que descarregam algoritmos comuns, como AES e SHA-3 .

Maior controle de clock e microarquitetura retrabalhada em cada estágio, junto com as instruções de fusível / prefixo permitindo mais trabalho com menos unidades de trabalho e cache mais inteligente com latências de memória mais baixas e marcação de endereço eficaz reduzindo perdas de cache, permite que o núcleo Power10 consuma metade da energia do POWER9 . Combinado com as melhorias nas instalações de computação em até 30%, faz com que todo o processador tenha um desempenho 2,6 × melhor por watt do que seu antecessor. E no caso de montar dois núcleos no mesmo módulo, até 3 vezes mais rápido no mesmo orçamento de energia.

Como os núcleos podem agir como oito processadores lógicos, o processador de 15 núcleos parece 120 núcleos para o sistema operacional . Em um módulo de chip duplo, isso se torna 240 threads simultâneos por soquete .

I / O

Os chips reformularam completamente as arquiteturas de memória e E / S. A interface de memória OpenCAPI ( OMI ) permite uma latência extremamente baixa e uma grande largura de banda de RAM. O uso de comunicações de memória serial para controladores off-chip reduz as vias de sinalização de e para o chip, aumenta a largura de banda e torna o processador agnóstico em relação à tecnologia que existe na extremidade da memória, tornando o sistema flexível e preparado para o futuro.

A RAM pode ser qualquer coisa de DDR3 a DDR5 a GDDR e HBM ou memória de armazenamento persistente , tudo dependendo do que é prático para a aplicação.

  • DDR4 - suporte para até 4 TB de RAM, 410 GB / s, latência de 10 ns
  • GDDR6 - até 800 GB / s
  • Armazenamento persistente - até 2 PB

O Power10 permite a criptografia de dados sem penalidade de desempenho em todos os estágios, desde RAM, entre aceleradores e nós de cluster até os dados em repouso.

O Power10 vem com a facilidade PowerAXON que permite chip a chip, sistema a sistema e barramento OpenCAPI para aceleradores, E / S e outros periféricos coerentes de cache de alto desempenho . Ele gerencia as comunicações entre os nós em um cluster SCM de 16 soquetes ou em um cluster DCM de 4 soquetes. Ele também gerencia a semântica de memória para clustering de sistemas, permitindo acesso de carga / armazenamento do núcleo até 2 PB de RAM em todo o cluster Power10. A IBM chama esse recurso de Memory Inception .

Tanto o OMI quanto o PowerAXON podem lidar com comunicações de 1 TB / s fora do chip.

Power10 inclui PCIe 5 . O SCM tem 32x e o DCM tem 64x PCIe 5 pistas. A IBM e a Nvidia concordaram que incluir NVLink no Power10 seria redundante, uma vez que o PCIe 5 é rápido o suficiente para conectar GPUs, então o NVLink não está presente. O suporte para NVLink on-chip era anteriormente um ponto de venda exclusivo para POWER8 e POWER9.

Variantes

O Power10 estará disponível em duas variantes, definidas por firmware na embalagem. Mesmo que os chips sejam idênticos e a diferença seja definida no firmware, ela não pode ser alterada pelo usuário nem pela própria IBM.

  • 15 × núcleos SMT8
  • 30 × núcleos SMT4

Módulos

O Power10 vem em dois pacotes de matriz de grade terrestre de plástico flip-chip (FC-PLGA) , um módulo de chip único (SCM) e um módulo de chip duplo (DCM).

  • SCM - 4+ GHz, até 15 núcleos SMT8. Pode ser agrupado em até 16 soquetes. x32 PCIe 5 pistas.
  • DCM - 3,5+ GHz, até 30 núcleos SMT8. Pode ser agrupado em até quatro soquetes. x64 PCIe 5 pistas. O DCM está na mesma faixa térmica das ofertas anteriores.

Sistemas

IBM Power E1080 - Denali - nós 1-4 × Central Electronics Complex (CEC) de 5U cada com 4 × Power10 SCM, 10/12/15 núcleos SMT8 por processador, até 16 TB OMI - DDR4 RAM , PowerVM executando AIX , IBM i e little-endian Linux . Um sistema E1080 também precisa de uma Unidade de Controle de Sistema de 2U de altura para monitoramento e configuração.

Suporte para sistema operacional

Comparação com CPUs POWER anteriores

A mudança para um processo de fabricação de 7 nm resulta em um desempenho significativamente maior por watt.

O recurso PowerAXON agora se estende até 2  PB de espaço de memória em cluster unificado, compartilhado entre vários nós de cluster e inclui suporte para PCIe 5 .

Novas instruções SIMD e novos tipos de dados, incluindo bfloat16 , INT4 (INTEGER) e INT8 (BIGINT) . visam melhorar as cargas de trabalho de IA.

Branding

Power10 é incomum porque seu nome não é capitalizado como POWER9 e todos os outros processadores POWER anteriores. Essa mudança é uma parte da reformulação da marca IBM de sua oferta de Power Systems, que começando com Power10 agora é apenas "Power". Power10 também tem um logotipo.

Veja também

Referências