AMD publicou sua primeira patente para designs de chips de GPU. No estilo típico da AMD, eles estão tentando não balançar o barco. As GPUs chiplet estão apenas começando a surgir. A Intel foi direta sobre seu processo de desenvolvimento e confirmou o emprego de chips em suas GPUs discretas de primeira geração. A Nvidia, embora recatada sobre os detalhes, publicou vários artigos de pesquisa sobre o assunto. A AMD foi a última resistência – o que só aumenta a intriga.
Os chips de GPU AMD, como o nome sugere, são chips menores e menos complexos, que deveriam funcionar juntos em processadores mais poderosos. Eles são indiscutivelmente o futuro inevitável para todos os componentes de alto desempenho e, em alguns casos, o presente de sucesso; O uso de chips de CPU pela AMD tem sido brilhante.
Na nova patente datada de 31 de dezembro, a AMD descreve um design de chip criado para imitar um design monolítico o mais próximo possível. Seu modelo hipotético usa dois chips conectados por um intermediário inativo de alta velocidade chamado de reticulação.
Uma conexão cruzada fica entre o cache L2 e o cache L3 na hierarquia de memória. Tudo abaixo dele, como os núcleos e cache L1 e cache L2, estão cientes de sua separação do outro chip. Tudo acima, incluindo o cache L3 e a memória GDDR, são compartilhados entre os chips.
Este design de GPU AMD é benéfico porque é convencional. A AMD afirma que as unidades de computação podem acessar o cache de baixo nível em outros chips quase tão rápido quanto podem acessar o cache local de baixo nível. Se isso for verdade, o software não precisará ser atualizado.
O mesmo não pode ser dito dos designs da Intel e da Nvidia. A Intel pretende usar duas novas tecnologias, EMIB (ponte de interconexão multi-die incorporada) e Foveros. O último é um intermediário ativo que usa vias de silício, algo que a AMD afirma explicitamente que eles não usarão. O design da Intel permite que a GPU hospede um cache acessível ao sistema que alimenta uma nova estrutura de memória.
A Nvidia não revelou tudo, mas indicou algumas direções que podem seguir. Um artigo de pesquisa de 2017 descreve um projeto de quatro chips e uma arquitetura com reconhecimento de localidade e NUMA (acesso não uniforme à memória). Ele também faz experiências com um novo cache L1.5, que mantém exclusivamente acessos de dados remotos e é contornado durante acessos à memória local.
A abordagem da AMD pode parecer menos imaginativa, mas também parece prática. E se a história prova alguma coisa, é que a facilidade para o desenvolvedor é uma grande vantagem.
Abaixo estão diagramas adicionais da patente.
A Figura 2 é uma vista em corte transversal que desce de dois chips para a placa de circuito. Os dois chips (106-1 e 106-2) são empilhados verticalmente na reticulação passiva (118) e usam estruturas condutoras dedicadas para acessar os traços da reticulação (206) e subsequentemente se comunicam entre si. Estruturas condutoras não fixadas à reticulação (204) se conectam à placa de circuito para energia e outra sinalização.
A Figura 3 descreve a hierarquia do cache. WGPs (processadores de grupo de trabalho) (302), que são coleções de núcleos de sombreador, e GFXs (unidades de função fixa) (304), que são processadores dedicados para finalidades singulares, conectam-se diretamente ao cache L1 de um canal (306). Cada chip contém vários bancos de cache L2 (308) que são individualmente endereçáveis e também coerentes em um único chip. Cada chip também contém múltiplos bancos de cache L3 cache (310) que são coerentes em toda a GPU.
O GDF (malha de dados gráficos) (314) conecta os bancos de cache L1 aos bancos de cache L2. O SDF (tecido de dados escalável) (316) combina os bancos de cache L2 e os conecta ao crosslink (118). O crosslink se conecta aos SDFs em todos os chips, bem como aos bancos de cache L3 em todos os chips. As faixas de memória GDDR (escritas como Memória PHY) (312) se conectam aos bancos de cache L3.
Por exemplo, se um WGP em um chip requerido de um banco GDDR em outro chip, esses dados seriam enviados por meio de um banco de cache L3, por meio do crosslink para um SDF, então para um banco L2 e, finalmente, por meio um GDF para um banco L1.
A Figura 4 é uma vista aérea de um chip. Ele mostra com mais precisão os locais e escalas potenciais de vários componentes. O controlador HBX (404) gerencia o crosslink, ao qual o chip é conectado por condutores HBX PHY (406). O pequeno quadrado no canto esquerdo inferior (408) é uma conexão adicional potencial para a reticulação para conectar mais chips.