Simulador de Terra - Earth Simulator

Earth Simulator (ES), versão original
Rack de interconexão do Simulador de Terra
Rack de processamento do Simulador de Terra
Módulo de processamento aritmético do Earth Simulator
Simulador de Terra 2 (ES2)
Earth Simulator 3 (ES3)

O Simulador de Terra ( ES ) (地球 シ ミ ュ レ ー タ, Chikyū Shimyurēta ) , desenvolvido pela iniciativa do governo japonês "Projeto de Simulador de Terra", era um sistema de supercomputador vetorial altamente paralelo para executar modelos climáticos globais para avaliar os efeitos do aquecimento global e problemas na terra sólida geofísica. O sistema foi desenvolvido para o Japão Agência de Exploração Aeroespacial , Japão Instituto Atomic Energy Research e Japão Marine Science and Technology Centre (JAMSTEC) em 1997. A construção começou em outubro de 1999, eo site abriu oficialmente em 11 de Março de 2002. O custo do projeto 60 bilhões ienes .

Construído pela NEC , o ES foi baseado em sua arquitetura SX-6 . Consistia em 640 nós com oito processadores vetoriais e 16 gigabytes de memória de computador em cada nó, para um total de 5120 processadores e 10 terabytes de memória. Dois nós foram instalados por gabinete de 1 metro × 1,4 metro × 2 metros. Cada gabinete consumiu 20 kW de potência. O sistema tinha 700 terabytes de armazenamento em disco (450 para o sistema e 250 para os usuários) e 1,6 petabytes de armazenamento em massa em unidades de fita . Ele foi capaz de executar simulações holísticas do clima global na atmosfera e nos oceanos com uma resolução de 10 km. Seu desempenho no benchmark LINPACK foi de 35,86 TFLOPS , que foi quase cinco vezes mais rápido do que o supercomputador mais rápido anterior, ASCI White . Em 2020, desempenho comparável pode ser alcançado usando 4 GPUs Nvidia A100, cada uma com 9.746 TFlops FP64.

ES foi o supercomputador mais rápido do mundo de 2002 a 2004. Sua capacidade foi superada pela IBM 's Blue Gene L / protótipo em 29 de Setembro de 2004.

ES foi substituído pelo Earth Simulator 2 (ES2) em março de 2009. ES2 é um sistema NEC SX-9 / E e tem um quarto dos nós cada um com 12,8 vezes o desempenho (3,2 × velocidade do clock, quatro vezes o recurso de processamento por nó), para um desempenho máximo de 131 TFLOPS. Com um desempenho LINPACK entregue de 122,4 TFLOPS, o ES2 era o supercomputador mais eficiente do mundo naquele ponto. Em novembro de 2010, a NEC anunciou que o ES2 liderou o Global FFT, uma das medidas do HPC Challenge Awards , com o número de desempenho de 11.876 TFLOPS.

ES2 foi substituído pelo Earth Simulator 3 (ES3) em março de 2015. ES3 é um sistema NEC SX-ACE com 5120 nós e um desempenho de 1,3 PFLOPS.

O ES3, de 2017 a 2018, funcionou ao lado do Gyoukou , um supercomputador com resfriamento por imersão que pode atingir até 19 PFLOPS.

Visão geral do sistema

Hardware

O Simulador de Terra (ES para breve) foi desenvolvido como um projeto nacional por três agências governamentais: a Agência Nacional de Desenvolvimento Espacial do Japão (NASDA), o Instituto de Pesquisa de Energia Atômica do Japão (JAERI) e o Centro de Ciência e Tecnologia Marinha do Japão (JAMSTEC ) O ES está alojado no Edifício do Simulador de Terra (aprox; 50m × 65m × 17m). O Earth Simulator 2 (ES2) usa 160 nós do SX-9E da NEC. A atualização do Earth Simulator foi concluída em março de 2015. O sistema Earth Simulator 3 (ES3) usa 5120 nós do SX-ACE da NEC.

Configuração do sistema

O ES é um sistema de supercomputador vetorial altamente paralelo do tipo de memória distribuída e consistia em 160 nós de processador conectados pela Fat-Tree Network. Cada nó de processador é um sistema com uma memória compartilhada, consistindo em 8 processadores aritméticos do tipo vetorial, um sistema de memória principal de 128 GB. O desempenho máximo de cada processador Aritmético é 102,4 Gflops. O ES como um todo, portanto, consiste em 1280 processadores aritméticos com 20 TB de memória principal e o desempenho teórico de 131Tflops.

Construção da CPU

Cada CPU consiste em uma unidade superescalar de 4 vias (SU), uma unidade vetorial (VU) e uma unidade de controle de acesso à memória principal em um único chip LSI. A CPU opera a uma frequência de clock de 3,2 GHz. Cada VU tem 72 registradores de vetor, cada um dos quais com 256 elementos de vetor, junto com 8 conjuntos de seis tipos diferentes de pipelines de vetor: adição / deslocamento, multiplicação, divisão, operações lógicas, mascaramento e carregamento / armazenamento. O mesmo tipo de pipelines de vetor funciona junto por uma única instrução de vetor e pipelines de diferentes tipos podem operar simultaneamente.

Nó do processador (PN)

O nó do processador é composto por 8 módulos de CPU e 10 módulos de memória.

Rede de interconexão (IN)

A RCU é conectada diretamente aos interruptores da barra cruzada e controla as comunicações de dados entre os nós a uma taxa de transferência bidirecional de 64 GB / s para envio e recebimento de dados. Assim, a largura de banda total da rede entre nós é de cerca de 10 TB / s.

Gabinete do Nó do Processador (PN)

O nó do processador é composto por dois nós de um gabinete, e consiste em módulos de memória da parte 8 da fonte de alimentação e caixa PCI com 8 módulos de CPU.

Programas

Segue abaixo a descrição das tecnologias de software utilizadas no sistema operacional, Job Scheduling e ambiente de programação do ES2.

Sistema operacional

O sistema operacional em execução no ES, "Earth Simulator Operating System", é uma versão customizada do SUPER-UX da NEC usada para os supercomputadores NEC SX que compõem o ES.

Sistema de arquivos de armazenamento em massa

Se um grande trabalho paralelo em execução em 640 PNs lê / grava em um disco instalado em uma PN, cada PN acessa o disco em sequência e o desempenho diminui terrivelmente. Embora a E / S local em que cada PN lê ou grava em seu próprio disco resolva o problema, é um trabalho muito difícil gerenciar um número tão grande de arquivos parciais. Então o ES adota o Staging and Global File System (GFS) que oferece um desempenho de E / S de alta velocidade.

Agendamento de trabalho

ES é basicamente um sistema de trabalho em lote. O Network Queuing System II (NQSII) é introduzido para gerenciar o trabalho em lote. Configuração da fila do Earth Simulator. ES tem dois tipos de filas. A fila em lote S é projetada para trabalhos em lote de nó único e a fila em lote L é para a fila em lote de vários nós. Existem dois tipos de filas. Um é a fila de lote L e o outro é a fila de lote S. A fila de lote S destina-se a ser usada para uma pré-execução ou uma pós-execução para trabalhos de lote em grande escala (criando dados iniciais, processando resultados de uma simulação e outros processos), e a fila de lote L é para uma execução de produção. Os usuários escolhem a fila apropriada para seus trabalhos.

  1. Os nós alocados para um trabalho em lote são usados ​​exclusivamente para esse trabalho em lote.
  2. A tarefa em lote é agendada com base no tempo decorrido em vez do tempo de CPU.

A estratégia (1) permite estimar o tempo de término do trabalho e facilitar a alocação de nós para os próximos trabalhos em lote com antecedência. A estratégia (2) contribui para uma execução eficiente do trabalho. O trabalho pode usar os nós exclusivamente e os processos em cada nó podem ser executados simultaneamente. Como resultado, o programa paralelo em grande escala pode ser executado com eficiência. As PNs do sistema L estão proibidas de acessar o disco do usuário para garantir desempenho de E / S de disco suficiente. portanto, os arquivos usados ​​pelo trabalho em lote são copiados do disco do usuário para o disco de trabalho antes da execução do trabalho. Esse processo é denominado "estágio inicial". É importante ocultar esse tempo de preparação para o agendamento do trabalho. As principais etapas do agendamento do trabalho são resumidas a seguir;

  1. Alocação de Nó
  2. Stage-in (copia arquivos do disco do usuário para o disco de trabalho automaticamente)
  3. Escalonamento de trabalho (reprogramação para o horário de início estimado mais cedo, se possível)
  4. Execução de Trabalho
  5. Saída de fases (copia arquivos do disco de trabalho para o disco do usuário automaticamente)

Quando uma nova tarefa em lote é enviada, o planejador pesquisa os nós disponíveis (Etapa 1). Depois que os nós e a hora de início estimada são alocados para a tarefa em lote, o processo de estágio é iniciado (Etapa 2). A tarefa aguarda até a hora de início estimada após a conclusão do processo de estágio. Se o planejador encontrar a hora de início anterior à estimada, ele aloca a nova hora de início para a tarefa em lote. Este processo é denominado "Escalonamento de trabalho" (Passo 3). Quando a hora de início estimada chega, o planejador executa o trabalho em lote (Etapa 4). O planejador encerra o trabalho em lote e inicia o processo de eliminação gradual após o término da execução do trabalho ou o término do tempo declarado decorrido (Etapa.5). Para executar a tarefa em lote, o usuário efetua login no servidor de login e envia o script em lote ao ES. E o usuário espera até que a execução do trabalho seja concluída. Durante esse tempo, o usuário pode ver o estado do trabalho em lote usando o navegador da web convencional ou comandos do usuário. A programação do nó, a preparação do arquivo e outros processamentos são processados ​​automaticamente pelo sistema de acordo com o script em lote.

Ambiente de programação

Modelo de programação em ES

O hardware ES possui uma hierarquia de 3 níveis de paralelismo: processamento vetorial em um AP, processamento paralelo com memória compartilhada em uma PN e processamento paralelo entre PNs via IN. Para obter o alto desempenho do ES totalmente, você deve desenvolver programas paralelos que aproveitem ao máximo esse paralelismo. a hierarquia de 3 níveis de paralelismo de ES pode ser usada de duas maneiras, que são chamadas de paralelização híbrida e plana, respectivamente. Na paralelização híbrida, o paralelismo entre nós é expresso por HPF ou MPI, e intra nós por microtarefa ou OpenMP, e você deve, portanto, considerar o paralelismo hierárquico ao escrever seus programas. Na paralelização simples, o paralelismo entre nós e entre nós pode ser expresso por HPF ou MPI e não é necessário que você considere esse paralelismo complicado. De modo geral, a paralelização híbrida é superior à plana em desempenho e vice-versa em facilidade de programação. Observe que as bibliotecas MPI e os tempos de execução do HPF são otimizados para ter o melhor desempenho possível na paralelização híbrida e plana.

línguas

Compiladores para Fortran 90, C e C ++ estão disponíveis. Todos eles têm uma capacidade avançada de vetorização automática e microtarefa. Microtarefa é uma espécie de multitarefa fornecida para o supercomputador do Cray ao mesmo tempo e também é usada para paralelização intra-nó no ES. As microtarefas podem ser controladas inserindo diretivas nos programas de origem ou usando a paralelização automática do compilador. (Observe que o OpenMP também está disponível em Fortran 90 e C ++ para paralelização intra-nó.)

Paralelização

Interface de passagem de mensagens (MPI)

MPI é uma biblioteca de troca de mensagens baseada nos padrões MPI-1 e MPI-2 e fornece capacidade de comunicação de alta velocidade que explora totalmente os recursos do IXS e memória compartilhada. Ele pode ser usado para paralelização intra e entre nós. Um processo MPI é atribuído a um AP na paralelização plana ou a uma PN que contém microtarefas ou threads OpenMP na paralelização híbrida. As bibliotecas MPI são projetadas e otimizadas cuidadosamente para atingir o mais alto desempenho de comunicação na arquitetura ES em ambas as formas de paralelização.

Fortrans de alto desempenho (HPF)

Os principais usuários do ES são considerados cientistas naturais que não estão necessariamente familiarizados com a programação paralela ou, melhor, não gostam dela. Conseqüentemente, uma linguagem paralela de nível superior está em grande demanda. HPF / SX fornece programação paralela fácil e eficiente no ES para atender à demanda. Ele suporta as especificações de HPF2.0, suas extensões aprovadas, HPF / JA e algumas extensões exclusivas para ES

Ferramentas

-Ambiente de desenvolvimento integrado (PSUITE)

O ambiente de desenvolvimento integrado (PSUITE) é a integração de várias ferramentas para desenvolver o programa que opera pelo SUPER-UX. Como o PSUITE assume que várias ferramentas podem ser usadas pela GUI e tem a função coordenada entre as ferramentas, ele é capaz de desenvolver o programa de maneira mais eficiente do que o método de desenvolver o programa anterior e fácil.

-Suporte a depuração

No SUPER-UX, os itens a seguir são preparados como funções de suporte de depuração fortes para apoiar o desenvolvimento do programa.

Instalações

Características do edifício do Simulador de Terra

Proteção contra desastres naturais

O Earth Simulator Center possui vários recursos especiais que ajudam a proteger o computador de desastres naturais ou ocorrências. Um ninho de arame pende sobre o prédio, o que ajuda a proteger contra raios. O próprio ninho usa cabos blindados de alta tensão para liberar a corrente elétrica para o solo. Um sistema especial de propagação de luz utiliza lâmpadas halógenas, instaladas fora das paredes blindadas da sala de máquinas, para evitar que qualquer interferência magnética alcance os computadores. A edificação é construída sobre um sistema de isolamento sísmico, composto por suportes de borracha, que protegem a edificação durante terremotos.

Sistema de proteção contra raios

Três recursos básicos:

  • Quatro postes em ambos os lados do Edifício do Simulador de Terra compõem o ninho de fios para proteger o edifício de quedas de raios.
  • Cabo especial blindado de alta tensão é usado para fio indutivo que libera uma corrente elétrica para a terra.
  • As placas de base são colocadas afastando-se do edifício cerca de 10 metros.

Iluminação

Iluminação: Sistema de propagação de luz dentro de um tubo (255mm de diâmetro, 44m (49yd) de comprimento, 19 tubos) Fonte de luz: lâmpadas halógenas de 1 kW Iluminação: 300 lx no piso em média As fontes de luz instaladas fora das paredes blindadas da sala de máquinas.

Sistema de isolamento sísmico

11 isoladores (1 pé de altura, 3,3 pés de diâmetro, borrachas de 20 camadas apoiando a parte inferior do edifício ES)

atuação

LINPACK

O novo sistema Earth Simulator (ES2), que entrou em operação em março de 2009, obteve desempenho sustentado de 122,4 TFLOPS e eficiência computacional (* 2) de 93,38% no Benchmark LINPACK (* 1).

  • 1. Benchmark do LINPACK

O LINPACK Benchmark é uma medida de desempenho de um computador e é usado como um benchmark padrão para classificar sistemas de computador no projeto TOP500. LINPACK é um programa para realizar álgebra linear numérica em computadores.

  • 2. Eficiência de computação

A eficiência da computação é a relação entre o desempenho sustentado e o desempenho de pico da computação. Aqui, é a proporção de 122,4TFLOPS a 131,072TFLOPS.

Desempenho computacional do WRF on Earth Simulator

WRF (Weather Research and Forecasting Model) é um código de simulação meteorológica de mesoescala que foi desenvolvido em colaboração entre instituições dos EUA, incluindo NCAR (National Center for Atmospheric Research) e NCEP (National Centers for Environmental Prediction). A JAMSTEC otimizou o WRFV2 no Simulador da Terra (ES2) renovado em 2009 com a medição de desempenho computacional. Como resultado, foi demonstrado com sucesso que o WRFV2 pode ser executado no ES2 com desempenho excelente e sustentado.

A simulação meteorológica numérica foi conduzida usando WRF no Simulador da Terra para o hemisfério terrestre com a condição do modelo Nature Run. A resolução espacial do modelo é de 4486 por 4486 horizontalmente com o espaçamento da grade de 5 km e 101 níveis verticalmente. Na maioria das vezes, as condições adiabáticas foram aplicadas com a etapa de integração de tempo de 6 segundos. Um desempenho muito alto no Simulador da Terra foi alcançado para WRF de alta resolução. Enquanto o número de núcleos de CPU usados ​​é de apenas 1% em comparação com o sistema de classe mais rápido do mundo Jaguar (CRAY XT5) no Oak Ridge National Laboratory, o desempenho sustentado obtido no Simulador da Terra é quase 50% do medido no sistema Jaguar. A taxa de desempenho de pico no Earth Simulator também é recorde de 22,2%.

Veja também

Referências

links externos

Registros
Precedido por
ASCI Branco
7.226 teraflops
O supercomputador mais poderoso do mundo
março de 2002 - novembro de 2004
Sucesso por
Blue Gene / L
70,72 teraflops

Coordenadas : 35 ° 22′51 ″ N 139 ° 37′34,8 ″ E / 35,38083 ° N 139,626333 ° E / 35.38083; 139.626333