higgs

 

Este é o principal sistema de memória partilhada do Dep. Eng. Física.

 

 

 

É um Dell Precision Workstation T7500 com dois CPUs quad core Intel Xeon W5580/3.2GHz (Nehalem EP/Gainestown), 48 GB de RAM ECC DDR3/1333MHz e dois discos duros SATA 10000rpm configurados em RAID0.

 

O sistema é capaz de 96GFlops (16k linpack fortran benchmark + Goto BLAS2) ou 98GFlops com código especialmente afinado da Intel. Segundo os padrões de Novembro de 2001 este seria um supercomputador no TOP500.

Isoladamente, cada um dos 8 cores é capaz de 13GFlops.

 

Cada CPU têm uma estrutura de cache constituída por 4*32kB L1 data + 4*32kB L1 instruction + 4*256kB L2 + 1*8MB L3 all inclusive, com latências de 4, 11 e 52 ciclos, respectivamente.

 

 

De modo similar temos uma hierarquia de TLB buffers:

L1 instruction TLB: 128 small page (4k) entries + 7 large page (2M/4M) entries per thread

L1 data TLB: 64 small page (4k) entries + 32 large page (2M/4M) entries

L2 TLB: 512 small page (4k)

 

O modelo de memória é ccNUMA – a velocidade de acesso à memória depende da distância à parte da memória que se acede. Dado o perfil de utilização do sistema optou-se por definir, em BIOS, um esquema de memória interleaved, similar a um SMP. Aplicações que não utilizem mais de 24GB de RAM ou 4 threads beneficiarão de um esquema NUMA explícito, onde podem explorar a localidade de memória. Ler isto e isto.

 

 

A comunicação entre cada CPU (4 cores) e a sua memória é feita a 32GB/s ( (4 * 167MHz memory clock) * transfer at both edges * 64bits/transfer * 3 channels). Medidas com um código stream, sobre memória interleaved, obtêm 29.2GB/s (média QPI-DDR3).

A comunicação entre CPUs é feita pelo QPI a 25.6GB/s.

 

O sistema de armazenamento é um RAID0 capaz de 127MB/s de escrita e 202MB/s de leitura, sustentados.

RAID0 maximiza a velocidade de transferência mas a probabilidade de perda completa do sistema de discos é quase dupla da de se perder um só disco (não implementamos qualquer esquema de backups).

Adicionalmente, não implementamos um sistema de quotas de disco. Espera-se que os utilizadores limitem a sua utilização ao mínimo necessário.

 

As comunicações com a máquina são efectuadas por três interfaces ethernet (a operarem a 1Gb/s no cluster e 100Mb/s nos terminais e rede FEUP.

 

A placa gráfica é uma nVidia Quadro FX580, com 512 MB GDDR3, suficiente para permitir desenvolver aplicações em CUDA 1.1 que podem, posteriormente, ser submetidas em hardware mais eficiente disponível noutras máquinas.

 

O sistema operativo é Ubuntu server Linux 9.04 com o kernel 2.6.28-17.

 

Software instalado: perl 5.10.0, python 2.5 e 2.6.2, gcc 4.3.3 (C/C++/Fortran95), icc/ifort 11.0, MKL, mpich2 1.1, FFTW3, Goto BLAS. Entretanto outras aplicações irão sendo instaladas à medida das necessidades.

 

Last update: 15-Aug-2009