Deseño dun Cluster de computación de altas prestacións
Sistemas Distribuídos e Paralelos Alumnos: Alexandre Vázquez Vázquez Tomás Teijeiro Campo
Táboa de contidos 1. Introdución:....................................................................................................................3 2. Selección de procesadores...........................................................................................3 3. Selección de placas base..............................................................................................4 4. Selección da memoria...................................................................................................5 5: Selección de Disco........................................................................................................5 6. Rede de interconexión...................................................................................................6 6.1. Quadrics QSNetII.............................................................................................................................6 6.1.1. Topoloxía da rede....................................................................................................................6 6.1.2. Compoñentes..........................................................................................................................6 6.1.3: Prezo da solución....................................................................................................................7 6.2. Myrinet 2000....................................................................................................................................8 6.2.1. Topoloxía da Rede...................................................................................................................8 6.2.2. Compoñentes:.......................................................................................................................10 6.2.3. Prezo da Solución:.................................................................................................................10 6.3. Comparación de alternativas e selección final...............................................................................11
7. Racks...........................................................................................................................11 7.1. Potencia consumida por m²......................................................................................................12
8. Software.......................................................................................................................12 9. Prezo Final...................................................................................................................13 10. Resumo......................................................................................................................13 Referencias......................................................................................................................14
1. Introdución: Neste documento lévase a cabo o deseño dun cluster de computación de altas prestacións. O deseño fíxose tendo en mente un sistema moderno, seguindo as tendencias marcadas polos máis destacados representantes neste eido, e tentando conseguir a mellor relación posible entre o rendemento acadado polo sistema e o seu consumo enerxético. O cluster segue un deseño tradicional, baseado na unión dun gran número de procesadores comerciais de altas prestacións a través dun sistema de interconexión que sexa capaz de manter os requirimentos de comunicación dos mesmos. Ademais, foi necesario plantexarse cuestións coma o grao de integración dos procesadores, os seus requirimentos de memoria, disco, etc. Así pois, nas seguintes seccións detallamos os criterios e alternativas avaliadas para cada un dos compoñentes do noso sistema, finalizando cun resumo global do mesmo, así coma do seu custo.
2. Selección de procesadores En primeiro lugar, procederemos á selección dos nodos de computación que imos utilizar para a construción do noso cluster. Analizaremos varios dos procesadores utilizados por Supercomputadores destacados na lista Top500 [1], e seleccionaremos un deles, intentando maximizar a relación GFlops/W. É dicir, tentaremos construír un cluster co menor consumo de potencia posible, sempre mantendo unhas boas capacidades computacionais. En primeiro lugar, deberemos seleccionar o tipo de procesador (escalar ou vectorial). Como podemos comprobar na lista actual do Top500, o dominio da arquitectura escalar deixa cunha proporción practicamente insignificante a arquitectura vectorial. Porén, algúns dos supercomputadores máis potentes seguen a apostar por esta arquitectura, polo que a teremos en conta na nosa comparativa. En canto a procesadores escalares, analizando un pouco as primeiras posicións da lista, vemos que as empresas líderes en procesadores de consumo (Intel e AMD) tamén dominan este mercado. Na seguinte táboa amosamos unha comparativa entre os tres procesadores que consideramos teñen unha especial relevancia hoxe en día. Estes son o Cray X1E, o AMD Opteron 8300-series "Barcelona" 8347HE, e o Intel Xeon 7300-Series "Tigerton" E7340. Ancho de Cache Potencia banda TDP L2 Computacional coa memoria
Procesador
Arquitectura Tecnoloxía
Frecuencia de Reloxo
Cray X1E
Vectorial
90 nm
1130 MHz
2 MB
18 GFLOPs
34 GB/s
AMD Opteron 8347HE
Escalar
65 nm
1900 MHz
2 MB
30.4 GFLOPs
42.7 GB/s 68 W
0.45
861
Intel Xeon E7340
Escalar
65 nm
2400 MHz
8 MB
38.4 GFLOPs
32 GB/s
0.48
1625.55
GFLOPs/W Prezo ($)
120 W 0.15
80 W
Descatalogado
Táboa 1: Comparativa de Microprocesadores
Pode resultar chamativo nun primeiro momento que incluíramos nesta comparación o procesador Cray X1E , un procesador do ano 2005, moito máis antigo ca os outros dous, os cales son procesadores que acaban de saír ó mercado recentemente. Con esta primeira elección buscabamos incluír na nosa comparativa un procesador multistreaming, e decantámonos por un modelo dunha empresa que conta cunha boa reputación no mundo da Supercomputación (posúe numerosos contratos coa DARPA Estadounidense). A elección do modelo concreto baseouse en que é o unico que permanece na lista do top 500 de dita marca, a pesares de ser xa antigo. Non obstante, finalmente descartamos esta opción, pois cando nos intentamos poñer en contacto con Cray Inc, para preguntarlles sobre as características detalladas e custo dos procesadores, dixéronos (como se pode ver na táboa) que xa estaban descatalogados. Iso deixounos ante dúas alternativas, un procesador Intel e outro AMD, ámbolos dous con moi boas prestacións, como podemos ver nos datos da táboa 1.
Pódese ver que o Intel Xeon E7340 é unha das alternativas máis potentes en capacidade computacional que hai hoxe en día no mercado. Proba diso son os seus 38.4 GFLOPs pico, que acada con un consumo moderado de 80W (resulta interesante comparalo cos 115W que chegaron a acadar os antigos Pentium4). Outra das grandes alternativas é o AMD Opteron, o cal en canto a capacidades de cómputo permanece algo por detrás do Xeon, acadando concretamente 30.4 GFLOPs pico. Porén, o seu consumo enerxético é significativamente inferior ó seu competidor, pois o seu TDP é de 68 Watios. Ademais, destaca neste caso a abismal diferencia de prezo, pois o procesador de Intel duplica practicamente ó seu competidor neste aspecto. Os resultados que amosamos en canto a capacidades de cómputo merecen unha pequena aclaración, pois nun principio podemos pensar que son moi esaxeradas. Os datos están sacados dos sitios web dos fabricantes, e polo tanto debemos crer que eses valores son o tope teórico de rendemento que poden acadar. De feito, se analizamos minimamente os datos, vemos que ámbolos dous procesadores son capaces de executar 16 operacións en punto flotante por ciclo de reloxo. Sendo ámbolos dous procesadores de catro núcleos, isto déixanos un resultado de 4 operacións en punto flotante por ciclo e por core, polo que podemos deducir que cada core dispón de dúas unidades en punto flotante, cada unha delas con capacidade para executar dúas operacións por ciclo (por exemplo, unha multiplicación e unha adición). Polo tanto, a pesares da maior relación GFLOPs/Watio teórica que amosa o Intel Xeon, tendo en conta a abismal diferencia de prezos, e o menor consumo enerxético do AMD Opteron, consideramos como alternativa máis interesante para a construción do cluster este último procesador. Para a construción do noso cluster, utilizaremos 1024 destes procesadores.
3. Selección de placas base Seguindo as consideracións que realiza AMD na súa paxina oficial [3], plantexámonos o uso de 3 placas para o modelo de procesador elixido. Resulta significativo comprobar que se recomenda a inclusión de catro procesadores por placa. A súa comparativa amósase na seguinte táboa: Modelo
Sockets Capacidade Memoria Slots de Memoria
PCI
Portos SAS Prezo ($)
ASUS KFN5-Q [4]
4
64GB
16
PCI-X / PCI-Express 8
859.754
Supermicro H8QM8-2+ [5]
4
128GB
16
PCI-X / PCI-Express 0 (6 SATA)
821.99
Supermicro H8QM3-2 [6]
4
128GB
32
PCI-X / PCI-Express 8
815.99
Táboa 2: Comparativa de placas base
Aínda que as 3 placas comparadas permiten a introdución de catro procesadores, cada unha nun dos sockets de Tipo F que conteñen, queda claro que as Supermicro apórtannos unha clara vantaxe fronte á ASUS ó permitirnos o dobre de memoria, o cal é unha das características básicas a hora de optar por unha placa ou outra. Ademais, ó decantármonos por unha estratexia agresiva ó situar 4 procesadores por placa, precisaremos unha grande cantidade de memoria para cada unha delas. Dentro das Supermicro, ámbalas dúas son moi parecidas, tendo como diferencia salientable que a 8-2+ permítenos conectar módulos DIMM de ata 8GB, cousa que a 3-2 non permite (o tamaño máximo por DIMM é de 4GB). No entanto, para o noso deseño non resulta demasiado interesante, pois o modelo 3-2 ten o dobre de slots de memoria, co cal a capacidade máxima é a mesma. Decidímonos finalmente polo modelo 3-2, pois ademais de resultar economicamente máis interesante, proporciónanos portos SAS, que poden resultar valiosos á hora de elixir o almacenamento secundario do noso cluster.
4. Selección da memoria En canto á memoria, utilizaremos módulos estándar DDR2, por ser os recomendados para a placa base elixida. Procuraremos escoller os módulos DIMM coa maior capacidade posible, tendo sempre en conta por suposto factores coma o consumo ou o custo. O motivo de tentar maximizar a capacidade dos módulos é que coa arquitectura da placa só pode funcionar en cada momento un DIMM por canle de memoria, e ó maximizar o tamaño do DIMM minimizaremos a probabilidade de precisar cambiar de módulo para un determinado dato, polo que ó evitarmos ese cambio, reduciremos a latencia xeral do sistema de memoria. Debido a todas estas consideracións, compararemos módulos KINGSTON de 1,2, 4 ou 8 GB, para elixir o noso tamaño ideal. No caso de 8GB : 8GB 667MHz DDR2 ECC Reg with Parity CL5 DIMM Dual Rank, x4 [7] No caso de 4GB : 4GB 667MHz DDR2 ECC Reg with Parity CL5 DIMM Dual Rank, x4 [8] No caso de 2GB : 2GB 667MHz DDR2 ECC Reg with Parity CL5 DIMM Single Rank, x4 [9] No caso de 1GB : 1GB 667MHz DDR2 ECC Reg with Parity CL5 DIMM Single Rank, x4 [10] Capacidade Frecuencia Latencia CL
ECC
Organización Kit Consumo
Prezo
(Prezo/Capacidade)/Consu mo
1 GB
667 MHz
5
Reg With Parity Single Rank, x4 1
3,816 W
52.00 $
13,62
2 GB
667 MHz
5
Reg With Parity Single Rank, x4 1
3,978 W
167.00 $ 20,99
4 GB
667 MHz
5
Reg With Parity Dual Rank, x4
1
5,940 W
364.00 $ 15,32
8 GB
667 MHz
5
Reg With Parity Dual Rank, x4
2
5,940 W
679.00 $ 28,577
Táboa 3: Comparativa de Módulos de memoria Tentaremos, á vista dos datos da táboa anterior, buscar unha boa relación entre a capacidade da memoria, o consumo, e o prezo. A relación amósase na última columna, segundo a expresión (Prezo/Capacidade)/Consumo. Polo tanto, tentaremos minimizar esa relación. Podemos comprobar como os módulos de 1 GB e 4 GB dan uns valores moi semellantes, sendo incluso menor no caso de 1 GB. Finalmente seremos un pouco flexibles nesta decisión, a prol de permitir unha expansión sinxela das capacidades de memoria do noso cluster, se nalgún futuro se precisara. Polo tanto, eliximos os módulos de 4GB, para ocupar un número moito menor de slots. En canto á capacidade de memoria que colocaremos por cada placa, basearémonos na estratexia do supercomputador FinisTerrae do CESGA [11], o cal ten uns 8 GB por procesador. Deste xeito, obtemos que en cada placa precisaremos 32GB, é dicir, 8 módulos DIMM de 4 GB.
5: Selección de Disco En canto á selección de disco, debido a que os discos conectados á placa terán fundamentalmente a función de swapping, e soporte do SO, buscaremos a maior velocidade posible, comparando modelos que presenten un grande rendemento en revolucións por minuto. Os modelos escollidos para comparar son o Savvio15K [12] da empresa Seagate e o Hitachi 0B20914 SAS Modelo Savvio 15K
Capacidade Revolucións Interface Latencia Media 73,4GB
Hitachi 0B20914 SAS 73 GB
Prezo ($)
15.000
3 Gb/s
2ns
$457,00[14]
15,000
3 Gb/s
2 ms
$179.00[13]
Táboa 4: Comparativa de Discos Duros Da táboa anterior destaca o dato da latencia media, que se sitúa no Savvio en 2ns, mentres que o Hitachi non baixa dos 2ms. A pesares da grande diferenza de prezo, debido a que non será un factor determinante no custo final do sistema, decantámonos polo modelo Savvio, e utilizaremos dúas das 6 bahías SAS que nos proporciona a placa base. En definitiva, disporemos de 146,8 GB de disco por placa, o que corresponde a un total de 36,7 TB de disco, uns 36,7 GB por procesador.
6. Rede de interconexión Pasamos agora a analizar un dos aspectos críticos no deseño do noso cluster. Para elixir a rede de interconexión, analizaremos as solucións de Quadrics e Myrinet, dúas empresas punteiras no sector, que ofrecen produtos de prestacións comparables. Dado que poñeremos 4 procesadores por placa, deberemos analizar as solucións a conexións de 256 nodos. Para elixir a nosa solución, tomaremos como criterios fundamentais o ancho de banda e a latencia da rede, e, en menor medida, o seu custo.
6.1. Quadrics QSNetII Eliximos a rede QSNetII, por ser a máis axeitada para o cluster que imos construír, no cal tódolos compoñentes se situarán próximos fisicamente, polo que poderemos utilizar redes de fibra óptica de moi baixa latencia, fronte á solución QSNetTenG, baseado en Gigabit Ethernet, máis orientada a obter altos anchos de banda, pero cunha maior latencia.
6.1.1. Topoloxía da rede Para definir a topoloxía da rede, tomamos as consideracións aconselladas por Quadrics no seu sitio web [13]. A topoloxía resultante será un fat-tree. Como podemos ver na figura inferior, utilizaremos para a conexión de nodos switches de 64 canles de entrada e 64 canles de saída. Para completar o fat-tree, utilizaremos 64 switches de 4 vías, que agruparemos en 2 chasis de 128 portos inferiores cada un. Polo tanto, de cada switch de primeiro nivel sairán 32 canles para cada chasis de segundo nivel. A implementación a baixo nivel dos switches de nodo consiste nun fat-tree de 3 etapas para unir os 64 nodos. En canto ós switches superiores, están formados por un fat-tree dunha soa etapa.
Ilustración 1: Topoloxía da rede QSNetII para 256 Hosts
6.1.2. Compoñentes ●
Adaptadores de Rede: Podemos elixir entre os modelos QM500, con conector PCI-X, ou o modelo QM509, con PCI-Express de velocidade cuádruple. Eliximos este último modelo, por presentar un maior ancho de banda. As especificacións deste modelo amósanse a continuación: ○
Procesador: Procesador de rede Quadrics Elan 4
○
Interface de BUS: x4 PCIe Rev. 1.0a
○
Enlace físico: Full duplex 10 bit, 1.3 Gbaud Quadrics QsNetII Link. 900MBytes/s pico por dirección.
○
Cache : 32KByte on chip d-cache, 16KByte on chip i-cache.
●
○
Memoria: 64MBytes onboard DDR-SDRAM
○
OS Soportados: Tru64 UNIX, Linux.
○
Librerías de comunicacións: MPI 1.2 + MPI 2.0
○
Potencia: <12W
○
Latencia MPI: 3us
Switches: ○
Switches de nodo: 4 x Modelo QsNet II QS5A-AC. Consumo de 700 W, e 57.6 GB/s de ancho de banda de bisección. Tamaño 17u
○
Switches superiores: 2 x Modelo QsNet II QS5A-AL. Consumo de 700 W, e 115.2 GB/s de ancho de banda de bisección. Tamaño 17u
6.1.3: Prezo da solución Agora calcularemos o prezo desta solución, tendo en conta que nos faltan compoñentes como o cableado, os kits para montaxe nos Rack's, e os reloxos de sincronización para a rede. Para seleccionar estes compoñentes seguimos a guía que nos ofrece Quadrics [14]. Cantidade Producto
Prezo Unitario ($) Prezo Total ($)
256
QM509-B Network Adapter
999
255744
4
QS5A-AC Node Switch
93000
372000
2
QS5A-AL Top Switch
108000
216000
128
QM581-03 EOP Link Cable, 3M
185
23680
128
QM581-07 EOP Link Cable, 7M
265
33920
256
QM581-10 EOP Link Cable, 10M
325
83200
2
QM580 Clock Source
1800
3600
1
QM584-03, CAT5E 3M Clock Cable
22
22
12
QM584-10, CAT5E 10M Clock Cable 41
492
6
QM583 Rack Mount Kit QS5A
1518
Total:
254
990176 Táboa 5: Prezo da Solución Quadrics QSNetII
6.2. Myrinet 2000 Dentro das solucións de Myricom, eliximos a rede Myrinet 2000 fronte a Myri-10G, por ser o equivalente a QSNetII de Quadrics. Así poderemos comparar ámbalas redes en igualdade de condicións. Ademais, elixiremos os compoñentes da clase 8F, orientados a fibra óptica.
6.2.1. Topoloxía da Rede Tomamos, coma no caso anterior, as consideracións feitas pola empresa subministradora, neste caso Myricom [15]. Como podemos apreciar, a topoloxía resultante será un fat-tree moi semellante ó do caso anterior. Neste caso, o hardware para construír os switches subminístrase por separado, polo que deberemos definir a estrutura dos mesmos. No primeiro nivel do fat-tree, colocaremos 4 switches configurando unha rede chamada "Clos64+64", que simplemente consiste en, partindo de tarxetas de 8 portos, configurar unha rede con 64 portos de entrada e 64 portos de saída, na cal se poderá conectar calquera dos portos de entrada con calquera dos portos de saída. Na seguinte ilustración amosamos a topoloxía desta parte da rede.
Ilustración 2: Clos 64+64
Como temos que interconectar 256 hosts, precisaremos 4 redes deste tipo no primeiro nivel do fat-tree. Para crear esta rede, utilizaremos unha carcasa de tipo E128, que permite conectar 128 portos. Neste caso, utilizaremos 64 para a entrada, con tarxetas de 8 portos tipo M3-SW16, e 64 de saída, con tarxetas M3SPINE. Ditos compoñentes amósanse nas seguintes imaxes:
Para configurar o switch, colocaremos as tarxetas M3-SPINE nas 8 bahías superiores, e as tarxetas M3SW16 nas 8 bahías inferiores. A estas últimas tarxetas irán conectados os hosts, mentres que as tarxetas M3-SPINE conectaranse co seguinte nivel do fat-tree, que pasamos a describir a continuación. Para pechar o fat-tree, precisaremos pois interconectar 256 portos que saen das redes "Clos 64+64". Para isto utilizaremos outras dúas carcasas de tipo E128, nas que conectaremos 16 tarxetas M3-SPINE en cada unha delas. Deste xeito, teremos configurado completamente o noso sistema de interconexión.
6.2.2. Compoñentes: ●
●
Adaptadores de Rede: Seleccionaremos o modelo de fibra óptica dun porto M3F-PCIXF-2, do cal listamos as súas características a continuación [16]: ○
Procesador: Lanai-2XP de 333MHz
○
Interface de BUS: PCI-X de 133 Mhz
○
Enlace físico: 1067 MB pico por dirección
○
Memoria: 4 MB á mesma velocidade co procesador
○
Potencia: 8W
○
Latencia-MPI: 2.6 us
Switches: Para configurar os switches, utilizaremos as xa comentadas carcasas E128 e as tarxetas M3-SPINE-8F e M3-SW16-8F. O consumo de cada un dos 6 switches será de 960 W.
6.2.3. Prezo da Solución: A continuación facemos un resumo dos elementos necesarios para configurar a rede e o prezo dos mesmos, obtido do sitio web do fabricante [17]. Ademais dos compoñentes xa sinalados, precisaremos cable, e engadiremos ás carcasas E128 tarxetas de monitorización tipo M3-M: Cantidade Produto
Prezo Unitario ($) Prezo Total ($)
156
M3F-PCIXF-2 Network Adapter
595
152320
6
M3-E128 Enclosure
12800
76800
6
M3-M Monitoring Line Card
1000
6000
32
M3-SW16-8F Switch Line Card
2400
76800
64
M3-SPINE-8F Switch Line Card 1600
102400
6
M3-BLANK front panel
25
150
256
M3F-CB-10M Link Cable
90
23040
128
M3F-CB-3M Link Cable
75
9600
128
M3F-CB-5M Link Cable
80
10240
Total:
457350 Táboa 6: Prezo da solución Myrinet 2000
6.3. Comparación de alternativas e selección final Despois de analizar os dous tipos de redes, e os compoñentes que as forman, vemos que tanto en relación á topoloxía coma os compoñentes utilizados, podemos concluír que ámbolos dous sistemas ofrecen unhas prestacións similares, acordes cos nosos requirimentos. Segundo fontes externas ás empresas [18], podemos ver que mentres a latencia de ámbolos dous está sobre os 3 us, o ancho de banda de Quadrics triplica ó de Myrinet [19] (280MB/s fronte a 900MB/s), Por outra banda, á hora de analizar os prezos de ámbalas dúas solucións, vemos que a solución de Quadrics custa máis do dobre ca do seu competidor. Para aclarar este aspecto, poñémonos en contacto con Quadrics, non recibindo ningunha resposta. A pesares desta diferenza abismal, consideramos que a mellora no ancho de banda compénsanos o gasto extra. Ademais, ó agruparmos moitos procesadores por placa, a rede é só de 256 hosts, polo que precisaremos un maior ancho de banda para conectar nodos de distintas placas. Seleccionaremos, pois, a opción de Quadrics.
7. Racks Unha vez seleccionados tódolos compoñentes básicos do nosos sistema, réstanos elixir os rack's onde teremos que colocar as placas. Buscando unha máxima compatibilidade entre os compoñentes seleccionados, decidimos apostar polos rack's de Supermicro, os cales están recomendados para a placa base escollida. Dentro das posibilidades buscamos un rack de 2U debido a que o uso de adaptadores de rede especiais para a interconexión requírenos un maior espazo físico. Ademais, deste xeito, reduciremos a cantidade de placas por metro cadrado, o que nos reducirá a potencia por área do noso cluster. Baixo estas condicións escollemos o CSE-828TQ-R1200LP (2U) , do cal pasamos a describir as súas características: ● ●
1200W Redundant Power Supply 6 x 3.5" Bahías SAS / SATA hot-swap
●
Ventiladores 3. 6 x 80mm a 6500 revolucións por minuto.
●
7 x Low-profile, Full-length Slots de expansión para I/O
●
Slim DVDROM Drive
●
Front USB + COM Port
●
Prezo: 1029.43 $
Unha vez definido o rack que utilizaremos precisaremos armarios para situar ditos racks. Buscando unha empresa de prestixio para este compoñente, elixiremos HP, e decantámonos por uns dos seus modelos de gama alta 10842 G2[20]. Na seguinte imaxe amósase dito modelo de armario.
Ilustración 3: Armarios para a integración dos Rack's
Trátase dun modelo de 42 U de altura. Dado que os nosos racks ocupan 2 U cada un , iso significa que caben 21 Racks en cada un dos armarios. Tendo como tiñamos 256 Racks, precisaremos 13 armarios HP para cubrir a nosa demanda. Ademais, precisaremos outros 3 armarios máis para os switches da rede de interconexión, pois cada un dos 6 switches tiña un tamaño de 17U.
7.1. Potencia consumida por m² Na seguinte táboa amosamos o consumo de potencia dos compoñentes de cada rack. Compoñente
Potencia Cantidade Total
Procesador
68 W
4
272 W
Placa
N/A
1
N/A
Discos
5.8 W
2
5.8 W
8
47.52 W
Modulos de Memoria 5.940 W
Total
325.32 W
Táboa 7: Consumo de potencia por cada rack Dado que en cada armario se sitúan 21 destes racks, e que cada armario ocupa unha área de 0.8m², isto danos unha potencia por unidade de superficie de 8539.65W/m², o que non acada o límite aconsellado de 10KW/m². Polo tanto, os resultados son válidos, e a nosa configuración pódese aplicar sen problema.
8. Software En canto ó software, só definiremos o Sistema Operativo a utilizar polo cluster, debido a que a selección dalgúns dos compoñentes hardware, como as tarxetas de rede, estivo influenciada por esa decisión. Botando unha ollada ós sistemas utilizados polos supercomputadores da lista Top500 [21], vemos que unha importante maioría usa Linux como Sistema Operativo. Polo tanto, e engadindo os alicientes da súa boa reputación, e o seu carácter de software libre, eliximos este sistema para gobernar o noso cluster. En canto á distribución utilizada, decantámonos por unha versión SUSE Linux Entreprise Server 10 (SLES10), novamente debido a que as distribucións de Novell nas súas diferentes versións son claramente predominantes no eido da supercomputación, como amosan as estatísticas do Top500 [22]. Facéndonos cunha licencia Priority de 3 anos de duración, a cal nos permite unha atención continua 24x7 con soporte ilimitado, teríamos un prezo final de 3,748 $.
9. Prezo Final Na seguinte táboa facemos un resumo de tódolos compoñentes, tanto software como hardware, que fomos escollendo, así como o seu prezo. Finalmente, calcularemos o custo total dos compoñentes do noso cluster. Modelo AMD Opteron 8347HE Supermicro H8QM3-2 4GB 667MHz DDR2 ECC Reg with Parity CL5 DIMM Dual Rank Rack CSE-828TQ-R1200LP Armario 10842 G2 Disco Savvio15K Adaptador de rede PCI-Express 4x QM509-B Switches de nodo de 64+64 portos QS5A-AC Switches de Spin de 128 portos QS5A-AL Cable de fibra óptica de 3M QM581-03 Cable de fibra óptica de 7M QM581-07 Cable de fibra óptica de 10M QM581-10 Xenerador de reloxo QM580 Cable de reloxo QM584-03, CAT5E 3M Cable de reloxo QM584-10, CAT5E 10M Kits de montaxe en Rack para QS5A - QM583 SUSE Linux Entreprise Server 10
Prezo 861 815,99 364 1029,43 1909 457
Cantidade Prezo Total 1024 881664 256 208893,44 2048 745472 256 263534,08 16 30544 512 233984
999 4 2 128 128 256 2 1 12 6
256 93000 108000 185 265 325 1800 22 41 253
255744 372000 216000 23680 33920 83200 3600 22 492 1518
1
3748
3748
TOTAL
3358015,52
10. Resumo Como punto final do noso traballo, faremos un resumo das características do cluster que deseñamos: ●
Potencia de cálculo pico: 31129.6 GFLOPs
●
Número de procesadores: 1024
●
Capacidade de Memoria: 8192 GB
●
Latencia da rede de interconexión: 3us
●
Ancho de banda de interconexión: 900MB/s
●
Potencia total do sistema: 109.3 KW
●
Prezo/GFLOP: 107.9 $
●
Hipotética posición na lista Top500: 36
Obviamente, este último dato é moi discutible. Nós tomamos como potencia pico a suma das potencias pico teóricas de tódolos procesadores, o cal non é un dato comparable ó utilizado para as medicións na lista do Top500.
Referencias [1]: http://www.top500.org [2]: http://www.amd.com/us-en/Processors/ProductInformation/0,,30_118_8796_15225,00.html [3]: http://www.amd.com/us-en/recmobo/ResultsHandler/1,,30_118_8796_8819%5E8821~68707,00.html [4]: http://www.asus.com/products.aspx?l1=9&l2=39&l3=575&l4=0&model=1868&modelmenu=1 [5]: http://www.supermicro.com/Aplus/motherboard/Opteron8000/MCP55/H8QM8-2.cfm [6]: http://www.supermicro.com/Aplus/motherboard/Opteron8000/MCP55/H8QM3-2.cfm [7]: http://www.valueram.com/datasheets/KVR667D2D4P5K2_8G.pdf [8]: http://www.valueram.com/datasheets/KVR667D2D4P5_4G.pdf [9]: http://www.valueram.com/datasheets/KVR667D2S4P5_2G.pdf [10]: http://www.valueram.com/datasheets/KVR667D2S4P5_1G.pdf [11]: http://www.top500.org/system/9156 [12]: http://www.seagate.com/docs/pdf/datasheet/disc/ds_savvio_15k.pdf [13]:http://www.quadrics.com/Quadrics/QuadricsHome.nsf/DisplayPages/3A912204F260613680256DD9005 122C7 [14]: http://web1.quadrics.com/twiki/bin/view/FAQs/BandwidthOptions? rev=1.5&CGISESSID=e46a34d2b1fc0768b351163c0b8fbe26 [15]: http://www.myri.com/myrinet/m3switch/guide/Clos256/index.html [16]: http://www.myri.com/myrinet/PCIX/m3f-pcixf.html [17]: http://www.myri.com/myrinet/product_list.html [18]: http://www.notur.no/notur2004/overview-hw_greg.ppt [19]: http://en.wikipedia.org/wiki/QsNet_II [20]: http://h18004.www1.hp.com/products/servers/proliantstorage/racks/10000series-g2/index.html [21]: http://www.top500.org/stats/list/30/osfam [22]: http://www.top500.org/stats/list/30/os