Publicado el 8 de Septiembre del 2017
596 visualizaciones desde el 8 de Septiembre del 2017
934,5 KB
26 paginas
Creado hace 15a (24/02/2010)
Computación Cluster y Grid
Intoducción
Intoducción
Motivaciones
Aplicaciones que requieren:
Aplicaciones que requieren:
Grandes capacidades de cómputo: Física de partículas,
, g
aerodinámica, genómica, ...
, ...
Tradicionalmente alcanzadas por medio de supercomputadores.
Los avances tecnológicos no satisfacen.
Camino hacia el “Petaflop”.
Necesidades de alta disponibilidad: Sistemas transaccionales de
d
f
t
ió
ió b
producción, banca, facturación, ...
Requieren replicación (y control de la misma).
No mucho cómputo, pero SIEMPRE debe estar disponible.
No mucho cómputo, pero SIEMPRE debe estar disponible.
Implicaciones hardware y software.
Sistemas Distribuidos y Clusters
Caracteística
MPP
SMP/CC-NUMA
Cluster
Sistemas
Distribuidos
Número de nodos
O(100) – O(1000)
O(10) – O(100)
O(100) o menos
O(10) – O(1000)
Grano medio/fino
Grano medio/grueso
Grano medio
Diversos tipos
Complejidad de los
N d
Nodos
Comunicación
Internodos
Planificación de
Planificación de
Trabajos
Soporte SSI
Tipo y Copias de SO
Tipo y Copias de SO
Espacio de
Direcciones
Seguridad
Internodos
Propietario
Cola de procesos
Cola de procesos
única (en host)
N x (μkernels por
N x (μkernels, por
Parcialmente
capas monolíticos)
Múltiple o único
(para DSM)
Paso de mensajes/DSM Memoria compartida o
Paso de mensajes
DSM
Cola de procesos
Cola de procesos
única
Siempre
Monolítico: SMPs
Monolítico: SMPs
Varios: NUMA
Colas múltiples
Colas múltiples
coordinadas
N x (homogéneas o
N x (homogéneas o
Deseable
μkernels)
De ficheros compartidos
a IPCs
Colas
Colas
independientes
No
N x (SO homogéneos)
N x (SO homogéneos)
Único
Múltiple o único
Múltiple
Innecesaria
Innecesaria
Sólo si expuesto
Requerido
Una organización
Una organización
1-N organizaciones
N organizaciones
ó
Computación con Clusters
Alternativa los supercomputadores
Alternativa los supercomputadores .
En lugar de aproximaciones MPP:
p
Hardware específico.
.
Alto coste.
Desarrollo hardware lento.
Desarrollo software doloroso.
Se pueden usar equipos de propósito general (PCs):
“Commodity hardware” (Commercial-off-the-self: COTS).
Coste reducido (y bajando).
D
Desarrollo hardware rápido.
Desarrollo software aun más doloroso.
ll h d
á id
é
¿Qué es un Cluster?
Las características principales son:
Las características principales son:
El concepto de cluster se basa en una instalación hardware
específica (Otros conceptos que veremos son conceptos
específica. (Otros conceptos que veremos son conceptos
software, un cluster no):
Nodos de computación
Nodos de computación.
Red de conexión dedicada.
La explotación de una instalación cluster hace uso de
La explotación de una instalación cluster hace uso de
herramientas específicas, que afecta a:
Programación de aplicaciones
Programación de aplicaciones
Interacción y administración
Arquitecturas
en el Top 500
500
Supremacía de los
l T
sistemas cluster
sobre otras
arquitecturas
i
á
Clusters más Representativos I
Magerit (Top 34/335)
Magerit (Top 34/335)
1204 nodos (1036 nodos eServer BladeCenter JS20 y 168
nodos eServer BladeCenter JS21)
JS20: 2 cores en dos procesadores IBM PowerPC single-core 970FX de 64
JS21: 4 cores en dos procesadores IBM PowerPC dual-core 970MP de 64
p
bits a 2'2 GHz, 4 GB
J
bits a 2'3 GHz, 8 GB
15955 GFlops (LINPACK)
5488 GB RAM
5488 GB RAM
65 TB Disco (GPFS)
Red Myrinet x 6 Switches
Red Myrinet x 6 Switches
GigaEthernet x 2 Switches
Clusters más Representativos II
Marenostrum (Top 5/77)
Marenostrum (Top 5/77)
á
4812 nodos
JS21: 4 cores en dos procesadores IBM PowerPC dual-core 970MP de 64
JS21: 4 cores en dos procesadores IBM PowerPC dual core 970MP de 64
bits a 2'3 GHz, 8 GB
63830 GFlops (LINPACK)
20480 GB RAM
280 TB Disco (GPFS)
Red Myrinet x 12 Switches
GigaEthernet x 5 Switches
Clusters más Representativos III
Roadrunner (Top 1/2)
Roadrunner (Top 1/2)
á
12240 + 6562 procesadores
QS22: IBM PowerXCell 8i
QS22: IBM PowerXCell 8i
AMD Opteron
1.026 PFlops (LINPACK)
103.6 TB RAM
Triblade / Infiniband
á
Clusters más Representativos IV
Jaguar (Top 1)
Jaguar (Top 1)
Cray XT5-HE
224,256 AMD Opteron Six Core 2.6 GHz
224,256 AMD Opteron Six Core 2.6 GHz
1.75 PFlops (LINPACK)
10 PB Disco (Spider/Lustre)
)
598TB RAM
Cray SeaStar Network
( p
y
Limitaciones de los Clusters
Sobrecarga por comunicación:
g p
Implementaciones de grano fino: difíciles de diseñar, difíciles de afinar
y mucho más difíciles de escalar.
Las implementaciones de grano grueso son más fáciles Pero en este
Las implementaciones de grano grueso son más fáciles. Pero, en este
caso ¿Se necesitan anchos de banda espectaculares?
Mantenimiento:
L
li
La ampliación de un cluster es costosa en grandes tamaños.
Es una solución escalable … pero ¿hasta que punto pueden hacerlo?
ió d
d
l
ñ
Recursos infrautilizados:
Los clusters son instalaciones dedicadas.
Un organización típica tiene desperdicia millones de ciclos de
computo en sus ordenadores personales
computo en sus ordenadores personales.
Siempre existe un problema mas grande.
y
g
Intranet Computing
Si yo tengo un montón de instalaciones de cómputo (incluidos los
clusters, pero o restringiéndome sólo a ellos), ¿qué podría hacer?
Programar el algoritmo.
Dividir el espacio de soluciones o los datos de entrada (o ambos)
Dividir el espacio de soluciones o los datos de entrada (o ambos).
Distribuir el trabajo.
p
(
Ejecutar varios trabajos secuenciales o paralelos por medio de una
herramienta de gestión de recursos
Intranet computing:
Intranet computing:
1. Opera dentro de la organización.
2. Opera sobre hardware diferente (arquitectura y prestaciones).
3.
Trata un problema concreto. (los clusters u otros sistemas
distribuidos son soluciones más generales)
bl
l
l
Intranet Computing
Aumenta la utilización de los recursos informáticos
Aumenta la utilización de los recursos informáticos.
El coste efectivo por ciclo de CPU usado es mínimo.
M j
l bilid d
Mejora en aspectos de escalabilidad.
Mejora en disponibilidad.
Simplifica la administración y el mantenimiento.
Ejemplo:
d
t
Sun Grid Engine (Sun Microsystems),
Condor (University of Wisconsin),
LSF (Platform Computing)
Problemas con los Clusters de Gran
Tamaño
No es posible gestionar recursos fuera del dominio de
No es posible gestionar recursos fuera del dominio de
administración:
Algunas herramientas (Condor LSF) permiten la colaboración
Algunas herramientas (Condor, LSF) permiten la colaboración
entre diferentes departamentos asumiendo la misma estructura
administrativa.
No se cumple la política de seguridad o los procedimientos
de gestión de recursos.
g
Los protocolos y los interfaces, en algunos casos, no se basan
en estándares abiertos..
Recursos a manejar: CPU, compartición de datos?
á
á
Más allá de los Clusters
Computación Grid:
Computación Grid:
Agregación de clusters y de máquinas “ociosas”.
Sistemas de planificación y ejecución de trabajos y de
y j
y
j
p
checkpointing.
Más de 1000 nodos.
e.g: Condor or Maui
C d
Computación colaborativa (Metacomputación):
b d
Si
d
Similar a la computación Grid pero sobre redes extensas de
ió G id
l
il
t
t
ámbito mundial (Internet).
p
Compartición de carga entre nodos que colaboran.
E.g: Seti@Home, Folding@Home, DESKeys
q
g
Elemento Clave: Acceso a Recursos
Fácil: Uso intuitimo (similar a Web)
Fácil: Uso intuitimo (similar a Web).
Transparente: No resulta necesario conocer la ubicación
física
física
S
C
Rápido: Tiempo de respuesta aceptable
Seguro: Control de acceso a recursos e información
ió
i f
Permanente: Siempre disponible (24x7)
Económico:
l d
Menor coste al compartir infraestructuras
El coste debe ser conocido
Organizaciones Virtuales
Una organización virtual (virtual organization: VO) está compuesta
Una organización virtual (virtual organization: VO) está compuesta
por recursos, servicios y personas que colaboran más allá de las
fronteras institucionales, geográficas y políticas.
y
g
g
Permiten el acceso directo a recurso de computación, software y
datos y, por lo general, utilizan el substrato de la tecnología Grid.
Proporcionan
Un portal Grid para agrupar todos los elementos.
Servicios de directorio
Infraestructura de seguridad
Redes Internacionales de Sistemas
Grid
Dichas infraestructuras disponen de conexiones de red extensa de gran
p
g
ancho de banda.
Se basan en infrestructuras de red nacionales o internacionales de
g
propósito general:
p p
RedIRIS, REDImadrid (España)
GÉANT (Europa)
TERAGrid backbone (USA)
TERAGrid backbone (USA)
ALICE y CLARA (Lationamérica
Comentarios de: Computación Cluster y Grid (0)
No hay comentarios