Actualización AMD Opteron™ “Barcelona” Mayo de 2008 A. David Garza Marín
AMD Latin America, LTD.
[email protected]
Núcleos por cuatro – Más allá del rendimiento
CONFIDENTIAL
El núcleo adelantado Nombre de la característica
Descripción
Beneficio
Independent Dynamic Core Technology
Frecuencia independiente por núcleo
Ahorro de energía
AMD CoolCore™ Technology
Control crudo y fino de transistores
Ahorro de energía
Dual Dynamic Power Management™ (DDPM)
(Anteriorment “plano bifurcado”) Planos independientes de voltaje para los núcleos y el controlador de memoria
Ahorro de energía Mayor rendimiento
AMD Wide Floating Point Accelerator
Punto flotante de 128 Bits (Ductería completa)
Rendimiento mejorado de punto flotante
AMD Memory Optimizer Technology
Acceso a la memoria, uso de los núcleos
Mayor rendimiento
AMD Balanced Smart Cache
Cache L1/L2/L3, balanceo entre dedicado y compartido
Mayor rendimiento, menor hiperpaginación
Rapid Virtualization Indexing
Paginación anidada y TLB etiquetados
Mayor rendimiento en virtualización
3
Procesador AMD Opteron™ Quad-Core Protección de la inversión Características de AMD
Coadyuva a reducir el CTP (TCO) al simplificar la administración y permitir más suaves transiciones de tecnología
Valor para los negocios
Estrategia de núcleo común
Para simplificar las transiciones tecnológicas y reducir los costos de mantenimiento, coadyuva a conserbar su imagen de software de TI al permitir menos alteraciones en la actualización
Infraestructura en el mismo conector (socket)
Permite sencillas actualizaciones de hardware al conservar las propiedades térmicas y eléctricas consistente en diversas generaciones de procesadores. Coadyuva en la longevidad y en el rendimiento/vatio, al tiempo que facilita la planeación de las instalaciones.
AMD ofrece una directriz estable y consistente – con transiciones bien reguladas – para proteger las inversiones de nuestros clientes y reducir su costo total de propiedad
Procesador AMD Opteron™ Quad-Core Efiencia mejorada en la energía
Características de AMD Tecnología Enhanced AMD PowerNow!™ - Tecnología Independent Dynamic Core™ Dual Dynamic Power Management™ Tecnología AMD CoolCore™
Coadyuva a reducir los costos de energía y enfriamiento de su infraestructura de TI
Valor en los negocios Reduce el consumo de energía del procesador mediante el ajuste del uso de la energía por cada núcleo Reduce el consumo de energía del procesador al habilitar más capacidades granulares de administración de energía Reduce el consumo de energía al apagar las partes que no se usen del procesador
Procesador AMD Opteron™ Quad-Core Virtualización óptima Características de AMD
Coadyuva en la consolidación y la flexibilidad del cómputo con la mejor arquitectura x86 y soporte a la plataforma
Valor en los negocios
Arquitectura Direct Connect
La mayor eficiencia en cargas de trabajo con uso intenso de la memoria como la virtualización, coadyuva a albergar más máquinas virtuales por servidor y a mejorar el uso de los recursos.
AMD-V™ con Rapid Virtualization Indexing
Rendimiento y eficiencia mejorados para muchas cargas de trabajo virtuales, con lo que se permite tener un entorno de mayor rendimiento, fasí como un entorno de TI más flexible.
AMD Balanced Smart Cache
Mejora la eficiencia de los núcleos para obtener un mejor apoyo para entornos Improves core efficiency for better support of multi-threaded virtualization environments.
Ofrece la plataforma de virtualización más eficiente en x86, lo que permite un soporte a TI altamente flexible y escalable
Procesador AMD Opteron™ Quad-Core Rendimiento sobresaliente Características de AMD
Arquitectura del sistema más eficiente y características del núcleo que ofrecen un mejor apoyo a aplicaciones de múltiples subprocesos
Valor en los negocios
Dual Dynamic Power Management™
Coadyuva a mejorar el rendimiento de la memoria y permite reducir el consumo de energía y su facturación.
Tecnología AMD Memory Optimizer
Ancho de banda perfeccionado a la memoria, diseñado para la operación de núcleos cuádruples, mejora el rendimiento de entornos de software de múltiples subprocesos. Capacidades duplicadas de punto flotante que mejoran enormemente el rendimiento en HPC y procesos científicos, que reduce los tiempos de cálculo.
AMD Wide Floating-Point Accelerator
Las actualizaciones integrales en el rendimiento dan por resultado un procesador que ofrece un significativamente mejor rendimiento por vatio, con lo que se mejora el grado de reacción en la TI al tiempo de mantener bajos los costos
Beneficio arquitectónico de AMD Comparación multicore
AMD Core
Core 1
Core 2
Core 3
Cache L2
Core 4
Cache L2
1
Cache L2
Core
2
Cache L2
Core
3
Cache L2
Core
4
Cache L2
Cache L3 CROSSBAR
Hyper Transport Interface
Chipset
Memory Controller
HyperTransport
Chipset
PCI / PCI-e
PCI / PCI-e
FSB
Memory Controller
Quad-Core Xeon MP “Tigerton” MCP
MCP
MCP
MCP SRQ
SRQ
Crossbar
Crossbar
Mem.Ctrlr HT
Mem.Ctrlr HT
8 GB/S
USB I/O Hub Hub I/O PCI
Memory Controller Hub
PCIe™ Bridge PCI-E Bridge
SRQ
SRQ
Crossbar
Crossbar
Mem.Ctrlr HT
Mem.Ctrlr HT
8 GB/S
8 GB/S
PCIe Bridge
PCIe Bridge
8 GB/S
USB I/O Hub PCI
Legacy x86 Architecture • • • •
20-year old front-side bus architecture CPUs, Memory, I/O all share a bus 4-cores Per Bus, Just like Potomac Can be a bottleneck to performance
9
November
AMD64 Technology with Direct Connect Architecture • Industry-standard AMD64 technology • AMD‟s revolutionary Direct Connect Architecture reduces bottlenecks inherent in traditional FSB architectures • HyperTransport™ technology interconnect for high bandwidth and low latency
Dual Dynamic Power Management™ – Planos de energía separados para los núcleos y la memoria, de modo que se obtiene: Consumo óptimo de energía – Permite que los núcleos operen con menor consumo de energía, mientras que la comunicación con la memoria se realiza a toda velocidad Mayor rendimiento – El controlador de memoria puede operar a mayor frecuencia para tener un mayor ancho de banda y rendimiento Placa con un plano de energía único
Acometida única de energía
10
Núcleos Controlador de memoria
Con Dual Dynamic Power Management
Energía de la CPU Energía de la memoria
Núcleos Controlador de memoria
Mejoras al manejo de energía with Enhanced AMD PowerNow!™ Dual-core
75%
Multi-chip Module
Native Quad-core
75%
35%
CORE 0
CORE 0
CORE 1 10% CORE 2
Los hercios y el voltaje se encadenan al pState del núcleo más utilizado.
Los hercios se establecen en el p-state del núcleo más utilizado de cada dado dual core. El voltaje se encadena al núcleo más utilizado en el paquete.
35% CORE 1
1% CORE 3
Los hercios se ajustan independientemente por cada núcleo. El voltaje se establece al p-state del núcleo más utilizado.
La tecnología de núcleo cuádruple nativo permite una mejor administración de energía en los núcleos 11
Noviembre,
Barcelona Pre-Launch Training Overview
Tecnología AMD Memory Optimizer Actualizaciones integrales a nuestro controlador de memoria
12
“Barcelona” ~150%1
~140%
• 2x "bancos" disponibles de memoria = mayor ancho de banda
Búferes de memoria más grandes (~2-4x Más)1 • Perfeccionado para las tasas de datos de DDR2
Explosión de escritura
• Transición reducida de lectura/escritura = Mayor ancho de banda
100% Dual-Core AMD Opteron™ Processor with DDR2
Mejoras al ancho de banda de la memoria
Canales independientes de memoria (2x Más)1
Paginación perfeccionada de DRAM
• Un algoritmo más inteligente que coadyuva a mejorar el ancho de banda
Precargador de DRAM
• Predice y recopila inteligentemente los datos necesarios de la memoria principal; no corrompe la jerarquía de la cache
Precargadores del núcleo
• Datos recopilados directamente a la caché L1; ~5ns de menor latencia1 y economiza el ancho de banda L2
Mayor ancho de banda para una escalabilidad en QuadCore
1. Comparado con procesadores AMD Opteron de segunda generación y con la misma frecuencia de reloj.
Mejoras a la potencia de la plataforma Tecnología de procesamiento avanzado Silicio Sobre Aislante (SOI) Rápidas transiciones con bajas pérdidas de energía Tecnología de virtualización Diseñada para reducir la sobrecarga de la CPU en entornos virtualizados
Controlador de memoria integrado Controlador de memoria incluido en el cálculo de energía Se apoya de la memoria RDDR2 de bajo consumo 13
Tecnología Enhanced AMD PowerNow!™ con Independent Dynamic Core Technology Puede reducir dinámicamente el consumo de energía hasta un 75%
Diseño nativo QuadCore Para mejorar el rendimiento por vatio sin aumentar el consumo de energía máximo Tecnología CoolCore™ Reduce la energía al apagar secciones sin usar de la CPU Vínculos de tecnología HyperTransportTM Ofrece transferencias de datos en el sistema, con uso eficiente de la energía •Procesador a procesador •Procesador a la memoria •Procesador a la E/S Administración de energía dinámica dual Coadyuva a mejorar el rendimiento y reducir el consumo de energía de la plataforma
Beneficio del núcleo cuádruple nativo: Mejor intercambio de datos Situación: El núcleo 1 necesita datos de la caché del núcleo 3, ¿cómo los obtiene?
Tecnología Dado Cuádruple
Tecnología QuadCore Nativa
Núcleo 1 Núcleo 2
L3 Núcleo 1
Núcleo 2
Núcleo 3
100011
Núcleo 4
100011
L2
L2
L2
Núcleo 3 Núcleo 4
L2
L2
L2
Bus frontal
Bus frontal
System Request Queue Crossbar Hyper Transport™
Controlador de memoria
Controlador de memoria
Northbridge
1.
El Núcleo 1 verifica la caché del Núcleo 3, y copia los datos directamente de él cache
Sucede a la frecuencia del procesador
Resultado: Puede mejorar el rendimiento multinúcleo 14
Noviembre, 2007
1. 2.
El Núcleo 1 envía una petición al controlador de memoria, que verifica la caché del Núcleo 3 El Núcleo 3 envía los datos al controlador de memoria, y éste al Núcleo 1
Sucede a la frecuencia del bus frontal
Resultado: Puede reducir el rendimiento multinúcleo
Caché inteligente balanceado de AMD Balanced AMD Balanced Smart Cache Mejor soporte a entornos multitarea Core 1 L1 L2
Core 2
Core 3
Core 4
L1
L1
L1
L2
L2
L2
Core 1 L1
Core 2
x
Core 3 L1
L1
Core 4
x
L1
L2
L2
L3 Bus frontal Controlador de memoria integrado
• El núcleo 1 ejecuta una gran carga de trabajo (>4MB), de modo que necesita toda la caché L3 y acceder a la memoria principal • Los núcleos 2, 3 y 4 también podrán ejecutar cargas menores 15
Noviembre, 2007
Controlador de memoria externo
• El núcleo 1 ejecuta una gran carga de trabajo (>4MB), de modo que necesita de toda la cache L2 y acceder a la memoria principal • El núcleo 2 no puede hacer nada (a esto se le llama “thrashing”) • Lo mismo puede suceder entre los núcleos 3 y 4 (más trashing
Barcelona Pre-Launch Training Overview
Medidas reales de consumo de energía en la memoria Fuertes penalizaciones de energía y calor en capacidades de memoria con el uso de FBDIMM DDR2 vs. FBDIMM Average Power Consumption for 8x DIMMs (1GB DDR2 vs. 1GB FBDIMM)
Con 8 DIMMs; FBDIMM consume ~83 vatios en modo INACTIVO Sólo ~14 vatios se consumen en DDR2
120w 100w 80w 60w 40w
8x FBDIMMs consumen más de 100w en carga total vs. sólo ~37w en DDR2
20w 0w
8x DDR2 (AMD) 8x FBDIMM (Intel)
IDLE Power
SPECjbb2005
14.32 83.34
33.68 95.49
1GB DDR2-667 DIMM: Brand: Micron Model: MT18HTF12872Y-667D6
16
SPECcpu2000 SPECcpu2000 INT FP 29.24 90.21
36.94 101.2
1GB 667 FB-DIMM: Brand: ATP Model: AP28K72S8BHE6S
Comparación de energía en plataforma QuadCore Consumo proyectado de energía en una plataforma (8xDIMMs)
8xDIMMs 4xDIMMs 83.2W
17.6W
68W
15W 32.4W 12.4W
68W 50W
4xDIMMs 17.6W
50W
Quad-Core Intel Xeon Serie 5300 • 100w por los procesadores (50w TDP) • 44w del chipset $por/año (un servidor)
$320
$por/año (500 servs.)
$159,782
228W 778 BTU/Hr
23% Más
Procesador AMD Opteron™ “Barcelona” QuadCore • 136w en los procesadores (68w POTENCIA MAX) • 15w del chipset $por/año (un servidor)
$261
$por/año (500 servs.)
$130,489
186W 635 BTU/Hr
$29,293 DE AHORRO
Los estimados de energía incluyen la alimentación de energía y el enfriamiento a un 60%, Costo de la energía: $0.10/KW-hr, basado en las actuales especificaciones disponibles públicamente de procesador y chipset y estimados de AMD. Este ejemplo se presenta sólo con propósitos informativos, los resultados reales pueden variar. Hay otros factores que afectan el consumo y costo reales. 17
Impacto proyectado de infraestructura del Quad Core A escala de estante (Rack) 7Kw Power Budget
Energía determinada de 7Kw • Los procesadores AMD Opteron de segunda generación tienen una ruta planeada de actualización a cuádruple núcleo con el mismo consumo de energía. Clovertown eleva los requerimientos térmicos y de energía en cada banda de energía. Fácil transición a Quad Core
• Los consumidores de Intel podrían ser forzados a elegir entre mayor costo de energía y enfriamiento o desperdiciar espacio del estante Banda ener.
Dual-core 20 servs. 2U 80 núcleos en total
Quad-core 20 servs. 2U 160 núcleos en total
TDP Intel
14% desper.
Difícil transición a Quad Core
TDP AMD
Dual
%+
Quad
Dual
%+
Quad
High
80W
50%
120W
120W
0%
120W
Std.
65W
23%
80W
95W
0%
95W
Low
40W
25%
50W
68W
0%
68W
Procesadores AMD Opteron™ Diseñado para aprovechar al máximo la densidad de servidores y minimizar las los problemas en las transiciones
10% desper.
Dual-core 19 servs. 2U 76 núcleos en total
Quad-core 18 servs. 2U 144 núcleos en total
Intel Xeon Puede desperdiciar espacio en el centro de datos, y aumentar los problemas en las transiciones
Wattage based on 2P systems, 8 DIMMs, TDP wattage for „Dempsey‟, „Woodcrest‟ & „Clovertown‟ is estimated based on current publicly available processor and chipset values, AMD estimates, and an incremental 100watts for fans, storage, and power supply. (see, eg: http://techreport.com/etc/2006q2/woodcrest/index.x?pg=2 and is subject to change. The examples contained herein are intended for informational purposes only. Other factors will affect real-world power consumption.
18
Impacto de infraestructura de Quad Core Escala de Centro de datos Presupuesto de energía del centro de datos 7 Megavatios
Fácil transición a
Dual Core 100 Racks 8000 núcleos
Quad Core 100 Racks 16,000 núcleos
Dual-core 90 Racks 6840 núcleos
Mayor calor y
consumo de Procesadores energía que puede AMD Opteron™ obligar a costosas de segunda 10% 14% de actualizaciones de generación espaciocon las instalaciones: una actualización desperdiciado planeada a quad $ Ampliación a las con Xeon Dual con Xeon coreinstalaciones en el mismo $plano Costo de electricidad Core Quad Core y térmico $ Distribución de de consumo de energía energía $ Equipamiento HVAC
Poder limitado
Difícil transición a Quad-core
Quad-core 85 Racks 12,240 núcleos
PODER LIMITADO
Wattage based on 2P systems, 8 DIMMs, TDP wattage for „Dempsey‟, „Woodcrest‟ & „Clovertown‟ is estimated based on current publicly available processor and chipset values, AMD estimates, and an incremental 100watts for fans, storage, and power supply. (see, eg: http://techreport.com/etc/2006q2/woodcrest/index.x?pg=2 and is subject to change. The examples contained herein are intended for informational purposes only. Other factors will affect real-world power consumption.
19
Liderazgo de AMD Virtualization™ Alto rendimiento
La arquitectura Direct Connect Rapid Virtualization Indexing Tagged TLB
¡Albergue más máquinas virtuales por cada sistema!
Muy seguro
DEV (Device Exclusion Vector)
Soportado en software
AMD-V™ Extended Migration Soporte a SOs sin modificación Robusto ecosistema de Software
2121
Noviembre, 2007
Barcelona Pre-Launch Training Overview
Métodos de administración de la memoria Traducción de la memoria virtual a la física Sin Virtualización
Con Virtualization VM1 Memoria virtual 1
VM2 Memoria virtual 2
Memoria virtual
Memoria física
Memoria física
Tablas de páginas Sombra La traducción se hace en La traducción se almacena en
Paginación Anidada
(Índice rápido de virtualización)
Hardware (la propia CPU)
Software (en Hypervisor)
Hardware (la propia CPU)
Hardware (en TLB)
Memoria virtual (DRAM o disco)
Hardware (en TLB huésped)
La Paginación Anidada traduce la memoria en hardware, como si no estuviera virtualizada. Coadyuva a mejorar el rendimiento. 22
Índice rápido de virtualización
Mejor rendimiento para aplicaciones virtualizadas Rapid Virtualization Indexing (Nested Paging) Las búsquedas de la memoria se realizan en el hardware, lo que es más ágil que mediante el software Requiere menor intervención del hypervisor Elimina los ciclos del hypervisor ocupados en administrar páginas sombra – Hasta 75% del tiempo del hypervisor
Application
Application
Guest OS
Guest OS
Virtual Machine
Virtual Machine
Hypervisor Host OS AMD-V
VM1 Process 1
VM2 Process 2
Reduce el tiempo de intercambio en 25% – Tiempo de intercambio: el viaje al hypervisor y su regreso
Machine Memory
¡Puede mejorar significativamente el rendimiento en muchas cargas virtualizadas! 23
Beneficios de AMD Virtualization
Soporte a Live Migration
Arquitectura Direct Connect
VT
Tagged TLB
Soporte a Live Migration
DEV
AMD-V™
Bueno
Mejor
Lo mejor Best
Rapid Virtualization Indexing
Rendimiento
Seguridad
Intel
Soporte a software
Rendimiento
Seguridad
Soporte a software
AMD
AMD lleva la delantera en todos los aspectos relevantes de la virtualización 24
El Quad Core en funcionamiento Consideraciones del software de múltiples subprocesos Mejoras en rendimiento por hardware
Se requiere que el software sea codificado adecuadamente para aprovechar los múltiples núcleos
− − − − 25
Compiladores Java MSFT .NET Framework Bibliotecas
Software optimado
Performance
Las herramientas de desarrollo pueden ayudar a generar aplicaciones de múltiples subprocesos
Mejoras en rendimiento por software
Software sin optimar
1 Núcleo
2 Núcleos
4 Núcleos Multinúcleos
Cantidad de núcleos
El Quad Core en funcionamiento Transición lenta
Transición hasta nuevos desarrollos Transición rápida
Archivo/ Impresión Proxy/Cache
Correo / Mensajería Servidores SMB
Servicios Web
Servidor de aplicaciones
OLTP
ERP
Interfaz Clúster de HPC Interfaz de base de datos
Consolidación
Virtualización Soporte de decisiones Servidores departamentales
SMP HPC
Análisis de negocios/ Inteligencia
Requerimientos de rendimiento 26
CRM
El Quad Core en funcionamiento 1 Procesador
2 Procesadores
Archivo/Impresión Servidores SMB
Correo / Mensajería
Proxy/Caché Servidores departamentales
Servidor de aplicaciones
Interfaz de base de datos
4 Clúster de HPCProcesadores Soporte a Virtualización decisiones
Análisis de negocios / Inteligencia
Servicios Web OLTP
8 CRM Procesadores
SMP HPC ERP Consolidación Infraestructura de grid Base de datos muy grande
Requerimientos de E/S y memoria 27
El Quad Core en funcionamiento Entornos de múltiples subprocesos Aplicaciones concurrentes • Varios Sos y aplicaciones en ejecución en hardware virtualizado • Varios programas en ejecución como una solución integrada
Entornos transaccionales • Albergar sesiones de usuarios remotos • Servidores Web y, en su caso, de aplicaciones que procesen varias transacciones
28
Creación de software de múltiples subprocesos GNU
Software
AMD está trabajando con los líderes de la industria para desarrollar compiladores y herramientas que generan código óptimo para los procesadores AMD64, incluso el núcleo cuádruple 29
Gracias