AMD เปิดตัวกราฟิกการ์ดใหม่ AMD Instinct MI200 นำเสนอประสิทธิภาพระดับผู้นำสำหรับ HPC และ AI บนระบบ Exascale และอื่นๆ

ด้วยสถาปัตยกรรมใหม่ AMD CDNA^TM 2 ทำให้กราฟิกการ์ด AMD Instinct MI200 มาพร้อมข้อได้เปรียบด้านประสิทธิภาพของการทำงานด้าน HPC ที่เหนือชั้นกว่า 4.9 เท่า กับงานด้านวิทยาศาสตร์และการค้นคว้า เมื่อเปรียบเทียบกับกราฟิกการ์ดกลุ่มดาต้าเซ็นเตอร์ของคู่แข่ง —
กราฟิการ์ดซีรีย์ MI200 เป็นกราฟิกการ์ดแบบ multi-die ตัวแรกที่รองรับหน่วยความจำ HBM2e ขนาด 128GB และเพิ่มประสิทธิภาพการทำงานบนแอปพลิเคชั่นสำคัญๆ ที่ใช้เป็นพื้นฐานการทำงานด้านวิทยาศาสตร์ —

AMD (NASDAQ: AMD) ประกาศเปิดตัวผลิตภัณฑ์กราฟิกการ์ดซีรีย์ใหม่ AMD Instinct MI200 ซึ่งเป็นกราฟิกการ์ดในระดับ Exascale ตัวแรก โดยกราฟิกการ์ดซีรีย์ MI200 ประกอบด้วยรุ่น AMD Instinct MI250X มีหน่วยประมวลผลประสิทธิภาพสูง (HPC) และหน่วยประมวลผลด้าน AI ที่เร็วที่สุดในโลก¹
กราฟิกการ์ดซีรีย์ AMD Instinct MI200 สร้างขึ้นบนสถาปัตยกรรม AMD CDNA 2 มอบประสิทธิภาพการทำงานบนแอปพลิเคชั่นระดับชั้นนำในเวิร์คโหลดงานด้าน HPC ที่มีความหลากหลาย² กราฟิกการ์ด AMD Instinct MI250X ให้ประสิทธิภาพด้านการประมวลผลที่ดีขึ้นถึง 4.9 เท่า เมื่อนำไปเปรียบเทียบกับกราฟิกการ์ดคู่แข่งในการทำงานบนแอปพลิเคชั่นกลุ่ม HPC รูปแบบ double precision (FP64) และมีประสิทธิภาพสูงสุดในทางทฤษฎีมากกว่า 380 teraflops ในรูปแบบ half precision (FP16) สำหรับงานด้าน AI เพื่อให้สามาถเข้าถึงการค้นคว้าที่ใช้ข้อมูลจำนวนมาก¹
ฟอร์เรสต์ นอร์รอด รองประธานอาวุโสและผู้จัดการทั่วไปฝ่าย Data Centre และ Embedded Solution Business Group บริษัท AMD กล่าวว่า “กราฟิกการ์ด AMD Instinct MI200 มอบประสิทธิภาพการประมวลผล HPC และ AI ในระดับผู้นำ ช่วยให้นักวิทยาศาสตร์ได้ผลลัพธ์ด้านการวิจัยที่ก้าวกระโดด ลดระยะเวลาในการตั้งสมมติฐานเบื้องต้นในระหว่างการค้นพบได้อย่างมาก ด้วยนวัตกรรมที่สำคัญในด้านสถาปัตยกรรม ด้านบรรจุภัณฑ์ และการออกแบบระบบ กราฟิกการ์ด AMD Instinct MI200 เป็นกราฟิกการ์ดสำหรับกลุ่มงานด้านดาต้าเซ็นเตอร์ที่ทันสมัยที่สุดเท่าที่เคยมีมา มอบประสิทธิภาพที่ยอดเยี่ยมให้กับซูเปอร์คอมพิวเตอร์และดาต้าเซ็นเตอร์ในการแก้ไขปัญหาที่ซับซ้อนที่สุดในโลก”

Exascale With AMD

AMD ทำงานร่วมกับกระทรวงพลังงานประเทศสหรัฐอเมริกา, ศูนย์ปฎิบัติการแห่งชาติ Oak Ridge และ HPE เพื่อออกแบบซูเปอร์คอมพิวเตอร์ Frontier ที่คาดการณ์ว่าจะให้ขุมพลังการประมวลผลสูงสุดมากกว่า 1.5 exaflops ขับเคลื่อนประสิทธิภาพโดยโปรเซสเซอร์ 3^rd Gen AMD EPYC™ และกราฟิกการ์ด AMD Instinct MI250X ซูเปอร์คอมพิวเตอร์ Frontier จะช่วยขยายขอบเขตในการค้นคว้าทางวิทยาศาสตร์ด้วยการเพิ่มประสิทธิภาพในด้าน AI การวิเคราะห์และการจำลองอย่างมาก ช่วยให้นักวิทยาศาสตร์สามารถรวบรวมข้อมูลด้านการคำนวณ การระบุข้อมูลในรูปแบบใหม่ ๆ และการพัฒนานวัตกรรมการวิเคราะห์ข้อมูลเพื่อเพิ่มประสิทธิภาพในการค้นคว้าทางวิทยาศาสตร์
โทมัส ซาชาเรีย ผู้อำนวยการศูนย์ปฎิบัติการแห่งชาติ Oak Ridge กล่าวว่า “ซูเปอร์คอมพิวเตอร์ Frontier เป็นสุดยอดความร่วมมือที่ยอดเยี่ยมระหว่าง AMD, HPE และกระทรวงพลังงานประเทศสหรัฐอเมริกา ในการจัดหาระบบที่มีประสิทธิภาพในระดับ Exascale เพื่อขยายขอบเขตการค้นคว้าทางวิทยาศาสตร์ โดยเพิ่มประสิทธิภาพในด้าน AI การวิเคราะห์และการจำลองที่มีความยืดหยุ่นในการปรับขยาย (simulation at scale) อย่างมาก”

การขับเคลื่อนอนาคตของ HPC

กราฟิกการ์ดซีรีย์ AMD Instinct MI200 ผสมผสานการทำงานร่วมกับโปรเซสเซอร์ 3^rd Gen AMD EPYC และแพลตฟอร์มซอฟต์แวร์แบบเปิด ROCm 5.0 ได้รับการออกแบบมาเพื่อขับเคลื่อนการค้นคว้าใหม่ ๆ ในยุคการประมวลผลระดับ exascale และรับมือกับความท้าทายที่มีความกดดันสูงสุด ตั้งแต่การเปลี่ยนแปลงของสภาพภูมิอากาศ ไปจนถึงด้านการวิจัยวัคซีน

คุณสมบัติและฟีเจอร์หลักของกราฟิกการ์ด AMD Instinct MI200 ประกอบด้วย:

สถาปัตยกรรม AMD CDNA 2: ด้วยคอร์ประมวลผล 2^nd Gen Matrix Cores ที่ช่วยเร่งความเร็วในการประมวลผลแบบ FP64 และ FP32 ทำให้ได้ประสิทธิภาพสูงสุดในทางทฤษฎีแบบ FP64 เพิ่มขึ้นถึง 4 เท่า เมื่อนำไปเปรียบเทียบกับกราฟิกการ์ดรุ่นก่อนหน้าของ AMD ⁱ^,3,4
เทคโนโลยีด้านบรรจุภัณฑ์ในระดับผู้นำ - การออกแบบกราฟิกการ์ดแบบ multi-die ตัวแรกของอุตสาหกรรมด้วยเทคโนโลยี 2.5D Eleveated Fanout Bridge (EFB) ที่เพิ่มแกนคอร์ประมวลผลขึ้น 1.8 เท่า และแบนด์วิดท์หน่วยความจำเพิ่มขึ้น 2.7 เท่า เมื่อนำไปเปรียบเทียบกับกราฟิกการ์ดรุ่นก่อนหน้าของ AMD ซึ่งให้ภาพรวมในด้านประสิทธิภาพด้านหน่วยความจำดีที่สุดในอุตสาหกรรที่ 3.2 เทราไบต์ต่อวินาที 4^,5,6
เทคโนโลยี 3rd Gen AMD Infinity Fabric - มีลิงค์เชื่อมต่อ Infinity Fabric เพิ่มขึ้นสูงสุด 8 ลิงค์ที่เชื่อมต่อกราฟิกการ์ด AMD Instinct MI200 เข้ากับโปรเซสเซอร์ 3rd Gen EPYC และกราฟิกการ์ดอื่น ๆ ในโหนด เพื่อให้หน่วยความจำของโปรเซสเซอร์และกราฟิกการ์ดมีความสอดคล้องกันในการทำงาน และเพิ่มเวิร์คโหลดการทำงานในระบบ ช่วยให้โค้ดโปรเซสเซอร์ทำงานง่ายขึ้นผ่านประสิทธิภาพของกราฟิกการ์ด

ซอฟต์แวร์สำหรับการค้นคว้าทางวิทยาศาสตร์ในระดับ Exascale

AMD ROCm เป็นแพลตฟอร์มซอฟต์แวร์แบบเปิดที่ช่วยให้นักวิจัยใช้ประโยชน์จากกราฟิกการ์ด AMD Instinct เพื่อขับเคลื่อนการค้นคว้าทางวิทยาศาสตร์ แพลตฟอร์ม ROCm สร้างขึ้นบนพื้นฐานการใช้งานที่มีความสะดวกในการพกพา รองรับสภาพแวดล้อมการทำงานบนกราฟิกการ์ดแบบมัลติและสถาปัตยกรรมต่างๆ ในซอฟต์แวร์ ROCm 5.0 AMD ได้ขยายแพลตฟอร์มในรูปแบบเปิดที่ขับเคลื่อนแอปพลิเคชั่น HPC และ AI ด้วยกราฟิกการ์ดซีรีย์ AMD Instinct MI200 เพิ่มประสิทธิภาพในการเข้าถึงซอฟต์แวร์ ROCm ให้กับนักพัฒนา และมอบประสิทธิภาพในระดับผู้นำบนเวิร์คโหลดการทำงานที่สำคัญ
นักวิจัย นักวิทยาศาสตร์ข้อมูล และผู้ใช้ทั่วไปสามารถค้นหา ดาวน์โหลดและติดตั้งแอพคอนเทนเนอร์ HPC และเฟรมเวิร์ค ML ที่ได้รับการพัฒนาและรองรับบนกราฟิกการ์ด AMD Instinct และซอฟต์แวร์ ROCm ผ่านทาง AMD Infinity Hub โดยฮับในปัจจุบันมีคอนเทนเนอร์มากมายที่รองรับกราฟิกการ์ดรุ่นต่าง ๆ ประกอบด้วย Radeon Instinct™ MI50, AMD Instinct™ MI100 หรือ AMD Instinct MI200 รวมไปถึงแอปพลิเคชั่นต่าง ๆ เช่น Chroma, CP2k, LAMMPS, NAMD, OpenMM และอื่นๆ พร้อมด้วยเฟรมเวิร์ค ML ที่ได้รับความนิยมอย่าง TensorFlow และ PyTorch และยังมีการเพิ่มคอนเทนเนอร์ใหม่ ๆ อย่างต่อเนื่อง

ความพร้อมในการใช้งานโซลูชั่นเซิร์ฟเวอร์

กราฟิกการ์ด AMD Instinct MI250X และ AMD Instinct MI250 พร้อมวางจำหน่ายแล้วในรูปแบบโมดูลฮาร์ดแวร์การประมวลผลแบบเปิดหรืออีกชื่อคือฟอร์มแฟคเตอร์ OCP Accelerator Module (OAM) กราฟิกการ์ด AMD Instinct MI210 จะวางจำหน่ายในรูปแบบฟอร์มแฟคเตอร์การ์ด PCIe® ในเซิร์ฟเวอร์ของ OEM
ในปัจจุบัน กราฟิกการ์ด AMD MI250X พร้อมให้ใช้งานแล้วบนซูเปอร์คอมพิวเตอร์ HPE Cray EX ของ HPE และคาดว่าจะเพิ่มกราฟิกการ์ด AMD Instinct MI200 ลงในระบบให้กับพันธมิตร OEM และ ODM รายใหญ่ในตลาดองค์กรช่วงไตรมาสที่ 1 ของปี 2565 ประกอบด้วย ASUS, ATOS, Dell Technologies, Gigabyte, Hewlett Packard Enterprise (HPE), Lenovo, Penguin Computing และ Supermicro

MI200 Series Specifications

Models

Compute Units

Stream Processors

FP64 | FP32 Vector (Peak)

FP64 | FP32 Matrix (Peak)

FP16 | bf16

(Peak)

INT4 | INT8

(Peak)

HBM2e
ECC
Memory

Memory Bandwidth

Form Factor

AMD Instinct MI250x

220

14,080

Up to 47.9 TF

Up to 95.7 TF

Up to 383.0 TF

Up to 383.0 TOPS

128GB

3.2 TB/sec

OCP Accelerator Module

AMD Instinct MI250

208

13,312

Up to 45.3 TF

Up to 90.5 TF

Up to 362.1 TF

Up to 362.1 TOPS

128GB

3.2 TB/sec

OCP Accelerator Module

Supporting Resources

Learn more about AMD Instinct™ Accelerators
Learn more about AMD HPC Solutions
Learn more about AMD CDNA™ 2 architecture
Learn more about the AMD EPYC™ processors
Become a fan of AMD on Facebook
Follow AMD on Twitter
Connect with AMD On LinkedIn

World’s fastest data center GPU is the AMD Instinct™ MI250X. Calculations conducted by AMD Performance Labs as of Sep 15, 2021, for the AMD Instinct™ MI250X (128GB HBM2e OAM module) accelerator at 1,700 MHz peak boost engine clock resulted in 95.7 TFLOPS peak theoretical double precision (FP64 Matrix), 47.9 TFLOPS peak theoretical double precision (FP64), 95.7 TFLOPS peak theoretical single precision matrix (FP32 Matrix), 47.9 TFLOPS peak theoretical single precision (FP32), 383.0 TFLOPS peak theoretical half precision (FP16), and 383.0 TFLOPS peak theoretical Bfloat16 format precision (BF16) floating-point performance. Calculations conducted by AMD Performance Labs as of Sep 18, 2020 for the AMD Instinct™ MI100 (32GB HBM2 PCIe® card) accelerator at 1,502 MHz peak boost engine clock resulted in 11.54 TFLOPS peak theoretical double precision (FP64), 46.1 TFLOPS peak theoretical single precision matrix (FP32), 23.1 TFLOPS peak theoretical single precision (FP32), 184.6 TFLOPS peak theoretical half precision (FP16) floating-point performance. Published results on the NVidia Ampere A100 (80GB) GPU accelerator, boost engine clock of 1410 MHz, resulted in 19.5 TFLOPS peak double precision tensor cores (FP64 Tensor Core), 9.7 TFLOPS peak double precision (FP64). 19.5 TFLOPS peak single precision (FP32), 78 TFLOPS peak half precision (FP16), 312 TFLOPS peak half precision (FP16 Tensor Flow), 39 TFLOPS peak Bfloat 16 (BF16), 312 TFLOPS peak Bfloat16 format precision (BF16 Tensor Flow), theoretical floating-point performance. The TF32 data format is not IEEE compliant and not included in this comparison. https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf, page 15, Table 1. MI200-01
AMD Instinct MI250X accelerator application and benchmark performance can be found at https://www.amd.com/en/graphics/server-accelerators-benchmarks.
Calculations conducted by AMD Performance Labs as of Sep 15, 2021, for the AMD Instinct™ MI250X accelerator (128GB HBM2e OAM module) at 1,700 MHz peak boost engine clock resulted in 95.7 TFLOPS peak double precision matrix (FP64 Matrix) theoretical, floating-point performance. Published results on the NVidia Ampere A100 (80GB) GPU accelerator resulted in 19.5 TFLOPS peak double precision (FP64 Tensor Core) theoretical, floating-point performance. Results found at:https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf, page 15, Table 1.MI200-02
Calculations conducted by AMD Performance Labs as of Sep 21, 2021, for the AMD Instinct™ MI250X and MI250 (128GB HBM2e) OAM accelerators designed with AMD CDNA™ 2 6nm FinFet process technology at 1,600 MHz peak memory clock resulted in 128GB HBM2e memory capacity and 3.2768 TFLOPS peak theoretical memory bandwidth performance. MI250/MI250X memory bus interface is 4,096 bits times 2 die and memory data rate is 3.20 Gbps for total memory bandwidth of 3.2768 TB/s ((3.20 Gbps*(4,096 bits*2))/8).The highest published results on the NVidia Ampere A100 (80GB) SXM GPU accelerator resulted in 80GB HBM2e memory capaicity and 2.039 TB/s GPU memory bandwidth performance.https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf MI200-07
The AMD Instinct™ MI250X accelerator has 220 compute units (CUs) and 14,080 stream cores. The AMD Instinct™ MI100 accelerator has 120 compute units (CUs) and 7,680 stream cores. MI200-027
Calculations conducted by AMD Performance Labs as of Sep 21, 2021, for the AMD Instinct™ MI250X and MI250 (128GB HBM2e) OAM accelerators designed with AMD CDNA™ 2 6nm FinFet process technology at 1,600 MHz peak memory clock resulted in 3.2768 TFLOPS peak theoretical memory bandwidth performance. MI250/MI250X memory bus interface is 4,096 bits times 2 die and memory data rate is 3.20 Gbps for total memory bandwidth of 3.2768 TB/s ((3.20 Gbps*(4,096 bits*2))/8). Calculations by AMD Performance Labs as of OCT 5th, 2020 for the AMD Instinct™ MI100 accelerator designed with AMD CDNA 7nm FinFET process technology at 1,200 MHz peak memory clock resulted in 1.2288 TFLOPS peak theoretical memory bandwidth performance. MI100 memory bus interface is 4,096 bits and memory data rate is 2.40 Gbps for total memory bandwidth of 1.2288 TB/s ((2.40 Gbps*4,096 bits)/8) MI200-33