HPE Blog, Hungary
1825729 Tagok
2640 Online
109687 Megoldások
Új cikk
BloggerHPEHU

LUMI: páneurópai innovációs és K+F projektek felgyorsítása a HPE Cray architektúrával

LUMI supercomputerLUMI supercomputer

Az mesterséges intelligencia korszaka beköszöntött. A Frontier, az Egyesült Államokbeli Oak Ridge Nemzeti Laboratóriumban található szuperszámítógép, amely a legújabb HPE Cray Supercomputing EX235a gyorsítókon és AMD EPYC 64C 2 GHz-es processzorokon alapul, a világ első exaszintű rendszere. Egy év elteltével a High-Performance Linpack (vagy HPL) 1194 EFlop/s eredményével továbbra is az élen áll a 2023 novemberében közzétett Top500-as listán. A tudományt és az üzleti életet új, korábban elérhetetlen sebességre gyorsítja fel számos exaszintű előtti szuperszámítógép is.

Blogunk HPC Cray szuperszámítógépes megoldásoknak szentelt cikksorozatának első részében a LUMI-ról lesz szó, amelyet komplex tudományos szimulációkhoz, MI- és LLM-fejlesztéshez, valamint nagy adathalmazok elemzéséhez használnak. A cikk végén rövid kitérőt teszünk a hazai szuperszámítógép, a Komondor bemutatására is. A sorozat második részében az exaszintű HPC-t mutatjuk be az egyetemi és tudományos kutatások világában, a cikket ide kattintva olvashatja el.

A LUMI (Large Unified Modern Infrastructure) egy páneurópai kezdeményezés, amelynek keretében tíz ország és az EuroHPC Közös Vállalkozás (EuroHPC JU) mintegy 200 millió eurót fektet be egy rendszerbe. A finanszírozás fele az Európai Uniótól, a másik fele pedig a részt vevő országoktól származik. A LUMI-konzorcium országai: Belgium, Cseh Köztársaság, Dánia, Észtország, Izland, Norvégia, Lengyelország, Svédország, Svájc és természetesen Finnország. A rendszer egy csúcstechnológiájú adatközpontban található a finnországi Kajaaniban.

Habár a LUMI technikailag egy exaszint előtti rendszer, mégis fellendíti a kutatást, a foglalkoztatást, a versenyképességet és az innovációt egész Európában. Egyben ez a világ egyik legfejlettebb AI platformja. A LUMI a legutóbbi Top500-as lista szerint világszinten az ötödik leggyorsabb. Fenntartott számítási teljesítménye 380 petaflop (HPL, High-Performance Linpack), ami 1,5 millió legújabb laptopszámítógép együttes teljesítményének felel meg.

A LUMI azért jött létre, hogy segítsen az európaiaknak jobban kezelni az emberiség legkeményebb kihívásait. Számítási teljesítményét élvonalbeli kutatások végzésére használják, különböző adat- és számításigényes tudományágakban, az éghajlattudománytól és a szubatomi struktúráktól kezdve a genomikáig és a kvantumfizikáig. Kutatók, magán- és állami szervezetek, valamint kifejezetten a start-up ökoszisztéma szereplői számára áll rendelkezésre.

A LUMI AI-képességei lehetővé teszik például egy neurális hálózati program számára a rák korai felismerését és a gyógyszerek hatékonyságának gyors szimulálását. Egy ilyen eszközzel a patológus gyorsan és pontosan diagnosztizálhatja a rák növekedését, és szimulálhatja a beteg különböző kezelésekre adott reakcióit. Így a betegek a lehető leggyorsabban kaphatják meg a számukra legjobb, személyre szabott ellátást.

AdobeStock_story_336_1600_0_72_RGB.jpg

A LUMI támogatja a Destination Earth kezdeményezést is, amelynek célja éghajlatváltozáshoz való alkalmazkodás és annak esetleges megváltoztatásához szükséges ismeretek megszerzése. A pusztító hatások enyhítésén dolgozó kutatók most képesek a Föld ökoszisztémáját négyzetkilométeres pontossággal reprodukálni, ami korábban lehetetlen volt.

Gettylmages_story_359_1600_0_72_RGB.jpg

A LUMI segítségével létrehozott nagy számítógépes modellegyütteseket az antarktiszi jégáramlások szimulálására is használják. Segít megválaszolni azt a kérdést, hogy az antarktiszi jégtakaró mennyire fog hozzájárulni a globális tengerszint emelkedéséhez az elkövetkező évszázadokban. Például meg lehet majd mondani, mennyire valószínű, hogy a tengerszint 2100-ig 1 méterrel megemelkedik, ha a fosszilis tüzelőanyagokat továbbra is nagy ütemben égetjük el. Az ilyen becslések alapvető információt jelentenek a politikai döntéshozók számára. A LUMI-skála a számítógépes modell többszázszoros futtatásához szükséges, több száz processzorral. Minden egyes új szimuláció egy kis lépés az Antarktisz okozta globális tengerszint-emelkedés által jelentett jövőbeli bizonytalanság számszerűsítéséhez.

Gettylmages_story_358_1600_0_72_RGB.jpg

Érdemes megjegyezni, hogy ebben az esetben a cipésznek van cipője. A (2023 novemberében közzétett) Green500-as lista szerint a LUMI a hetedik legzöldebb szuperszámítógép a Földön. 100%-ban vízenergiát használ, és a hulladékhőt is felhasználják Kajaani városában több száz háztartás fűtésére. Ez a város teljes távhőtermelésének 20 százalékát teszi ki.

HOGYAN CSINÁLJUK?

A LUMI egy HPE Cray Supercomputing EX szuperszámítógépen alapul, és következő generációs AMD EPYC™ processzorokkal és AMD Instinct™ gyorsítókkal rendelkezik. Majdnem 400 m2 területet foglal el és közel 150 000 kg-ot nyom.

A GPU-részleg 2978 csomópontból áll. Minden csomópont 64 magos AMD Trento CPU-val és négy AMD MI250X GPU-val rendelkezik. Az AMD GPU-k száma összesen 11 912. Ezenkívül minden csomópont négy 200 Gbit/s sebességű hálózati összekapcsoló kártyával rendelkezik. Ez azt jelenti, hogy a befecskendezési sávszélessége 800 Gbit/s. Egyetlen MI250X kártya 42,2 TFLOP/mp teljesítményre képes a HPL összehasonlító teljesítményfelmérés során.

Nem csak a GPU-k képeznek részleget a LUMI-ban. Egy másik a LUMI-C, amely csak CPU-s csomópontokat használ. Minden csomópont 64 magos, 3. generációs AMD EPYC™ CPU-kkal és min. 256 GB, ill. max. 1024 GB memóriával rendelkezik. Összesen 2048 kétfoglalatos CPU-csomópont van. Ez azt jelenti, hogy 4096 AMD Milan CPU-t, azaz több mint 262 000 CPU-magot használ A rendszernek van egy nagy memóriacsomópontokat tartalmazó részlege is. A részleg 32 TB memóriával rendelkezik. A munkaterhelés vizualizációjához a LUMI 64 Nvidia A40-es GPU-t használ.

A LUMI tárhelyrendszere három összetevőből áll. Az első egy 10 petabájtos, teljesen flash Lustre rendszer. Rövid távú gyors hozzáférésre szolgál. A második egy hosszabb távú, hagyományos 80 petabájtos Lustre rendszer, hagyományos HDD-vel. Az adatok egyszerű megosztása és a projektek élettartam-hosszúságú tárolása érdekében a LUMI 30 petabájt Ceph-alapú tárhellyel rendelkezik. A részlegek – számítási és tárhely – a 200 Gbit/s sebességű, gyors HPE Slingshot összeköttetéshez kapcsolódnak.

A LUMI már a második rendszer, amelyet a HPE Európában épített. Az első, Euro_I4TI rendszerr az ostravai IT4Innovations Nemzeti Szuperszámítógépes Központ számára készítettük. Ez a Cseh Köztársaság legnagyobb teljesítményű szuperszámítógépe.

A HPE a HPE Cray szuperszámítógépes rendszerek és a HPE Apollo rendszerek közvetlen folyadékhűtéses (DLC) opcióinak gyártásával a csehországi Kutná Hora-i gyárában bővítette szuperszámítógépes ellátási láncát Európában. Létrehoztunk egy kiválósági központot is, amely K+F eszközöket és szakértelmet biztosít az alkalmazások, a programozás, a processzorok és más megoldások fejlesztéséhez és teszteléséhez, amelyek az exaszintű készenléti program kiépítéséhez szükségesek.

A hazai HPC kezdeményezés: a Komondor

A LUMI-n kívül akadnak még Európában számottevő szuperszámítógépes kezdeményezések, melyekre kitűnő példa a Debreceni Egyetemen létesített Komondor névre keresztelt szuperszámítógép, ami szintén nagy lépés az európai szuperszámítógépek fejlődésének történetében. A LUMI-hoz hasonlóan a Komodor is helyet kapott a világ szuperszámítógépjeit összegző top 500-as listában.

A hazai szuperszámítógép, a KomondorA hazai szuperszámítógép, a Komondor

Akár csak a LUMI, a Komondor is elsősorban kutatási és fejlesztési célokat lát el, de ezek mellett piaci és ipari feladatok ellátására is alkalmazható. A számos felhasználási terület közül csak néhány példa: a mesterséges intelligencia, a klímakutatás, a telekommunikáció, az energetika, kvantumkémiai kutatások vagy biomolekuláris szimulációk futtatása.

A Komondor, azonban nem csak számítási kapacitásban jeleskedik, a környezetbarát kivitelezésnek köszönhetően lehetősége van melegvíz hűtési megoldást alkalmazni, melynek segítségével a gép által termelt hulladékhő újrahasznosítható. Az elektromos energia igénye alig több mint 300 kW.

A rendszer számos, konkrét célra kijelölt partíciót tartalmaz:

„CPU only” partíció:

Ebben a partícióban összesen 92 darab HPE Cray EX425 Compute blade taláható, melyek mindegyike 2 darab node-ot tartalmaz, ebből kifolyólag 184 db node érhető el. Mindegyik node 2 db CPU-t tartalmaz, amik AMD EPYC 7763 64-Core (2.45 GHz) processzorok, továbbá 256 GB RAM-ot. A hálózati feladatokat egy HPE Slingshot 200GbE hajtja végre. A partíció 0.9 petaflops teljesítményt képes nyújtani.

„Gyorsított GPU” partíció:

A GPU partíció 29 HPE Cray EX235n Compute blade-ből áll és ezek közül mindegyik 2 darab node-ot alkot, aminek köszönhetően 58 darab node áll rendelkezésre. A node-ok AMD EPYC 7763 64-Core (2.45 GHz) processzorokkal vannak felszerelve, illetve minden node-ban 128 GB RAM is helyet kapott. A hálózatról itt 2 darab HPE Slingshot 200GbE gondoskodik.

A partíció nevéből is következik, hogy a lényeg jelen esetben a videókártyák, melyek NVIDA A100 TENSOR CORE GPU-k 40GB VRAM-mal. Ezekből 4 darab található meg minden node-ban. A partícióval elérhető teljesítmény 4,6 petaflops, ez a teljes rendszer számítási kapacításának négyötötde.

„Mesterséges Intelligencia” partíció:

A AI feladatokra szakosodott részben 4 darab HPE Apollo 6500 Gen10Plus blade található, az előző partíciókkal ellentétben jelen esetben egy blade egy node-ot tartalmaz. Egy node rendelkezik 2 darab AMD EPYC 7763 64-Core (2.45 GHz) processzorral, 8 darab NVIDIA A100 TENSOR CORE GPU-val (40GB VRAM) továbbá 512 GB RAM-mal. A partíció 0.6 petaflops teljesítményre képes.

Big Data partíció:

A Big Data partíció az előző részektől eltérő megvalósítást használ. A nagy memóriaigényű feladatok végrehajtásához SMP/NUMA technológiát alkalmaz. A hardver megoldás a HPE Superdome Flex különálló szerverét tartalmazza.

A partíció egyetlen node-ot tartalmaz, mely rendelkezik 3 darab 5U-os 4 foglalatos rendszerfiókkal (hardveres SMP/NUMA támogatással) és 18 darab 3.1 GHz-es processzormaggal. Ebből kifolyólag 216 mag áll rendelkezésre.

A partíció tartalmaz 9 TB globálisan megosztott memóriát is, ami 64 GB DIMM modulokból áll össze.

Storage

A Komondor adattároló rendszere három rétegből épül fel:

A „scratch” réteg (400 TB) ultragyors NVMe SSD-kből épül fel. Célja ideiglenes munkaterületet biztosítani a job-ok számára. A storage rétegek közül ez képes a legnagyobb teljesítményre. A „project” réteg (2.7 PB) egy HDD alapú tárhely, ami a projektek számára nyújt perzisztens tárhelyet. Többek közt a projektek bemeneteiként használt állományok és eredménytermékek kerülnek itt eltárolásra. Az utolsó réteg a „tape” (10 PB), ami egy hosszútávú archiválási célt szolgáló szalagkönyvtár. Elsősorban olyan adatok kerülnek ide, melyeket nem használnak nap mint nap.

 

Forrás: https://docs.hpc.kifu.hu/index.html

0 elismerés
A szerzőről

BloggerHPEHU