Usiruhusu Hifadhi Kuwa Nguzo Muhimu katika Mafunzo ya Mfano

Imesemekana kuwa kampuni za teknolojia ama zinatafuta GPU au ziko njiani kuzipata. Mnamo Aprili, Mkurugenzi Mtendaji wa Tesla Elon Musk alinunua GPU 10,000 na kusema kuwa kampuni hiyo itaendelea kununua idadi kubwa ya GPU kutoka NVIDIA. Kwa upande wa biashara, wafanyikazi wa IT pia wanajitahidi sana kuhakikisha kuwa GPU zinatumiwa kila wakati kuongeza faida kwenye uwekezaji. Walakini, kampuni zingine zinaweza kugundua kuwa wakati idadi ya GPU inaongezeka, uvivu wa GPU unakuwa mbaya zaidi.

Ikiwa historia imetufundisha chochote kuhusu utendakazi wa kompyuta wa hali ya juu (HPC), ni kwamba uhifadhi na mtandao haupaswi kutolewa dhabihu kwa gharama ya kuzingatia sana ukokotoaji. Ikiwa hifadhi haiwezi kuhamisha data kwa vitengo vya kompyuta kwa ufanisi, hata kama una GPU nyingi zaidi duniani, hutafikia ufanisi zaidi.

Kulingana na Mike Matchett, mchambuzi katika Data Kubwa ya Ulimwengu, mifano ndogo inaweza kutekelezwa katika kumbukumbu (RAM), ikiruhusu umakini zaidi kwenye ukokotoaji. Hata hivyo, miundo mikubwa kama vile ChatGPT yenye mabilioni ya nodi haiwezi kuhifadhiwa kwenye kumbukumbu kutokana na gharama kubwa.

"Huwezi kutoshea mabilioni ya nodi kwenye kumbukumbu, kwa hivyo uhifadhi unakuwa muhimu zaidi," Matchett anasema. Kwa bahati mbaya, uhifadhi wa data mara nyingi hupuuzwa wakati wa mchakato wa kupanga.

Kwa ujumla, bila kujali kesi ya utumiaji, kuna mambo manne ya kawaida katika mchakato wa mafunzo ya mfano:

1. Mafunzo ya Mfano
2. Maombi ya Maelekezo
3. Hifadhi ya Data
4. Kompyuta ya kasi

Wakati wa kuunda na kupeleka miundo, mahitaji mengi hutanguliza uthibitisho wa dhana ya haraka (POC) au mazingira ya majaribio ili kuanzisha mafunzo ya kielelezo, na mahitaji ya kuhifadhi data hayazingatiwi sana.

Hata hivyo, changamoto iko katika ukweli kwamba mafunzo au upelekaji wa uelekezaji unaweza kudumu kwa miezi au hata miaka. Kampuni nyingi huongeza saizi zao za kielelezo haraka wakati huu, na miundombinu lazima ipanuke ili kushughulikia miundo na seti za data zinazokua.

Utafiti kutoka Google kuhusu mamilioni ya mzigo wa mafunzo ya ML unaonyesha kuwa wastani wa 30% ya muda wa mafunzo hutumiwa kwenye bomba la data ya uingizaji. Ingawa utafiti uliopita umelenga katika kuboresha GPU ili kuharakisha mafunzo, changamoto nyingi bado zimesalia katika kuboresha sehemu mbalimbali za bomba la data. Unapokuwa na nguvu kubwa ya kukokotoa, kizuizi halisi kinakuwa jinsi unavyoweza kuingiza data kwa haraka kwenye hesabu ili kupata matokeo.

Hasa, changamoto katika uhifadhi na usimamizi wa data zinahitaji kupanga kwa ajili ya ukuaji wa data, kukuruhusu kuendelea kutoa thamani ya data kadri unavyoendelea, hasa unapojitosa katika hali za juu zaidi za utumiaji kama vile kujifunza kwa kina na mitandao ya neva, ambayo huweka mahitaji makubwa zaidi. uhifadhi kulingana na uwezo, utendakazi na upanuzi.

Hasa:

Scalability
Kujifunza kwa mashine kunahitaji kushughulikia idadi kubwa ya data, na jinsi idadi ya data inavyoongezeka, usahihi wa miundo pia huboreshwa. Hii ina maana kwamba biashara lazima zikusanye na kuhifadhi data zaidi kila siku. Wakati hifadhi haiwezi kuongezeka, mzigo wa kazi unaotumia data nyingi huzuia, kupunguza utendakazi na kusababisha muda wa gharama wa GPU kutofanya kitu.

Kubadilika
Usaidizi unaonyumbulika kwa itifaki nyingi (ikiwa ni pamoja na NFS, SMB, HTTP, FTP, HDFS, na S3) ni muhimu ili kukidhi mahitaji ya mifumo tofauti, badala ya kuwa mdogo kwa aina moja ya mazingira.

Kuchelewa
Muda wa kusubiri wa I/O ni muhimu kwa ajili ya kujenga na kutumia modeli kwani data inasomwa na kusomwa tena mara kadhaa. Kupunguza muda wa kusubiri wa I/O kunaweza kufupisha muda wa mafunzo wa wanamitindo kwa siku au miezi. Ukuzaji wa muundo wa haraka hutafsiri moja kwa moja kwa faida kubwa zaidi za biashara.

Upitishaji
Utekelezaji wa mifumo ya uhifadhi ni muhimu kwa mafunzo ya mfano ya ufanisi. Michakato ya mafunzo inahusisha kiasi kikubwa cha data, kwa kawaida katika terabaiti kwa saa.

Ufikiaji Sambamba
Ili kufikia matokeo ya juu, miundo ya mafunzo inagawanya shughuli katika kazi nyingi sambamba. Hii mara nyingi inamaanisha kuwa kanuni za ujifunzaji kwa mashine hufikia faili sawa kutoka kwa michakato mingi (uwezekano kwenye seva nyingi halisi) kwa wakati mmoja. Mfumo wa kuhifadhi lazima ushughulikie mahitaji ya wakati mmoja bila kuathiri utendakazi.

Pamoja na uwezo wake bora katika latency ya chini, upitishaji wa juu, na I/O ya kiwango kikubwa sambamba, Dell PowerScale ni hifadhi bora inayosaidia kompyuta inayoharakishwa na GPU. PowerScale hupunguza muda unaohitajika kwa miundo ya uchanganuzi ambayo hufunza na kujaribu seti za data za terabyte nyingi. Katika hifadhi ya PowerScale ya flash-flash, kipimo data huongezeka kwa mara 18, kuondoa vikwazo vya I/O, na inaweza kuongezwa kwa makundi yaliyopo ya Isilon ili kuharakisha na kufungua thamani ya kiasi kikubwa cha data isiyo na muundo.

Zaidi ya hayo, uwezo wa ufikiaji wa itifaki nyingi za PowerScale hutoa kubadilika bila kikomo kwa mzigo wa kazi, kuruhusu data kuhifadhiwa kwa kutumia itifaki moja na kufikiwa kwa kutumia nyingine. Hasa, vipengele madhubuti, unyumbufu, uwezo mkubwa na utendakazi wa kiwango cha biashara wa jukwaa la PowerScale husaidia kutatua changamoto zifuatazo:

- Kuongeza kasi ya uvumbuzi kwa hadi mara 2.7, kupunguza mzunguko wa mafunzo ya mfano.

- Ondoa vikwazo vya I/O na utoe mafunzo na uthibitishaji wa modeli kwa haraka, usahihi wa kielelezo ulioboreshwa, tija iliyoboreshwa ya sayansi ya data, na faida iliyoboreshwa kwenye uwekezaji wa kompyuta kwa kutumia vipengele vya daraja la biashara, utendaji wa juu, upatanishi na uwezo mkubwa. Boresha usahihi wa muundo kwa kutumia hifadhidata za kina, zenye msongo wa juu zaidi kwa kutumia hadi 119 PB ya uwezo bora wa kuhifadhi katika nguzo moja.

- Fikia utumaji kwa kiwango kikubwa kwa kuanzisha kokotoo na hifadhi ndogo na kwa kujitegemea, kutoa ulinzi thabiti wa data na chaguo za usalama.

- Boresha tija ya sayansi ya data kwa uchanganuzi wa mahali na suluhu zilizothibitishwa mapema kwa uwekaji wa haraka na usio na hatari ndogo.

- Kuboresha miundo iliyothibitishwa kulingana na teknolojia bora zaidi, ikiwa ni pamoja na kuongeza kasi ya NVIDIA GPU na usanifu wa marejeleo na mifumo ya NVIDIA DGX. Utendaji wa hali ya juu na upatanifu wa PowerScale unakidhi mahitaji ya utendakazi wa hifadhi katika kila hatua ya kujifunza kwa mashine, kuanzia kupata na kuandaa data hadi mafunzo ya kielelezo na makisio. Pamoja na mfumo wa uendeshaji wa OneFS, nodi zote zinaweza kufanya kazi kwa urahisi ndani ya nguzo moja inayoendeshwa na OneFS, yenye vipengele vya kiwango cha biashara kama vile usimamizi wa utendaji, usimamizi wa data, usalama na ulinzi wa data, kuwezesha kukamilika kwa kasi kwa mafunzo ya kielelezo na uthibitishaji kwa biashara.


Muda wa kutuma: Jul-03-2023