Hvad er det bedste grafikkort til dyb læring?

Hvis en CPU er hjernen på en pc, så er en GPU sjælen. Mens de fleste pc'er muligvis fungerer uden en god GPU, er dyb læring ikke mulig uden en. Dette skyldes, at dyb læring kræver komplekse operationer som matrixmanipulation, ekstraordinære beregningsmæssige forudsætninger og betydelig computerkraft.

Erfaring er afgørende for at udvikle de nødvendige færdigheder til at anvende dyb læring til nye emner. En hurtig GPU betyder en hurtig gevinst i praktisk erfaring gennem øjeblikkelig feedback. GPU'er indeholder flere kerner til at håndtere parallelle beregninger. De har også omfattende hukommelsesbåndbredde for nemt at administrere disse oplysninger.

Vores bedste anbefalede valg af bedste grafikkort til dyb læring er Nvidia Geforce RTX 2080 Founders Edition. Køb det nu for $ 1.940 USD på Amazon

Med dette i tankerne forsøger vi at besvare spørgsmålet ”Hvad er det bedste grafikkort til AI, maskinindlæring og dyb læring?”Ved at gennemgå flere grafikkort, der i øjeblikket er tilgængelige i 2021. Kort gennemgået:

AMD RX Vega 64

NVIDIA Tesla V100

Nvidia Quadro RTX 8000

GeForce RTX 2080 Ti

NVIDIA Titan RTX

Nedenfor er resultaterne:

AMD RX Vega 64

Radeon RX Vega 64

Funktioner

Udgivelsesdato: 14. august 2017
Vega Arkitektur
PCI Express-grænseflade
Urhastighed: 1247 MHz
Stream-processorer: 4096
VRAM: 8 GB
Hukommelsesbåndbredde: 484 GB / s

Anmeldelse

Hvis du ikke kan lide NVIDIA GPU'er, eller hvis dit budget ikke giver dig mulighed for at bruge op til $ 500 på et grafikkort, har AMD et smart alternativ. AMDs RS Vega 64 er meget svært at ignorere AMD, der har en anstændig mængde RAM, en hurtig hukommelsesbåndbredde og mere end nok stream-processorer.

Vega-arkitekturen er en opgradering fra de tidligere RX-kort. Med hensyn til ydeevne er denne model tæt på GeForce RTX 1080 Ti, da begge disse modeller har en lignende VRAM. Desuden understøtter Vega native halvpræcision (FP16). ROCm og TensorFlow fungerer, men softwaren er ikke så moden som i NVIDIA-grafikkort.

Alt i alt er Vega 64 en anstændig GPU til dyb læring og AI. Denne model koster langt under $ 500 USD og får jobbet gjort for begyndere. Til professionelle applikationer anbefaler vi dog at vælge et NVIDIA-kort.

AMD RX Vega 64 Detaljer: Amazon

NVIDIA Tesla V100

Tesla V100

Funktioner:

Udgivelsesdato: 7. december 2017
NVIDIA Volta-arkitektur
PCI-E interface
112 TFLOPS Tensorydelse
640 Tensorkerner
5120 NVIDIA CUDA® kerner
VRAM: 16 GB
Hukommelsesbåndbredde: 900 GB / s
Beregn API'er: CUDA, DirectCompute, OpenCL ™, OpenACC®

Anmeldelse:

NVIDIA Tesla V100 er en behemoth og et af de bedste grafikkort til AI, maskinindlæring og dyb læring. Dette kort er fuldt optimeret og leveres fyldt med alle de godbidder, man måtte have brug for til dette formål.

Tesla V100 kommer i 16 GB og 32 GB hukommelseskonfigurationer. Med masser af VRAM, AI-acceleration, høj hukommelsesbåndbredde og specialiserede tensorkerner til dyb læring kan du være sikker på, at din hver træningsmodel kører problemfrit - og på kortere tid. Specifikt kan Tesla V100 levere 125TFLOPS dyb læringsydelse til både træning og inferens [3], muliggjort af NVIDIAs Volta-arkitektur.

NVIDIA Tesla V100 Detaljer: Amazon, (1)

Nvidia Quadro RTX 8000

Nvidia Quadro Rtx 8000

Funktioner:

Udgivelsesdato: August 2018
Turing-arkitektur
576 Tensorkerner
CUDA-kerner: 4.608
VRAM: 48 GB
Hukommelsesbåndbredde: 672 GB / s
16.3 TFLOPS
Systemgrænseflade: PCI-Express

Anmeldelse:

Specielt bygget til dyb læringsmatrixaritmetik og beregninger er Quadro RTX 8000 et top-of-the-line grafikkort. Da dette kort leveres med stor VRAM-kapacitet (48 GB), anbefales denne model til undersøgelse af ekstra store beregningsmodeller. Når det bruges sammen med NVLink, kan kapaciteten øges til op til 96 GB VRAM. Som er meget!

En kombination af 72 RT og 576 Tensor-kerner til forbedrede arbejdsgange resulterer i over 130 TFLOPS ydeevne. Sammenlignet med det dyreste grafikkort på vores liste - Tesla V100 - tilbyder denne model potentielt 50 procent mere hukommelse og formår stadig at koste mindre. Selv på installeret hukommelse har denne model enestående ydeevne, mens den arbejder med større batchstørrelser på en enkelt GPU.

Igen, som Tesla V100, er denne model kun begrænset af dit pristag. Når det er sagt, hvis du vil investere i fremtiden og i computere af høj kvalitet, skal du få en RTX 8000. Hvem ved, du kan lede forskningen om AI. Tesla V100 er baseret på Turing-arkitektur, hvor V100 er baseret på Volta-arkitektur, så Nvidia Quadro RTX 8000 kan betragtes som lidt mere moderne og lidt mere kraftfuld end V100.

Nvidia Quadro RTX 8000 Detaljer: Amazon

GeForce RTX 2080 Ti

Geforce RTX 2080 Founders Edition

Funktioner:

Udgivelsesdato: 20. september 2018
Turing GPU-arkitektur og RTX-platformen
Urhastighed: 1350 MHz
CUDA-kerner: 4352
11 GB næste generations, ultrahurtig GDDR6-hukommelse
Hukommelsesbåndbredde: 616 GB / s
Effekt: 260W

Anmeldelse:

GeForce RTX 2080 Ti er en budgetmulighed, der er ideel til modellering af arbejdsbelastninger i mindre skala snarere end i stor skala træningsudvikling. Dette skyldes, at den har en mindre GPU-hukommelse pr. Kort (kun 11 GB). Denne models begrænsninger bliver mere tydelige, når man træner nogle moderne NLP-modeller. Det betyder dog ikke, at dette kort ikke kan konkurrere. Blæserdesignet på RTX 2080 muliggør langt tættere systemkonfigurationer - op til fire GPU'er inden for en enkelt arbejdsstation. Plus, denne model træner neurale netværk med 80 procent hastighederne på Tesla V100. Ifølge LambdaLabs 'benchmarks for dyb læringspræstation er RTX 2080 sammenlignet med Tesla V100 73% hastigheden på FP2 og 55% hastigheden på FP16.

I mellemtiden koster denne model næsten 7 gange mindre end en Tesla V100. Fra både et pris- og ydeevnesynspunkt er GeForce RTX 2080 Ti en fantastisk GPU til dyb læring og AI-udvikling.

GeForce RTX 2080 Ti Detaljer: Amazon

NVIDIA Titan RTX

NVIDIA Titan RTX-grafik

Funktioner:

Udgivelsesdato: 18. december 2018
Drevet af NVIDIA Turing ™ -arkitektur designet til AI
576 Tensorkerner til AI-acceleration
130 teraFLOPS (TFLOPS) til dyb læringstræning
CUDA-kerner: 4608
VRAM: 24 GB
Hukommelsesbåndbredde: 672 GB / s
Anbefalet strømforsyning 650 watt

Anmeldelse:

NVIDIA Titan RTX er en anden mellemklasse GPU, der bruges til komplekse dyb læringsoperationer. Denne models 24 GB VRAM er nok til at arbejde med de fleste batchstørrelser. Hvis du ønsker at træne større modeller, skal du dog parre dette kort med NVLink-broen for effektivt at have 48 GB VRAM. Dette beløb ville være nok selv for store transformator NLP-modeller. Desuden giver Titan RTX mulighed for træning i blandet præcision med fuld hastighed for modeller (i.e., FP 16 sammen med FP32 akkumulering). Som et resultat udfører denne model cirka 15 til 20 procent hurtigere i operationer, hvor der anvendes Tensor Cores.

En begrænsning af NVIDIA Titan RTX er design med to blæsere. Dette hæmmer mere komplekse systemkonfigurationer, fordi den ikke kan pakkes ind i en arbejdsstation uden væsentlige ændringer af køle-mekanismen, hvilket ikke anbefales.

Samlet set er Titan en fremragende GPU til alle formål til næsten enhver dyb læringsopgave. Sammenlignet med andre grafikkort til generelle formål er det bestemt dyrt. Derfor anbefales denne model ikke til spillere. Ikke desto mindre vil ekstra VRAM og ydeevne boost sandsynligvis blive værdsat af forskere, der bruger komplekse deep learning modeller. Prisen på Titan RTX er betydeligt mindre end V100, der er vist ovenfor og ville være et godt valg, hvis dit budget ikke tillader, at V100-prissætning gør dyb læring, eller din arbejdsbyrde ikke har brug for mere end Titan RTX (se interessante benchmarks)

NVIDIA Titan RTX Detaljer: Amazon

Valg af det bedste grafikkort til AI, maskinindlæring og dyb læring

AI, maskinindlæring og dyb læringsopgaver behandler masser af data. Disse opgaver kan være meget krævende for din hardware. Nedenfor er de funktioner, du skal huske på, før du køber en GPU.

Kerner

Som en simpel tommelfingerregel, jo større antal kerner, jo højere er ydeevnen for dit system. Antallet af kerner skal også tages i betragtning, især hvis du har at gøre med en stor mængde data. NVIDIA har navngivet sine kerner CUDA, mens AMD kalder deres kerner stream-processorer. Gå efter det højeste antal behandlingskerner, som dit budget tillader.

Behandlingskraft

Processorkraften til en GPU afhænger af antallet af kerner inde i systemet ganget med de urhastigheder, som du kører kernerne med. Jo højere hastighed og jo højere antallet af kerner, jo højere bliver processorkraften, som din GPU kan beregne data til. Dette bestemmer også, hvor hurtigt dit system udfører en opgave.

VRAM

Video RAM eller VRAM er en måling af mængden af data, dit system kan håndtere på én gang. Højere VRAM er afgørende, hvis du arbejder med forskellige Computer Vision-modeller eller udfører nogen CV Kaggle-konkurrencer. VRAM er ikke så vigtigt for NLP eller for at arbejde med andre kategoriske data.

Hukommelsesbåndbredde

Hukommelsesbåndbredden er den hastighed, hvormed data læses eller gemmes i hukommelsen. Enkelt sagt er det VRAMs hastighed. Målt i GB / s betyder mere hukommelsesbåndbredde, at kortet kan trække flere data på kortere tid, hvilket betyder en hurtigere drift.

Køling

GPU-temperatur kan være en betydelig flaskehals, når det kommer til ydeevne. Moderne GPU'er øger deres hastighed til et maksimum, mens de kører en algoritme. Men så snart en bestemt temperaturgrænse er nået, reducerer GPU behandlingshastigheden for at beskytte mod overophedning.

Blæserventilatorens design til luftkølere skubber luft uden for systemet, mens de ikke-blæserblæser suger luft ind. I arkitektur, hvor flere GPU'er er placeret ved siden af hinanden, opvarmes ikke-blæsere mere. Hvis du bruger luftkøling i en opsætning med 3 til 4 GPU'er, skal du undgå ikke-blæsere.

Vandkøling er en anden mulighed. Selvom det er dyrt, er denne metode meget mere lydløs og sikrer, at selv de hårdeste GPU-opsætninger forbliver seje under hele driften.

Konklusion

For de fleste brugere, der trænger ind i dyb læring, vil RTX 2080 Ti eller Titan RTX give dig den største knap. Den eneste ulempe ved RTX 2080 Ti er en begrænset 11 GB VRAM-størrelse. Træning med større batchstørrelser giver modeller mulighed for at træne hurtigere og meget mere præcist, hvilket sparer meget af brugerens tid. Dette er kun muligt, når du har Quadro GPU'er eller en TITAN RTX. Brug af halvpræcision (FP16) gør det muligt for modeller at passe ind i GPU'erne med utilstrækkelig VRAM-størrelse [2]. For mere avancerede brugere er Tesla V100 dog det sted, du skal investere. Det er vores bedste valg for det bedste grafikkort til AI, maskinindlæring og dyb læring. Det er alt sammen for denne artikel. Vi håber du kunne lide det. Indtil næste gang!

Referencer

Bedste GPU'er til AI, maskinindlæring og dyb læring i 2020
Bedste GPU til dyb læring i 2020
NVIDIA AI INFERENCEPLATFORM: Kæmpe spring i ydeevne og effektivitet til AI-tjenester, fra datacenteret til netværkets kant
NVIDIA V100 TENSOR CORE GPU
Titan RTX Deep Learning Benchmarks