15 populære maskinindlæringsmålinger til dataloger

Maskinindlæring er et af de mest efterforskede emner i de sidste to årtier. Der er ingen ende på menneskelige behov. Men deres produktion og arbejdskapacitet er begrænset. Derfor bevæger verden sig mod automatisering. Machine Learning spiller en stor rolle i denne industrielle revolution. Udviklere bygger mere robuste ML-modeller og algoritmer hver dag. Men du kan ikke bare smide din model i produktion uden at evaluere den. Det er her, maskinindlæringsmålingerne kommer ind. Dataforskere bruger disse målinger til at måle, hvor god en model forudsiger. Du skal have en god idé om dem. For at gøre din ML-rejse bekvem viser vi de mest populære maskinindlæringsmålinger, du kan lære at blive en bedre dataforsker.

Mest populære maskinindlæringsmålinger

Vi antager, at du er fortrolig med maskinlæringsalgoritmerne. Hvis du ikke er det, kan du tjekke vores artikel om ML-algoritmer. Lad os nu gennemgå de 15 mest populære maskinlæringsmålinger, du bør kende som dataforsker.

01. Forvirringsmatrix

Dataforskere bruger forvirringsmatrixen til at evaluere udførelsen af en klassificeringsmodel. Det er faktisk et bord. Rækkerne viser den reelle værdi, mens kolonnerne udtrykker den forudsagte værdi. Da evalueringsprocessen bruges til klassificeringsproblemer, kan matrixen være så stor som muligt. Lad os tage eksemplet for at forstå det mere tydeligt.

Antag at der i alt er 100 billeder af katte og hunde. Modellen forudsagde, at 60 af dem var katte, og 40 af dem ikke var katte. Imidlertid var 55 af dem katte, og resten 45 hunde. Hvis vi antager, at katte er positive og hunde som negative, kan vi definere nogle vigtige udtryk.

Modellen forudsagde 50 katbilleder korrekt. Disse kaldes sande positive (TP).
10 hunde blev forudsagt at være katte. Disse er falske positive (FP).
Matrixen forudsagde korrekt, at 35 af dem ikke var katte. Disse kaldes True Negatives (TN).
De andre 5 kaldes falske negativer (FN), da de var katte. Men modellen forudsagde dem som hunde.

02. Klassifikationsnøjagtighed

Dette er den enkleste proces til evaluering af en model. Vi kan definere det som det samlede antal korrekte forudsigelser divideret med det samlede antal inputværdier. I tilfælde af klassifikationsmatrixen kan det siges som forholdet mellem summen af TP og TN til det samlede antal input.

Derfor er nøjagtigheden i ovenstående eksempel (50 + 35/100), dvs.e., 85%. Men processen er ikke altid effektiv. Det kan ofte give forkert info. Metricen er mest effektiv, når prøverne i hver kategori er næsten lige store.

03. Præcision og tilbagekaldelse

Nøjagtighed fungerer ikke altid godt. Det kan give forkerte oplysninger, når der er forskellig prøvefordeling. Så vi har brug for flere metrics for at evaluere vores model korrekt. Det er her præcision og tilbagekaldelse kommer ind. Præcision er de sande positive til det samlede antal positive. Vi kan vide, hvor meget vores model reagerer for at finde ud af de faktiske data.

Præcisionen i ovenstående eksempel var 50/60, dvs.e., 83.33%. Modellen klarer sig godt med at forudsige katte. På den anden side er tilbagekaldelse forholdet mellem sandt positivt og summen af sandt positivt og falsk negativt. Tilbagekaldelse viser os, hvor ofte modellen forudsiger kat i det følgende eksempel.

Tilbagekaldelsen i ovenstående eksempel er 50/55, dvs.e., 90%. I 90% af tilfældene er modellen faktisk korrekt.

04. F1-score

Der er ingen ende på perfektion. Tilbagekaldelse og præcision kan kombineres for at få en bedre evaluering. Dette er F1-score. Metricen er dybest set det harmoniske gennemsnit af præcision og tilbagekaldelse. Matematisk kan det skrives som:

Fra kattehundeksemplet er F1-score 2 *.9 *.8 / (.9+.8), i.e., 86%. Dette er langt mere nøjagtigt end klassificeringsnøjagtighed og en af de mest populære maskinindlæringsmålinger. Der er dog en generaliseret version af denne ligning.

Ved hjælp af beta kan du lægge større vægt på enten tilbagekaldelse eller præcision; i tilfælde af binær klassificering er beta = 1.

05. ROC-kurve

ROC-kurve eller simpelthen modtageroperatørskarakteristikkurve viser os, hvordan vores model fungerer med forskellige tærskler. I klassificeringsproblemer forudsiger modellen nogle sandsynligheder. En tærskel indstilles derefter. Enhver output, der er større end tærsklen, er 1 og mindre end den er 0. For eksempel, .2, .4,.6, .8 er fire udgange. For tærskel .5 vil output være 0, 0, 1, 1 og for tærskel .3 vil det være 0, 1, 1, 1.

Forskellige tærskler giver forskellige tilbagekaldelser og præcisioner. Dette vil i sidste ende ændre sand positiv sats (TPR) og falsk positiv sats (FPR). ROC-kurve er grafen tegnet ved at tage TPR på y-aksen og FPR på x-aksen. Nøjagtighed giver os oplysninger om en enkelt tærskel. Men ROC giver os mange tærskler at vælge imellem. Derfor er ROC bedre end nøjagtighed.

06. AUC

Area Under Curve (AUC) er en anden populær maskinindlæringsmåling. Udviklere bruger evalueringsprocessen til at løse binære klassificeringsproblemer. Du kender allerede til ROC-kurven. AUC er området under ROC-kurven for forskellige tærskelværdier. Det giver dig en idé om sandsynligheden for, at modellen vælger den positive prøve frem for den negative prøve.

AUC varierer fra 0 til 1. Da FPR og TPR har forskellige værdier for forskellige tærskler, adskiller AUC sig også for flere tærskler. Med stigningen i AUC-værdi øges ydeevnen for modellen.

07. Logtab

Hvis du mestrer maskinindlæring, skal du kende tab af log. Det er en meget vigtig og meget populær maskinindlæringsmåling. Folk bruger processen til at evaluere modeller med sandsynlige resultater. Logtab stiger, hvis den forventede model afviger meget fra den reelle værdi. Hvis den faktiske sandsynlighed er .9 og den forudsagte sandsynlighed er .012, vil modellen have et enormt logtab. Ligningen for tab af beregningslog er som følger:

Hvor,

p (yi) er sandsynligheden for positive prøver.
1-p (yi) er sandsynligheden for negative prøver.
yi er henholdsvis 1 og 0 for henholdsvis positiv og negativ klasse.

Fra grafen bemærker vi, at tabet falder med stigende sandsynligheder. Det øges dog med lavere sandsynlighed. Ideelle modeller har 0 logtab.

08. Gennemsnitlig absolut fejl

Indtil nu diskuterede vi de populære maskinindlæringsmålinger til klassificeringsproblemer. Nu vil vi diskutere regressionsmålingerne. Mean Absolute Error (MAE) er en af regressionsmålingerne. Først beregnes forskellen mellem den reelle værdi og den forudsagte værdi. Derefter giver gennemsnittet af absolutterne af disse forskelle MAE. Ligningen for MAE er angivet nedenfor:

Hvor,

n er det samlede antal indgange
yj er den faktiske værdi
yhat-j er den forudsagte værdi

Jo lavere fejl, jo bedre er modellen. Du kan dog ikke kende fejlretningen på grund af de absolutte værdier.

09. Gennemsnitlig kvadratfejl

Mean Squared Error eller MSE er en anden populær ML-metric. Størstedelen af dataforskere bruger det til regressionsproblemer. Ligesom MAE skal du beregne forskellen mellem reelle værdier og forudsagte værdier. Men i dette tilfælde er forskellene kvadreret, og gennemsnittet tages. Ligningen er angivet nedenfor:

Symbolerne angiver det samme som MAE. MSE er i nogle tilfælde bedre end MAE. MAE kan ikke vise nogen retning. Der er ikke noget sådant problem i MSE. Så du kan nemt beregne gradienten ved hjælp af den. MSE har en stor rolle i beregningen af gradientafstamning.

10. Root Mean Squared Error

Denne er måske den mest populære maskinindlæringsmåling til regressionsproblemer. Root Mean Squared Error (RMSE) er dybest set kvadratroden af MSE. Det svarer næsten til MAE bortset fra kvadratroden, hvilket gør fejlen mere præcis. Ligningen er:

Lad os tage et eksempel for at sammenligne det med MAE. Antag, at der er 5 aktuelle værdier 11, 22, 33, 44, 55. Og de tilsvarende forudsagte værdier er 10, 20, 30, 40, 50. Deres MAE er 3. På den anden side er RMSE 3.32, hvilket er mere detaljeret. Derfor foretrækkes RMSE.

11. R-Squared

Du kan beregne fejlen fra RMSE og MAE. Imidlertid er sammenligningen mellem de to modeller ikke ligefrem praktisk at bruge dem. I klassificeringsproblemer sammenligner udviklere to modeller med nøjagtighed. Du har brug for et sådant benchmark i regressionsproblemer. R-squared hjælper dig med at sammenligne regressionsmodeller. Dens ligning er som følger:

Hvor,

Model MSE er MSE nævnt ovenfor.
Baseline MSE er gennemsnittet af kvadratet af forskelle mellem gennemsnitlig forudsigelse og reel værdi.

Området for R-firkant er fra negativ uendelighed til 1. Den højere værdi af evalueringen betyder, at modellen passer godt.

12. Justeret R-Squared

R-Squared har en ulempe. Det fungerer ikke godt, når nye funktioner tilføjes til modellen. I så fald stiger værdien undertiden, og nogle gange forbliver den den samme. Det betyder, at R-Squared er ligeglad med, om den nye funktion har noget at forbedre modellen. Denne ulempe er imidlertid fjernet i justeret R-Squared. Formlen er: Hvor,

P er antallet af funktioner.
N er antallet af input / prøver.

I R-Squared Adjusted stiger værdien kun, hvis den nye funktion forbedrer modellen. Og som vi ved betyder den højere værdi af R-Squared, at modellen er bedre.

13. Uovervåget læringsevaluering

Du bruger normalt klyngealgoritmen til læring uden opsyn. Det er ikke som klassificering eller regression. Modellen har ingen etiketter. Prøverne er grupperet afhængigt af deres ligheder og uligheder. For at evaluere disse klyngeproblemer har vi brug for en anden type evalueringsmåling. Silhouette Coefficient er en populær maskinindlæringsmåling til klyngeproblemer. Det fungerer med følgende ligning:

Hvor,

'a' er den gennemsnitlige afstand mellem en prøve og andre punkter i klyngen.
'b' er den gennemsnitlige afstand mellem en prøve og andre punkter i den nærmeste klynge.

Silhouettekoefficienten for en gruppe prøver tages som gennemsnittet af deres individuelle koefficienter. Det varierer fra -1 til +1. +1 betyder, at klyngen har alle punkter med de samme attributter. Jo højere score, jo højere er klyngetætheden.

14. MRR

Ligesom klassificering, regression og klyngedannelse er ranking også et Machine Learning-problem. Ranking viser en gruppe prøver og rangerer dem ud fra nogle særlige karakteristika. Du ser dette jævnligt i Google, der viser e-mails, YouTube osv. Mange dataforskere holder gennemsnitlig gensidig rang (MRR) som deres første valg til løsning af rangproblemer. Den grundlæggende ligning er:

Hvor,

Q er et sæt prøver.

Ligningen viser os, hvor god modellen rangerer prøverne. Det har dog en ulempe. Det betragter kun en attribut ad gangen for at liste emner.

15. Bestemmelseskoefficient (R²)

Machine Learning har en enorm mængde statistikker i sig. Mange modeller har specifikt brug for statistiske målinger for at evaluere. Bestemmelseskoefficienten er en statistisk metrik. Det angiver, hvordan den uafhængige variabel påvirker den afhængige variabel. De relevante ligninger er:

Hvor

fi er den forudsagte værdi.
ybar er middelværdien.
SStot er den samlede sum af firkanter.
SSres er den resterende sum af firkanter.

Modellen fungerer bedst når = 1. Hvis modellen forudsiger gennemsnitsværdien af data, vil være 0.

Afsluttende tanker

Kun en tåbe vil sætte sin model i produktion uden at evaluere den. Hvis du vil være dataforsker, skal du vide om ML-målinger. I denne artikel har vi listet de femten mest populære Machine Learning-metrics, som du bør kende som dataforsker. Vi håber, at du nu er klar over forskellige målinger og deres betydning. Du kan anvende disse metrics ved hjælp af Python og R.

Hvis du studerer artiklen nøje, skal du være motiveret til at lære brugen af nøjagtige ML-målinger. Vi har gjort vores job. Nu er det din tur til at være dataforsker. At fejle er menneskeligt. Der kan mangle noget i denne artikel. Hvis du finder nogen, kan du give os besked. Data er den nye verdensvaluta. Så brug det og tjen din plads i verden.