Top 20 bedste R-maskinlæringspakker, du kan tjekke ud nu

Næsten alle uerfarne dataforskere og maskinlæringsudviklere er forvirrede over at vælge et programmeringssprog. De spørger altid, hvilket programmeringssprog der er bedst til deres maskinlæring og datavidenskabsprojekt. Enten vil vi gå efter python, R eller MatLab. Valget af et programmeringssprog afhænger af udvikleres præference og systemkrav. Blandt andre programmeringssprog er R et af de mest potentielle og fantastiske programmeringssprog, der har flere R-maskinindlæringspakker til både ML-, AI- og datalogiprojekter.

Som en konsekvens kan man udvikle sit projekt ubesværet og effektivt ved hjælp af disse R machine learning-pakker. Ifølge en undersøgelse af Kaggle er R et af de mest populære open source-maskinlæringssprog.

Bedste R Machine Learning-pakker

R er et open source-sprog, så folk kan bidrage fra hvor som helst i verden. Du kan bruge en sort boks i din kode, som er skrevet af en anden. I R betegnes denne Black Box som en pakke. Pakken er intet andet end en forudskrevet kode, som kan bruges gentagne gange af alle. Nedenfor viser vi de 20 bedste R-maskinlæringspakker.

1. CARET

Pakken CARET refererer til klassificering og regressionstræning. Opgaven med denne CARET-pakke er at integrere træning og forudsigelse af en model. Det er en af de bedste pakker af R til maskinindlæring såvel som datalogi.

Parametrene kan søges ved at integrere flere funktioner til at beregne den samlede ydeevne for en given model ved hjælp af net-søgemetoden i denne pakke. Efter vellykket afslutning af alle forsøg finder netværkssøgningen endelig de bedste kombinationer.

Efter installation af denne pakke kan udvikleren køre navne (getModelInfo ()) for at se de 217 mulige funktioner, der kun kan køres gennem en funktion. Til opbygning af en forudsigende model bruger CARET-pakken en tog () -funktion. Syntaksen for denne funktion:

tog (formel, data, metode)

Dokumentation

2. randomForest

RandomForest er en af de mest populære R-pakker til maskinindlæring. Denne R machine learning-pakke kan bruges til at løse regressions- og klassificeringsopgaver. Derudover kan den bruges til at træne manglende værdier og outliers.

Denne maskinlæringspakke med R bruges generelt til at generere flere antal beslutningstræer. Dybest set tager det tilfældige prøver. Og så gives observationer i beslutningstræet. Endelig er det fælles output, der kommer fra beslutningstræet, det ultimative output. Syntaksen for denne funktion:

randomForest (formel =, data =)

Dokumentation

3. e1071

Denne e1071 er en af de mest anvendte R-pakker til maskinindlæring. Ved hjælp af denne pakke kan en udvikler implementere understøttelsesvektormaskiner (SVM), kortest vejberegning, poset klyngedannelse, Naive Bayes klassificering, kortvarig Fourier-transformation, uklar klyngedannelse osv.

For eksempel er SVM-syntaks for IRIS-data:

svm (Art ~ Sepal.Længde + skål.Bredde, data = iris)

Dokumentation

4. Rpart

Rpart står for rekursiv partitionering og regressionstræning. Denne R-pakke til maskinindlæring kan udføres begge opgaver: klassificering og regression. Det fungerer ved hjælp af et to-trins trin. Outputmodellen er et binært træ. Funktionen plot () bruges til at plotte outputresultatet. Der er også en alternativ funktion, prp () -funktion, der er mere fleksibel og kraftfuld end en grundlæggende plot () -funktion.

Funktionen rpart () bruges til at etablere et forhold mellem uafhængige og afhængige variabler. Syntaksen er:

rpart (formel, data =, metode =, kontrol =)

hvor formlen er kombinationen af uafhængige og afhængige variabler, data er navnet på datasættet, metoden er målet, og kontrol er dit systemkrav.

Dokumentation

5. KernLab

Hvis du vil udvikle dit projekt baseret på kerne-baserede maskinlæringsalgoritmer, kan du bruge denne R-pakke til maskinlæring. Denne pakke bruges til SVM, kernefunktionsanalyse, rankingalgoritme, prikproduktprimitiver, Gaussisk proces og mange flere. KernLab bruges i vid udstrækning til SVM-implementeringer.

Der er forskellige kernefunktioner til rådighed. Nogle kernefunktioner er nævnt her: polydot (polynomial kernefunktion), tanhdot (hyperbolsk tangentkernefunktion), laplacedot (laplacian kernel-funktion) osv. Disse funktioner bruges til at udføre mønstergenkendelsesproblemer. Men brugere kan bruge deres kernefunktioner i stedet for foruddefinerede kernefunktioner.

Dokumentation

6. nnet

Hvis du vil udvikle din maskinlæringsapplikation ved hjælp af det kunstige neurale netværk (ANN), kan denne nnet-pakke måske hjælpe dig. Det er en af de mest populære og nemme implementere en pakke af neurale netværk. Men det er en begrænsning, det er, det er et enkelt lag af noder.

Syntaksen for denne pakke er:

nnet (formel, data, størrelse)

Dokumentation

7. dplyr

En af de mest anvendte R-pakker til datavidenskab. Det giver også nogle brugervenlige, hurtige og ensartede funktioner til manipulation af data. Hadley Wickham skriver denne r programmeringspakke til datavidenskab. Denne pakke består af sæt af verb i.e., mutere (), vælg (), filtrer (), opsummer () og arranger ().

For at installere denne pakke skal man skrive denne kode:

installere.pakker (“dplyr”)

Og for at indlæse denne pakke skal du skrive denne syntaks:

bibliotek (dplyr)

Dokumentation

8. ggplot2

En anden af de mest elegante og æstetiske grafiske rammer R-pakker til datavidenskab er ggplot2. Det er et system til oprettelse af grafik baseret på grafikgrammatikken. Installationssyntaxen for denne datalogipakke er:

installere.pakker (“ggplot2”)

Dokumentation

9. Wordcloud

Når et enkelt billede består af tusinder af ord, kaldes det et Wordcloud. Dybest set er det en visualisering af tekstdata. Denne maskinlæringspakke, der bruger R, bruges til at skabe en gengivelse af ord, og udvikleren kan tilpasse Wordcloud efter hans præference, som at ordne ordene tilfældigt eller samme frekvensord sammen eller højfrekvente ord i midten osv.

I R machine learning-sproget er der to biblioteker til rådighed til oprettelse af wordcloud: Wordcloud og Worldcloud2. Her viser vi syntaksen for WordCloud2. For at installere WordCloud2 skal du skrive:

1. kræve (devtools)
2. install_github (“lchiffon / wordcloud2”)

Eller du kan bruge det direkte:

bibliotek (wordcloud2)

Dokumentation

10. tidyr

En anden meget anvendt r-pakke til datavidenskab er tidyr. Målet med denne programmering til datavidenskab er at rydde dataene. I ryddeligt placeres variablen i kolonnen, observation placeres i rækken, og værdien er i cellen. Denne pakke beskriver en standard måde at sortere data på.

Til installation kan du bruge dette kodefragment:

installere.pakker (“tidyr”)

Til indlæsning er koden:

bibliotek (tidyr)

Dokumentation

11. skinnende

R-pakken, skinnende, er en af webapplikationsrammerne for datavidenskab. Det hjælper med at opbygge webapplikationer fra R uden besvær. Enten kan udvikleren installere softwaren på hvert klientsystem eller være vært for en webside. Desuden kan udvikleren bygge dashboards eller integrere dem i R Markdown-dokumenter.

Derudover kan skinnende apps udvides med forskellige script-sprog som html-widgets, CSS-temaer og JavaScript-handlinger. Med et ord kan vi sige, at denne pakke er en kombination af R's beregningskraft med interaktiviteten på det moderne web.

Dokumentation

12. tm

Det er overflødigt at sige, at tekstminedrift er en ny anvendelse af maskinlæring i dag. Denne R-maskinindlæringspakke giver en ramme til løsning af tekstminedrift. I en tekstudvindingsapplikation, i.e., følelsesanalyse eller nyhedsklassificering, en udvikler har forskellige typer kedeligt arbejde som at fjerne uønskede og irrelevante ord, fjerne tegnsætningstegn, fjerne stopord og mange flere.

Tm-pakken indeholder flere fleksible funktioner, der gør dit arbejde ubesværet som removeNumbers (): for at fjerne Numbers fra det givne tekstdokument, weightTfIdf (): til term Frekvens og invers dokumentfrekvens, tm_reduce (): for at kombinere transformationer, removePunctuation () til fjern tegnsætningstegn fra det givne tekstdokument og mange flere.

Dokumentation

13. MUS-pakke

Maskinindlæringspakken med R, MICE henviser til multivariat imputering via kædede sekvenser. Næsten hele tiden står projektudvikleren over for et almindeligt problem med maskinlæringsdatasættet, der er den manglende værdi. Denne pakke kan bruges til at tilskrive de manglende værdier ved hjælp af flere teknikker.

Denne pakke indeholder flere funktioner såsom inspektion af manglende datamønstre, diagnosticering af imputerede værdiers kvalitet, analyse af færdige datasæt, lagring og eksport af imputerede data i forskellige formater og mange flere.

Dokumentation

14. igraph

Netværksanalysepakken, igraph, er en af de stærke R-pakker til datavidenskab. Det er en samling af kraftfulde, effektive, brugervenlige og bærbare netværksanalyseværktøjer. Denne pakke er også open source og gratis. Derudover kan igraphn programmeres på Python, C / C ++ og Mathematica.

Denne pakke har flere funktioner til at generere tilfældige og regelmæssige grafer, visualisering af en graf osv. Du kan også arbejde med din store graf ved hjælp af denne R-pakke. Der er nogle krav for at bruge denne pakke: til Linux er der brug for en C- og en C ++ -compiler.

Installationen af denne R-programmeringspakke til datalogi er:

installere.pakker (“igraph”)

For at indlæse denne pakke skal du skrive:

bibliotek (igraph)

Dokumentation

15. ROCR

R-pakken til datalogi, ROCR, bruges til at visualisere ydeevnen for scoringsklassifikatorer. Denne pakke er fleksibel og nem at bruge. Kun tre kommandoer og standardværdier for valgfri parametre er nødvendige. Denne pakke bruges til at udvikle cutoff-parametriserede 2D-præstationskurver. I denne pakke er der flere funktioner som forudsigelse (), der bruges til at oprette forudsigelsesobjekter, ydeevne () bruges til at oprette præstationsobjekter osv.

Dokumentation

16. DataExplorer

Pakken DataExplorer er en af de mest omfattende brugervenlige R-pakker til datalogi. Blandt talrige datavidenskabelige opgaver er sonderende dataanalyse (EDA) en af dem. I sonderende dataanalyse skal dataanalytikeren være mere opmærksom på data. Det er ikke et let job at tjekke ud eller håndtere data manuelt eller bruge dårlig kodning. Automatisering af dataanalyse er nødvendig.

Denne R-pakke til datavidenskab giver automatisering af dataefterforskning. Denne pakke bruges til at scanne og analysere hver variabel og visualisere dem. Det er nyttigt, når datasættet er massivt. Så dataanalysen kan udtrække den skjulte viden om data effektivt og ubesværet.

Pakken kan installeres fra CRAN direkte ved hjælp af nedenstående kode:

installere.pakker (“DataExplorer”)

For at indlæse denne R-pakke skal du skrive:

bibliotek (DataExplorer)

Dokumentation

17. mlr

En af de mest utrolige pakker til R-maskinindlæring er mlr-pakken. Denne pakke er kryptering af flere maskinlæringsopgaver. Det betyder, at du kun kan udføre flere opgaver ved kun at bruge en enkelt pakke, og at du ikke behøver at bruge tre pakker til tre forskellige opgaver.

Pakken mlr er en grænseflade til adskillige klassificerings- og regressionsteknikker. Teknikkerne inkluderer maskinlæsbare parameterbeskrivelser, klyngedannelse, generisk re-sampling, filtrering, udtrækning af funktioner og mange flere. Der kan også udføres parallelle operationer.

Til installation skal du bruge nedenstående kode:

installere.pakker (“mlr”)

Sådan indlæses denne pakke:

bibliotek (mlr)

Dokumentation

18. arules

Pakken, Arules (Mining Association Rules and Frequent Itemsets), er en udbredt anvendt R-maskinlæringspakke. Ved at bruge denne pakke kan flere operationer udføres. Operationerne er repræsentation og transaktionsanalyse af data og mønstre og datamanipulation. C-implementeringerne af Apriori og Eclat-forenings minedriftsalgoritmer er også tilgængelige.

Dokumentation

19. mboost

En anden R machine learning-pakke til datalogi er mboost. Denne modelbaserede boostingspakke har en funktionel gradientafstigningsalgoritme til optimering af generelle risikofunktioner ved at bruge regressionstræer eller komponentmæssigt estimerede mindste kvadrater. Det giver også en interaktionsmodel til potentielt højdimensionelle data.

Dokumentation

20. parti

En anden pakke i maskinindlæring med R er fest. Denne beregningsværktøjskasse bruges til rekursiv partitionering. Hovedfunktionen eller kernen i denne maskinlæringspakke er ctree (). Det er en meget anvendt funktion, der reducerer træningstiden og bias.

Syntaksen for ctree () er:

ctree (formel, data)

Dokumentation

Afslutter tanker

R er et så fremtrædende programmeringssprog, der bruger statistiske metoder og grafer til at udforske data. Det er overflødigt at sige, at dette sprog har flere antal R-maskinlæringspakker, et utroligt RStudio-værktøj og let forståelig syntaks til udvikling af avancerede maskinlæringsprojekter. I en R ml-pakke er der nogle standardværdier. Før du anvender det til dit program, skal du have kendskab til de forskellige muligheder i detaljer. Ved at bruge disse maskinlæringspakker kan enhver opbygge en effektiv maskinlærings- eller datavidenskabsmodel. Endelig er R et open source-sprog, og dets pakker vokser konstant.

Hvis du har forslag eller spørgsmål, bedes du efterlade en kommentar i vores kommentarsektion. Du kan også dele denne artikel med dine venner og familie via sociale medier.