Python Seaborn Tutorial

I denne lektion om Python Seaborn-biblioteket vil vi se på forskellige aspekter af dette datavisualiseringsbibliotek, som vi kan bruge sammen med Python til at generere smukke og intuitive grafer, der kan visualisere data i en form, som virksomheden ønsker fra en platform. For at gøre denne lektion færdig vil vi dække følgende afsnit:

Hvad er Python Seaborn?
Typer af plot, vi kan konstruere med Seaborn
Arbejde med flere plot
Nogle alternativer til Python Seaborn

Dette ligner meget at dække. Lad os komme i gang nu.

Hvad er Python Seaborn-bibliotek?

Seaborn-biblioteket er en Python-pakke, der giver os mulighed for at lave infografik baseret på statistiske data. Da det er lavet oven på matplotlib, er det iboende kompatibelt med det. Derudover understøtter den NumPy og Pandas datastruktur, så plotting kan udføres direkte fra disse samlinger.

Visualisering af komplekse data er en af de vigtigste ting Seaborn tager sig af. Hvis vi sammenlignede Matplotlib med Seaborn, er Seaborn i stand til at gøre de ting lette, som er svære at opnå med Matplotlib. Det er dog vigtigt at bemærke det Seaborn er ikke et alternativ til Matplotlib, men et supplement til det. I løbet af denne lektion vil vi også bruge Matplotlib-funktionerne i kodestykkerne. Du vælger at arbejde med Seaborn i følgende brugstilfælde:

Du har statistiske tidsseriedata, der skal plottes med repræsentation af usikkerhed omkring estimaterne
At visuelt fastslå forskellen mellem to undersæt af data
At visualisere de univariate og bivariate distributioner
Tilføjelse af meget mere visuel hengivenhed til matplotlib-plotene med mange indbyggede temaer
At tilpasse og visualisere maskinindlæringsmodeller gennem lineær regression med uafhængige og afhængige variabler

Bare en note før start er, at vi bruger et virtuelt miljø til denne lektion, som vi lavede med følgende kommando:

python -m virtualenv seaborn
kilde seaborn / bin / aktivere

Når det virtuelle miljø er aktivt, kan vi installere Seaborn-biblioteket i den virtuelle env, så eksempler, vi opretter næste, kan udføres:

pip installere søfødt

Du kan også bruge Anaconda til at køre disse eksempler, hvilket er lettere. Hvis du vil installere det på din maskine, skal du se på lektionen, der beskriver “Sådan installeres Anaconda Python på Ubuntu 18.04 LTS ”og del din feedback. Lad os nu gå videre til forskellige typer af plot, der kan konstrueres med Python Seaborn.

Brug af Pokemon-datasæt

For at holde denne lektion praktisk, bruger vi Pokemon-datasæt, som kan downloades fra Kaggle. For at importere dette datasæt til vores program bruger vi Pandas-biblioteket. Her er alle de importer, vi udfører i vores program:

importer pandaer som pd
fra matplotlib importer pyplot som plt
importere søfødte som sns

Nu kan vi importere datasættet i vores program og vise nogle af eksempeldataene med Pandas som:

df = pd.read_csv ('Pokemon.csv ', index_col = 0)
df.hoved()

Bemærk, at for at køre ovenstående kodestykke skal CSV-datasættet være til stede i samme bibliotek som selve programmet. Når vi kører ovenstående kodestykke, ser vi følgende output (i Anaconda Jupyters notesbog):

Tegning af lineær regressionskurve

En af de bedste ting ved Seaborn er de intelligente plotningsfunktioner, den giver, som ikke kun visualiserer datasættet, vi leverer til det, men også konstruerer regressionsmodeller omkring det. For eksempel er det muligt at konstruere et lineært regressionsdiagram med en enkelt kodelinje. Sådan gør du:

sns.lmplot (x = 'Attack', y = 'Defense', data = df)

Når vi kører ovenstående kodestykke, ser vi følgende output:

Vi bemærkede få vigtige ting i ovenstående kodestykke:

Der er dedikeret plottefunktion tilgængelig i Seaborn
Vi brugte Seaborns tilpasnings- og plottefunktion, som gav os en lineær regressionslinie, som den modellerede selv

Vær ikke bange, hvis du troede, at vi ikke kan have et plot uden den regressionslinie. Vi kan ! Lad os prøve et nyt kodestykke nu, svarende til det sidste:

sns.lmplot (x = 'Attack', y = 'Defense', data = df, fit_reg = False)

Denne gang vil vi ikke se regressionslinjen i vores plot:

Nu er dette meget mere klart (hvis vi ikke har brug for den lineære regressionslinie). Men dette er ikke bare forbi endnu. Seaborn giver os mulighed for at gøre forskellige dette plot, og det er det, vi vil gøre.

Konstruktion af kasseregler

En af de største træk i Seaborn er, hvordan den let accepterer Pandas Dataframes-struktur til plotdata. Vi kan simpelthen sende en dataframe til Seaborn-biblioteket, så den kan konstruere en boksplot ud af den:

sns.boxplot (data = df)

Når vi kører ovenstående kodestykke, ser vi følgende output:

Vi kan fjerne den første aflæsning af total, da det ser lidt akavet ud, når vi faktisk plotter individuelle kolonner her:

stats_df = df.drop (['Total'], akse = 1)
# Ny boxplot ved hjælp af stats_df
sns.boxplot (data = stats_df)

Når vi kører ovenstående kodestykke, ser vi følgende output:

Sværm plot med Seaborn

Vi kan konstruere et intuitivt design sværm plot med Seaborn. Vi bruger igen dataframe fra Pandaer, som vi indlæste tidligere, men denne gang kalder vi Matplotlibs showfunktion for at vise det plot, vi lavede. Her er kodestykket:

sns.set_context ("papir")
sns.sværmplot (x = "Attack", y = "Defense", data = df)
plt.at vise()

Når vi kører ovenstående kodestykke, ser vi følgende output:

Ved at bruge en Seaborn-kontekst tillader vi Seaborn at tilføje et personligt præg og et flydende design til plottet. Det er muligt at tilpasse dette plot yderligere med brugerdefineret skriftstørrelse, der bruges til etiketter i plottet for at gøre læsningen lettere. For at gøre dette vil vi videregive flere parametre til set_context-funktionen, som fungerer ligesom hvad de lyder. For eksempel for at ændre etiketernes skriftstørrelse bruger vi skrifttypen.størrelse parameter. Her er kodestykket til ændring:

sns.set_context ("papir", font_scale = 3, rc = "skrifttype.størrelse ": 8," akser.labelsize ": 5)
sns.sværmplot (x = "Attack", y = "Defense", data = df)
plt.at vise()

Når vi kører ovenstående kodestykke, ser vi følgende output:

Skriftstørrelsen for etiketten blev ændret baseret på de parametre, vi leverede, og den værdi, der er knyttet til skrifttypen.størrelse parameter. Én ting Seaborn er ekspert på er at gøre plottet meget intuitivt til praktisk brug, og det betyder, at Seaborn ikke kun er en praksis Python-pakke, men faktisk noget, vi kan bruge i vores produktionsinstallationer.

Tilføjelse af en titel til plot

Det er let at tilføje titler til vores plot. Vi skal bare følge en simpel procedure for at bruge Axes-niveau-funktionerne, hvor vi kalder sæt_titel () fungerer som vi viser i kodestykket her:

sns.set_context ("papir", font_scale = 3, rc = "skrifttype.størrelse ": 8," akser.labelsize ": 5)
my_plot = sns.sværmplot (x = "Attack", y = "Defense", data = df)
min_plot.set_title ("LH Swarm Plot")
plt.at vise()

Når vi kører ovenstående kodestykke, ser vi følgende output:

På denne måde kan vi tilføje meget mere information til vores plot.

Seaborn vs Matplotlib

Da vi så på eksemplerne i denne lektion, kan vi identificere, at Matplotlib og Seaborn ikke kan sammenlignes direkte, men de kan ses som et supplement til hinanden. En af de funktioner, der tager Seaborn 1 skridt foran, er den måde, Seaborn kan visualisere data statistisk på.

For at få det bedste ud af Seaborn-parametre, anbefaler vi stærkt at se i Seaborn-dokumentationen og finde ud af, hvilke parametre der skal bruges til at gøre din plot så tæt på forretningsbehov som muligt.

Konklusion

I denne lektion kiggede vi på forskellige aspekter af dette datavisualiseringsbibliotek, som vi kan bruge sammen med Python til at generere smukke og intuitive grafer, der kan visualisere data i en form, som virksomheden ønsker fra en platform. Seaborm er et af de vigtigste visualiseringsbiblioteker, når det kommer til datateknik og præsentation af data i de fleste visuelle former, bestemt en færdighed, vi skal have under bæltet, da det giver os mulighed for at opbygge lineære regressionsmodeller.

Del din feedback på lektionen på Twitter med @sbmaggarwal og @LinuxHint.