Installer Apache Hadoop på Ubuntu 17.10!

Apache Hadoop er en big data-løsning til lagring og analyse af store datamængder. I denne artikel beskriver vi de komplekse opsætningstrin for Apache Hadoop for at komme i gang med det på Ubuntu så hurtigt som muligt. I dette indlæg installerer vi Apache Hadoop på en Ubuntu 17.10 maskine.

Ubuntu-version

Til denne vejledning bruger vi Ubuntu version 17.10 (GNU / Linux 4.13.0-38-generisk x86_64).

Opdatering af eksisterende pakker

For at starte installationen til Hadoop er det nødvendigt, at vi opdaterer vores maskine med de nyeste tilgængelige softwarepakker. Vi kan gøre dette med:

sudo apt-get opdatering && sudo apt-get -y dist-upgrade

Da Hadoop er baseret på Java, skal vi installere det på vores maskine. Vi kan bruge enhver Java-version over Java 6. Her bruger vi Java 8:

sudo apt-get -y installer openjdk-8-jdk-headless

Download af Hadoop-filer

Alle de nødvendige pakker findes nu på vores maskine. Vi er klar til at downloade de krævede Hadoop TAR-filer, så vi også kan begynde at konfigurere dem og køre et eksempelprogram med Hadoop.

I denne vejledning installerer vi Hadoop v3.0.1. Download de tilsvarende filer med denne kommando:

wget http: // spejl.cc.columbia.edu / pub / software / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.tjære.gz

Afhængigt af netværkshastigheden kan dette tage op til et par minutter, da filen er stor:

Downloader Hadoop

Find de nyeste Hadoop-binære filer her. Nu hvor vi har downloadet TAR-filen, kan vi udtrække i den aktuelle mappe:

tjære xvzf hadoop-3.0.1.tjære.gz

Dette tager nogle få sekunder at fuldføre på grund af arkivets store filstørrelse:

Hadoop blev arkiveret

Tilføjet en ny Hadoop-brugergruppe

Da Hadoop opererer over HDFS, kan et nyt filsystem også forstyrre vores eget filsystem på Ubuntu-maskinen. For at undgå denne kollision opretter vi en helt separat brugergruppe og tildeler den til Hadoop, så den indeholder sine egne tilladelser. Vi kan tilføje en ny brugergruppe med denne kommando:

addgroup hadoop

Vi vil se noget som:

Tilføjer Hadoop-brugergruppe

Vi er klar til at tilføje en ny bruger til denne gruppe:

useradd -G hadoop hadoopuser

Vær opmærksom på, at alle de kommandoer, vi kører, er som selve rodbrugeren. Med aove-kommandoen kunne vi tilføje en ny bruger til den gruppe, vi oprettede.

For at give Hadoop-brugeren mulighed for at udføre operationer er vi også nødt til at give den rootadgang. Åbn / etc / sudoers fil med denne kommando:

sudo visudo

Før vi tilføjer noget, ser filen ud:

Sudoers arkiverer, før de tilføjer noget

Tilføj følgende linje i slutningen af filen:

hadoopuser ALLE = (ALLE) ALLE

Nu ser filen ud:

Sudoers-fil efter tilføjelse af Hadoop-bruger

Dette var hovedopsætningen for at give Hadoop en platform til at udføre handlinger. Vi er klar til at konfigurere en enkelt node Hadoop-klynge nu.

Hadoop Single Node Setup: Standalone Mode

Når det kommer til den reelle kraft fra Hadoop, er den normalt indstillet på tværs af flere servere, så den kan skaleres oven på en stor mængde datasæt, der findes i Hadoop distribueret filsystem (HDFS). Dette er normalt fint med fejlfindingsmiljøer og bruges ikke til produktionsbrug. For at holde processen enkel, vil vi forklare, hvordan vi kan udføre en enkelt nodeopsætning til Hadoop her.

Når vi er færdige med at installere Hadoop, kører vi også en prøveapplikation på Hadoop. Fra nu af kaldes Hadoop-filen som hadoop-3.0.1. lad os omdøbe det til hadoop til enklere brug:

mv hadoop-3.0.1 hadoop

Filen ser nu ud som:

Flytter Hadoop

Tid til at gøre brug af den hadoop-bruger, vi oprettede tidligere, og tildele ejerskabet af denne fil til den bruger:

chown -R hadoopuser: hadoop / root / hadoop

En bedre placering for Hadoop vil være / usr / local / kataloget, så lad os flytte det der:

mv hadoop / usr / lokal /
cd / usr / lokal /

Tilføjelse af Hadoop til stien

For at udføre Hadoop-scripts tilføjer vi det til stien nu. For at gøre dette skal du åbne bashrc-filen:

vi ~ /.bashrc

Tilføj disse linjer til slutningen af .bashrc-fil, så stien kan indeholde Hadoop-eksekverbare filsti:

# Konfigurer Hadoop og Java Home
eksporter HADOOP_HOME = / usr / local / hadoop
eksporter JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
eksporter PATH = $ PATH: $ HADOOP_HOME / bin

Filen ser ud som:

Tilføjelse af Hadoop til stien

Da Hadoop bruger Java, skal vi fortælle Hadoop-miljøfilen hadoop-env.sh hvor det er placeret. Placeringen af denne fil kan variere afhængigt af Hadoop-versioner. For let at finde, hvor denne fil er placeret, skal du køre følgende kommando lige uden for Hadoop-biblioteket:

find hadoop / -navn hadoop-env.sh

Vi får output for filplaceringen:

Placering af miljøfil

Lad os redigere denne fil for at informere Hadoop om Java JDK-placeringen og indsætte denne på den sidste linje i filen og gemme den:

eksporter JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64

Hadoop installation og opsætning er nu afsluttet. Vi er klar til at køre vores prøveapplikation nu. Men vent, vi har aldrig lavet en prøveansøgning!

Kører prøveapplikation med Hadoop

Faktisk kommer Hadoop-installationen med en indbygget prøveapplikation, der er klar til at køre, når vi er færdige med installation af Hadoop. Det lyder godt, ikke?

Kør følgende kommando for at køre JAR-eksemplet:

hadoop jar / rod / hadoop / del / hadoop / mapreduce / hadoop-mapreduce-eksempler-3.0.1.jar wordcount / root / hadoop / README.txt / root / output

Hadoop vil vise, hvor meget behandling det gjorde ved noden:

Hadoop-behandlingsstatistik

Når du udfører følgende kommando, ser vi filen del-r-00000 som en output. Gå videre og se på indholdet af output:

kat del-r-00000

Du får noget som:

Word Count output af Hadoop

Konklusion

I denne lektion kiggede vi på, hvordan vi kan installere og begynde at bruge Apache Hadoop på Ubuntu 17.10 maskine. Hadoop er fantastisk til lagring og analyse af store mængder data, og jeg håber, at denne artikel hjælper dig med at komme hurtigt i gang med at bruge det på Ubuntu.