Denne artikel giver dig et glimt af fem populære open source-værktøjer, der kan bruges til at skabe en platform for dataanalyse.

Big data er data i rækkefølgen af terabyte eller petabytes og derover, der består af minedrift, analyse og forudsigelig modellering af store datasæt. Den hurtige vækst i information og teknologisk udvikling har givet en enestående mulighed for enkeltpersoner og virksomheder over hele verden til at få overskud og udvikle nye muligheder, der omdefinerer traditionelle forretningsmodeller ved hjælp af analyser i stor skala.

Denne artikel giver et fugleperspektiv på fem af de mest populære open source-dataplatforme. Her er vores liste:

Apache Hadoop

Apache Hadoop er en open source-softwareplatform, der behandler meget store datasæt i et distribueret miljø med hensyn til lager- og beregningskraft og er hovedsageligt bygget på hardware til lav pris.

Apache Hadoop er designet til let at skalere op fra nogle få til tusinder af servere. Det hjælper dig med at behandle lokalt lagrede data i en samlet parallelbehandlingsopsætning. En af fordelene ved Hadoop er, at den håndterer fiasko på softwareniveau. Følgende figur illustrerer Hadoop-økosystemets overordnede arkitektur, og hvor de forskellige rammer er inden for det:

Apache Hadoop giver en ramme for filsystemlaget, klyngestyringslaget og behandlingslaget. Det giver mulighed for, at andre projekter og rammer kan komme og arbejde sammen med Hadoop Ecosystem og udvikle deres egen ramme for ethvert af de lag, der er tilgængelige i systemet.

Apache Hadoop består af fire hovedmoduler. Disse moduler er Hadoop Distributed File System (filsystemlaget), Hadoop MapReduce (som fungerer med både klyngestyring og behandlingslaget), Yet Another Resource Negotiator (YARN, klyngestyringslaget) og Hadoop Common.

Elastiksøgning

Elasticsearch er en fuld tekstbaseret søge- og analysemaskine. Det er et meget skalerbart og distribueret system, specielt designet til at arbejde effektivt og hurtigt med big data-systemer, hvor et af de vigtigste anvendelsessager er loganalyse. Det er i stand til at udføre avancerede og komplekse søgninger og næsten realtidsbehandling til avanceret analyse og operationel intelligens.

Elasticsearch er skrevet på Java og er baseret på Apache Lucene. Udgivet i 2010, og det blev hurtigt populært på grund af sin fleksible datastruktur, skalerbare arkitektur og meget hurtige svartid. Elasticsearch er baseret på et JSON-dokument med en skemafri struktur, der gør vedtagelse nem og problemfri. Det er en af de mest populære søgemaskiner i virksomhedsklasse. Du kan skrive sin klient på ethvert programmeringssprog; Elasticsearch arbejder officielt med Java, .NET, PHP, Python, Perl og så videre.

Elasticsearch interagerer hovedsageligt ved hjælp af en REST API. Det får data i form af JSON-dokumenter med alle de krævede parametre og giver deres svar på en lignende måde.

MongoDB

MongoDB er en NoSQL-database baseret på dokumentlagermodellen. I MongoDB er alt enten samling eller dokument. For at forstå MongoDB-terminologi er samling et alternativt ord for tabel, mens dokument er et alternativt ord for rækker.

MongoDB er en open source, dokumentorienteret og platformoverskridende database. Det er primært skrevet i C++. Det er også den førende NoSQL-database, der giver høj ydeevne, høj tilgængelighed og let skalerbarhed. MongoDB bruger JSON-lignende dokumenter med skema og giver en rig forespørgselssupport. Nogle af de vigtigste funktioner inkluderer indeksering, replikering, belastningsafbalancering, sammenlægning og lagring af filer.

Cassandra

Cassandra er et open source Apache-projekt designet til NoSQL-databasestyring. Cassandra-rækker er organiseret i tabeller og indekseret af en nøgle. Det bruger en log-baseret lagringsmotor, der kun er tilføjet. Data i Cassandra fordeles på flere masterløse noder uden et enkelt fejlpunkt. Det er et top-niveau Apache-projekt, og dets udvikling overvåges i øjeblikket af Apache Software Foundation (ASF).

Cassandra er designet til at løse problemer i forbindelse med drift i stor skala (web). I betragtning af Cassandras mesterløse arkitektur er den i stand til at fortsætte med at udføre operationer på trods af et lille (om end betydeligt) antal hardwarefejl. Cassandra løber på tværs af flere noder på tværs af flere datacentre. Det replikerer data på tværs af disse datacentre for at undgå fejl eller nedetid. Dette gør det til et meget fejltolerant system.

Cassandra bruger sit eget programmeringssprog til at få adgang til data på tværs af sine noder. Det kaldes Cassandra Query Language eller CQL. Det svarer til SQL, som hovedsagelig bruges af Relational Databases. CQL kan bruges ved at køre sin egen applikation kaldet cqlsh. Cassandra giver også mange integrationsgrænseflader til flere programmeringssprog til at oprette en applikation ved hjælp af Cassandra. Dens integrations-API understøtter Java, C ++, Python og andre.

Apache HBase

HBase er et andet Apache-projekt designet til at styre NoSQL-datalageret. Det er designet til at gøre brug af Hadoop Ecosystems funktioner, herunder pålidelighed, fejltolerance osv. Det bruger HDFS som et filsystem til lagringsformål. Der er flere datamodeller, som NoSQL arbejder med, og Apache HBase tilhører den kolonneorienterede datamodel. HBase var oprindeligt baseret på Google Big Table, som også er relateret til den søjleorienterede model for ustrukturerede data.

HBase gemmer alt i form af et nøgleværdipar. Den vigtige ting at bemærke er, at i HBase er en nøgle og en værdi i form af bytes. Så for at gemme enhver information i HBase skal du konvertere information til byte. (Med andre ord accepterer dets API ikke andet end byte-array.) Vær forsigtig med HBase, som når du gemmer data, skal du huske dens oprindelige type. Data, der oprindeligt var en streng, returneres som et byte-array, hvis de genkaldes forkert. Som et resultat opretter det en fejl i din applikation og går ned på din applikation.

Håber du nød denne artikel. Hvis du ønsker at arkitektere og designe dataintensive applikationer, kan du udforske Anuj Kumars Arkitektur Dataintensive applikationer. Det her Bestil er din gateway til at opbygge smarte dataintensive systemer ved at inkorporere de kerne dataintensive arkitektoniske principper, mønstre og teknikker direkte i din applikationsarkitektur.

5 Open Source Big Data-platforme

Apache Hadoop

Elastiksøgning

MongoDB

Cassandra

Apache HBase