Cases
bpsolutions-header_img
Haga Ziekenhuis voorspelt wachttijden Op Spoedeisdende hulp
Cases
61603ac5-0488-47db-98cf-eeb83ac5b6bc
Een nieuwe back-up oplossing: De laatste verdedigingslinie
Cases
14abb5d6-2ee3-4efc-a6d1-c8738c612753
Van Duuren informeert klanten beter over vertraging dankzij ai-voorspelling
Apache Hadoop

Apache Hadoop

Apache Hadoop is open-source software waarmee applicaties data in een gedistribueerde omgeving kunnen verwerken. Grote datasets kunnen in kleinere blokken worden opgedeeld en verspreid over meerdere computers zodat deze parallel verwerkt kunnen worden.

De basiscomponenten van Apache Hadoop zijn het Hadoop Distributed File System (HDFS) voor de opslag van data en het Map Reduce (M/R) framework voor het bewerken en analyseren van deze data. HDFS verdeelt de data in secties voor gebruik of verwerking, maar zorgt ook voor redundantie zodat er niets kwijtraakt als er een disk of zelfs complete computer uitvalt.

De data hoeft niet gestructureerd te zijn, wat Hadoop ideaal maakt voor het opslaan en analyseren van data uit bronnen als social media, documenten en grafieken. Apache Hadoop is met de Map/Reduce aanpak vooral geschikt voor grootschalige batch-verwerking en wordt voor bijvoorbeeld geavanceerde analyses met andere technologieën gecombineerd. Dit heeft geresulteerd in heel ecosysteem van rond Hadoop gebouwde tools en connectoren.

Hortonworks Hadoop Data Platform

Het Hortonworks Data Platform bevat andere tools om te voorzien in bepaalde behoeften. Apache Hive is een SQL dialect en Apache Pig is een dataflow taal om op een hoger abstractie niveau MapReduce jobs te creëren. Apache Zookeeper wordt gebruikt om diensten te federeren en Apache Oozie is een scheduling systeem. Hieronder is schematisch het meest voorkomende deel van het Apache Hadoop ecosystem weergeven gegroepeerd naar de verschillende functies.

Apache Spark

Apache Spark is een open source cluster computing framework waarmee eenvoudig applicaties geschreven kunnen worden in Java, Scala, Python en R. Spark biedt meer dan 80 high-level operators waarmee het eenvoudig is om parallelle apps te bouwen. En het kan interactief gebruikt worden van de Scala, Python en R shells.

Wij werken met Hortonworks Data Platform en IBM BigInsights. Dit zijn ‘Enterprise class’ distributies van Apache Hadoop. Daarnaast leveren we technisch beheer en functioneel beheer voor Apache Hadoop omgevingen, zowel in de Cloud (Amazon, Azure) als on-premise.

Share this article:

Related Articles

De 5 belangrijkste trends in storage

5/12/2023

Embracing the future: Human-centric Cloud Managed Services

18/11/2023

Jean-François Michotte EVP Business Development Belgium

14/11/2023

Digitale transformatie versnellen met hybride cloud

26/09/2023

Zes redenen waarom bedrijven die de cloud omarmen hun concurrenten voorbij streven

24/09/2023

Een nieuwe back-up oplossing: de laatste verdedigingslinie

18/09/2023

BPSOLUTIONS is Suse solution partner

1/02/2023