Einmal testen, immer nutzen: Wie Big Data von der Open Data Platform profitieren kann
Zürich – Im Februar 2015 haben sich 15 Unternehmen aus dem Big Data-Umfeld zur Open Data Platform zusammengeschlossen. Die gemeinsame Arbeit trägt bereits Früchte und die Mitglieder zeigen erste Ergebnisse.
Big Data ist einer der zentralen IT-Trends des 21. Jahrhunderts und stellt die Branche vor spannende Herausforderungen. Eine der Kernaufgaben der IT wird in Zukunft darin bestehen, passende Tools für die Verwaltung der stetig wachsenden Datenmengen zu entwickeln und die Daten zugänglich zu machen, um daraus intelligente und vorausschauende Ergebnisse und Einsichten zu gewinnen. Denn Daten sind die neue Unternehmenswährung mit Zukunftspotenzial. Unternehmen, die in der Lage sind, die richtigen Daten zusammenzubringen und gewinnbringend auszuwerten, haben einen enormen Wettbewerbsvorteil.
Computing-Aufgaben auf tausende von Rechnerknoten verteilen
Für die Verwaltung von Big Data wurden bereits Werkzeuge entwickelt, die hauptsächlich auf Hadoop Distributionen basieren. Dabei handelt es sich um ein in Java programmiertes Software-Framework, mit dessen Hilfe Anwender rechenintensive Prozesse mit grossen Datenmengen auf Server-Clustern abarbeiten können. Applikationen haben mit Hilfe von Hadoop Distributionen die Möglichkeit, komplexe Computing-Aufgaben auf tausende von Rechnerknoten zu verteilen und Datenvolumina im Petabyte-Bereich zu verarbeiten. Unternehmen, die Hadoop Distributionen einsetzen möchten, stehen jedoch vor der Frage, welche Hadoop-Komponenten und -Versionen sich für ihre Ansprüche am besten eignen. Mehrere Unternehmen haben sich nun zusammengeschlossen, um die Kernkomponente ihrer Big Data-Lösungen, Apache Hadoop, zu konsolidieren und eine Fragmentierung zu verhindern.
Mehrfache Entwicklungsarbeiten mit der Open Data Platform vermeiden
Mitte Februar dieses Jahres kündigten branchenführende Unternehmen aus dem Big Data-Bereich – darunter Pivotal, IBM, General Electric, Infosys, SAS, Altiscale, Capgemini, Centurylink, EMC, PLDT, Splunk, Teradata, Verizon, VMware und Wandisco und Hortonworks – gemeinsam die Open Data Platform (ODP) an. Bei der Plattform handelt es sich um eine Reihe von Softwarekomponenten und Open Source-Tools, welche die Branche nutzen kann, um Lösungen sowie interne, datengesteuerte Applikationen zu entwickeln. Ziel der Initiative ist eine Referenzplattform auf Basis von Apache Hadoop 2.6 (inklusive HDFS, YARN und MapReduce) und Apache Ambari 2.0 sowie weiteren Apache Big Data-Projekten. Ausserdem gehören durch die Entwicklung eines allgemein gültigen Hadoop-Referenz-Kerns Kompatibilitätsprobleme der Vergangenheit an. Mehrfache Entwicklungsarbeiten sind nicht mehr nötig, sodass die Devise gilt „Test once, use everywhere“.
Beschleunigung der Innovationsprozesse und der Bereitstellung von Big Data-Lösungen
Durch die Konsolidierung wird die Weiterentwicklung von Big Data-Lösungen vereinheitlicht und die Hadoop Distribution zu einer standardisierten, berechenbaren und ausgereiften Lösung. Die gemeinsame Plattform beschleunigt Innovationsprozesse und die Bereitstellung von Big Data-Lösungen. Kunden können in Zukunft Erweiterungen verschiedener Hersteller nutzen, denn durch die vereinheitlichten Kernkomponenten laufen die Lösungen systemunabhängig. Unternehmen haben so die Möglichkeit, sich künftig wieder auf den Einsatz und die Entwicklung ihrer datengesteuerten Anwendungen zu konzentrieren und damit wichtige Erkenntnisse zu gewinnen. Craig Rubendall, Vice President of Platform R&D bei SAS, kommentiert in einem Blogpost: „Die unterschiedlichen Komponenten und Versionen bisheriger Hadoop-Distributionen führten dazu, dass sehr viel Zeit notwendig war, um sicher zu stellen, dass bestehende Entwicklungen funktionieren anstatt Weiterentwicklungen und Verbesserungen voranzutreiben. Für Big Data-Lösungsanbieter bedeutet die Vereinheitlichung durch die Open Data Platform, dass sie Hadoop-Lösungen nur einmal testen und verifizieren müssen – und nicht für jede Distribution gesondert.“
Wahlfreiheit für die Anwender
Ein anschauliches und beeindruckendes Beispiel, wie die Open Data Platform-Initiative das Big Data Ökosystem verändert, zeigen auch die gemeinsamen Aktivitäten von Pivotal und Hortonworks rund um Hadoop, die auch den Ausgangspunkt für den Open Data Platform Core in vielerlei Hinsicht bildete. Ziel dieser Zusammenarbeit ist die Interoperabilität verschiedener Analytics-Tools und -Frameworks auf unterschiedlichen Plattformen und Innovationen auf Open Source-Basis. So haben Unternehmen jetzt die Wahl, entweder Pivotal HD oder die Hortonworks Data Platform (HDP) mit den Komponenten der Pivotal Big Data Suite 2.0 einzusetzen. Vorher konnten Kunden, welche die Hortonworks Data Platform nutzten, nicht auf die wichtigsten Komponenten der Pivotal Big Data Suite zugreifen: auf HAWQ – die SQL on Hadoop- Engine, auf Pivotal GemFire – die NoSQL In-Memory-Datenbank oder auf Pivotals Data Store für Analysen, die Greenplum Database. Durch die Gründung der ODP und den Zusammenschluss zwischen Pivotal und Hortonworks können Unternehmen die Infrastruktur ihrer Wahl aufbauen und sie werden dabei von führenden Anbietern unterstützt.
Apache Software Foundation übernimmt Schirmherrschaft
Die Mitglieder der Open Data Platform arbeiten direkt mit laufenden Apache-Projekten zusammen und halten sich dabei an die Richtlinien der Apache Software Foundation (ASF). Die ASF, eine ehrenamtlich arbeitende Organisation zur Förderung der Apache-Softwareprojekte, übernimmt die Schirmherrschaft für die Entwicklung der Softwarekomponenten. Da sich die ASF auf den Erfolg individueller Projekte konzentriert und nicht vorschreibt, wie mehrere Projekte zusammenwirken und miteinander interagieren sollen, vervollständigt die ODP die ASF. Denn sie fokussiert sich auf die Unternehmensanforderungen, welche die ASF-Projekte und weitere Big Data-Technologien umfassen. Die Mitglieder der ODP vereint ein Gedanke: die Zukunft der Branche liegt in Open Source. Auch die ASF teilt diesen Gedanken und hat in der Vergangenheit bereits große Anstrengungen zur Förderung von Open Source unternommen.
Schnelle Erfolge und gute Wachstumsprognosen
Bereits zwei Monate nach der Ankündigung der Open Data Platform verkündeten Pivotal, Hortwonworks und IBM auf dem Hadoop Summit Europe 2015 in Brüssel, dass sie ihre jeweiligen Hadoop-Angebote Infosys Information Platform, Hortonworks Data Platform 2.2, IBM Open Platform 4.0 mit Apache Hadoop und Pivotal HD 3.0 alle auf den gemeinsamen ODP-Kern abgestimmt haben.
Sobald sich die ODP-Mitglieder und -Prozesse arrangiert bzw. etabliert haben, sollen nacheinander weitere Produkte unter Open Source-Lizenz gestellt werden. Auch weitere Unternehmen scheinen den Mehrwert erkannt zu haben, den die Open Data Platform bietet. So gaben gleich neun Unternehmen ihren Beitritt zur Plattform bekannt: BMC, DataTorrent, PLDT, Squid Solutions, Syncsort, Telstra, Unifi, zData, Zettaset. Die Open Data Platform scheint den Nerv der Zeit getroffen zu haben. IDC prognostizierte Big Data in den kommenden Jahren eine rosige Zukunft: bis 2018 soll der Markt um 24,6 Prozent auf 6,9 Milliarden US-Dollar wachsen. 2013 war der Markt noch 2,9 Milliarden US-Dollar wert. Bei diesem Wachstum ist es umso wichtiger, dass qualitativ hochwertige Lösungen schnell und effizient entwickelt werden können. (Pivotal/mc/hfu)