Nitin Kunal, Direktor Softwareentwicklung (MySQL HeatWave) bei Oracle, im Interview

Nitin Kunal, Direktor Softwareentwicklung (MySQL HeatWave) bei Oracle, im Interview
Nitin Kunal, Direktor Softwareentwicklung (MySQL HeatWave), Oracle (Bild: Helmuth Fuchs)

Von Helmuth Fuchs

Moneycab: Herr Kunal, MySQL HeatWave hat das Potenzial, den Bedarf an einer separaten Analysedatenbank, separaten Werkzeugen für maschinelles Lernen (ML) und ETL-Duplikationsumgebungen (Extrahieren, Transformieren und Laden) zu eliminieren, da es all diese Funktionen als Cloud-Dienst mit einem In-Memory-Beschleuniger bereitstellt. Wer ist die primäre Zielgruppe für MySQL HeatWave, inwieweit könnte es das Oracle-Datenbankgeschäft kannibalisieren?

Nitin Kunal: Das ist eine Frage, die wir oft hören, sowohl innerhalb als auch ausserhalb von Oracle.
Die MySQL-Datenbank ist die beliebteste und am häufigsten heruntergeladene Datenbank der Welt. Jeder, der mit einer Datenbank anfangen will, sei es ein Startup, das seine Daten verwalten will, oder ein Student, lädt sich MySQL herunter und fängt an, es zu benutzen.

«Wir haben in MySQL HeatWave nahezu Echtzeit-Analysefähigkeiten hinzugefügt, wir haben auf maschinellem Lernen basierende AutoPilot-Funktionen, wir haben die Möglichkeit, ML-Training und Inferenz durchzuführen, ohne Daten aus MySQL zu entnehmen.» Nitin Kunal, Direktor Softwareentwicklung (MySQL HeatWave), Oracle

Mit MySQL HeatWave wollen wir den weltweit besten Cloud-Dienst für MySQL-Datenbanken anbieten. Für eine Anwendung ist MySQL HeatWave immer noch eine MySQL-Datenbank, sie ist zu 100% kompatibel mit der Community-Version von MySQL, aber gleichzeitig ist sie vollgepackt mit Technologien und Funktionen, die aus mehreren Jahren Innovation resultieren. Durch diese Innovationen und Funktionen der Unternehmensklasse hebt sich MySQL HeatWave nicht nur von anderen MySQL-Diensten, sondern auch von anderen Cloud-Datenbankdiensten dieser Klasse ab. Selbst wenn es uns gelingt, nur einen kleinen Teil der bestehenden MySQL-Nutzer zu gewinnen und sie zur Nutzung von MySQL HeatWave zu bewegen, sprechen wir von einem riesigen Potential.

Dann haben wir die zweite Art von Datenbank- und Datenverarbeitungsplattform-Nutzern, die verschiedene Arten von allgemeinen und spezialisierten Plattformen und Diensten verwenden, z. B. Postgres, Redshift, Snowflake usw. Für einen Zweck verwenden sie die Datenbank X, für andere Zwecke die Datenbank Y und so weiter. Wir möchten ihnen helfen, ihre Kosten zu senken und ihre Erfahrungen zu verbessern, indem sie ihre Datenverarbeitungsplattformen mit Hilfe von MySQL HeatWave konsolidieren. Wir haben eine Menge Kunden, die in diese Kategorie fallen.

Die Oracle-Datenbank selbst ist eine der fortschrittlichsten Datenbanken der Welt. Wir haben sie über einen Zeitraum von 40 Jahren entwickelt. Im Vergleich zu anderen Open-Source-Datenbanken deckt Oracle DB eine grosse Bandbreite an Anwendungsfällen ab. Deshalb glaube ich nicht, dass MySQL HeatWave mit der Oracle DB konkurriert. Das Geschäft von MySQL HeatWave konzentriert sich hauptsächlich auf die beiden zuvor erwähnten Arten von Unternehmen. Oracle hat sein eigenes Geschäft, seine eigenen Zielkunden.

Unterstützt HeatWave sowohl die OpenSource-Version von MySQL, als auch die lizenzierte Version vollständig, oder welche Einschränkungen sind bekannt?

Der Funktionsumfang des MySQL HeatWave-Dienstes ist eine Obermenge der Funktionen, die in den MySQL Community- und Enterprise-Versionen verfügbar sind. Das ist nur vom Standpunkt der reinen MySQL-Funktionen aus gesehen.

Darüber hinaus haben wir in MySQL HeatWave nahezu Echtzeit-Analysefähigkeiten hinzugefügt, wir haben auf maschinellem Lernen basierende AutoPilot-Funktionen, wir haben die Möglichkeit, ML-Training und Inferenz durchzuführen, ohne Daten aus MySQL zu entnehmen. Um Ihnen ein Beispiel zu geben: Die gleichen analytischen Abfragen laufen auf MySQL HeatWave 1’000 mal schneller als auf der MySQL Community- oder Enterprise-Version. Aufgrund unserer auf maschinellem Lernen basierenden Automatisierungs- oder AutoPilot-Funktionen sind sogar die reinen OLTP- oder gemischten Arbeitslasten in MySQL HeatWave denjenigen der Community- und Enterprise-Versionen überlegen.

Zusammenfassend lässt sich sagen, dass MySQL HeatWave vollständig mit der Community-Version von MySQL kompatibel ist. In Bezug auf die Funktionen ist MySQL HeatWave eine Übermenge der Kernfunktionen, die in der Community- und Enterprise-Version verfügbar sind, und darüber hinaus haben wir extrem leistungsfähige und benutzerfreundliche Enterprise-Funktionen hinzugefügt.

Das heisst, wenn ich die Open-Source-Version besitze, kann ich in gleicher Weise von HeatWave profitieren wie mein Kollege, der die lizenzierte Version besitzt?

Ja, genau. Sie brauchen Ihre Anwendung nicht zu ändern. Sie bringen Ihre Anwendung einfach hierher, und schon können Sie alle Vorteile nutzen. Sie müssen keine MySQL- oder Datenbankexperten mehr einstellen; Sie müssen keine Machine-Learning-Experten einstellen, wenn Sie HeatWave verwenden. Und Sie müssen auch nichts tun, um Ihre Abfragen zu beschleunigen, da sie automatisch schneller laufen werden.

HeatWave bettet die Fähigkeiten des maschinellen Lernens in MySQL HeatWave AutoML ein. Welche quantifizierbaren Vorteile ergeben sich für Entwickler, und wie lassen sich die Ergebnisse am besten auf ihre Korrektheit und Genauigkeit hin überprüfen?

Für die Entwickler bedeutet MySQL HeatWave AutoML in erster Linie, dass sie sich nicht mit einem weiteren System befassen müssen, bei dem sie die Daten aus der Datenbank extrahieren und darauf ein maschinelles Lerntraining durchführen müssen. Das ist eine Sache, die für Entwickler einen greifbaren Vorteil darstellt.

Der zweite Vorteil für die Benutzer besteht darin, dass sie keine Experten hinzuziehen müssen, die den Suchraum erkunden und das richtige maschinelle Lernmodell für den jeweiligen Anwendungsfall auswählen. Und schliesslich müssen die Endbenutzer oder Experten nicht stundenlang ihre wertvolle Zeit damit verbringen, die Parameter für die ausgewählten maschinellen Lernmodelle einzustellen. Die Endbenutzer müssen die Daten nicht auslesen, was zu einer Einsparung bei den Systemkosten und den Kosten für die Einstellung von Experten und deren Anwesenheit führt. Da die gesamte Verarbeitung innerhalb des MySQL Heatwave-Clusters stattfindet, ist sie hochgradig parallel und fast 20 Mal schneller als die ML-Verarbeitung von Redshift.

«Für die Entwickler bedeutet MySQL HeatWave AutoML in erster Linie, dass sie sich nicht mit einem weiteren System befassen müssen, bei dem sie die Daten aus der Datenbank extrahieren und darauf ein maschinelles Lerntraining durchführen müssen.»

Und am Ende dieser ML-Verarbeitung erhalten sie Genauigkeitsbewertungen und zusätzliche Informationen über die Modelle. Ausserdem müssen sie die Modelle nicht selbst verwalten, die sie sonst irgendwo aufbewahren und speichern müssten. Die Modelle werden in der Datenbank gespeichert. Die Datenbank, die für die Haltung der regulären Daten verwendet wird, sorgt nun auch für die Haltung der ML-Modelle. Insgesamt ist also eine enorme Verringerung der Entwicklungszeit und -kosten zu verzeichnen.

Wie trainieren Sie die Modelle? Haben Sie branchenspezifische Modelle für Banken, Versicherungsgesellschaften oder Einzelhändler?

Es gibt verschiedene Klassen von Problemen, die mit Machine Learning (ML) gelöst werden können, z. B. kann ML für Umsatzprognosen im Einzelhandel oder für die Lösung von Klassifizierungsproblemen in der medizinischen Forschung verwendet werden. So lassen sich Probleme aus jeder Branche oder Vertikalen auf ein ML-Standardproblem abbilden. MySQL HeatWave ist in der Lage, auf Benutzerdaten verschiedene Modelle parallel zu trainieren und abzustimmen, und am Ende des Prozesses wird das am besten geeignete Modell aus den Benutzerdaten als endgültiges Modell ausgewählt.

Da MySQL HeatWave als Cloud-Dienstleistung angeboten wird, stellt sich die Frage, was Kunden tun, die ihre Arbeitslasten oder Daten nicht in eine öffentliche Cloud verlagern wollen?

Lassen Sie mich diese Frage in zwei Schritten beantworten. Alle Unterscheidungsmerkmale von MySQL HeatWave wie OLAP, integriertes maschinelles Lernen oder End-to-End-Automatisierung, über die ich gesprochen habe, sind stark von der Cloud-Infrastruktur abhängig, die wir haben. Und warum? Die Algorithmen, die wir für die Analytik geschrieben haben, sind genau auf die CPUs zugeschnitten, auf denen wir sie in der Cloud ausführen. Die Algorithmen von MySQL HeatWave sind in hohem Masse für die von uns genutzte Cloud-Plattform optimiert; wären sie nicht in diesem Masse optimiert, könnten wir die Kosten nicht so einsparen, wie wir es tun. Wenn wir diese Software Ihnen oder einer Open-Source-Plattform zur Verfügung stellen, wird das nicht die gleichen Vorteile bringen.

Ein weiterer Faktor ist, dass viele der von uns durchgeführten Automatisierungen auf maschinellem Lernen beruhen und datengesteuert sind. In der Cloud haben wir die Möglichkeit, Statistiken und Telemetriedaten in viel grösserem Umfang zu sammeln; wir können die gesammelten Statistiken, Informationen und Telemetriedaten an das System zurückgeben, um seine Benutzerfreundlichkeit zu verbessern. Das ist bei einem Vor-Ort-System nicht möglich.

Aus diesen beiden Gründen sind die Lösungen, die wir haben, eng an die Cloud gebunden. Wir wissen, dass diese Software nicht vor Ort eingesetzt werden kann, aber wir haben etwas, das wir «Inbound-Replikation» nennen, für Benutzer, die ihre primäre Datenbank nicht in die Cloud verlagern wollen. Einige Nutzer möchten ihre geschäftskritische Primärdatenbank nicht anrühren, so dass sie ihre Primärdatenbank vor Ort ohne Unterbrechung weiter nutzen können. Wenn sie jedoch Analysen, ML-Verarbeitung oder andere fortgeschrittene Funktionen, die wir anbieten, nutzen möchten, können sie ihre Datenbank vor Ort nahtlos mit der MySQL HeatWave-Instanz in der Cloud verbinden und ihre Anwendungen auf hybride Weise ausführen.

«Wir haben etwas, das wir «Inbound-Replikation» nennen, für Benutzer, die ihre primäre Datenbank nicht in die Cloud verlagern wollen.»

Für Anwender, die ihre Daten oder Anwendungen nicht verschieben wollen, hat Oracle als Unternehmen beschlossen, die Multi-Cloud-Dimension zu erforschen, und MySQL HeatWave ist hier einer der Vorreiter. Zum jetzigen Zeitpunkt unterstützen wir MySQL Heatwave in drei Clouds. Wenn also jemand, aus welchen Gründen auch immer, nicht in die Oracle Cloud wechseln möchte, kann er Azure oder AWS nutzen. Und für jede der Cloud-Plattformen haben wir MySQL HeatWave anders implementiert, je nach verfügbarer Technologie und Kosten. Bei AWS haben wir alles von Grund auf neu entwickelt; bei Azure haben wir aufgrund der Zusammenarbeit die MySQL HeatWave-Server schliesslich in OCI gehostet.

Haben Sie im Vergleich zu traditionellen Umgebungen, in denen Sie Ihre Data Warehouses, OLAP-Engines und Business Intelligence-Umgebungen betreiben, bereits Daten zur Leistung und zu den Kosten von MySQL HeatWave?

Der Vergleich mit einer traditionellen Umgebung und der Cloud ist etwas schwierig, weil wir oft keine einfache Möglichkeit haben, die Gesamtkosten für lokale Datenbankdienste zu quantifizieren. Man kann z. B. nicht quantifizieren, wie viele Arbeitsstunden für die Einrichtung benötigt werden und was passiert, wenn etwas nicht funktioniert. Wir haben uns also andere Cloud-Datenbankdienste angesehen und sie anhand von Preis-/Leistungskennzahlen miteinander verglichen. Wir haben diese Vergleiche anhand von Industriestandard-Benchmarks durchgeführt und dann die Ergebnisse zusammen mit den Skripten veröffentlicht, mit denen man die Leistungszahlen reproduzieren kann. Und die Ergebnisse sprechen für sich selbst.

Bei der Preis-Leistungs-Metrik sind wir zehnmal besser als Snowflake, bei OLAP, wenn wir über maschinelles Lernen sprechen, dann sind wir wahrscheinlich 20-mal besser als Redshift und so weiter. Das ist also die Grössenordnung des Leistungsvorteils, wenn man die Kosten konstant hält, über die wir sprechen.

Für die In-Memory-Ausführung komplexer Abfragen mit grossen Datenmengen ist MySQL HeatWave auf leistungsstarke Hardware angewiesen. Gibt es bevorzugte Plattformen und wo liegen heute die Grenzen hinsichtlich der zu verarbeitenden Datenmenge?

HeatWave ist ein vollständig verwalteter Datenbankdienst. Wenn wir von einem vollständig verwalteten Dienst sprechen, bedeutet das, dass die Nutzer nichts tun müssen, ausser ein paar Knöpfe zu drücken, alles andere wird von den Systemen erledigt. Das System entscheidet über die zu verwendende Rechenleistung, die zu verwendende Form, die verfügbare Speichermenge und die verfügbare Festplattenmenge. Alles wird von unserem System automatisch erledigt, und wir erhalten die bestmögliche Plattform für den Endbenutzer, um das beste Preis-Leistungs-Verhältnis zu erzielen.

Darüber hinaus verfügen wir über AutoPilot-Funktionen wie AutoProvisioning. Das System analysiert die Daten und sagt dem Benutzer, dass er für seine Arbeitslast einen Cluster in dieser Grösse benötigt. Mit der vorgeschlagenen Clustergrösse können Sie die beste Leistung bei minimalen Kosten erzielen. Ähnlich verhält es sich, wenn Sie OLTP betreiben: Wir haben eine Funktion namens Auto Thread Pool, die entscheidet, wie viele parallele Transaktionen in MySQL laufen können, um den Durchsatz zu maximieren. Mit dieser Art von Automatisierungen geben wir unseren Kunden massgeschneiderte Vorschläge, die für sie am besten funktionieren. Aber darüber hinaus ist alles sehr stark an die Hardware gebunden, die wir einsetzen. Diese ist für den Benutzer nicht konfigurierbar. Für die Anwender geht es nur um Leistung und Kosten.

Da MySQL HeatWave die Grenzen zwischen transaktionalen Datenbanken und analytischen Umgebungen verwischt, wie sehen Sie die Zukunft dieser beiden Bereiche?

Das ist eine schwierige Frage. Der Grund dafür ist, dass es wirklich davon abhängt, in welche Richtung sich die Branche entwickelt, welche Durchbrüche in der Zukunft geschehen usw. Ich werde jedoch versuchen, diese Frage aus meiner eigenen Erfahrung heraus zu beantworten.

«HeatWave ist ein vollständig verwalteter Datenbankdienst. Wenn wir von einem vollständig verwalteten Dienst sprechen, bedeutet das, dass die Nutzer nichts tun müssen, ausser ein paar Knöpfe zu drücken, alles andere wird von den Systemen erledigt.»

Ich denke, dass in den nächsten Jahren oder im nächsten Jahrzehnt immer mehr Kunden aus verschiedenen Gründen in die Cloud wechseln werden. Sie werden irgendwann aufhören, On-Premise-Lösungen zu nutzen, weil sie erkennen werden, dass es ihre Zeit und ihre Ressourcen nicht wert ist, Hardware und Rechenzentren selbst zu verwalten. Sie werden ihre Anwendungsfälle konsolidieren und in die Cloud verlagern. Und wenn die Dinge erst einmal in der Cloud sind, spielen nur noch zwei Dinge eine Rolle: Benutzerfreundlichkeit und Kosten. Wie einfach ist es, das System zu nutzen, ist es wie eine iPhone-App, die man einfach herunterlädt und loslegen kann, oder ist ein Eingriff von Fachleuten erforderlich? Wenn man das System einmal in Betrieb genommen hat, muss man ein paar Stunden, vielleicht sogar ein paar Wochen damit verbringen, das System zu konfigurieren. Bei älteren Telefonen war die Einrichtung von E-Mail ebenfalls schwierig. Jetzt braucht man nur noch einen Download. Es funktioniert einfach. Die Welt wird sich in diese Richtung bewegen.

Alles wird selbst verwaltet, alles ist super benutzerfreundlich, genau wie unsere Telefonanwendungen. Unternehmen wie Oracle und Ingenieure wie wir werden sich darauf konzentrieren, diese Benutzerfreundlichkeit so gut wie möglich und mit so wenig Kosten wie möglich zu gestalten. Man kann nicht zehn verschiedene Systeme für zehn verschiedene Anwendungsfälle haben. Man muss konsolidieren, um die Kosten zu senken, man muss gemeinsam nutzen, man muss sich für ein Pay-as-you-use-Modell entscheiden, man muss sich für On-the-Fly-Berechnungen und On-the-Fly-Datenverarbeitung entscheiden. Das wird die Zukunft sein.

Es wird sich alles um Automatisierung, Benutzerfreundlichkeit und Kosteneffizienz drehen. Es wird darum gehen, alles zu konsolidieren und die Ressourcen so weit wie möglich gemeinsam zu nutzen, und zwar auf sehr intelligente Weise, ohne die Benutzer zu beeinträchtigen und ihnen dabei die beste Erfahrung zu bieten.

Die Automatisierungs- und maschinellen Lernfunktionen von MySQL HeatWave können dazu beitragen, den Mangel an IT-Experten in einigen Bereichen zu beheben. Welche neuen Fähigkeiten müssen Datenbankexperten erlernen, um das Beste aus MySQL HeatWave herauszuholen?

Eines der Hauptziele unseres Entwicklungsteams ist es, die Dinge so benutzerfreundlich wie möglich zu gestalten und das gesamte Wissen, das Experten heute haben, in das System selbst einzubinden. Das gesamte Fachwissen, über das die DBAs und Systemadministratoren derzeit verfügen, wird schliesslich in den Cloud-Service einfliessen. Dies wird bereits für, sagen wir, 95 % oder mehr unserer Endnutzer ausreichen. Ja, es wird eine Handvoll Kunden geben, die aufgrund ihrer speziellen Anwendungsfälle gerne etwas anderes machen würden. Für sie würde das vorhandene Wissen über Datenbanken und DBAs ausreichen. Sie müssen sich nur auf die neue Umgebung einstellen, in der wir uns jetzt befinden, nämlich die Cloud-Umgebung. Aber auch hier gilt, dass 95 % der Nutzer mit dem Service, den wir anbieten, gut zurechtkommen werden und keinen menschlichen Experten für die Verwaltung der Datenbank benötigen werden.

Sie haben bereits mehrere Patente für Oracle-Datenbankfunktionen angemeldet und erhalten. Woran arbeiten Sie derzeit, welches sind die vielversprechendsten technischen Entwicklungen, die die Datenbanken in den nächsten Jahren beeinflussen werden?

Zunächst einmal möchten wir immer einen Schritt voraus sein. Wenn man in der High-Tech-Industrie aufhört, innovativ zu sein, gerät man ins Hintertreffen. Um ein Beispiel zu nennen: MySQL HeatWave ist heute im Vergleich zu anderen Cloud-Datenbanken um eine Grössenordnung besser, was das Preis-Leistungs-Verhältnis angeht. Wenn wir aufhören, innovativ zu sein, könnten wir bei dieser Kennzahl ins Hintertreffen geraten. Wir müssen also weiterhin neue Algorithmen für verschiedene aufkommende Cloud-Plattformen entwickeln und neue Ideen oder neue Wege für eine effiziente und wirtschaftliche Datenverarbeitung finden.

Schweizer Hochschulen wie die ETH und die EPFL spielen eine wichtige Rolle dabei, mit der Innovation Schritt zu halten. Fast jedes Quartal bekommen wir sehr intelligente Forschungsassistenten von diesen Universitäten, die nicht nur frische Ideen, sondern auch neue Energie in unser Ingenieurteam bringen. Selbst in diesem Moment arbeiten wir an mehreren hochmodernen Forschungsprojekten im Bereich des maschinellen Lernens und der Datenverarbeitungsalgorithmen.

«MySQL HeatWave ist heute im Vergleich zu anderen Cloud-Datenbanken um eine Grössenordnung besser, was das Preis-Leistungs-Verhältnis angeht.»

Der zweite Teil ist, dass sich das gesamte Cloud-Ökosystem weiterentwickelt. Wir lernen, mit welchen Problemen die Benutzer zu kämpfen haben und wie wir unsere Produkte und Dienste benutzerfreundlicher gestalten können. Letztendlich werden alle Cloud-Dienste, einschliesslich der Datenbankdienste, sehr einfach und intuitiv zu bedienen sein. So wie wir heute unsere Telefon-Apps benutzen, die wir herunterladen und die dann sofort funktionieren. Die Einrichtung sollte nicht Tage oder Wochen dauern. Wir möchten von der alten Art der Datenbankverwaltung wegkommen, und in diesem Bereich wird es eine Menge Innovationen geben.

Wie reif ist Ihrer Meinung nach der Schweizer Markt für Produkte wie HeatWave?

Im Allgemeinen ist der Schweizer Markt ein eher traditioneller Markt, der von grossen Institutionen bevölkert wird, für die es nicht so einfach ist, sich für eine neue Technologie zu entscheiden oder Technologie X gegen Technologie Y auszutauschen, da diese grossen Unternehmen auch grosse Altlasten mitbringen. Es braucht Zeit, aber gleichzeitig ist der Appetit auf Technologie in der Schweiz im Allgemeinen gross. Nehmen Sie das Beispiel der hiesigen Universitäten, die Qualität der Forschungsarbeit ist Weltklasse.

Auch die Schweizer Industrie ist sehr daran interessiert, sich an die neuen Technologien anzupassen, auch wenn dies aufgrund der schieren Grösse der Unternehmen einige Zeit dauern kann, aber letztendlich wird es so sein. Wir sind also zuversichtlich, vor allem weil unser Kernteam der Ingenieure hier ansässig ist.

Am Ende des Gesprächs werden Ihnen zwei Wünsche gewährt. Wie lauten sie?

Wir würden gerne unsere Innovationsoffensive fortsetzen. Wir möchten sicherstellen, dass wir mit MySQL HeatWave die Branche der Cloud-Datenbanken anführen, und wir möchten in der Schweiz weiter wachsen.

Ausserdem möchten wir den technologischen Appetit des Landes weiter anregen.


Nitin Kunal bei Linkedin

Schreibe einen Kommentar