Nachricht

KI für DB tritt in einen neuen Wettbewerbszyklus ein |

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


KI für die DB entwickelt sich still und leise zu einem heißen Thema. Eines der bedeutendsten Features ist die Vektordatenbank/Vektor-Retrieval-Technologie, die letztes Jahr ein Hit war und sich bei der Implementierung großer KI-Modelle zunehmender Beliebtheit erfreut.

KI für DB bedeutet, sich auf KI als Datenbankdienst zu konzentrieren. Aus Sicht der Benutzerprobleme ist die herkömmliche Datenbankinfrastruktur weder für große KI-Modelle noch für die heutige Vektorabfrage ausgelegt.

Wenn Unternehmen beispielsweise umfangreiche Modellanwendungen implementieren, müssen sie zwangsläufig riesige Datensätze erstellen, um genauere Ergebnisse zu erzielen. Doch die Erfassung und Verwaltung solch großer Datenmengen erfordert oft viele Ressourcen, darunter Speicherressourcen, Rechenleistung und Datenverarbeitungskapazitäten. Gleichzeitig wird die Integration von Datenquellen mit unterschiedlichen Formaten, Qualität, Granularität und Heterogenität auch den Modelltrainingsprozess erschweren. Dies ist einer der Gründe, warum Unternehmen hinsichtlich der generativen KI immer noch vorsichtig optimistisch sind.

TMTpost Media hat festgestellt, dass führende Datenbank-/Data-Warehouse-Unternehmen und sogar große Modellunternehmen seit letztem Jahr aktiv Produktveröffentlichungen, Akquisitionen und Kooperationen ergreifen, um Marktchancen bei KI-Datenbanken zu nutzen. Beispielsweise gab das Cloud-Data-Warehouse-Unternehmen Snowflake bekannt, dass es mit NVIDIA zusammenarbeiten wird, um KI-Modelle für Unternehmen anzupassen. Databricks hat Tabular, das Unternehmen hinter Apache Iceberg, für 1 Milliarde US-Dollar übernommen 500 Millionen US-Dollar...

Aus heutiger Sicht bezieht sich die Idee der Kombination von KI und Datenbank jedoch nicht nur auf die Vektorabfrage. In den letzten Jahren sind autonome Datenbanken, Datenbank-Selbstüberwachung und -Diagnose, die Einführung von Low-Code + KI in text2SQL usw. alles Richtungen, die Unternehmenskunden in der Branche noch erforschen und zu denen sie noch keine Schlussfolgerung gezogen haben.

Einige Leute in der Branche warnen jedoch davor, dass die Kombination von KI und Datenbank noch eine sehr neue technische Richtung sei und es möglicherweise technische Mängel gebe.

Unabhängig vom Trend der KI für DB stellt sich zunächst die Frage: Warum jetzt? Und was sind die neuen Lösungen?

Vereinfachen Sie die Datenanwendung und -nutzung

Nehmen Sie Oracle als Beispiel.

In den letzten zwei Monaten hat Oracle eine KI-Umgestaltung seiner beiden zentralen Datenbankverwaltungssysteme – Oracle Database und MySQL HeatWave-Datenbank – angekündigt. Aus der Änderung des Datenbanknamens lässt sich eine klare Richtung ableiten: Ersterer wurde direkt von Datenbank 23c in Datenbank 23ai geändert, während Letzterer auf HeatWave GenAI aktualisiert wurde. Die Änderungen in den Versionen in verschiedenen Epochen von „i“ Internet, „g“ Grid, „c“ Cloud, „ai“ künstlicher Intelligenz und „GenAI“ generativer KI können Oracles ausgeprägte Einsicht in die Wendepunkte der Kundenanforderungen in verschiedenen Epochen widerspiegeln . Unter anderem hat die Datenbank 23ai die oben erwähnte Vektordatenbank und mehr als 300 Hauptfunktionen aktualisiert.

Entwickler können natürliche Sprache verwenden, um mit der Oracle-Datenbank zu „sprechen“, die Funktionen der generativen KI aufzurufen, SQL zu generieren und das Endergebnis auszuführen, wodurch der Zweck der Kommunikation mit der Datenbank erreicht wird.

Insbesondere ermöglicht die Vektorsuchfunktion von 23ai LLM (Large Language Model), private Geschäftsdaten über eine Schnittstelle in natürlicher Sprache abzufragen, und hilft LLM dabei, genauere und relevantere Ergebnisse bereitzustellen. Mit der Funktion „Vektorsuche“ können Kunden Dokumente, Bilder und andere unstrukturierte Daten in Verbindung mit privaten Geschäftsdaten sicher durchsuchen, ohne die Daten verschieben oder kopieren zu müssen. Dies bedeutet, dass der KI-Algorithmus am Speicherort der Daten eingeführt werden kann, ohne dass die Daten an den Speicherort des KI-Algorithmus migriert werden müssen, was die Ausführung von KI in Echtzeit in der Oracle-Datenbank ermöglicht und die Effektivität erheblich verbessert. Effizienz und Sicherheit der KI.

HeatWave GenAI umfasst hauptsächlich datenbankinternes LLM, automatisierte datenbankinterne Vektorspeicherung, skalierbare Vektorverarbeitung und kontextbezogenen Dialog in natürlicher Sprache basierend auf unstrukturierten Inhalten. Mit HeatWave GenAI können Entwickler integrierte Einbettungsmodelle verwenden, um mit einem einzigen SQL-Befehl Vektorspeicher für unstrukturierte Unternehmensinhalte zu erstellen. Benutzer können mithilfe von datenbankinternem oder externem LLM in einem einzigen Schritt eine Suche in natürlicher Sprache durchführen. Die Daten müssen die Datenbank nicht verlassen und aufgrund der enormen Skalierbarkeit und ultrahohen Leistung von HeatWave müssen Benutzer keine GPU bereitstellen. Dadurch können Entwickler die Anwendungskomplexität reduzieren, die Leistung verbessern, die Datensicherheit verbessern und Kosten senken.

Es ist nicht schwer zu erkennen, dass die Idee von Oracle darin besteht, eine einheitliche Betriebsplattform für KI und Daten bereitzustellen, was in scharfem Kontrast zu anderen Datenbankprodukten steht.

Die datenbankinterne LLM-Funktion ermöglicht es Benutzern beispielsweise, die für die Entwicklung von Modellen und Anwendungen erforderlichen Aufgaben auszuführen, ohne Daten in eine potenziell unsichere Umgebung exportieren oder ein potenziell unsicheres LLM in ihre Datenumgebung importieren zu müssen. Da kein Export oder Import erforderlich ist, fallen keine Kosten an, die normalerweise mit dem Export großer Datenmengen oder dem Import großer Mengen an datenbankinterner Vektorspeicherung verbunden sind. Dadurch entfällt für Benutzer die Notwendigkeit, Daten in eine separate Vektordatenbank zu verschieben erfordern KI-Expertise.

Was die in der Branche besorgniserregenden Vektordatenbanken betrifft, so hat Titanium Media zuvor analysiert, dass Datenbankhersteller, wenn sie keine unabhängigen Vektordatenbanken entwickeln, grundsätzlich die Unterstützung nativer Vektorworteinbettungen und Vektorsuchmaschinen befürworten würden.

Derzeit besteht 23ai auch die Produktselbstzertifizierung:Der Vektorabruf sollte eine integrierte Funktion der Datenbank und kein eigenständiges Produkt sein. Die Suche nach einer Kombination aus Geschäfts- und semantischen Daten ist einfacher, schneller und präziser, wenn beide Datentypen von einer einzigen Datenbank verwaltet werden. Die Lösung, die diesen Weg unterstützt, ist eine Datenbank, die alle Daten verwalten kann, und zwar auf leistungsstarke und sehr wirtschaftliche Weise. Nach Ansicht von Wu Chengyang, Vizepräsident von Oracle und Geschäftsführer von China, „sollten alle Daten an einem Ort abgelegt werden. Auf diese Weise werden Fragen und Anfragen viel einfacher.“

„Was die meisten Leute heute tun, ist, die Datenbankdaten an die KI weiterzugeben und sie dann herauszunehmen, was oft mit Datensicherheitsproblemen, Problemen mit Verwaltungsberechtigungen usw. verbunden ist. Der Ansatz von Oracle besteht darin, KI in die Datenbank zu bringen und die Vektordatenbank in das Ganze einzubetten.“ Nicht nur Vektoren, sondern eine Fusionsdatenbank, die mehrere Datentypen wie Text, Grafiken und JSON integrieren kann.Sagte Wu Chengyang.

Li Jia, leitender Direktor der technischen Beratungsabteilung von Oracle China, teilte TMTpost einen Fall mit: Ein Unternehmenskunde migrierte von einer Open-Source-Vektordatenbank zur Oracle Fusion-Datenbank. Dahinter stecken drei zentrale Antriebsfaktoren:Erstens umfasst die ursprüngliche Anwendungsarchitektur unterschiedliche Technologie-Stacks und weist eine hohe Verwaltungskomplexität und geringe Effizienz auf. Zweitens gibt es Leistungsprobleme, wenn Daten und Architektur erweitert werden. Drittens kann sie nicht in vorhandene Geschäftsdaten integriert werden abgerufen Die Effizienz der Gesamtverbindung ist oft nicht hoch.Nach Ansicht von Li Jia treffen immer mehr Kunden solche Entscheidungen, und dies ist keine Ausnahme mehr.

„Einige Kunden legen Tag-Informationen in MongoDB, Berechtigungsinformationen und Identitätsinformationen in MySQL sowie Wissensdiagramme in Diagrammdatenbanken ab und speichern dann Vektordaten wie Dokumente in Vektordatenbanken, was die Integration von Anwendungen erschwert.“

Wu Chengyang wies darauf hin, dass die Migration selbst nicht kompliziert sei. Der Schlüssel liegt darin, dass Kunden durch einen Vergleich herausfinden müssen, welche technische Lösung (Fusion oder andere) für sie besser geeignet ist. Kunden halten Daten für sehr wichtig, aber mit Ausnahme professioneller Datenbankadministratoren sind Kunden Datenbanken oft gleichgültig. Heutige Datenbanken sprechen nicht über besonders modische Fachbegriffe, sondern nutzen die Erfahrungen des Kunden, um zu bestimmen, wie die Datenbank erstellt werden soll.

Zu diesem Zweck hat Oracle auch vorgeschlagen, dass die moderne Datenplattform „4 Any“ umfasst, nämlich „Anytime, Anywhere, Any Data, Everyone“. Ziel ist es, die Datenverwaltung, -entwicklung und -generierung zu vereinfachen.

KI für die DB geht in den nächsten Wettbewerbszyklus

Insgesamt basiert die KI-Strategie von Oracle auf den tatsächlichen Szenarien, in denen Unternehmen KI einsetzen, und erstellt so eine durchgängige generative KI-Matrix, die den gesamten Technologie-Stack abdeckt. Einschließlich Unterstützung beim Aufbau der KI-Infrastruktur auf Basis von Oracle Cloud Infrastructure (OCI), Datenbankprodukten wie Oracle Database, Oracle Autonomous Database und MySQL HeatWave, die Daten für KI bereitstellen, sowie SaaS-Anwendungen wie ERP, HCM und CX mit eingebetteten generativen KI-Funktionen .

In seinem jüngsten Finanzbericht für das Geschäftsjahr veröffentlichte Oracle eine wichtige Information: Allein im vierten Quartal unterzeichnete Oracle mehr als 30 KI-Verkaufsverträge mit einem Gesamtwert von mehr als 12,5 Milliarden US-Dollar, darunter eine wichtige Kooperation, um Microsoft The zu bringen Die Azure-Plattform wurde auf OCI erweitert, um die Anforderungen von OpenAI an Rechenleistung wie Argumentation zu unterstützen.

Der Wettbewerb um große Modelle ist mittlerweile sehr hart. In letzter Zeit wurde die Iterationsgeschwindigkeit verschiedener großer Modellprodukte erheblich beschleunigt, was hohe Anforderungen an die Geschwindigkeit des Modelltrainings stellen wird. Je mehr GPUs, desto größer der Datensatz, desto größer der Korpus, desto stärker sind die bereitgestellten Infrastrukturfunktionen, desto kürzer ist die Schulungszeit und desto schneller kann die Geschwindigkeit neuer Produktaktualisierungen erhöht werden.

„Derzeit kann Oracles größter Rechenleistungscluster 30.000 Karten erreichen, und der Umfang könnte in Zukunft sogar noch größer sein.“ Tages- und HPC-Infrastruktur, OracleWir haben das Netzwerk gezielt optimiert und ein verlustfreies Netzwerksystem aufgebaut, um die gesamte GPU skalierbarer zu machen.

OCI Supercluster kann die Zusammenarbeit mehrerer GPUs realisieren. Gleichzeitig wird Oracle in Kürze ein Hochleistungsdateisystem veröffentlichen, um den Schulungsanforderungen der Kunden besser gerecht zu werden. Mit neuen OCI Compute-Bare-Metal-Instanzen, RDMA-Netzwerken mit extrem geringer Latenz und Hochleistungsspeicher wird OCI Supercluster deutlich schneller sein. OCI wird Modelle mit NVIDIA B200 auf den Markt bringen, um Unternehmen dabei zu unterstützen, auf die wachsende Nachfrage nach KI-Modellen zu reagieren.

Es ist erwähnenswert, dass Oracle und NVIDIA seit der Ankündigung einer langfristigen Zusammenarbeit im Jahr 2022 darauf abzielen, den vollständigen Accelerated-Computing-Stack von NVIDIA in OCI einzuführen. Heute ist OCI NVIDIAs Anbieter von extrem großer Cloud-Technologie und bietet KI in großem Maßstab an Computerdienste NVIDIA DGX Cloud.

Ji Xiaofeng erklärte: „Obwohl es jetzt ein MoE-Modell gibt, ist in der Inferenzphase immer noch viel Rechenleistung erforderlich. Die Zusammenarbeit zwischen Oracle und NVIDIA unterscheidet sich von der früheren Zusammenarbeit zwischen Partnern. Bei der Implementierung einiger Kerndienste ist das Produkt.“ Abteilungen beider Seiten arbeiten intensiv zusammen.“

In gewisser Weise ist Oracle nicht mehr nur ein Datenbankunternehmen. In den letzten Jahren haben Investitionen in OCI, SaaS und andere Ebenen dazu geführt, dass Oracle wirklich zu einem Cloud-Computing-Unternehmen wie Microsoft und Google geworden ist. Um die Investitionslogik von Oracle auf Datenbankebene zu verstehen, können wir daher weder die Einschränkungen von Datenbanktechnologieprodukten kopieren noch die weiteren Entwicklungspfade von Oracle auf dem chinesischen Markt aus der Perspektive der inländischen Substitution beurteilen.

Derzeit wurde die öffentliche Cloud-Version von 23ai eingeführt, und eine lokale Version wird voraussichtlich in der zweiten Hälfte dieses Jahres eingeführt. Damit wird auch die Hürde für chinesische Unternehmenskunden, 23ai zu nutzen, deutlich gesenkt.

In den letzten Jahren hat Oracle immer wieder die „zweizyklische“ Expansionslogik betont, die darauf abzielt, Chinas Auslandsexpansion und das Geschäft multinationaler Unternehmen in China zu bedienen. Oracles Zusammenarbeit mit chinesischen Unternehmenskunden aktualisiert auch sein Verständnis für die Anforderungen der Benutzer.

(Dieser Artikel wurde zuerst auf Titanium Media APP veröffentlicht. Autor | Yang Li, Herausgeber | Gai Hongda)