Новости

ИИ для БД вступает в новый цикл конкуренции Enterprise Services International Observation |

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Искусственный интеллект для БД постепенно становится популярным направлением. Одной из наиболее важных особенностей является векторная база данных/технология векторного поиска, которая стала хитом в прошлом году и становится все более популярной для реализации больших моделей искусственного интеллекта.

ИИ для БД означает сосредоточение внимания на ИИ как на сервисе базы данных. С точки зрения болевых точек пользователей, традиционная инфраструктура баз данных не предназначена для больших моделей ИИ и не предназначена для современного векторного поиска.

Например, предприятиям, желающим внедрить крупномасштабные модельные приложения, неизбежно потребуется создавать огромные наборы данных. Только высококачественные данные с высокой плотностью для обучения моделей позволят добиться более точных результатов. Но получение и управление такими большими объемами данных часто требует большого количества ресурсов, включая ресурсы хранения, вычислительную мощность и возможности обработки данных. В то же время интеграция источников данных различного формата, качества, детализации и неоднородности также усложнит процесс обучения модели. Это одна из причин, почему компании по-прежнему с осторожным оптимизмом смотрят на генеративный ИИ.

TMTpost Media заметила, что с прошлого года на зарубежных рынках ведущие компании, занимающиеся базами данных/хранилищами данных, и даже крупные модельные компании активно внедряют выпуски продуктов, приобретения и сотрудничество, чтобы воспользоваться рыночными возможностями в области баз данных искусственного интеллекта. Например, компания Snowflake, занимающаяся облачным хранилищем данных, объявила, что будет сотрудничать с NVIDIA для настройки моделей искусственного интеллекта для предприятий; Databricks приобрела Tabular, компанию, стоящую за Apache Iceberg, за 1 миллиард долларов США. OpenAI приобрела Sockset, компанию по производству баз данных с технологией векторного поиска; 500 миллионов долларов США...

Однако с современной точки зрения идея объединения ИИ и базы данных связана не только с векторным поиском. За последние несколько лет автономные базы данных, самоконтроль и самодиагностика баз данных, внедрение low-code + AI в text2SQL и т. д. — все это направления, которые корпоративные клиенты в отрасли все еще изучают и еще не пришли к какому-либо выводу.

Однако некоторые представители отрасли предупреждают, что сочетание искусственного интеллекта и базы данных по-прежнему является совершенно новым техническим направлением и может иметь технические недостатки.

Независимо от тенденции использования ИИ для БД, первый вопрос, который возникает: почему именно сейчас? И какие новые решения?

Упрощение применения и использования данных

Возьмите Oracle в качестве примера.

За последние два месяца Oracle объявила о преобразовании ИИ своих двух основных систем управления базами данных — базы данных Oracle и базы данных MySQL HeatWave. В изменении названия базы данных есть очевидное направление: первая была напрямую изменена с Database 23c на Database 23ai, а вторая была обновлена ​​до HeatWave GenAI. Изменения в версиях в разные эпохи, от Интернета «i», сети «g», облака «c», искусственного интеллекта «ai» и генеративного ИИ «GenAI», могут отражать глубокое понимание Oracle переломных моментов требований клиентов в разные эпохи. . Среди них база данных 23ai обновила упомянутую выше векторную базу данных и более 300 основных функций.

Разработчики могут использовать естественный язык, чтобы «общаться» с базой данных Oracle, задействовать возможности генеративного искусственного интеллекта, генерировать SQL и выполнять конечный результат для достижения цели общения с базой данных.

В частности, функция векторного поиска 23ai позволяет LLM (большая языковая модель) запрашивать частные бизнес-данные с использованием интерфейса на естественном языке и помогает LLM предоставлять более точные и релевантные результаты. Клиенты могут использовать функцию векторного поиска для безопасного поиска документов, изображений и других неструктурированных данных в сочетании с частными бизнес-данными без необходимости перемещать или копировать данные. Это означает, что алгоритм ИИ может быть внедрен в местонахождение данных без необходимости переноса данных в место расположения алгоритма ИИ, что позволяет запускать ИИ в базе данных Oracle в режиме реального времени, что значительно повышает эффективность. эффективность и безопасность ИИ.

HeatWave GenAI в основном включает в себя LLM в базе данных, автоматизированное векторное хранилище в базе данных, масштабируемую векторную обработку и контекстный диалог на естественном языке на основе неструктурированного контента. Используя HeatWave GenAI, разработчики могут использовать встроенные модели внедрения для создания векторных хранилищ для корпоративного неструктурированного контента с помощью одной команды SQL. Пользователи могут выполнять поиск на естественном языке за один шаг, используя базу данных или внешний LLM. Данные не должны покидать базу данных, а благодаря огромному масштабу и сверхвысокой производительности HeatWave пользователям не нужно выделять графический процессор. В результате разработчики могут снизить сложность приложений, повысить производительность, повысить безопасность данных и сократить расходы.

Нетрудно заметить, что идея Oracle состоит в том, чтобы предоставить единую операционную платформу для искусственного интеллекта и данных, которая резко контрастирует с другими продуктами баз данных.

Например, возможность LLM в базе данных позволяет пользователям выполнять задачи, необходимые для разработки моделей и приложений, без необходимости экспортировать данные в потенциально небезопасную среду или импортировать потенциально небезопасный LLM в свою среду данных. Поскольку нет необходимости в экспорте или импорте, отсутствуют затраты, обычно связанные с экспортом больших объемов данных или импортом больших объемов векторной информации в базе данных, что устраняет необходимость для пользователей перемещать данные в отдельную базу данных векторов и не требует этого; требуют экспертизы ИИ.

Что касается векторных баз данных, которые вызывают обеспокоенность в отрасли, Titanium Media ранее проанализировала, что, если производители баз данных не будут самостоятельно разрабатывать векторные базы данных, они в основном будут выступать за поддержку встроенных векторных слов и векторных поисковых систем.

В настоящее время 23ai также проходит самосертификацию продукции:Векторный поиск должен быть встроенной функцией базы данных, а не отдельным продуктом. Поиск комбинации бизнес- и семантических данных становится проще, быстрее и точнее, если оба типа данных управляются одной базой данных. Решением, поддерживающим этот путь, является база данных, которая может управлять всеми данными, причем управлять ими высокопроизводительно и очень экономично. По мнению Ву Чэнъяна, вице-президента Oracle и управляющего директора в Китае, «все данные должны быть размещены в одном месте. Таким образом, вопросы и запросы станут намного проще».

«Сегодня большинство людей переносят данные базы данных в ИИ, а затем извлекают их, что часто связано с проблемами безопасности данных, проблемами с разрешениями на управление и т. д. Подход Oracle заключается в том, чтобы внедрить ИИ в базу данных и встроить векторную базу данных во всю систему. База данных Не только векторы, но и объединенная база данных, которая может интегрировать различные типы данных, такие как текст, графики и JSON. Только Oracle может это сделать».Сказал У Чэнъян.

Ли Цзя, старший директор отдела технического консультирования Oracle China, поделился с TMTpost кейсом: корпоративный клиент перешел с векторной базы данных с открытым исходным кодом на Oracle Fusion Database. За этим стоят три основных движущих фактора:Во-первых, с точки зрения архитектуры приложения, исходная архитектура приложения включает в себя различные технологические стеки, имеет высокую сложность управления и низкую эффективность. Во-вторых, возникают проблемы с производительностью при расширении данных и архитектуры. В-третьих, она не может быть интегрирована с существующими бизнес-данными; получено Эффективность общей ссылки часто не высока.По мнению Ли Цзя, все больше и больше клиентов делают такой выбор, и это уже не исключение.

«Некоторые клиенты помещают информацию тегов в MongoDB, информацию о разрешениях и идентификационную информацию в MySQL, графы знаний в графовые базы данных, а затем сохраняют векторные данные, такие как документы, в векторных базах данных, что затрудняет интеграцию приложений Li Jia Express».

У Чэнъян отметил, что сама миграция не является сложной. Ключевым моментом является то, что заказчики должны посредством сравнения почувствовать, какое техническое решение (фьюжн или другое) им больше подойдет. Клиенты считают данные очень важными, но, за исключением профессиональных администраторов баз данных, клиенты часто безразличны к базам данных. Сегодняшние базы данных не говорят об особо модных технических терминах, а используют опыт заказчика для определения того, как следует делать базу данных.

С этой целью Oracle также предложила, чтобы современная платформа данных включала «4 Any», а именно Anytime, Anywhere, Any Data, Any. Цель — упростить управление данными, их разработку и генерацию.

AI для БД выходит в следующий конкурсный цикл

В целом стратегия Oracle в области ИИ сформулирована на основе реальных сценариев использования ИИ предприятиями, создавая сквозную генеративную матрицу ИИ, охватывающую весь стек технологий. Включает поддержку построения инфраструктуры искусственного интеллекта на основе Oracle Cloud Infrastructure (OCI), продуктов баз данных, таких как Oracle Database, Oracle Autonomous Database и MySQL HeatWave, которые предоставляют данные для искусственного интеллекта, а также приложений SaaS, таких как ERP, HCM и CX со встроенными генеративными функциями искусственного интеллекта. .

В своем финансовом отчете за последний финансовый год компания Oracle опубликовала важную информацию: только в четвертом квартале Oracle подписала более 30 контрактов на продажу ИИ на общую сумму более 12,5 миллиардов долларов США, включая важное сотрудничество, направленное на то, чтобы Microsoft стала Платформа Azure была расширена до OCI для поддержки потребностей OpenAI в вычислительных мощностях, таких как рассуждение.

Конкуренция за большие модели сейчас очень жесткая. В последнее время скорость итерации различных крупных модельных продуктов значительно увеличена, что выдвигает высокие требования к скорости обучения моделей. Чем больше графических процессоров, тем больше набор данных, чем больше корпус, тем мощнее предоставляемые инфраструктурные возможности, тем короче время обучения и тем быстрее это может увеличить скорость обновлений новых продуктов.

«В настоящее время крупнейший кластер вычислительной мощности Oracle может достигать 30 000 карт, а в будущем масштаб может быть еще больше», Цзи Сяофэн, старший директор отдела технического консультирования Oracle в Китае, отметил, что OCI с самого начала стремилась предоставлять передовой искусственный интеллект. день и инфраструктура HPC, OracleМы специально оптимизировали сеть и создали сетевую систему без потерь, чтобы сделать весь графический процессор более масштабируемым.

OCI Supercluster может реализовать совместную работу нескольких графических процессоров. В то же время Oracle вскоре выпустит высокопроизводительную файловую систему, чтобы лучше удовлетворить потребности клиентов в обучении. Благодаря новым экземплярам OCI Compute без операционной системы, сети RDMA со сверхнизкой задержкой и высокопроизводительному хранилищу OCI Supercluster станет значительно быстрее. OCI выпустит модели с использованием NVIDIA B200, чтобы максимально помочь предприятиям реагировать на растущий спрос на модели искусственного интеллекта.

Стоит отметить, что, поскольку Oracle и NVIDIA объявили о долгосрочном сотрудничестве в 2022 году, они стремятся представить OCI полный стек ускоренных вычислений NVIDIA. Сегодня OCI стала сверхкрупным поставщиком облачных технологий NVIDIA, предоставляющим крупномасштабный искусственный интеллект. вычислительные сервисы NVIDIA DGX Cloud.

Цзи Сяофэн объяснил: «Хотя сейчас существует модель MoE, на этапе вывода по-прежнему требуется много вычислительной мощности. Сотрудничество между Oracle и NVIDIA отличается от предыдущего сотрудничества между партнерами. При реализации некоторых основных сервисов продукт департаменты обеих сторон тесно сотрудничают».

В каком-то смысле Oracle больше не является просто компанией по производству баз данных. В последние годы инвестиции в OCI, SaaS и другие уровни позволили Oracle действительно стать компанией облачных вычислений, такой как Microsoft и Google. Поэтому, чтобы понять логику инвестиций Oracle на уровне баз данных, мы не можем копировать ограничения продуктов в области технологий баз данных, а также не можем судить о дальнейших путях развития Oracle на китайском рынке с точки зрения внутреннего замещения.

В настоящее время запущена общедоступная облачная версия 23ai, а запуск локальной версии ожидается во второй половине этого года. Это означает, что порог использования 23ai для китайских корпоративных клиентов также будет значительно снижен.

В последние несколько лет Oracle постоянно подчеркивает логику расширения «двойного цикла» обслуживания зарубежной экспансии Китая и бизнеса транснациональных компаний в Китае. Сотрудничество Oracle с китайскими корпоративными клиентами также улучшает понимание потребностей пользователей.

(Эта статья была впервые опубликована в приложении Titanium Media, автор | Ян Ли, редактор | Гай Хонда)