소식

DB용 AI, 새로운 경쟁 사이클에 진입하다 Enterprise Services International Observation

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


DB용 AI가 조용히 핫트랙으로 떠오르고 있다. 가장 중요한 기능 중 하나는 지난해 히트를 쳤던 벡터 데이터베이스/벡터 검색 기술로, 대규모 AI 모델 구현에 점점 더 인기를 끌고 있다.

AI for DB는 AI를 데이터베이스 서비스로 집중한다는 뜻이다. 사용자 문제의 관점에서 볼 때 기존 데이터베이스 인프라는 대규모 AI 모델용으로 설계되지 않았으며 오늘날의 벡터 검색을 충족하도록 설계되지도 않았습니다.

예를 들어, 기업이 대규모 모델 애플리케이션을 구현하는 경우 필연적으로 대규모 데이터 세트를 구축해야 합니다. 모델 교육을 위한 고품질, 고밀도 데이터만이 보다 정확한 결과를 얻을 수 있습니다. 그러나 이렇게 많은 양의 데이터를 획득하고 관리하려면 스토리지 리소스, 컴퓨팅 성능, 데이터 처리 기능을 비롯한 많은 리소스가 필요한 경우가 많습니다. 동시에 다양한 형식, 품질, 세분성 및 이질성을 갖춘 데이터 소스를 통합하면 모델 교육 프로세스도 복잡해집니다. 이것이 기업들이 여전히 생성 AI에 대해 조심스럽게 낙관하는 이유 중 하나입니다.

TMTpost Media는 지난해부터 해외 시장에서 선도적인 데이터베이스/데이터 웨어하우스 기업, 심지어 대형 모델 기업까지 AI 데이터베이스 시장 기회를 잡기 위해 제품 출시, 인수, 협력을 적극적으로 채택하고 있다는 점에 주목했습니다. 예를 들어, 클라우드 데이터 웨어하우스 회사인 Snowflake는 기업용 AI 모델을 맞춤화하기 위해 NVIDIA와 협력할 것이라고 발표했습니다. Databricks는 Apache Iceberg의 뒤를 잇는 회사인 Tabular를 10억 ​​달러에 인수했습니다. 5억 달러…

그러나 현재의 관점에서 볼 때 AI와 데이터베이스를 결합한다는 아이디어는 벡터 검색에만 관련된 것이 아닙니다. 지난 몇 년 동안 자율 데이터베이스, 데이터베이스 자체 모니터링 및 자가 진단, text2SQL에 로우 코드 + AI 도입 등은 모두 업계 기업 고객이 여전히 탐구하고 있는 방향이며 아직 결론에 도달하지 못했습니다.

그러나 업계 일각에서는 AI와 데이터베이스의 결합이 아직은 매우 새로운 기술 방향이며 기술적인 단점도 있을 수 있다고 경고한다.

DB용 AI의 추세와 관계없이 존재하는 첫 번째 질문은 '왜 지금인가?'입니다. 그리고 새로운 솔루션은 무엇입니까?

데이터 적용 및 사용 단순화

오라클을 예로 들어보겠습니다.

지난 두 달 동안 오라클은 두 가지 핵심 데이터베이스 관리 시스템인 Oracle Database와 MySQL HeatWave 데이터베이스의 AI 재편을 발표했습니다. 데이터베이스 이름 변경에는 분명한 방향성이 있습니다. 전자는 Database 23c에서 Database 23ai로 직접 변경된 반면, 후자는 HeatWave GenAI로 업그레이드되었습니다. "i" 인터넷, "g" 그리드, "c" 클라우드, "ai" 인공 지능, "GenAI" 생성 AI 등 다양한 시대의 버전 변경은 다양한 시대 고객 요구의 티핑 포인트에 대한 오라클의 예리한 통찰력을 반영할 수 있습니다. . 그중 Database 23ai는 위에서 언급한 벡터 데이터베이스와 300개 이상의 주요 기능을 업그레이드했습니다.

개발자는 자연어를 사용하여 Oracle 데이터베이스와 "대화"하고, 생성 AI 기능을 호출하고, SQL을 생성하고, 최종 결과를 실행하여 데이터베이스와 대화하는 목적을 달성할 수 있습니다.

특히 23ai의 벡터 검색 기능을 사용하면 LLM(Large Language Model)이 자연어 인터페이스를 사용하여 개인 비즈니스 데이터를 쿼리할 수 있으며 LLM이 보다 정확하고 관련성이 높은 결과를 제공할 수 있습니다. 고객은 벡터 검색 기능을 사용하여 데이터를 이동하거나 복사할 필요 없이 개인 비즈니스 데이터와 함께 문서, 이미지 및 기타 비정형 데이터를 안전하게 검색할 수 있습니다. 즉, AI 알고리즘이 있는 위치로 데이터를 마이그레이션하지 않고도 데이터가 있는 위치에 AI 알고리즘을 도입할 수 있어 오라클 데이터베이스에서 AI의 실시간 실행이 가능해 효율성이 크게 향상되고, AI의 효율성과 보안.

HeatWave GenAI에는 주로 데이터베이스 내 LLM, 자동화된 데이터베이스 내 벡터 저장, 확장 가능한 벡터 처리 및 구조화되지 않은 콘텐츠를 기반으로 하는 자연어 상황별 대화가 포함됩니다. 개발자는 HeatWave GenAI를 사용하여 내장된 임베딩 모델을 사용하여 단일 SQL 명령으로 기업의 비정형 콘텐츠용 벡터 저장소를 생성할 수 있습니다. 사용자는 데이터베이스 내 또는 외부 LLM을 사용하여 단일 단계로 자연어 검색을 수행할 수 있습니다. 데이터가 데이터베이스 외부로 나갈 필요가 없으며, HeatWave의 대규모 확장성과 초고성능으로 인해 사용자는 GPU를 프로비저닝할 필요가 없습니다. 결과적으로 개발자는 애플리케이션 복잡성을 줄이고, 성능을 개선하고, 데이터 보안을 강화하고, 비용을 절감할 수 있습니다.

다른 데이터베이스 제품과 뚜렷한 대조를 이루는 AI와 데이터에 대한 통합 운영 플랫폼을 제공하려는 오라클의 아이디어는 어렵지 않습니다.

예를 들어, 데이터베이스 내 LLM 기능을 사용하면 사용자는 잠재적으로 안전하지 않은 환경으로 데이터를 내보내거나 잠재적으로 안전하지 않은 LLM을 데이터 환경으로 가져올 필요 없이 모델 및 응용 프로그램을 개발하는 데 필요한 작업을 수행할 수 있습니다. 내보내거나 가져올 필요가 없으므로 일반적으로 대량의 데이터를 내보내거나 대량의 데이터베이스 내 벡터 저장소를 가져오는 데 드는 비용이 없습니다. 사용자가 데이터를 별도의 벡터 데이터베이스로 이동할 필요가 없습니다. AI 전문 지식이 필요합니다.

업계에서 우려되는 벡터 데이터베이스에 대해 티타늄미디어는 앞서 데이터베이스 제조사가 벡터 데이터베이스를 독립적으로 개발하지 않을 경우 기본적으로 네이티브 벡터 단어 임베딩과 벡터 검색 엔진 지원을 옹호할 것이라고 분석한 바 있다.

현재 23ai는 제품 자체 인증도 통과하고 있습니다.벡터 검색은 독립형 제품이 아니라 데이터베이스에 내장된 기능이어야 합니다. 비즈니스 데이터와 의미 데이터의 조합을 검색하는 것은 두 가지 유형의 데이터가 단일 데이터베이스로 관리되는 경우 더 쉽고 빠르며 정확합니다. 이 경로를 지원하는 솔루션은 모든 데이터를 관리할 수 있는 데이터베이스이며, 이를 고성능, 매우 경제적인 방법으로 관리할 수 있는 것입니다. Oracle의 부사장이자 중국 전무이사인 Wu Chengyang은 "모든 데이터가 한 곳에 보관되어야 합니다. 이렇게 하면 질문과 문의가 훨씬 쉬워질 것입니다."라고 말했습니다.

"오늘날 대부분의 사람들이 하는 일은 데이터베이스 데이터를 AI로 가져갔다가 꺼내는 것인데, 여기에는 종종 데이터 보안 문제, 관리 권한 문제 등이 포함됩니다. 오라클의 접근 방식은 AI를 데이터베이스에 가져오고 벡터 데이터베이스를 전체 데이터베이스에 내장하는 것입니다. 단순한 벡터가 아닌, 텍스트, 그래프, JSON 등 다양한 형태의 데이터를 통합할 수 있는 융합 데이터베이스입니다.”우청양이 말했다.

Oracle China의 기술 컨설팅 부서 수석 이사인 Li Jia는 TMTpost와 사례를 공유했습니다. 한 기업 고객은 오픈 소스 벡터 데이터베이스에서 Oracle Fusion Database로 마이그레이션했습니다. 그 뒤에는 세 가지 핵심 추진 요인이 있습니다.첫째, 애플리케이션 아키텍처 측면에서 원래 애플리케이션 아키텍처는 서로 다른 기술 스택을 포함하며 관리 복잡성이 높고 효율성이 낮습니다. 둘째, 데이터 및 아키텍처 확장 시 성능 문제가 있으며, 기존 비즈니스 데이터와 통합할 수 없습니다. 검색됨 전체 링크의 효율성이 높지 않은 경우가 많습니다.Li Jia의 관점에서는 점점 더 많은 고객이 그러한 선택을 하고 있으며 이는 더 이상 예외가 아닙니다.

"일부 고객은 MongoDB에 태그 정보, MySQL에 권한 정보 및 신원 정보, 그래프 데이터베이스에 지식 그래프를 넣은 다음 문서와 같은 벡터 데이터를 벡터 데이터베이스에 저장하므로 애플리케이션 통합이 어렵습니다."

Wu Chengyang은 이주 자체가 복잡하지 않다고 지적했습니다. 핵심은 고객이 어떤 기술 솔루션(융합 또는 기타)이 자신에게 더 적합한지 비교를 통해 느껴야 한다는 것입니다. 고객은 데이터가 매우 중요하다고 생각하지만 전문 DBA를 제외하면 고객은 데이터베이스에 무관심한 경우가 많습니다. 오늘날의 데이터베이스는 특별히 유행하는 기술 용어에 대해 이야기하지 않지만 고객의 경험을 사용하여 데이터베이스 수행 방법을 결정합니다.

이를 위해 오라클은 최신 데이터 플랫폼에 "4 Any", 즉 Anytime, Anywhere, Any Data, Any가 포함되어 있다고 제안했습니다. 목표는 데이터 관리, 개발 및 생성을 단순화하는 것입니다.

DB용 AI, 다음 경쟁 사이클 돌입

전반적으로 오라클의 AI 전략은 기업이 AI를 사용하는 실제 시나리오를 중심으로 구성되어 전체 기술 스택을 포괄하는 엔드투엔드 생성 AI 매트릭스를 생성합니다. OCI(Oracle Cloud Infrastructure) 기반의 AI 인프라 구축 지원, AI용 데이터를 제공하는 Oracle Database, Oracle Autonomous Database, MySQL HeatWave 등의 데이터베이스 제품과 생성 AI 기능이 내장된 ERP, HCM, CX 등의 SaaS 애플리케이션을 포함합니다. .

최근 회계 연도 재무 보고서에서 Oracle은 중요한 정보를 발표했습니다. 4분기에만 Oracle은 Microsoft를 인수하기 위한 중요한 협력을 포함하여 총 가치가 125억 달러가 넘는 30개 이상의 AI 판매 계약을 체결했습니다. Azure 플랫폼은 추론과 같은 컴퓨팅 성능에 대한 OpenAI의 요구 사항을 지원하기 위해 OCI로 확장되었습니다.

현재 대형 모델 경쟁은 매우 치열합니다. 최근 다양한 대형 모델 제품의 반복 속도가 크게 가속화되어 모델 학습 속도에 대한 요구 사항이 높아졌습니다. GPU가 많을수록, 데이터 세트가 클수록, 말뭉치도 커지고, 제공되는 인프라 기능이 더욱 강력해지고, 훈련 시간이 단축될수록 신제품 업데이트 속도가 빨라질 수 있습니다.

오라클의 중국 기술 컨설팅 부서 전무이사인 Ji Xiaofeng은 "현재 오라클의 최대 컴퓨팅 파워 클러스터는 30,000개의 카드에 달할 수 있으며 앞으로는 그 규모가 더욱 커질 수 있다"고 말했습니다. 데이 및 HPC 인프라, Oracle우리는 전체 GPU의 확장성을 높이기 위해 네트워크를 특별히 최적화하고 무손실 네트워크 시스템을 구축했습니다.

OCI Supercluster는 여러 GPU의 협업 작업을 실현할 수 있습니다. 동시에 오라클은 고객의 교육 요구 사항을 더 잘 충족하기 위해 고성능 파일 시스템을 곧 출시할 예정입니다. 새로운 OCI Compute 베어 메탈 인스턴스, 대기 시간이 매우 짧은 RDMA 네트워킹 및 고성능 스토리지를 통해 OCI Supercluster는 훨씬 더 빨라질 것입니다. OCI는 기업이 늘어나는 AI 모델 수요에 대응하는 데 도움을 극대화하기 위해 엔비디아 B200을 활용한 모델을 출시할 예정이다.

오라클과 엔비디아는 2022년 장기 협력을 발표한 이후 엔비디아의 완전한 가속 컴퓨팅 스택을 OCI에 도입하는 것을 목표로 하고 있으며, 현재 OCI는 엔비디아의 초대형 클라우드 기술 제공업체가 되어 대규모 AI를 제공한다는 점에 주목할 필요가 있습니다. 컴퓨팅 서비스 NVIDIA DGX Cloud.

Ji Xiaofeng은 다음과 같이 설명했습니다. "현재 MoE 모델이 있지만 추론 단계에서는 여전히 많은 컴퓨팅 성능이 필요합니다. Oracle과 NVIDIA 간의 협력은 이전 파트너 간의 협력과 다릅니다. 일부 핵심 서비스 구현에서 제품은 양측 부서는 긴밀한 협력 관계를 맺고 있습니다.”

어떤 의미에서 오라클은 더 이상 단순한 데이터베이스 회사가 아닙니다. 최근 몇 년 동안 OCI, SaaS 및 기타 수준에 대한 투자를 통해 Oracle은 Microsoft 및 Google과 같은 진정한 클라우드 컴퓨팅 회사로 거듭났습니다. 따라서 데이터베이스 수준에서 오라클의 투자 논리를 이해하기 위해서는 데이터베이스 기술 제품의 한계를 모방할 수 없으며, 국내 대체 관점에서 중국 시장에서 오라클의 더 많은 개발 경로를 판단할 수도 없습니다.

현재 23ai의 퍼블릭 클라우드 버전이 출시됐으며, 올해 하반기에는 로컬 버전도 출시될 예정이다. 이는 중국 기업 고객이 23ai를 사용하는 기준도 크게 낮아진다는 것을 의미합니다.

지난 몇 년 동안 오라클은 중국의 해외 진출과 중국 내 다국적 기업의 비즈니스를 지원하는 '이중 사이클' 확장 논리를 지속적으로 강조해 왔습니다.

(이 기사는 Titanium Media APP 작성자 | Yang Li, 편집자 | Gai Hongda에 처음 게시되었습니다.)