소식

스타 AI 유니콘 미스트랄 AI, 뛰어난 코딩과 수학 능력 갖춘 대형 모델의 새로운 왕 선보여

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhidixi(공개 계정: zhidxcom)

컴파일 | 루오 텐진

편집자 |

7월 17일 Zhidongzhi News에 따르면 어제 VentureBeat에 따르면 프랑스 AI 스타트업 Mistral AI는 최근 두 가지 새로운 AI 모델을 출시했습니다. 하나는 프로그래머와 개발자를 위한 코드 생성 모델인 Codestral Mamba 7B이고 다른 하나는 수학용으로 설계되었습니다. 관련 추론과 과학적 발견을 위해 설계된 AI 모델입니다.

Codestral Mamba 7B는 더 빠른 추론과 더 긴 컨텍스트를 제공하여 긴 입력 텍스트에도 빠른 응답 시간을 제공합니다. 동시에 이 모델은 GPT-4o의 두 배인 최대 256,000개의 토큰 입력을 처리할 수 있습니다.

Mathstral 7B에는 32K 컨텍스트 창이 있으며 Apache 2.0 오픈 소스 라이센스를 사용합니다. 이 모델은 더 많은 추론 시간 계산을 통해 벤치마크에서 다른 수학적 추론 모델보다 더 나은 결과를 얻을 수 있습니다.

1. 코드 생성 모델은 더 긴 컨텍스트를 처리할 수 있습니다.

강력한 오픈 소스 AI 모델로 유명한 프랑스 AI 스타트업 Mistral AI는 오늘 성장하는 대형 언어 모델(LLM) 제품군에 두 가지 새로운 항목을 출시했습니다. 작년 말 다른 연구자들이 개발한 새로운 아키텍처인 Mamba를 기반으로 하는 개발자입니다.

Mamba는 Attention 메커니즘을 단순화하여 대부분의 주요 LLM에서 사용하는 변환기 아키텍처의 효율성을 향상시키려고 시도합니다. Mamba 기반 모델은 더 빠른 추론 속도와 더 큰 컨텍스트 창을 가질 수 있다는 점에서 일반적인 Transformer 기반 모델과 다릅니다. AI21을 포함한 다른 기업과 개발자들은 이를 기반으로 한 새로운 AI 모델을 출시했습니다.

이제 이 새로운 아키텍처를 통해 Mistral AI는 이름을 적절하게 지정했습니다.코데스트랄 맘바 7B , 입력 텍스트가 길어도 빠른 응답 시간을 제공합니다. Codestral Mamba는 코드 생산성 사용 사례, 특히 더 많은 로컬 코딩 프로젝트에 적합합니다.

Mistral AI는 Mistral AI의 Plateforme API에서 무료로 사용할 수 있는 모델을 테스트하여 OpenAI의 GPT-4o보다 두 배 빠른 최대 256,000개의 토큰 입력을 처리했습니다.

Mistral AI는 Codestral Mamba가 HumanEval과 같은 벤치마크에서 경쟁 오픈 소스 모델인 CodeLlama 7B, CodeGemma-1.17B 및 DeepSeek보다 더 나은 성능을 발휘한다는 것을 보여줍니다.

개발자는 GitHub 리포지토리 및 HuggingFace에서 Codestral Mamba를 수정하고 배포할 수 있습니다. 오픈 소스 Apache 2.0 라이센스에 따라 사용할 수 있습니다.

Mistral AI는 Codestral의 초기 버전이 CodeLlama 70B 및 DeepSeek Coder 33B와 같은 다른 코드 생성기보다 우수하다고 주장합니다.

코드 생성 및 코딩 도우미는 GitHub의 Copilot, Amazon의 CodeWhisperer 및 OpenAI 기반 Codenium과 같은 플랫폼의 인기가 높아지면서 AI 모델에 널리 사용되는 애플리케이션이 되었습니다.

2. 수학적 추론 모델은 뛰어난 능력을 갖고 있으며, 또한 미세 조정 능력도 가지고 있습니다.

Mistral AI가 출시한 두 번째 모델은수학 7B , 수학 관련 추론 및 과학적 발견을 위해 설계된 AI 모델입니다. Mistral AI는 Project Numina를 통해 Mathstral을 개발했습니다.

Mathstral에는 32K 컨텍스트 창이 있으며 Apache 2.0 오픈 소스 라이센스를 사용합니다. Mistral AI는 이 모델이 수학적 추론을 위해 설계된 모든 모델보다 성능이 뛰어나다고 말합니다. 더 많은 추론 시간 계산을 통해 벤치마크에서 "상당히 더 나은 결과"를 얻을 수 있습니다. 사용자는 이를 그대로 사용하거나 모델을 미세 조정할 수 있습니다.

Mistral AI는 블로그 게시물에서 다음과 같이 말했습니다. "Mathstral은 특정 목적을 위한 모델을 구축할 때 탁월한 성능을 달성한 또 다른 예입니다. 이는 특히 새로운 Fine-tuning 기능을 통해 Plateforme을 적극적으로 홍보하는 개발 철학입니다."

Mathstral은 Mistral AI a la Plataforme 및 HuggingFace를 통해 액세스할 수 있습니다.

Mistral AI는 자사 모델을 오픈 소스 시스템에서 사용할 수 있도록 하는 것을 선호하며 OpenAI 및 Anthropic과 같은 다른 AI 개발자와 경쟁해 왔습니다.

이 회사는 최근 시리즈 B 자금 조달에서 6억 4천만 달러를 조달했으며, 그 가치는 거의 60억 달러에 달합니다. 이 회사는 또한 Microsoft 및 IBM과 같은 거대 기술 기업으로부터 투자를 받았습니다.

결론: 대형 모델의 성능 전쟁이 새로운 정점에 도달했습니다

업계 관점에서 Mistral AI의 새로운 모델은 Mistral 7B 및 Codestral Mamba 7B와 같은 강력하고 접근 가능한 모델을 제공함으로써 AI 도구가 더욱 전문화되는 추세를 강조합니다. 혁신적이고 실용적인 애플리케이션 개발.

또한 이러한 모델은 오픈 소스 AI의 중요성을 강조하여 기술 커뮤니티 내에서 협업과 투명성을 향상시킵니다. 더 많은 청중에게 강력한 AI 도구를 제공함으로써 AI 대형 모델 분야의 신속한 반복 및 개발을 더욱 발전시킬 것입니다.

출처: VentureBeat