noticias

Star AI unicorn Mistral AI muestra un nuevo rey de modelos grandes, con habilidades matemáticas y de codificación superiores

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhidixi (cuenta pública: zhidxcom)

Compilado |

Editor |

Zhidongzhi News el 17 de julio, según VentureBeat ayer, la startup francesa de inteligencia artificial Mistral AI lanzó recientemente dos nuevos modelos de inteligencia artificial, uno es Codestral Mamba 7B, un modelo de generación de código para programadores y desarrolladores, y el otro está diseñado para matemáticas, un Mathstral 7B. Modelo de IA diseñado para razonamientos relevantes y descubrimientos científicos.

Codestral Mamba 7B presenta una inferencia más rápida y un contexto más extenso, lo que brinda tiempos de respuesta rápidos incluso con texto de entrada largo. Al mismo tiempo, el modelo puede manejar entradas de hasta 256.000 tokens, el doble que GPT-4o.

Mathstral 7B tiene una ventana de contexto de 32K y utilizará la licencia de código abierto Apache 2.0. Puede lograr mejores resultados que otros modelos de inferencia matemática en puntos de referencia con más cálculos de tiempo de inferencia.

1. Los modelos de generación de código pueden manejar contextos más largos.

La startup francesa de IA Mistral AI, bien financiada y conocida por sus potentes modelos de IA de código abierto, lanzó hoy dos nuevas entradas en su creciente familia de modelos de lenguaje grande (LLM): un modelo basado en matemáticas y otro para programadores, y un modelo de generación de código para desarrolladores basados ​​en Mamba, una nueva arquitectura desarrollada por otros investigadores a finales del año pasado.

Mamba intenta mejorar la eficiencia de la arquitectura de transformador utilizada por la mayoría de los LLM líderes simplificando su mecanismo de atención. Los modelos basados ​​en Mamba se diferencian de los modelos más comunes basados ​​en Transformer en que pueden tener velocidades de inferencia más rápidas y ventanas de contexto más grandes. Otras empresas y desarrolladores, incluida AI21, han lanzado nuevos modelos de IA basados ​​en él.

Ahora, con esta nueva arquitectura, Mistral AI la llama acertadamenteMamba 7B de Codestral , que proporciona tiempos de respuesta rápidos incluso cuando el texto ingresado es largo. Codestral Mamba es adecuado para casos de uso de productividad de código, especialmente para proyectos de codificación más locales.

Mistral AI probó el modelo, que estará disponible de forma gratuita en la API Plateforme de Mistral AI, procesando entradas de hasta 256.000 tokens, el doble de rápido que el GPT-4o de OpenAI.

Mistral AI muestra que Codestral Mamba funciona mejor que los modelos de código abierto de la competencia CodeLlama 7B, CodeGemma-1.17B y DeepSeek en puntos de referencia como HumanEval.

Los desarrolladores pueden modificar e implementar Codestral Mamba desde su repositorio de GitHub y HuggingFace. Estará disponible bajo la licencia Apache 2.0 de código abierto.

Mistral AI afirma que las primeras versiones de Codestral son superiores a otros generadores de código como CodeLlama 70B y DeepSeek Coder 33B.

La generación de código y los asistentes de codificación se han convertido en aplicaciones ampliamente utilizadas para modelos de IA, y plataformas como Copilot de GitHub, CodeWhisperer de Amazon y Codenium impulsadas por OpenAI están ganando popularidad.

2. El modelo de razonamiento matemático tiene capacidades excelentes y también capacidades de ajuste.

El segundo modelo lanzado por Mistral AI esMatemáticas 7B , un modelo de IA diseñado para el razonamiento relacionado con las matemáticas y el descubrimiento científico. Mistral AI desarrolló Mathstral a través del Proyecto Numina.

Mathstral tiene una ventana de contexto de 32K y utilizará la licencia de código abierto Apache 2.0. Mistral AI dice que el modelo supera a todos los modelos diseñados para el razonamiento matemático. Puede lograr "resultados significativamente mejores" en los puntos de referencia con más cálculos de tiempo de inferencia. Los usuarios pueden usarlo tal cual o ajustar el modelo.

Mistral AI dijo en una publicación de blog: "Mathstral es otro ejemplo de cómo lograr un rendimiento excelente al construir modelos para un propósito específico: una filosofía de desarrollo que promovemos activamente a la Plateforme, especialmente con su nueva función de ajuste fino".

Se puede acceder a Mathstral a través de Mistral AI a la Plataforme y HuggingFace.

Mistral AI prefiere que sus modelos estén disponibles en sistemas de código abierto y la empresa ha estado compitiendo con otros desarrolladores de IA como OpenAI y Anthropic.

La compañía recaudó recientemente 640 millones de dólares en financiación Serie B, valorándola en casi 6 mil millones de dólares. La empresa también ha recibido inversiones de gigantes tecnológicos como Microsoft e IBM.

Conclusión: la batalla por el rendimiento de los modelos grandes alcanza nuevas alturas

Desde una perspectiva de la industria, los nuevos modelos de Mistral AI resaltan la tendencia de que las herramientas de IA se vuelvan más profesionales. Al ofrecer modelos potentes y accesibles como Mistral 7B y Codestral Mamba 7B, Mistral AI se está convirtiendo en un actor importante en el campo de la IA. el desarrollo de aplicaciones innovadoras y prácticas.

Estos modelos también enfatizan la importancia de la IA de código abierto, fomentando la colaboración y una mayor transparencia dentro de la comunidad tecnológica. Al proporcionar potentes herramientas de IA a una audiencia más amplia, avanzaremos aún más en la rápida iteración y desarrollo del campo de modelos grandes de IA.

Fuente: VentureBeat