noticias

"ha llegado el momento del chatgpt del lado del cliente", face wall intelligence lanza el modelo de ia minicpm3-4b de código abierto xiaogangpao

2024-09-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

según las noticias de it house del 6 de septiembre, la cuenta pública oficial de face wall intelligence publicó una publicación de blog ayer (5 de septiembre), anunciando el lanzamiento del modelo de ia de código abierto minicpm3-4b, afirmando que "el momento para chatgpt del lado del cliente viene."

minicpm3-4b es el producto de tercera generación de la serie minicpm. su rendimiento general supera al de phi-3.5-mini-instruct y gpt-3.5-turbo-0125, y es comparable a muchos modelos de ia con entre 7 mil millones y 9 mil millones de parámetros.

en comparación con minicpm1.0/minicpm2.0, minicpm3-4b tiene un conjunto de habilidades más potente y versátil que se puede utilizar para una gama más amplia de propósitos. minicpm3-4b admite llamadas a funciones e intérpretes de códigos.

las siguientes son las diferencias entre las tres versiones de la estructura del modelo (1->2->3):

tamaño de la lista de palabras: 123k->73k->73k

número de capas del modelo: 40->52->62

nodos de capa ocultos: 2304->1536->2560

longitud máxima: 4k->4k->32k

palabras de aviso del sistema: no compatible -> no compatible -> compatible

llamadas a herramientas e intérpretes de código: no compatible -> no compatible -> compatible

minicpm3-4b tiene una ventana de contexto de 32k. con la ayuda de llmxmapreduce, minicpm3-4b no necesita ocupar demasiada memoria y puede manejar contextos teóricamente infinitos.

face wall intelligence también lanzó el modelo minicpm-embedding y el modelo minicpm-reranker de la suite rag, y también lanzó una versión mejorada del modelo minicpm3-rag-lora para escenarios rag.