mi información de contacto
correo[email protected]
2024-09-06
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
según las noticias de it house del 6 de septiembre, la cuenta pública oficial de face wall intelligence publicó una publicación de blog ayer (5 de septiembre), anunciando el lanzamiento del modelo de ia de código abierto minicpm3-4b, afirmando que "el momento para chatgpt del lado del cliente viene."
minicpm3-4b es el producto de tercera generación de la serie minicpm. su rendimiento general supera al de phi-3.5-mini-instruct y gpt-3.5-turbo-0125, y es comparable a muchos modelos de ia con entre 7 mil millones y 9 mil millones de parámetros.
en comparación con minicpm1.0/minicpm2.0, minicpm3-4b tiene un conjunto de habilidades más potente y versátil que se puede utilizar para una gama más amplia de propósitos. minicpm3-4b admite llamadas a funciones e intérpretes de códigos.
las siguientes son las diferencias entre las tres versiones de la estructura del modelo (1->2->3):
tamaño de la lista de palabras: 123k->73k->73k
número de capas del modelo: 40->52->62
nodos de capa ocultos: 2304->1536->2560
longitud máxima: 4k->4k->32k
palabras de aviso del sistema: no compatible -> no compatible -> compatible
llamadas a herramientas e intérpretes de código: no compatible -> no compatible -> compatible
minicpm3-4b tiene una ventana de contexto de 32k. con la ayuda de llmxmapreduce, minicpm3-4b no necesita ocupar demasiada memoria y puede manejar contextos teóricamente infinitos.
face wall intelligence también lanzó el modelo minicpm-embedding y el modelo minicpm-reranker de la suite rag, y también lanzó una versión mejorada del modelo minicpm3-rag-lora para escenarios rag.