Microsoft hizo oficial el lanzamiento de Phi-2. Se trata de un modelo de lenguaje pequeño (SLM, por sus siglas en inglés) basado en inteligencia artificial (IA) que promete superar en potencia y capacidades a desarrollos 25 veces más grandes, como Llama 2 de Meta.
El modelo cuenta con 2,700 millones de parámetros. En comparativa, el algoritmo más avanzado de la empresa liderada por Mark Zuckerberg opera con 70,000 valores. A pesar de la diferencia, Phi-2 demostró un rendimiento superior a Llama 2 en tareas matemáticas y de programación. El equipo de Microsoft afirma que las capacidades de razonamiento y comprensión de lenguaje del sistema marcan un nuevo hito entre los modelos base con menos de 13,000 millones de argumentos operativos.
3 nuevas herramientas de IA que indican el rumbo de los grandes modelos de lenguaje
En los cinco días transcurridos entre el misterioso despido de Sam Altman y su nueva reincorporación como CEO de OpenAI, varias compañías lanzaron nuevas herramientas de inteligencia artificial, incluyendo OpenAI.
Los desarrolladores atribuyen estos resultados a un proceso de entrenamiento más estratégico. Phi-2 fue instruido por 14 días a través de 96 tarjetas gráficas A100 de Nvidia. Los ingenieros utilizaron un conjunto de datos que incluyó documentos sintéticos de programación neurolingüística, información web seleccionada en función de su valor educativo, subconjuntos de código extraídos de Stack Overflow y una selección de libros de texto.
“Nuestra combinación de datos de entrenamiento contiene conjuntos de datos sintéticos creados específicamente para enseñar al modelo razonamiento con sentido común y conocimientos generales, incluida la ciencia, las actividades diarias y la teoría de la mente, entre otros”, detalló la empresa tecnológica.
Puntuaciones de seguridad calculadas en 13 datos demográficos de ToxiGen. Una puntuación más alta indica que es menos probable que el modelo produzca frases tóxicas.© Cortesía Microsoft
El algoritmo no fue sometido a un proceso de refinamiento de respuestas por retroalimentación humana. Pese a esta condición, Microsoft afirma que el SML muestra un mejor comportamiento respecto a las respuestas tóxicas y sesgos de información, en comparación con Llama 2.
El modelo es de código abierto y está disponible solo para proyectos de investigación sin fines de lucro desde la suite Azure AI Studio. “Con su tamaño compacto, Phi-2 es un campo de juego ideal para los investigadores, incluso para la exploración en torno a la interpretabilidad mecanicista, mejoras de seguridad o experimentación de ajuste en una variedad de tareas”, señaló Microsoft.
