Por Rodrigo Freire, Chief Architect, & Thiago Araki, Sr. Director, Technology Sales, Latin America at Red Hat.
Según se expuso en Febraban Tech 2024, un evento organizado por la industria de servicios financieros en América Latina, el 96 % de los bancos encuestados tienen iniciativas de inteligencia artificial (IA). A partir de ello, naturalmente surgen preguntas como cuántos serían los bancos que efectivamente están sacando provecho de las iniciativas de IA, cómo podrían las empresas de servicios financieros (FSI) aprovechar lo que los modelos de lenguaje pequeños pueden ofrecerles y si se podrían aplicar estas ventajas en otro ámbito que no sea el de los servicios financieros.
¿Qué son los modelos de lenguaje pequeños?
Uno de los aspectos clave de un modelo de IA es la cantidad de parámetros que se utilizan para entrenar un modelo determinado. A la hora de explorar modelos, observaremos que esta cifra asciende a miles de millones por cada modelo. Cuanto mayor sea el valor, más nutrido será el aprendizaje y más avanzada su capacidad para manejar tareas lingüísticas más complejas. Ahora bien, ¿cuanto más grande, mejor? Eso depende. Si debiéramos personalizar un modelo de cientos de miles de millones de parámetros, necesitaremos una capacidad informática y de GPU considerable (medido en días o semanas) para realizar una sola ronda de entrenamiento de ese modelo.
Un modelo de lenguaje pequeño (SLM) es un modelo que puedes personalizar o ajustar con tus propios datos en un plazo de tiempo razonable con el hardware del cual ya dispones (suponiendo que cuentas con recursos informáticos acelerados o acceso a una nube adecuada).
Si investigas los modelos de IA por tu cuenta, verás que algunos ofrecen variantes de parámetros del modelo base. Por ejemplo, la familia de modelos Granite 3.1 ofrece variantes de parámetros que van desde menos de mil millones hasta 34 mil millones. Sugerimos comenzar con variantes de menor tamaño a fin de ir conociendo las capacidades de un modelo y ampliarlo si fuera necesario, para luego descubrir las mejoras (si las hubiera) que podría proporcionar un modelo de parámetros más amplios. Un modelo más pequeño te permitirá comenzar más rápido y ajustarlo en un período de tiempo razonable.
Los SLM en los servicios financieros
Mientras investigábamos este tema, nos topamos con un artículo de Drew Breunig muy interesante. En él, Breunig divide la IA en tres casos de uso principales: dioses, pasantes y engranajes. El caso de “dios” es la IA que reemplaza por completo a los seres humanos o la inteligencia artificial general (IAG), a la que actualmente se destinan muchos fondos e investigación; los “pasantes” generan un contenido muy bueno, pero cuya precisión y adecuación hay que revisar; y, por último, los “engranajes” (donde ubico a los SLM) son modelos diseñados específicamente con una baja tasa de error que les permite funcionar sin supervisión y en un ámbito en el que los usuarios pueden lograr grandes ahorros de costos.
Las pruebas, el desarrollo de códigos, las pruebas de estrés y los pronósticos son fuertes candidatos para la IA de tipo «pasante». Los casos especializados y con márgenes de error reducidos en la industria de servicios financieros, como la atención al cliente, la hiper personalización, la detección de fraudes y el tratamiento de documentos, son candidatos naturales para los modelos de “engranajes” específicos y especializados. En principio, estas tareas no son exclusivas de la industria financiera, así que no hay duda de que otros sectores también podrán aprovechar los engranajes basados en SLM de manera similar.
Beneficios de los SLM
¿Hay interés en modelos de IA más grandes y complejos? Claro que sí. Este tipo de modelos puede ser útil para mecanismos de supervisión, modelos básicos de evaluación/entrenamiento o donde se desea contar con un conocimiento general amplio. Sin embargo, estos modelos pueden conllevar sus propios costos, complejidad y requisitos.
En lugar de adoptar un enfoque para la IA monolítico y apostar todo a un único modelo de lenguaje de gran tamaño (LLM), las organizaciones deberían tener en cuenta una solución compuesta de modelos específicos, incluso hasta una combinación de SLM o LLM. Sería sumamente interesante si pudiéramos asociar estos modelos con aplicaciones de TI tradicionales o nativas de la nube existentes, lo cual generaría un flujo de trabajo interconectado en toda la nube híbrida.
Un conjunto de SLM específicos puede ayudar a:
- mejorar el nivel de seguridad del contenido al poder controlar todos los aspectos del modelo,
- acelerar la innovación a través del ajuste fino,
- segregar el acceso mediante la implementación de accesos por modelo a los sistemas back-end,
- mejorar el control de calidad al controlar las versiones de cada uno de los modelos,
- gestionar los costos y garantizar la eficiencia al disminuir el tiempo de entrenamiento de un modelo.
La buena noticia es que ya existen herramientas open source para experimentar y crear tus propios SLM. Recomiendo probar InstructLab, un proyecto innovador desarrollado por IBM y Red Hat que proporciona herramientas de alineación de modelos que ayudan a las organizaciones a contribuir habilidades y conocimientos a sus modelos de IA general de manera más eficiente para así atender las necesidades de sus aplicaciones y negocios basados en IA.
Hay muchos aspectos ventajosos de los SLM, no solo para la industria de servicios financieros, sino para la comunidad empresarial en su conjunto. Puedes explorar las opciones disponibles y personalizar y ajustar un modelo de IA que sirva a tus propósitos con las herramientas open source y los modelos con licencia open source. Pruébalo y tal vez descubras cómo usar tus propios SLM puede ayudarte a resolver los problemas de tu empresa.