Desde que se lanzó ChatGPT en noviembre del año pasado, todo el mundo habla de inteligencia artificial y han salido supuestos expertos hasta de debajo de las piedras. Pero más allá de eso, la inteligencia artificial es un tema que debes conocer, así tu profesión sea otra.
Por eso, en este blog, te explicaré de manera muy sencilla los 20 conceptos más importantes que debes conocer sobre la inteligencia artificial.
Así que si eres de los que solo sabe decir prompt y ChatGPT (como la mayoría de gurus de internet), quédate por qué hoy sí vas a entender la inteligencia artificial. Porque tú sabes que la tecnología es fácil con EDteam.
1. Inteligencia artificial
Empecemos por el principio: ¿Qué es la inteligencia artificial? Es la capacidad de una computadora de realizar tareas propias de la inteligencia humana.
El concepto de máquinas que piensen y se comporten como los seres humanos nos ha obsesionado desde siempre: su primera mención fue en el siglo V a.c. cuando el poeta griego Aristófanes, en una de sus obras menciona, una máquina que puede escribir poesía y es capaz de pensar por sí misma.
Pero el término exacto de “Inteligencia Artificial” fue introducido por John McCarthy en 1956. No solo eso, también creó LISP, el primer lenguaje de programación enfocado en la IA. ¡Hace 67 años!
2. Test de turing
En 1950, Alan Turing pensó que puesto que la programación sigue las leyes de la lógica y el pensamiento humano también, era razonable que las computadoras pudieran pensar, así que propuso un test al que llamó “El juego de la imitación” pero que la historia recuerda como “El test de turing”.
Este test consiste en que una persona, llamada juez, mantiene un diálogo vía texto con una computadora y con una persona a las que no puede ver. Si el juez no logra diferenciar quién es la computadora y quién la persona, la computadora ha superado el test y es una máquina pensante.
Por mucho tiempo se creyó que este test no podría superarse, pero al día de hoy ya fue vencido.
3. Machine Learning
Si la inteligencia artificial es la capacidad de una computadora de realizar tareas propias de la inteligencia humana, el Machine Learning es el proceso para conseguirlo.
El Machine Learning consiste en entrenar a una computadora con grandes cantidades de datos para que pueda encontrar patrones a través de probabilidades y estadísticas. A partir de estos patrones, la computadora es capaz de identificar nuevos datos, predecir datos futuros o tomar decisiones.
Los datos son para el Machine Learning como la gasolina para un auto. Si antes nuestros datos se usaban para enviarnos publicidad, ahora se usan para entrenar a la IA.
4. Modelo
Seguro has escuchado que GPT-4 o LlaMA 2 son modelos. Pero, ¿qué es un modelo?
En la inteligencia artificial un modelo es una representación matemática de un sistema real de datos. Este modelo es capaz de captar los patrones y las relaciones entre los elementos de este sistema.
En sencillo son como los algoritmos en la programación. Con una pequeña diferencia: los algoritmos son diseñados y escritos por programadores para generar datos de salida, a partir de datos de entrada.
Mientras que en los modelos tenemos los datos de entrada y los de salida, pero no el algoritmo y es a través de prueba y error (y mucha matemática) que se obtiene ese algoritmo (o mejor dicho, modelo) que es la base de la IA.
5. Deep Learning
El Machine Learning usa algoritmos basados en probabilidades y estadísticas para entrenar a sus modelos y que sirven muy bien para determinados usos. Pero en problemas más complejos como el reconocimiento facial o de la escritura a mano, la conducción autónoma o el reconocimiento de voz, estos algoritmos no bastan.
Es aquí donde entra el aprendizaje profundo o deep learning, que usa redes neuronales y es capaz de ir mejorando sus modelos sin intervención humana, evaluándose a sí mismo. De locos.
Todos los modelos de IA que nos tienen alucinando en la actualidad están entrenados con Deep learning.
6. Red neuronal
Como te dije, el deep learning está basado en redes neuronales, que son un modelo de cómputo que emula a las redes neuronales biológicas del cuerpo humano con el fin de imitar la estructura del pensamiento humano.
Las redes neuronales están conformados de muchos elementos, pero hay tres que son fundamentales:
- 1- Los nodos que representan una neurona y reciben información o datos de entrada que provienen de otras neuronas, procesan esos datos y entregan el resultado o datos de salida a otra neurona que repetirá el proceso.
- 2- Las capas que son conjuntos de neuronas (o nodos) destinadas a una tarea en específico. Por ejemplo, una capa puede reconocer la forma de una imagen, otra capa puede reconocer colores, otra capa volumen, etc.
7. Parámetros
Que son las conexiones entre los nodos de una red neuronal. O más sencillo, cada línea en el gráfico de una red neuronal.
A más parámetros, más poderosa es la red neuronal y el modelo entrenado con ella. Por ejemplo, ChatGPT tiene 175 millones de parámetros.
Dentro de los parámetros existen dos conceptos fundamentales: pesos y sesgos.
Los pesos indican el nivel de importancia de cada uno de los datos, mientras que los sesgos ayudan a hacer predicciones más específicas.
Lo interesante de esto es que tanto los pesos como los sesgos son ajustados automáticamente por la red neuronal en un proceso de prueba y error continuo y sin intervención humana.
8. Red Neuronal Convolucional
Es el tipo de red neuronal específico para el reconocimiento de imágenes, puesto que su procesamiento requiere ir pixel por pixel (cuadro por cuadro).
¿Te acuerdas de que las redes neuronales tienen capas? Pues las redes neuronales convolucionales tienen una capa llamada de Convolución (de ahí su nombre) que se encarga de identificar las imágenes con procesos matemáticos calculando pixel por pixel.
Gracias a estas redes, la IA puede reconocer personas en fotos, convertir la escritura a mano a texto y los autos que se manejan solos pueden reconocer personas u objetos. Esta rama de la IA se conoce como “Visión por computadora”.
9. Transformer
Así como las redes neuronales convolucionales son la base para procesamiento de imágenes, los Transformers lo son para el reconocimiento del lenguaje humano. Cuando era niño mi papá me decía que si le hablabas a una computadora, esta te entendía. Cuando crecí y entendí como funcionan las computadoras supe que no (infancia destruida).
Sin embargo, hoy sí es posible (ChatGPT es el mejor ejemplo) y todo comienza con los Transformers que no son estos, sino una arquitectura de red neuronal inventada por Google en 2017 para el reconocimiento del lenguaje humano.
10. NLP
Son las siglas de Natural Language Processing (o procesamiento de lenguaje natural) y consiste en entender el lenguaje humano con todas sus sutilezas.
El NLP, fue potenciado por los Transformers y permite entender sentimientos, hacer traducción automática, responder como lo haría una persona o resumir información.
El CEO de Nvidia (y otros expertos) han dicho que el lenguaje humano puede convertirse en el próximo lenguaje de programación. Es decir, en la forma de darle instrucciones a una computadora. Impresionante.
11. IA generativa
El siguiente concepto de inteligencia artificial es IA Generativa, que es la rama de la Inteligencia Artificial que es capaz de crear contenido como textos, código, imágenes, música e incluso voces. El primer modelo generativo es de los años 50 y se conoce como algoritmo de Markov, que podía determinar la siguiente palabra en una cadena de texto y así construir oraciones como lo haría una persona.
En 2022 hubo una explosión de productos de IA generativa: LaMDA de Google en mayo, Midjourney en julio, Stable Diffusion en agosto, Dall-E 2 en septiembre y ChatGPT en noviembre.
12. LLM
Large Language Model (o modelo extenso de lenguaje), es un modelo que puede comprender y generar lenguaje humano a una escala muy grande. Estos modelos están basados en la arquitectura Transformer y en 2018 se lanzaron los dos primeros: BERT de Google y GPT-1 de OpenAI.
En junio de 2022, un ingeniero de Google hizo noticia luego de hablar por meses con LaMDA de Google y asegurar que tiene vida, en noviembre de 2022 se lanzó GPT-3.5 y en marzo GPT-4.
En julio Google lanzó PaLM2 sobre el cual se construyó Bard como respuesta a ChatGPT y también en julio Meta lanzó LLaMA 2, un LLM Open Source.
13. GPT
Seguro te suena por ChatGPT y son las siglas de Generative Pretrained Transformer. Ya te expliqué qué significa “generativo” y “transformer”. Mientras que preentrenado significa que este tipo de modelo fue entrenado con grandes cantidades de datos para propósitos generales y luego puede afinarse para usos específicos.
Es un modelo de IA generativa desarrollada por OpenAI sobre la arquitectura transformer. En noviembre de 2018 se lanzó GPT-1, en noviembre de 2019, GPT-2, en diciembre de 2020, GPT-3, en diciembre de 2022 GPT-3.5 (con ChatGPT) y en marzo de 2023 GPT-4.
14. Chatbot
Un chatbot es un software que simula una conversación con otro ser humano a través de chat, se suelen usar en atención al cliente y algunos responden igual de mal que los seres humanos.
El primer chatbot de la historia se llamó Eliza y fue desarrollado por el profesor del MIT Joseph Weizenbaum en 1966. Era muy simple, pues tenía respuestas pre configuradas que se disparaban por palabras clave de la conversación.
En 2016, Microsoft publicó Tay, un chatbot con IA con el que los usuarios podían interactuar en Twitter. Este chatbot aprendía de las interacciones con las personas, por lo que en un día se volvió racista, nazi y xenófobo, por lo que Microsoft pidió disculpas públicas y lo retiró.
En noviembre de 2022, OpenAI lanzó ChatGPT, un chatbot basado en GPT-3.5 y luego en GPT-4. En febrero de 2023, Microsoft lanzó Bing chat, basado en GPT-4 y en marzo, Google lanzó Bard, basado en PaLM 2.
15. Prompt
Para la inteligencia artificial, prompt es la instrucción que se le da al modelo para que realice una tarea específica. Estos prompts pueden ser en formato de texto (que es el más común hoy en día), imagen o sonido.
Lo interesante de los prompts es que funcionan como un lenguaje de programación en el sentido de que mientras más claros seamos en las instrucciones, mejores serán los resultados. De ahí que se hable de una carrera de “Prompt engineer” cuyo objetivo real no es saber como escribir un prompt (que es algo demasiado fácil) sino conocer a fondo los modelos para optimizarlos, crear chatbots o mejorar su precisión.
16. Multimodal
Un modelo es multimodal cuando es capaz de procesar información de diferentes fuentes, por ejemplo texto, imágenes o sonido. Pero, además, que pueden recibir en sus prompts diferentes tipos de información. Por lo que un chatbot que también recibe imágenes es multimodal.
Los modelos de IA comenzaron siendo monomodales, pero los modelos más importantes hoy en día como GPT-4 de OpenAI, PaLM 2 de Google o LLaMA 2 de Meta son multimodales.
17. Fine Tuning
Es el proceso de tomar un modelo preentrenado (como GPT-4) y afinarlo para usos específicos. Como crear un bot para tu e-commerce que conozca tu catálogo de productos y los precios. Gracias al Fine Tuning existen muchas apps basadas en ChatGPT y sus plugins. Además, puedes crear tu propio chatbot con Fine Tuning estudiando en EDteam.
La semana pasada, OpenAI anunció que ya está disponible el fine tuning para GPT-3.5 Turbo y que pronto saldrá el de GPT-4 (hasta ahora estaba disponible solo el de 3.5).
Para realizar un Fine Tuning los pasos son 4: preparar tus datos, subir tus archivos, crear un proceso de Fine Tuning con esos datos y finalmente usar el modelo ajustado.
18. RFLH
Son las siglas de “Reinforcement Learning from Human Feedback” o Aprendizaje reforzado por retroalimentación humana. O sea, que los sistemas no aprenden por sí solas, sino que seres humanos les indican si sus resultados fueron correctos o no para que puedan mejorar.
Esto dio origen al meme más famoso de la IA que representa a una criatura de ficción llamada Shoggoth, que es aterradora porque puede salirse de control (que es el miedo que nos genera la IA), mientras que el mismo Shoggoth con una carita feliz es la IA con RLHF. O sea, el mismo monstruo pero con una etiqueta, para le tengamos menos miedo.
19. AGI
Son las siglas de Artificial General Intelligence (o inteligencia artificial general) y es el máximo objetivo de la IA.
Para explicarlo recordemos que la IA que conocemos se conoce como estrecha (o Narrow IA) que significa que su campo de aplicación es específico. Por ejemplo, una IA que genera imágenes no puede generar texto, una IA para conducción autónoma no puede traducir idiomas. Son como aplicaciones con usos específicos.
La idea de la AGI es que un modelo de IA puede extrapolar sus conocimientos a otras áreas y aprender por sí misma, alcanzando la capacidad humana de llevar sus experiencias a otros ámbitos, solo que con mucha mayor velocidad que cualquier persona.
La AGI aún no existe y no se sabe cuando la alcanzaremos. Los optimistas dicen que en 4 o 5 años, aunque otros dicen que en décadas.
20. Singularidad
Por último, la singularidad, aunque es un concepto ficticio, es recurrente cuando se habla de los avances de la Inteligencia Artificial, puesto que se refiere al punto en que la IA superará a la inteligencia humana y será capaz de crear nueva tecnología y mejorarse a sí misma sin nuestra intervención. Sí, algo como Skynet.
La singularidad está relacionada directamente con la AGI, además de dispositivos electrónicos que conecten el cuerpo humano con las computadoras para potenciar nuestras habilidades.
Este articulo fue escrito por EDteam en el portal de LinkedIn, si desea conocer mas revise el siguiente enlace: ¿Qué es la IA? Guía DEFINITIVA para programadores y no programadores