En su libro de 1980 “Metaphors we live by”, los lingüistas cognitivos George Lakoff y Mark Johnson argumentan que prácticamente todo el pensamiento humano se rige por metáforas y es un aporte enorme a las redes neuronales. Estas son analogías creativas que ayudan a explicar una cosa en términos de otra. Al ver "tiempo" y "dinero", implícita y automáticamente permitimos que conceptos relacionados con "ahorro", "desperdicio" o "inversión" gobiernen nuestros pensamientos al respecto. O al pensar en la “teoría” como un “edificio”, permitimos que conceptos como “cimiento”, “construcción” y “soporte” estructuren nuestras discusiones.
El influyente erudito y autor Douglas Hofstadter ha ido aún más lejos. Durante muchos años, Hofstadter ha argumentado que el pensamiento humano no es más que "una docena de analogías por segundo". En otras palabras, las metáforas estructuran todos los aspectos de la cognición. Desde las actividades cotidianas simples hasta los más profundos descubrimientos científicos. La cognición es hacer analogías.
A pesar de su atractivo, la influencia que ha tenido la creación de analogías en la IA en los primeros años ha sido limitada. Y vino principalmente en forma de modelos de computadora que intentaron imitar ciertos aspectos del pensamiento metafórico en ejemplos sin un fuerte impacto.
Compartir el peso
Una posible explicación de por qué las metáforas prevalecen tanto en el pensamiento humano es que nos permiten compartir circuitos neuronales. Al reclutar patrones de activación neuronal que suelen estar activos cuando se piensa en “construir”, las metáforas nos permiten compartir y poner a disposición todos que sabemos sobre los edificios cuando pensamos en cualquier concepto relacionado metafóricamente, como "teoría". Un tipo de intercambio muy similar (posiblemente, "el mismo") prevalece en el aprendizaje automático. De hecho, se podría argumentar que una variante de la lectura extrema de la metáfora cognitiva de Hofstadter ("una docena de analogías por segundo") ha estado gobernando casi todos los aspectos del aprendizaje profundo en las últimas décadas.
Un problema clave en el aprendizaje profundo es que los modelos tienen hambre de datos. El sentido común estadístico prescribe que cuantos más parámetros tenga un modelo, más datos necesitamos para entrenarlo. Esto es cierto para prácticamente todos los tipos de aprendizaje, desde el aprendizaje supervisado y autosupervisado hasta el aprendizaje por refuerzo. La única solución a este problema es mantener grande el número de ejemplos de entrenamiento por parámetro. Y los investigadores de redes neuronales han encontrado una solución ampliamente utilizada: compartir el peso.
Redes convolucionales
Es difícil encontrar una red neuronal que no utilice el peso compartido de una forma u otra. Las redes convolucionales, por ejemplo, aplican un solo filtro a múltiples ubicaciones diferentes en una imagen, lo que resulta en una reducción de parámetros de varios órdenes de magnitud en comparación con una red completamente conectada.
Las redes recurrentes comparten un solo conjunto de conexiones a lo largo de los períodos de tiempo. Transferir el aprendizaje aplica parte de una red a través de múltiples tareas. Compartir el peso es tan frecuente que a veces se esconde a simple vista. De hecho, cualquier red neuronal multicapa tiene la propiedad de que las neuronas de las capas superiores comparten con sus pares los patrones de activación y las conexiones sinápticas de todas las capas inferiores. Por lo tanto, incluso el aprendizaje profundo en sí mismo puede considerarse como una forma de utilizar implícitamente el reparto de peso.
De la misma manera que las metáforas cognitivas prevalecen en la cognición humana, el peso compartido prevalece en la IA. Y esto puede no ser casual. De hecho, podemos pensar en ambos como una y la misma cosa. Y con el mismo propósito simple: eficiencia estadística para permitir el aprendizaje.
Machine learning
Los beneficios estadísticos de compartir pueden impulsar el desarrollo de la IA en direcciones que a veces son contrarias a la intuición. El peso compartido, y su capacidad para mejorar la eficiencia estadística del aprendizaje, nos empuja hacia un desarrollo holístico y hacia la construcción de modelos cada vez más generalistas. También nos aleja de los enfoques reduccionistas de "divide y vencerás", que no solo son comunes sino que incluso están profundamente arraigados en la cultura de la ingeniería. Cambia el desafío de analizar, descomponer y luego construir un modelo para una tarea a encontrar formas de generar los datos que permitan que una red aprenda los componentes necesarios y su integración de extremo a extremo por sí misma.
La tendencia hacia el aprendizaje de extremo a extremo despegó con el reconocimiento de voz y objetos alrededor de 2010 y el uso posterior de la "penúltima capa": el ajuste fino de modelos pre-entrenados. Pero está lejos de concluirse y puede empujar a las redes neuronales hacia niveles significativamente más altos de abstracción y capacidad en los próximos años.
De especialistas de retroalimentación a generalistas recurrentes
Más visiblemente, el peso compartido actualmente está alimentando una tendencia a largo plazo (probablemente irreversible) hacia redes recurrentes, cuyos precursores son grandes modelos populares de lenguaje autorregresivo. La razón es que una red recurrente, o autorregresiva, puede absorber una variedad mucho más amplia de conceptos y capacidades que cualquier modelo de regresión o clasificación de avance. Una forma de ver esto es considerar que un modelo autorregresivo está entrenado para generar una secuencia de forma incremental, no una sola etiqueta de clase. Y combinatoriamente hay muchas instancias de esa secuencia, o "etiquetas para dibujar" para el entrenamiento.
La increíble variedad de tareas en las que se puede entrenar un modelo autorregresivo también se puede ilustrar al ver cada elemento en la secuencia de salida como una "acción". Esto ha ampliado la fuente de posibles señales de supervisión para incluir texto, entradas sensoriales e incluso señales de aprendizaje por refuerzo. Visto desde la perspectiva de las metáforas conceptuales, esto significa que los modelos pueden aprender a aprovechar las conexiones no solo entre conceptos o características estáticas, sino también entre "rutinas", estrategias, posibilidades o "habilidades" dinámicas en el sentido más amplio.
Analogías y metáforas
Podemos pensar en las metáforas como una forma de explotar las "invariancias de alto nivel", cosas que son constantes y no cambian. Mientras que una red convolucional explota las invariancias espaciales de bajo nivel al aplicar un filtro a múltiples ubicaciones en una imagen, las metáforas explotan las invariancias de alto nivel al aplicar un "proceso de pensamiento" a múltiples conceptos o situaciones diferentes.
Las capacidades cognitivas en un alto nivel de abstracción se denominan capacidades del "Sistema-2" en psicología para contrastarlas con la percepción de nivel inferior (o "Sistema-1"). Esta distinción ha sido estudiada en gran profundidad por el premio Nobel Daniel Kahneman, quien argumenta que aunque el Sistema-2 asume los roles de control deliberados, en realidad es el Sistema-1 el que está en el asiento del conductor la mayor parte del tiempo.
Escenarios para pensar
Existe una gran oportunidad para estudiar los tipos de conocimiento y la capacidad de "pensar" metafóricamente que puede adquirir una red neuronal. Esto equivale a elegir cuidadosamente los datos, las tareas y las modalidades que pueden provocar sinergias y conexiones potenciales, y aumentar lenta pero constantemente el nivel de abstracción en el que el reparto de peso puede ejercer una influencia. Por ejemplo, se está estudiando cómo el entrenamiento previo en lenguaje puede proporcionar a un modelo conceptos que mejoren su capacidad de toma de decisiones, o cómo el razonamiento basado en texto se puede combinar y ayudar a un modelo a comprender mejor una transmisión de video.
Las redes neuronales carecen del tipo de cuerpo y base en los que se basan los conceptos humanos. La representación de una red neuronal de conceptos como "dolor", "vergüenza" o "alegría" no se parecerá ni en lo más mínimo a nuestras representaciones humanas de esos conceptos. La representación de una red neuronal de conceptos como "y", "siete" o "arriba" estará más alineada, aunque seguirá siendo muy diferente en muchos aspectos. Sin embargo, un aspecto crucial de la cognición humana, que las redes neuronales parecen dominar cada vez mejor, es la capacidad de descubrir conexiones profundas y ocultas entre conceptos aparentemente no relacionados y aprovecharlos de manera creativa y original.
A medida que aumenta el nivel de abstracción en el que entrenamos nuestras redes, también aumenta el nivel de capacidad con el que nos sorprenden y asombran.
Fuentes
- Qualcomm. (2022). Can neural networks "think" in analogies? (S. Melzner, trad)
- Lakoff, George. (2003). Metaphors We Live By. University of Chicago Press. Amazon