Sergio Melzner

Comportamiento

Clustering: qué es y cómo se relaciona con la ingeniería social

El clustering agrupa y describe..

La informática transformó nuestras vidas. El cambio fue tan rápido y tan profundo que, para bien o para mal, nos resulta difícil entender su escala. Hace cien años, las computadoras no existían; hoy no podemos imaginar la vida sin ellas. Las usamos para todo: para administrar nuestras finanzas y para comunicarnos con nuestros parientes, para escuchar música y para manejar el auto. Cuando hablamos de clustering primero estamos hablando de una revolución tecnológica transversal, que impacta en prácticamente todas las áreas de la vida cotidiana. Y la ingeniería social no es la excepción.

Dentro de la informática, la ciencia de datos es una de sus ramas más pujantes. Es también, en algún punto, un correlato de su impacto masivo. Ahora que tenemos computadoras en todas partes, también tenemos grandes cantidades de información, generadas por cada una de nuestras interacciones. La ciencia de datos es la disciplina encargada de analizar estas enormes masas de datos —la famosa big data—, y el clustering una de sus técnicas más importantes.

¿Qué es la ciencia de datos?

En el fondo, la ciencia de datos es una escisión de la estadística. El cambio de nombre tiene que ver, en realidad, con un cambio de enfoque. La ciencia de datos tiene los mismos fundamentos matemáticos que la estadística, pero se propone también aprovechar al máximo la capacidad de procesamiento de la computación. En algún punto, se trata de una aproximación más práctica.

Todas nuestras interacciones con una computadora pueden convertirse en datos. Eso significa que, a lo largo del día, generamos cantidades impensables de información: las páginas de internet a las que entramos, las redes sociales que usamos, los contenidos con los que interactuamos, el tiempo que pasamos en cada sitio, la cantidad de veces que hacemos clic, etc. Y esto no es cierto solamente para nosotros. Hay millones de personas parecidas generando masas de datos similares. El solo hecho de almacenar todo estos datos es problemático, ni hablar de analizarlos y procesarlos.

En el siglo XXI, generamos más información que nunca. La ciencia de datos es la disciplina encargada de extraer valor de esas enormes masas de datos.

¿Qué es el clustering?

En inglés, un cluster es un conjunto de cosas similares. En general, también supone que estas cosas están apiñadas, tan juntas que casi no se las puede diferenciar. Dentro de la ciencia de datos, lógicamente, un cluster es un conjunto de datos: una masa de información sin procesar. El clustering es una técnica que consiste en encontrar patrones dentro de ese conjunto.

Lo valioso de esta técnica es que nos permite descubrir relaciones nuevas. ¿Cómo es eso posible? Bueno, en principio, porque las computadoras que se dedican al clustering no buscan patrones previamente definidos. No se trata de clasificar la información o de reproducir una lógica predeterminada por un humano. Lo que hacen, en realidad, es encontrar relaciones a su manera, muchas veces donde no sabíamos que las había. Nos sorprenden. Y, para eso, tienen que usar un tipo especial de programación, conocido como redes neuronales artificiales.

Machine learning y redes neuronales

Conocemos las redes neuronales artificiales desde los principios de la informática. Ya a principios de los 50, dos científicos del MIT, Minksy y Edwards, habían experimentado con este diseño. La idea era construir una máquina que imitara la forma en que funciona el cerebro humano. No se trataba de seguir secuencias de comandos lógicas y prefijadas —es decir, no se trataba de ejecutar—, sino de componer una red de nodos que se enviaran información entre sí y aprendieran. En eso consiste el machine learning.

La máquina de Minksy y Edwards era muy sencilla. Consistía en un pequeño laberinto lleno de lamparitas y una computadora asociada. La computadora, conocida como SNARC (stochastic neural-analog reinforcement calculator) mandaba una orden, y esa orden encendía todas las lamparitas en cierto camino posible. Si el camino era el que llevaba hasta el final, la computadora era “recompensada”. Con el tiempo, la computadora dejó de enviar señales equivocadas. Había aprendido a salir del laberinto.

Sin embargo, a pesar de que las redes neuronales fueron desarrolladas muy temprano, no tuvieron aplicación práctica hasta mucho después. Para que esta técnica fuera útil, necesitábamos mucha capacidad de procesamiento y mucha memoria. Y en los cincuenta no teníamos nada de eso.

Afortunadamente, hoy ambas cosas. Por eso, descendientes de la SNARC pasan su tiempo analizando enormes masas de datos —clusters— y encontrando patrones. ¿Qué patrones? Bueno, en principio, los que crean más apropiados. Confiamos en su criterio.

El clustering es fundamental para la ingeniería social. La informática potenció muchísimo las ciencias del comportamiento, porque nos permitió mensurar la conducta humana como nunca antes. Hoy en día, tenemos medidas confiables y concretas sobre los hábitos, las acciones y las decisiones de millones de personas, por lo menos dentro de ciertos ámbitos. El clustering es la herramienta que nos permite encontrar patrones dentro de esa masa de información.

Su aplicación más difundida tiene que ver con el marketing. Se usa el clustering básicamente para segmentar grupos de clientes y dirigir las campañas con más precisión. Es muy común, por ejemplo, dirigir las publicidades de bienes de lujo a los consumidores de otros bienes de lujo, porque sabemos que tienen ese poder adquisitivo. Por eso el golf suele tener anuncios de relojes o ropa de diseño. Sabemos que todos esos bienes apelan al mismo sector del mercado.

Pero el clustering nos permite detectar patrones más complejos, menos intuitivos o más específicos. Y no tienen que ser necesariamente patrones de consumo. De esta forma, podemos vincular decisiones concretas con aspectos personales, como la edad o la nacionalidad, para crear perfiles muy elaborados.

Toda esa información es muy útil para la ingeniería social. Por un lado, la informática nos permite mensurar muchos aspectos de la conducta humana que antes desconocíamos. Por el otro, el clustering detecta tendencias, patrones y recurrencias dentro de esa enorme masa de datos. Nos ayuda a darle sentido a esa información; es el sustento detrás de nuestras maniobras. Y después podemos, también, medir cambios y transformaciones; es decir, medir el impacto.

La informática es una de las ciencias que aporta a la ingeniería social, pero no la única. La ingeniería social también toma elementos de la comunicación, de la psicología, de la economía y de las neurociencias. Toma, en algún punto, todo lo que puede servir para explicar, predecir o modificar el comportamiento humano. Pero, a diferencia de las ciencias del comportamiento, lo hace con un enfoque netamente práctico. La ingeniería social no es una ciencia: es una actividad, una disciplina que busca influir la manera en que habitamos el mundo.

Podés aprender los fundamentos de esta disciplina en mi libro, Ingeniería social. Si te interesa, también podés leer un adelanto.