Ciencia de datos

Ciencia de datos para procesar grandes volumenes y hacer minería de datos
Share on twitter
Twitter
Share on whatsapp
WhatsApp
Share on linkedin
LinkedIn
Share on facebook
Facebook
Share on telegram
Telegram
Share on email
Email
Share on facebook
Share on telegram
Share on email
Share on twitter
Share on whatsapp
Share on linkedin

Aunque a menudo se ve como un montón de números en una pantalla, la ciencia de datos informa lo que sabemos, a quién conocemos y cómo vemos el mundo. Muchos se preguntaron ¿qué es la ciencia de datos? Y ahí están esos profesionales que llamamos científicos de datos, que eligen la información, el entretenimiento y los medios que consumimos, lo que constituye el "back-end" de prácticamente toda la tecnología y las redes sociales. 

Como resultado de la recopilación de datos y la comprensión de quiénes somos nosotros, los usuarios, los científicos de datos pueden seleccionar información que nos atraiga, cambiando o reforzando ligeramente nuestras preferencias, creencias e ideologías. Los científicos de datos influyen en todo, desde lo que compramos hasta las causas que nos preocupan.

Historia

A lo largo de las décadas de 1980 y 1990, "minería de datos" era el término utilizado para referirse al análisis de datos en bruto sin una hipótesis o intención específica. Otros términos como "pesca de datos", "recolección de información" y "extracción de conocimiento" también se utilizaron con frecuencia para describir este proceso de recopilación de información de grandes bases de datos.

En 2001, el científico informático William S. Cleveland escribió un artículo de investigación en el que abogaba por que las estadísticas se expandieran más allá de la teoría y hacia la práctica. Quería combinar la minería de datos con la informática, abriendo las posibilidades de que las estadísticas fueran una poderosa fuerza de innovación. Debido a que este salto cambiaría radicalmente el campo de la estadística, Cleveland argumentó que se necesitaba un nuevo nombre: ciencia de datos.

Cleveland no fue el primero en abogar por este cambio, sin embargo, hoy en día es más reconocido por ello. De hecho, en 1985, el científico informático CF Jeff Wu usó el término "ciencia de datos" para reemplazar el término "estadística" durante una conferencia en Beijing, y continuó usándolo a lo largo de su trabajo hasta la década de 2000.

Cambio de siglo

A principios de la década de 2000, "ciencia de datos" se convirtió en un término más utilizado y comenzó a aparecer en los nombres de comités y revistas, específicamente The Journal of Data Science de la Universidad de Columbia en 2003. A medida que Internet se volvió más interactivo a lo largo del cambio de milenio, un aumento de datos en internet planteó una pregunta a los informáticos: ¿qué hacemos con todos estos datos?

El auge de los datos provocó la necesidad de respuestas, que llegaron en forma de ciencia de datos. En los 15 a 20 años transcurridos desde entonces, no se ha llegado a una definición acordada de "ciencia de datos", y los profesionales todavía están tratando de averiguar qué significa exactamente este término. Sin embargo, el alejamiento del término “estadística” demuestra la introducción de los datos al ámbito práctico. Este cambio cultural demuestra que las estadísticas ya no son solo números; ahora vistas como "datos", pueden transformarse en conocimientos que pueden ayudar a resolver problemas del mundo real.

Impacto

Hoy en día, los datos se recopilan constantemente en volúmenes extremadamente altos. Cada vez que hace clic en una página web, envía un correo electrónico o se desplaza por un anuncio dirigido, los algoritmos recopilan datos sobre sus preferencias e intereses, componiendo un perfil actualizado constantemente de su identidad. Estos son los llamados perfiles psicográficos.

Como puede imaginar, las grandes empresas que tienen millones de usuarios reciben cantidades masivas de datos, lo que se conoce como "big data". Aproximadamente desde 2010, las empresas han estado recibiendo grandes cantidades de datos como resultado de las plataformas de redes sociales interactivas, una innovación que se conoce como Web 2.0.

Como resultado de estos datos, todo tipo de empresas obtienen información sobre a quién deben dirigir sus productos o servicios y, más específicamente, qué productos o servicios, con qué frecuencia e incluso a qué horas del día. Los científicos de datos analizan e interpretan estos datos a través de algoritmos y hacen uso de la información dirigiendo anuncios de sus productos hacia aquellos que tienen más probabilidades de interactuar con ellos o comprarlos. Esta es una forma de arquitectura de elección.

Recolección pasiva

Los científicos de datos también extraen otros tipos de información de estos datos sin procesar que pueden ayudarlos a mejorar su marca. Si, por ejemplo, una organización nota que se pasa mucho tiempo en su sitio web tratando de encontrar la pestaña "Contáctenos", los diseñadores de sitios web o de experiencia de usuario pueden optar por hacer que esta pestaña sea más accesible. De esta manera, sin tener que llamar a la empresa y "hablar con un gerente", sus instintos y acciones automáticamente transmiten datos a las empresas, quienes luego interpretarán sus inquietudes y corregirán sus errores en consecuencia.

Los científicos de datos pueden ir más allá de la interpretación de datos: también pueden crear nuevas soluciones a problemas mundiales que pueden presentarse en forma de software o algoritmos. Estos pueden existir como aprendizaje automáticointeligencia artificial o simplemente nuevas aplicaciones o sitios web.

En pocas palabras, la ciencia de datos es la mejor forma de ciencia del comportamiento disponible para las computadoras: ayuda a empujar a los humanos hacia las decisiones y luego les brinda la oportunidad de poner la investigación en práctica.

Controversias

Lo más probable es que vos mismo hayas sido parte de una controversia de ciencia de datos en un momento u otro. Y también es posible que ni lo supiera. Si bien comprender a los usuarios es muy beneficioso para las empresas, las organizaciones y las aplicaciones, hay muchas maneras en que los usuarios son manipulados en función de los objetivos de estas partes. Ahí radica la controversia en la piedra angular de la ciencia de datos: ¿se usará para bien o para mal?

Por supuesto, hay formas en que la ciencia de datos se usa para bien: si su tecnología puede empujarlo hacia una decisión positiva que ha estado pensando tomar, puede estar agradecido. Si saben que sos un candidato potencial al que le gustaría firmar una petición digna, por ejemplo, poder enviarte esta petición beneficiará en última instancia a su causa de elección. De esta manera, la ciencia de datos puede ayudar a una organización con el objetivo de llegar a muchos usuarios y posiblemente afectar un cambio positivo en el mundo real.

Cacería de la atención

Sin embargo, en manos de diseñadores menos altruistas, la ciencia de datos puede tener efectos negativos en nuestra salud mental, nuestra toma de decisiones, nuestra política e incluso nuestras relaciones. Tener tecnología que nos entienda tan bien puede ser perjudicial cuando continúa pidiendo más y más de nuestra atención. A medida que continúan apareciendo anuncios, videos y artículos que nos intrigan y roban nuestra atención, nuestras pantallas nos absorben cada vez más y nos alejan de nuestra vida real. Los adolescentes de hoy pasan en promedio casi 7.5 horas por día en sus pantallas, sin incluir el tiempo para el trabajo escolar.

Además, que la tecnología nos entienda tan bien significa que nos proporciona información que se alinea con nuestras creencias. Debido a esto, estamos limitados en las perspectivas que ganamos y cuánto aprendemos de otras perspectivas, capitalizando el sesgo de confirmación. La combinación de ciencia de datos y redes sociales ha tenido efectos polarizadores en nuestro panorama político, como se describe en The Social Dilemma de Netflix.

Fuentes

  1. Laboratorio de decisiones. (2022). Algorithm. (S. Melzner, trad)
  2. F. Jeff WU. (2010, 8 de abril). Wikipedia, la enciclopedia libre. Recuperado el 22 de febrero de 2021, de Wikipedia
  3. Minería de datos. (2002, 28 de febrero). Wikipedia, la enciclopedia libre. Recuperado el 22 de febrero de 2021, de Wikipedia
  4. Ciencia de datos (2012, 11 de abril). Wikipedia, la enciclopedia libre. Recuperado el 22 de febrero de 2021
  5. DJ Patil. (2015, 19 de febrero). Wikipedia, la enciclopedia libre. Recuperado el 22 de febrero de 2021
  6. Escándalo de datos de Facebook-Cambridge Analytica. (2018, 26 de marzo). Wikipedia, la enciclopedia libre. Recuperado el 22 de febrero de 2021
  7. ODSC – Ciencia de Datos Abiertos. (2019, 22 de febrero). Los 5 mayores debates en ciencia de datos hoy
  8. Orlowski, J. (Director). (2020). El dilema social.
  9. Tech, J. (22 de junio de 2018). ¿Qué es REALMENTE la ciencia de datos? Contado por un científico de datos. YouTube
  10. El borde. (2018, 22 de marzo). El escándalo de datos de Cambridge Analytica de Facebook
  11. William S. Cleveland. (2015, 10 de abril). Wikipedia, la enciclopedia libre. Recuperado el 22 de febrero de 2021

Leé más conceptos tendencias modelos casos contenidos materiales adelantos guías

Completá tus datos para recibir una serie de 10 envíos hechos para vos.

Microeconomía en las decisiones familiares.

Microeconomía

La microeconomía es una rama de la economía que estudia cómo las personas, los hogares y las empresas toman decisiones sobre sus recursos.

inteligencia artificial y robotización

Inteligencia artificial

La inteligencia artificial (IA) intenta que las computadoras y las máquinas tomen decisiones como los humanos.

efecto halo

Efecto halo

El efecto halo es un sesgo cognitivo que afirma que las impresiones influyen positivamente en nuestra percepción sobre los demás atributos.

Teoría de juegos y dilema del prisionero.

Teoría de juegos

La teoría de juegos proporciona modelos para conceptualizar interacciones entre individuos.

wood animal lizard reptile

Evolución

Cuando los organismos vivos se reproducen, transmiten rasgos exitosos de evolución que aseguran su supervivencia y capacidad de reproducción.

El efecto mariposa puede producir grandes cambios.

Efecto mariposa

El efecto mariposa se basa en la noción de que un pequeño suceso puede influir en un sistema complejo mucho más grande.

Los incentivos tienen un fuerte componente social.

Incentivos

Pueden ser incentivos morales, económicos o sociales pero siempre un incentivo es algo que motiva a las personas.

close up of bristle brushes on industrial machine

Costo marginal

El costo marginal es la inversión unitaria que se asume al iniciar la producción de una unidad adicional.

La teoría de la perspectiva y la aversión a perder.

Teoría de la perspectiva

Según la teoría de la perspectiva de Daniel Kahneman y Amos Tversky, valoramos las pérdidas y las ganancias de manera desproporcionada.

Enfocarse en el 20% que genera beneficio.

Principio de Pareto

El principio de Pareto se debe a la observación de que la mayoría de los efectos proviene de una minoría de causas.