Ciencia de datos

Ciencia de datos para procesar grandes volumenes y hacer minería de datos
Share on twitter
Twitter
Share on whatsapp
WhatsApp
Share on linkedin
LinkedIn
Share on facebook
Facebook
Share on telegram
Telegram
Share on email
Email
Share on facebook
Share on telegram
Share on email
Share on twitter
Share on whatsapp
Share on linkedin

Aunque a menudo se ve como un montón de números en una pantalla, la ciencia de datos informa lo que sabemos, a quién conocemos y cómo vemos el mundo. Muchos se preguntaron ¿qué es la ciencia de datos? Y ahí están esos profesionales que llamamos científicos de datos, que eligen la información, el entretenimiento y los medios que consumimos, lo que constituye el "back-end" de prácticamente toda la tecnología y las redes sociales. Como resultado de la recopilación de datos y la comprensión de quiénes somos nosotros, los usuarios, los científicos de datos pueden seleccionar información que nos atraiga, cambiando o reforzando ligeramente nuestras preferencias, creencias e ideologías. Los científicos de datos influyen en todo, desde lo que compramos hasta las causas que nos preocupan.

Historia

A lo largo de las décadas de 1980 y 1990, "minería de datos" era el término utilizado para referirse al análisis de datos en bruto sin una hipótesis o intención específica. Otros términos como "pesca de datos", "recolección de información" y "extracción de conocimiento" también se utilizaron con frecuencia para describir este proceso de recopilación de información de grandes bases de datos.

En 2001, el científico informático William S. Cleveland escribió un artículo de investigación en el que abogaba por que las estadísticas se expandieran más allá de la teoría y hacia la práctica. Quería combinar la minería de datos con la informática, abriendo las posibilidades de que las estadísticas fueran una poderosa fuerza de innovación. Debido a que este salto cambiaría radicalmente el campo de la estadística, Cleveland argumentó que se necesitaba un nuevo nombre: ciencia de datos.

Cleveland no fue el primero en abogar por este cambio, sin embargo, hoy en día es más reconocido por ello. De hecho, en 1985, el científico informático CF Jeff Wu usó el término "ciencia de datos" para reemplazar el término "estadística" durante una conferencia en Beijing, y continuó usándolo a lo largo de su trabajo hasta la década de 2000.

Cambio de siglo

A principios de la década de 2000, "ciencia de datos" se convirtió en un término más utilizado y comenzó a aparecer en los nombres de comités y revistas, específicamente  The Journal of Data Science  de la Universidad de Columbia en 2003. A medida que Internet se volvió más interactivo a lo largo del cambio de milenio, un aumento de datos en internet planteó una pregunta a los informáticos: ¿qué hacemos con todos estos datos?

El auge de los datos provocó la necesidad de respuestas, que llegaron en forma de ciencia de datos. En los 15 a 20 años transcurridos desde entonces, no se ha llegado a una definición acordada de "ciencia de datos", y los profesionales todavía están tratando de averiguar qué significa exactamente este término. Sin embargo, el alejamiento del término “estadística” demuestra la introducción de los datos al ámbito práctico. Este cambio cultural demuestra que las estadísticas ya no son solo números; ahora vistas como "datos", pueden transformarse en conocimientos que pueden ayudar a resolver problemas del mundo real.

Impacto

Hoy en día, los datos se recopilan constantemente en volúmenes extremadamente altos. Cada vez que hace clic en una página web, envía un correo electrónico o se desplaza por un anuncio dirigido, los algoritmos recopilan datos sobre sus preferencias e intereses, componiendo un perfil actualizado constantemente de su identidad. Estos son los llamados perfiles psicográficos.

Como puede imaginar, las grandes empresas que tienen millones de usuarios reciben cantidades masivas de datos, lo que se conoce como "big data". Aproximadamente desde 2010, las empresas han estado recibiendo grandes cantidades de datos como resultado de las plataformas de redes sociales interactivas, una innovación que se conoce como Web 2.0.

Como resultado de estos datos, todo tipo de empresas obtienen información sobre a quién deben dirigir sus productos o servicios y, más específicamente, qué productos o servicios, con qué frecuencia e incluso a qué horas del día. Los científicos de datos analizan e interpretan estos datos a través de algoritmos y hacen uso de la información dirigiendo anuncios de sus productos hacia aquellos que tienen más probabilidades de interactuar con ellos o comprarlos. Esta es una forma de arquitectura de elección.

Recolección pasiva

Los científicos de datos también extraen otros tipos de información de estos datos sin procesar que pueden ayudarlos a mejorar su marca. Si, por ejemplo, una organización nota que se pasa mucho tiempo en su sitio web tratando de encontrar la pestaña "Contáctenos", los diseñadores de sitios web o de experiencia de usuario pueden optar por hacer que esta pestaña sea más accesible. De esta manera, sin tener que llamar a la empresa y "hablar con un gerente", sus instintos y acciones automáticamente transmiten datos a las empresas, quienes luego interpretarán sus inquietudes y corregirán sus errores en consecuencia.

Los científicos de datos pueden ir más allá de la interpretación de datos: también pueden crear nuevas soluciones a problemas mundiales que pueden presentarse en forma de software o algoritmos. Estos pueden existir como aprendizaje automáticointeligencia artificial o simplemente nuevas aplicaciones o sitios web.

En pocas palabras, la ciencia de datos es la mejor forma de ciencia del comportamiento disponible para las computadoras: ayuda a empujar a los humanos hacia las decisiones y luego les brinda la oportunidad de poner la investigación en práctica.

Controversias

Lo más probable es que usted mismo haya sido parte de una controversia de ciencia de datos en un momento u otro; es posible que no lo supiera. Si bien comprender a los usuarios es muy beneficioso para las empresas, las organizaciones y las aplicaciones, hay muchas maneras en que los usuarios son manipulados en función de los objetivos de estas partes. Ahí radica la controversia en la piedra angular de la ciencia de datos: ¿se usará para bien o para mal?

Por supuesto, hay formas en que la ciencia de datos se usa para bien: si su tecnología puede empujarlo hacia una decisión positiva que ha estado pensando tomar, puede estar agradecido. Si saben que usted es un candidato potencial al que le gustaría firmar una petición digna, por ejemplo, poder enviarle esta petición beneficiará en última instancia a su causa de elección. De esta manera, la ciencia de datos puede ayudar a una organización con el objetivo de llegar a muchos usuarios y posiblemente afectar un cambio positivo en el mundo real.

Cacería de la atención

Sin embargo, en manos de diseñadores menos altruistas, la ciencia de datos puede tener efectos negativos en nuestra salud mental, nuestra toma de decisiones, nuestra política e incluso nuestras relaciones. Tener tecnología que nos entienda tan bien puede ser perjudicial cuando continúa pidiendo más y más de nuestra atención. A medida que continúan apareciendo anuncios, videos y artículos que nos intrigan y roban nuestra atención, nuestras pantallas nos absorben cada vez más y nos alejan de nuestra vida real. Los adolescentes de hoy pasan en promedio casi 7.5 horas por día en sus pantallas, sin incluir el tiempo para el trabajo escolar.

Además, que la tecnología nos entienda tan bien significa que nos proporciona información que se alinea con nuestras creencias. Debido a esto, estamos limitados en las perspectivas que ganamos y cuánto aprendemos de otras perspectivas, capitalizando el sesgo de confirmación. La combinación de ciencia de datos y redes sociales ha tenido efectos polarizadores en nuestro panorama político, como se describe en  The Social Dilemma de Netflix.

Fuentes

  1. Laboratorio de decisiones. (2022). Algorithm. (S. Melzner, trad)
  2. F. Jeff WU . (2010, 8 de abril). Wikipedia, la enciclopedia libre. Recuperado el 22 de febrero de 2021, de  https://en.wikipedia.org/wiki/C._F._Jeff_Wu
  3. Minería de datos . (2002, 28 de febrero). Wikipedia, la enciclopedia libre. Recuperado el 22 de febrero de 2021, de  https://en.wikipedia.org/wiki/Data_mining
  4. Ciencia de datos (2012, 11 de abril). Wikipedia, la enciclopedia libre. Recuperado el 22 de febrero de 2021 de  https://en.wikipedia.org/wiki/Data_science
  5. DJ Patil . (2015, 19 de febrero). Wikipedia, la enciclopedia libre. Recuperado el 22 de febrero de 2021, de  https://en.wikipedia.org/wiki/DJ_Patil
  6. Escándalo de datos de Facebook-Cambridge Analytica . (2018, 26 de marzo). Wikipedia, la enciclopedia libre. Recuperado el 22 de febrero de 2021, de https://en.wikipedia.org/wiki/Facebook%E2%80%93Cambridge_Analytica_data_scandal
  7. ODSC – Ciencia de Datos Abiertos. (2019, 22 de febrero). Los 5 mayores debates en ciencia de datos hoy https://medium.com/@ODSC/the-5-biggest-debates-in-data-science-today-b4c2eb604378
  8. Orlowski, J. (Director). (2020). El dilema social.
  9. Tech, J. (22 de junio de 2018). ¿Qué es REALMENTE la ciencia de datos? Contado por un científico de datos . YouTube. https://www.youtube.com/watch?v=xC-c7E5PK0Y
  10. El borde. (2018, 22 de marzo). El escándalo de datos de Cambridge Analytica de Facebook
  11. William S. Cleveland . (2015, 10 de abril). Wikipedia, la enciclopedia libre. Recuperado el 22 de febrero de 2021, de https://en.wikipedia.org/wiki/William_S._Cleveland