¿Cuál es el origen de la ciencia de datos? ¿Cuál es el futuro de la ciencia de datos y el científico de datos?

La historia de cómo los científicos de datos se volvieron sexys es sobre todo la historia del acoplamiento de la disciplina madura de las estadísticas con una ciencia informática muy joven. El término “ciencia de datos” ha surgido recientemente para designar específicamente una nueva profesión que se espera que tenga sentido en las vastas reservas de big data. Pero dar sentido a los datos tiene una larga historia y ha sido discutido por científicos, estadísticos, bibliotecarios, informáticos y otros durante años. La siguiente línea de tiempo rastrea la evolución del término “Ciencia de datos” y su uso, intentos de definirlo y términos relacionados.

1962 John W. Tukey escribe en “El futuro del análisis de datos”: “Durante mucho tiempo pensé que era un estadístico, interesado en las inferencias de lo particular a lo general. Pero a medida que he visto evolucionar las estadísticas matemáticas, he tenido motivos para preguntarme y dudar … He llegado a sentir que mi interés central está en el análisis de datos … El análisis de datos, y las partes de las estadísticas que se adhieren a él, deben … asumir características de la ciencia en lugar de las matemáticas … el análisis de datos es intrínsecamente una ciencia empírica … ¿Qué tan vital y qué tan importante … es el surgimiento de la computadora electrónica de programa almacenado? En muchos casos, la respuesta puede sorprender a muchos al ser ‘importante pero no vital’, aunque en otros no hay duda de lo que la computadora ha sido ‘vital’ ”. En 1947, Tukey acuñó el término“ bit ”que utilizó Claude Shannon en su artículo de 1948 “Una teoría matemática de las comunicaciones”. En 1977, Tukey publicó Análisis de datos exploratorios , argumentando que era necesario poner más énfasis en el uso de datos para sugerir hipótesis para probar y que el Análisis de datos exploratorios y el Análisis de datos confirmatorios “pueden y deben —Procede uno al lado del otro ”.

1974 Peter Naur publica Encuesta concisa de métodos informáticos en Suecia y los Estados Unidos. El libro es una encuesta de los métodos contemporáneos de procesamiento de datos que se utilizan en una amplia gama de aplicaciones. Está organizado en torno al concepto de datos tal como se define en la Guía IFIP de conceptos y términos en el procesamiento de datos : “[Los datos son] una representación de hechos o ideas de una manera formal capaz de ser comunicada o manipulada por algún proceso”. El libro le dice al lector que se presentó un plan de curso en el Congreso de la IFIP en 1968, titulado “Datalogy, la ciencia de los datos y de los procesos de datos y su lugar en la educación”, y que en el texto del libro, el término ‘ciencia de datos’ se ha utilizado libremente “. Naur ofrece la siguiente definición de ciencia de datos:” La ciencia de tratar con datos, una vez que se han establecido, mientras que la relación de los datos con lo que representan se delega a otros campos y ciencias . ”

1977 La Asociación Internacional de Computación Estadística (IASC) se establece como una Sección del ISI. “La misión del IASC es vincular la metodología estadística tradicional, la tecnología informática moderna y el conocimiento de los expertos en dominios para convertir los datos en información y conocimiento”.

1989 Gregory Piatetsky-Shapiro organiza y preside el primer taller de Descubrimiento del conocimiento en bases de datos (KDD). En 1995, se convirtió en la Conferencia anual ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos (KDD).

Septiembre de 1994 BusinessWeek publica una historia de portada sobre “Marketing de base de datos”: “Las empresas están recopilando montañas de información sobre usted, analizándola para predecir qué tan probable es que compre un producto, y utilizando ese conocimiento para elaborar un mensaje de marketing calibrado con precisión para obtenerlo para hacerlo … Una oleada de entusiasmo anterior provocada por la propagación de los escáneres de pago en la década de 1980 terminó en una gran decepción: muchas empresas estaban demasiado abrumadas por la gran cantidad de datos para hacer algo útil con la información … Sin embargo, muchas empresas creen que tienen no hay más remedio que desafiar la frontera del marketing de bases de datos “.

1996 Miembros de la Federación Internacional de Sociedades de Clasificación (IFCS) se reúnen en Kobe, Japón, para su conferencia bienal. Por primera vez, el término “ciencia de datos” se incluye en el título de la conferencia (“Ciencia de datos, clasificación y métodos relacionados”). El IFCS fue fundado en 1985 por seis sociedades de clasificación específicas de cada país e idioma, una de las cuales, The Classification Society , fue fundada en 1964. Las sociedades de clasificación han utilizado los términos análisis de datos, minería de datos y ciencia de datos en sus publicaciones. .

1996 Usama Fayyad, Gregory Piatetsky-Shapiro y Padhraic Smyth publican “De la minería de datos al descubrimiento del conocimiento en bases de datos”. Escriben: “Históricamente, la noción de encontrar patrones útiles en los datos ha recibido diversos nombres, incluida la minería de datos, extracción de conocimiento, descubrimiento de información, recolección de información, arqueología de datos y procesamiento de patrones de datos … En nuestra opinión, KDD [Descubrimiento de conocimiento en bases de datos] se refiere al proceso general de descubrir conocimiento útil de los datos, y la minería de datos se refiere a un paso particular en este proceso. La minería de datos es la aplicación de algoritmos específicos para extraer patrones de datos … los pasos adicionales en el proceso de KDD, como la preparación de datos, la selección de datos, la limpieza de datos, la incorporación de conocimientos previos apropiados y la interpretación adecuada de los resultados de la minería son esenciales. para garantizar que se derivan conocimientos útiles de los datos. La aplicación a ciegas de los métodos de minería de datos (criticados correctamente como dragado de datos en la literatura estadística) puede ser una actividad peligrosa, que puede conducir fácilmente al descubrimiento de patrones sin sentido e inválidos “.

1997 En su conferencia inaugural para la Cátedra HC Carver en Estadística de la Universidad de Michigan, el profesor CF Jeff Wu (actualmente en el Instituto de Tecnología de Georgia), pide que las estadísticas sean renombradas como ciencia de datos y estadísticos para ser renombrados científicos de datos.

1997 Se lanza la revista Data Mining and Knowledge Discovery; la inversión del orden de los dos términos en su título que refleja la ascendencia de “minería de datos” como la forma más popular de designar “extraer información de grandes bases de datos”.

Diciembre de 1999 Jacob Zahavi es citado en “Datos mineros para pepitas de conocimiento” en [correo electrónico protegido] : “Los métodos estadísticos convencionales funcionan bien con pequeños conjuntos de datos. Sin embargo, las bases de datos actuales pueden involucrar millones de filas y decenas de columnas de datos … La escalabilidad es un gran problema en la minería de datos. Otro desafío técnico es desarrollar modelos que puedan hacer un mejor trabajo analizando datos, detectando relaciones no lineales e interacción entre elementos … Es posible que se deban desarrollar herramientas especiales de minería de datos para abordar las decisiones del sitio web ”.

2001 William S. Cleveland publica “Ciencia de datos: un plan de acción para expandir las áreas técnicas del campo de la estadística”. Es un plan “para ampliar las principales áreas de trabajo técnico del campo de la estadística. Debido a que el plan es ambicioso e implica un cambio sustancial, el campo alterado se llamará ‘ciencia de datos’ “. Cleveland pone la nueva disciplina propuesta en el contexto de la informática y el trabajo contemporáneo en la minería de datos:” … el beneficio para el analista de datos ha sido limitado, porque el conocimiento entre los informáticos sobre cómo pensar y abordar el análisis de datos es limitado, al igual que el conocimiento de los entornos informáticos por parte de los estadísticos es limitado. Una fusión de bases de conocimiento produciría una fuerza poderosa para la innovación. Esto sugiere que los estadísticos deberían buscar la informática en busca de conocimiento hoy, tal como la ciencia de los datos miró a las matemáticas en el pasado. … los departamentos de ciencia de datos deben contener miembros de la facultad que dediquen sus carreras a los avances en computación con datos y que formen una asociación con los informáticos “.

2001 Leo Breiman publica “Modelización estadística: las dos culturas” (PDF): “Hay dos culturas en el uso de la modelización estadística para llegar a conclusiones a partir de los datos. Se supone que los datos son generados por un modelo de datos estocástico dado. El otro usa modelos algorítmicos y trata el mecanismo de datos como desconocido. La comunidad estadística se ha comprometido con el uso casi exclusivo de los modelos de datos. Este compromiso ha llevado a una teoría irrelevante, conclusiones cuestionables, y ha evitado que los estadísticos trabajen en una amplia gama de interesantes problemas actuales. El modelado algorítmico, tanto en teoría como en práctica, se ha desarrollado rápidamente en campos fuera de la estadística. Se puede usar tanto en conjuntos de datos complejos grandes como como una alternativa más precisa e informativa al modelado de datos en conjuntos de datos más pequeños. Si nuestro objetivo como campo es utilizar datos para resolver problemas, entonces debemos alejarnos de la dependencia exclusiva de los modelos de datos y adoptar un conjunto de herramientas más diverso “.

Abril de 2002 Lanzamiento de Data Science Journal , que publica artículos sobre “la gestión de datos y bases de datos en Ciencia y Tecnología”. El alcance de la revista incluye descripciones de los sistemas de datos, su publicación en Internet, aplicaciones y cuestiones legales. ”La revista es publicada por el Comité de Datos para Ciencia y Tecnología (CODATA) del Consejo Internacional para la Ciencia (ICSU).

Enero de 2003 Lanzamiento de Journal of Data Science : “Por ‘ciencia de datos’ nos referimos a casi todo lo que tiene que ver con los datos: recopilar, analizar, modelar … pero la parte más importante son sus aplicaciones, todo tipo de aplicaciones. Esta revista está dedicada a aplicaciones de métodos estadísticos en general … El Journal of Data Science proporcionará una plataforma para que todos los trabajadores de datos presenten sus puntos de vista e intercambien ideas ”.

Mayo de 2005 Thomas H. Davenport, Don Cohen y Al Jacobson publican “Competting on Analytics”, un informe del Centro de Investigación de Conocimientos Laborales de Babson College, que describe “la aparición de una nueva forma de competencia basada en el uso extensivo de análisis, datos y toma de decisiones basada en hechos … En lugar de competir en factores tradicionales, las empresas comienzan a emplear análisis estadísticos y cuantitativos y modelos predictivos como elementos primarios de la competencia. La investigación es publicada más tarde por Davenport en Harvard Business Review (enero de 2006) y se expande (con Jeanne G. Harris) en el libro Competting on Analytics : La nueva ciencia de ganar (Marzo de 2007).

Septiembre de 2005 La Junta Nacional de Ciencias publica “Colecciones de datos digitales de larga duración: habilitando la investigación y la educación en el siglo XXI”. Una de las recomendaciones del informe dice: “El NSF, trabajando en colaboración con los administradores de colecciones y la comunidad en general, debe actuar para desarrollar y madurar la carrera profesional de los científicos de datos y para garantizar que la empresa de investigación incluya un número suficiente de científicos de datos de alta calidad “. El informe define a los científicos de datos como” los científicos y programadores de información y de informática, ingenieros de bases de datos y software , expertos disciplinarios, curadores y anotadores expertos, bibliotecarios, archiveros y otros, que son cruciales para la gestión exitosa de una recopilación de datos digitales “.

2007 Se establece el Centro de Investigación de Dataology y Data Science en la Universidad de Fudan, Shanghai, China. En 2009, dos de los investigadores del centro, Yangyong Zhu y Yun Xiong, publicaron “Introducción a la Dataología y la Ciencia de los Datos”, en el que afirman “Diferente de las ciencias naturales y sociales, la Dataología y la Ciencia de los Datos toman los datos en el ciberespacio como objeto de investigación. . Es una ciencia nueva ”. El centro celebra simposios anuales sobre Dataología y Ciencia de Datos.

Julio de 2008 El JISC publica el informe final de un estudio que encargó “examinar y hacer recomendaciones sobre el papel y el desarrollo profesional de los científicos de datos y el suministro asociado de habilidades especializadas de curación de datos para la comunidad de investigadores. “El informe final del estudio,” La estructura de habilidades, roles y carrera de los científicos y conservadores de datos: evaluación de la práctica actual y las necesidades futuras “, define a los científicos de datos como” personas que trabajan donde se realiza la investigación, o, en el caso de personal del centro de datos, en estrecha colaboración con los creadores de los datos, y puede estar involucrado en investigaciones y análisis creativos, permitiendo que otros trabajen con datos digitales y desarrollos en la tecnología de bases de datos “.

Enero de 2009 Se publica Aprovechando el poder de los datos digitales para la ciencia y la sociedad . Este informe del Grupo de Trabajo Interagencial sobre Datos Digitales al Comité de Ciencia del Consejo Nacional de Ciencia y Tecnología declara que “La nación necesita identificar y promover la aparición de nuevas disciplinas y especialistas expertos en abordar los desafíos complejos y dinámicos de la preservación digital , acceso sostenido, reutilización y reutilización de datos. Muchas disciplinas están viendo la aparición de un nuevo tipo de experto en ciencia y gestión de datos, realizado en los ámbitos de la informática, la información y las ciencias de datos y en otro campo de la ciencia. Estas personas son clave para el éxito actual y futuro de la empresa científica. Sin embargo, estas personas a menudo reciben poco reconocimiento por sus contribuciones y tienen trayectorias profesionales limitadas ”.

Enero de 2009 Hal Varian, Economista Jefe de Google, le dice al McKinsey Quarterly : “Sigo diciendo que el trabajo atractivo en los próximos diez años será estadístico. La gente piensa que estoy bromeando, pero ¿quién habría adivinado que los ingenieros informáticos habrían sido el trabajo sexy de la década de 1990? La capacidad de tomar datos, de poder comprenderlos, procesarlos, extraer valor de ellos, visualizarlos, comunicarlos, será una habilidad enormemente importante en las próximas décadas … Porque ahora sí tenemos Datos esencialmente libres y ubicuos. Por lo tanto, el escaso factor complementario es la capacidad de comprender esos datos y extraer valor de ellos … Creo que esas habilidades, de poder acceder, comprender y comunicar los conocimientos que se obtienen del análisis de datos, serán extremadamente importantes. Los gerentes deben poder acceder y comprender los datos ellos mismos “.

Y ahora es conocido como el trabajo más sexy del siglo XXI.

¿Cómo es pensar como un científico de datos?

¿Cuáles son las oportunidades in situ para los empleados de LatentView como científicos de datos?

¿Cuál es mejor nube o big data?

¿Cómo se ve el perfil (currículum y carta de presentación) de un ingeniero de datos o científico de datos en Facebook?

¿Cómo funciona el escalado automático en términos de servicios en la nube como AWS y GCP?

¿Cuáles son los mejores libros para ingenieros de software interesados en trabajar en infraestructura?

La ciencia de datos se está volviendo cada vez más crítica para las grandes y pequeñas empresas por igual, con casi 2,7 millones de cadenas de datos disipadas diariamente. Se ha vuelto más importante para las organizaciones hacer uso de estos datos de una manera más significativa. Para muchas organizaciones como Facebook, Netflix, Amazon, Instagram, Twitter, etc., Data Science se convierte en su principal ventaja competitiva.

Aplicaciones de la ciencia de datos:

Búsqueda en Internet : los motores de búsqueda utilizan algoritmos de ciencia de datos para ofrecer los mejores resultados para las consultas de búsqueda en una fracción de segundos.
Anuncios digitales : todo el espectro de marketing digital utiliza los algoritmos de ciencia de datos, desde carteles publicitarios hasta vallas publicitarias digitales. Esta es la razón principal por la que los anuncios digitales obtienen un CTR más alto que los anuncios tradicionales.
Sistemas de recomendación : Los sistemas de recomendación no solo facilitan la búsqueda de productos relevantes de miles de millones de productos disponibles, sino que también agregan mucho a la experiencia del usuario. Muchas empresas utilizan este sistema para promocionar sus productos y sugerencias de acuerdo con las demandas del usuario y la relevancia de la información. Las recomendaciones se basan en los resultados de búsqueda anteriores del usuario.

En el futuro, el uso de Data Science solo aumentará y se adaptará según las necesidades y requisitos de las organizaciones.

Este video explica perfectamente la necesidad y el uso de Data Science.

Gerald Parton

Origen de la ciencia de datos: –

Con los años, la ciencia de datos se ha convertido en una parte integral de muchas industrias como la agricultura, la optimización de marketing, la gestión de riesgos, la detección de fraudes, el análisis de marketing y las políticas públicas, entre otros.

Mediante el uso de la preparación de datos, estadísticas, modelos predictivos y aprendizaje automático, la ciencia de datos trata de resolver muchos problemas dentro de los sectores individuales y la economía en general.

Futuro de la ciencia de datos y el científico de datos: –

Entonces, mientras que el comercio minorista es un campo tangible donde los efectos de la ciencia de datos son claramente visibles, la ciencia de datos también puede tener implicaciones de largo alcance en otros campos. Estos incluyen atención médica, energía y educación. Debido a que estos campos están en constante evolución, la importancia de la ciencia de datos también está aumentando rápidamente.

La ciencia de datos puede ayudarnos a enfrentar los desafíos de la creciente demanda y el futuro sostenible al tiempo que garantiza las mejores soluciones. Esto significa que los científicos de datos tendrán que encontrar una amplia gama de soluciones para enfrentar los desafíos en todos los sectores.

En general, los científicos de datos son el futuro del mundo de hoy. Pronto se convertirán en una parte integral de la organización y ayudarán al mundo a abordar los principales desafíos mundiales, que a su vez pueden tener impactos de gran alcance en todos los países.

Espero que esto te ayude 🙂

Collins Eden

Esta es una pregunta muy interesante. Recuerdo haber leído este artículo que argumenta que la ciencia de datos como disciplina ha existido desde hace aproximadamente 1200 años, comenzando con estadísticas puras en algún lugar del año 800 DC. Sin embargo, el término científico de datos es bastante reciente. De hecho, se hizo popular solo recientemente.

En su informe Big data: la próxima frontera para la innovación, la competencia y la productividad, Mckinsey predice que para 2018, solo Estados Unidos podría enfrentar una escasez de 140,000 a 190,000 personas con profundas habilidades analíticas, así como 1.5 millones de gerentes y analistas.

¿Cuál es el futuro? Solo nuestra imaginación es el límite, supongo.

Gerald Parton

Hoy los datos son uno de los aspectos más importantes de las marcas y empresas, en el escenario global. Los datos son la clave para el crecimiento de las marcas en todos los sectores y categorías, ya que les ayuda a avanzar a pesar de la intensa competencia. En otras palabras, los datos están ayudando a construir empresas y marcas, llevándolos así a la siguiente etapa de crecimiento. Es por eso que las salas de juntas están llenas de palabras como Big Data y análisis de datos en los últimos años.

El significado en desarrollo de los datos ha aumentado la importancia de las personas que manejan estos datos. Y es por eso que la posición de un científico de datos es externamente importante y altamente considerada en casi todos los lugares. Debido a que el trabajo de un científico de datos es relativamente nuevo, este rol involucra tanto el análisis de datos comerciales como la tecnología. Por lo tanto, la mayoría de las personas que ocupan este puesto tienen experiencia en ambos campos, lo que los convierte en un híbrido que conoce lo mejor de ambos mundos.

La importancia de los datos y la necesidad de obtener información importante de ellos, ha llevado a algunas organizaciones a invertir no solo en un científico de datos sino en un equipo que comparte la responsabilidad de los mismos. La razón principal por la cual las empresas invierten en un equipo en lugar de un individuo es porque el conjunto de habilidades del científico de datos puede variar y es posible que no estén presentes en una sola persona.

Collins Eden

Hola, gracias por preguntar!

No ha habido una distinción clara entre los dos términos ‘Científico de datos’ y ‘Analista de datos’ y las personas aún no tienen una idea clara sobre lo que significa. El hecho de que haya una demanda creciente en las empresas de científicos de datos indica que las perspectivas de carrera en este campo han crecido exponencialmente. Espero que este blog te ayude con más información: Salario de un científico de datos | Carrera como analista de datos

Collins Eden

More Interesting

¿Qué es la ciencia de datos? ¿Qué hace un científico de big data?

¿Es buena la posición de un analista de datos?

¿Cuál es el papel del científico de datos en la firma de impuestos?

¿Qué universidades ofrecen una maestría en ciencia de datos o análisis?

¿Qué habilidades necesito para ser un científico de datos en Google o Facebook?

Tengo un título en ingeniería, pero quiero convertirme en científico de datos. ¿Merece la pena obtener una maestría o simplemente ampliar mis habilidades de programación, estadística y matemática?

¿Es fácil para un ingeniero mecánico convertirse en analista de datos / científico de datos?

¿Cómo es posible ser un científico de datos con experiencia en ingeniería industrial?

¿Qué debo saber si quiero convertirme en científico de datos?

¿Existe una relación entre lo fácil que es halagar a un científico y cuán abierto es al compartir sus datos / presentaciones?