¿Cómo podría mejorarse el Diagrama de Venn de ciencia de datos?

TL; DR Al incorporar comunicación

Le hice esta pregunta a Drew Conway, el creador del Data Science Venn Diagram, y esto es lo que tenía que decir:

Su diagrama de Venn de ciencia de datos ha sido ampliamente compartido y realmente ha ayudado a muchas personas a tener una idea inicial de lo que es la ciencia de datos. Lo creaste hace mucho tiempo, en 2010. Si tuvieras la oportunidad de volver a crearlo hoy, ¿cambiarías alguna parte?

Bastante. Puedo hablar un poco sobre la historia, que creo que es probablemente menos gloriosa de lo que la gente sabe.

Yo era un estudiante graduado en la Universidad de Nueva York y era asistente de enseñanza para una clase de pregrado en Política Comparada. Como asistente de enseñanza en esas clases, su mente divaga porque ya conoce el material.

Era 2010, y la idea de la ciencia de datos era mucho más primordial. La gente tenía menos idea de lo que era la ciencia de datos. En ese momento estaba pensando en la definición de ciencia de datos. Había estado hablando con personas como Mike Dewar, Hilary Mason y algunas otras personas en Nueva York, y sus ideas y las mías me influyeron, y se me ocurrió la definición mientras estaba sentado en clase.

El diagrama original de Venn que hice sobre ciencia de datos, que terminó siendo bastante conocido, se dibujó usando GIMP como editor, el programa más simple y económico del mundo. Pero estoy muy feliz de que parece que las personas se han apegado a él y tiene sentido para ellos.

Lo que se ha vuelto más evidente para mí a medida que han pasado los años es que lo que falta es la capacidad de transmitir un hallazgo o información relevante una vez que se completa un análisis, a una audiencia no técnica. Una gran parte del arduo trabajo que hacen la mayoría de los científicos de datos no es necesariamente toda la disputa de datos, el modelado y la codificación. En cambio, una vez que tenga un resultado, se trata de descubrir cómo explicar ese resultado a personas que no son necesariamente técnicas o que están tomando decisiones comerciales o decisiones de ingeniería.

Realmente, se trata de transmitir un hallazgo. Puede usar palabras para hacer eso, puede usar la visualización para hacer eso, o puede desarrollar una presentación para hacerlo. Un equipo completo de ciencia de datos tendrá a alguien que sea muy competente en esto. Si su organización está tomando decisiones basadas en su análisis, debe asegurarse de que entiendan por qué.

Este tema de la comunicación, que es absolutamente importante para el éxito de un científico de datos, se repite en muchas de las entrevistas en el libro.

Por ejemplo, el profesor de estadística Joe Blitzstein dice que el paralelismo más importante entre ser un científico de datos y un educador es la comunicación y la narración de historias (ver La cosa única que los científicos deben aprender de los educadores). Enumero la comunicación y la narración de historias como uno de los 4 principales errores que cometen los científicos de datos aspiracionales en ¿Cuáles son los errores más comunes cometidos por los aspirantes a científicos de datos?

¡Esta pregunta es parte del próximo Manual de ciencia de datos! Obtenga tres capítulos gratis siguiendo este enlace El Manual del Científico de Datos: Primeros 3 Capítulos Gratis por William Chen sobre Storytelling with Statistics

TL; DR: gestión de proyectos.

Una gran parte del tiempo que paso en el proyecto de ciencia de datos es la gestión de proyectos.
De hecho, obtener datos limpios es un desafío, si no una carga.
Para obtener datos limpios necesita … y los estadísticos responden cosas como:
– Verificar valores atípicos
– Verifique la codificación adecuada
– …

Esto lleva tiempo y debes programarlo, pero es una segunda fase.
Lo primero para obtener datos limpios es obtener … DATOS. Sí, en condiciones comerciales reales, el acceso a los datos a veces es incómodo. Algunas personas son “propietarias” de los datos o del conocimiento y privilegio que se les atribuye. Por lo tanto, debe tener un patrocinador fuerte, para convencerlo, debe tener un objetivo comprensible (y, por lo tanto, como señalaron William Chen y George Savva, también necesita habilidades de comunicación)
Todo esto es gestión de proyectos, y esta habilidad casi nunca se enseña junto con la ciencia de datos.
Agregaría la gestión de proyectos a las habilidades e incluiría la comunicación en esas habilidades de gestión de datos.

Vine aquí para decir ‘habilidades de comunicación’, pero William Chen me ganó, así que aprovecharé la oportunidad para gritar “SALIR DE MI CÉSPED”.

Podría reemplazar fácilmente el término ‘ciencia de datos’ por ‘estadísticas aplicadas’. Todas esas habilidades más las habilidades de comunicación forman una descripción de trabajo perfecta para un buen estadístico que trabaje en cualquier área sustantiva. Este ha sido el caso durante muchos años.

¿Por qué necesitamos reinventar esto?

Los objetivos generales de los dos (científico de datos / estadístico aplicado) son los mismos. Ambos reclamamos experiencia en tomar datos y convertirlos en información significativa. Entonces, donde esta la linea? ¿Quien hace que?

También me ofenderé ante la idea de que ‘investigación tradicional’ son estadísticas más conocimiento sustantivo pero no piratería. Esto muestra una ignorancia de la historia. Los estadísticos de las últimas décadas fueron hackers increíbles. Tenían que serlo. Intente ejecutar una regresión logística en una computadora de la década de 1970 (o usar SPSS para hacer cualquier cosa) y verá lo que quiero decir.