Si abriera un programa académico para científicos de datos, ¿cómo lo estructuraría?

Tenga en cuenta que esto proviene de alguien con solo títulos universitarios en CS y Estadística.

El manual
Quería aprender más sobre cómo convertirse en un científico de datos. Quiero decir, tengo mis títulos brillantes, pero ¿qué hace que alguien sea un verdadero científico de datos? Para responder a esa pregunta, mi amigo y yo entrevistamos a más de 30 figuras importantes de la industria (Hal Varian, Tom Davenport, Mike Olsen, Peter Norvig, por nombrar algunas) y compilamos las entrevistas en “el manual de análisis” disponible para descarga gratuita (http: //www.analyticshandbook.com):

La esencia de lo que aprendimos es la siguiente:

  • El mayor desafío para un analista de datos no es el modelado, sino la limpieza y la recopilación.
  • Un Data Scientist es mejor en estadística que un ingeniero de software y mejor en ingeniería de software que un estadístico (una cita directa de Josh Wills @ Cloudera)
  • El rol requiere una curiosidad innata sobre el trabajo con datos, una calidad a veces más importante que sus habilidades técnicas.
  • La habilidad más importante es poder hacer las preguntas correctas.
  • Y mucho más, pero sigamos con esto por ahora.

Ahora para responder a tu pregunta:
Para diseñar un programa académico que alimente y haga crecer a los científicos de datos, debe elaborar planes de estudio y proyectos que agudicen las áreas anteriores para los candidatos a científicos de datos.

¿Pero ves el problema?

Claro, algunos conocimientos de CS y de estadísticas se pueden obtener a través de conferencias tradicionales. Pero, ¿cómo se enseña esta “curiosidad innata”? Además, ¿cómo sabes cómo hacer la “pregunta correcta”, cuando no sabes cuál es la pregunta correcta?

La mejor respuesta que pudimos encontrar fue practicar. Práctica práctica práctica. Cuanto más específico y aplicado sea el sector, mejor. Cuanto más cerca de los datos en bruto, mejor. Cuanto más tiempo pase rascándose la cabeza y luchando por resultados inexplicables, mejor.

Las alianzas con empresas serán vitales.

¿Quién tiene esos proyectos para practicar? Empresas. Tienen un gran conjunto de problemas que se han resuelto (o en espera de ser resueltos, encontrados en Kaggle), que son inmensamente relevantes. Las empresas deberían intervenir y tomar la decisión de especificar las especificaciones exactas de las aulas.
Esto está respaldado por una cita del Dr. Carnevale, quien es el Director del Centro de Educación y la Fuerza Laboral de Georgetown (¡con quien tuve el placer de hablar a principios de esta semana! ¡Gracias Dr. Carnevale!):

[..] Nuestro sistema […] siempre se queda atrás. La alternativa es [un modelo como el utilizado en] Alemania, donde los empleadores, formadores y sindicatos se sientan, deciden cuál es el curso y lo construyen fuera del trabajo.

Para resumir:
Deberá comprender algunos conocimientos tradicionales de CS / Stats. Muchas educaciones superiores hacen un gran trabajo en eso. Más allá de ese punto, base las lecciones en torno a las aplicaciones. Ofrecer proyectos que sean específicos de la industria. Quizás Google entra y ofrece una serie de proyectos relacionados con Hadoop. Quizás Google obtenga la primera elección al contratar graduados …

Para una divulgación completa, estoy trabajando en una startup que ofrece proyectos de práctica específicos de la industria que conducen al empleo. Por lo tanto, mis puntos de vista pueden estar sesgados, así que tómalo con un grano de sal.