Cómo convertirse en un científico de datos como estudiante de doctorado en estadística

Con toda probabilidad, no me preocuparía demasiado por eso. Por supuesto, es probable que sus habilidades de programación sean inferiores a las de alguien que pasó X años estudiando CS en lugar de estadísticas.

En cuanto a la programación, todo de lo que debe preocuparse es:
¿Mi programación es lo suficientemente buena para hacer el trabajo?

Sentido:

  • Agarrando los datos de donde reside.
  • Discutiéndolo en una estructura utilizable.
  • Limpiarlo de estas realidades desagradables llamadas problemas de calidad de datos.
  • Analizándolo para obtener una respuesta a la pregunta.
  • Escriba lo anterior de una manera que pueda ser:
    1. Entendido por alguien más mirándolo.
    2. ¿Ejecutar nuevamente con datos nuevos?
    3. Adaptado para nuevos requisitos sin una reescritura completa?
  • Hablar con ingenieros de software y acordar una forma de integrarlo en el entorno actual.

En caso afirmativo, lo estás haciendo bien, ya que eso comprende casi todo el código que escribirás. Si no, entonces sabes en qué trabajar. 😉
Si eso todavía es demasiado vago: concéntrese en los marcos y las herramientas que lo ayudan a hacer el trabajo más fácilmente o quiénes son los puntos de conexión de su flujo de datos.

Personalmente, creo que CS recibe demasiada atención cada vez que se habla de Data Science en Quora. 😉

Encontré un libro de código abierto Probabilistic-Programming-and-Bayesian-Methods-for-Hackers. Este libro está destinado principalmente a enseñar métodos bayesianos a personas que carecen de un riguroso conocimiento matemático / estadístico o prefieren un enfoque más práctico.

Dado que parece tener suficientes antecedentes en estadística, le sugiero que comience con este libro como una introducción al campo de la ciencia de datos. El lenguaje de programación utilizado para este libro es Python, que también es un gran lenguaje de programación de propósito general. Puedes aprender muchas cosas diferentes usando Python y complementar tus habilidades como estadístico.

Una vez que termine este libro, puede echar un vistazo a CS109 Data Science, que es un curso brillante con Python. Le enseña todo el flujo de trabajo de la ciencia de datos, desde el raspado de datos hasta la visualización.

En caso de que desee tomar la ruta R, puede echar un vistazo a Data Science – Especialización ofrecida por Coursera. Parece que este curso tiene una curva de aprendizaje empinada para aquellos que carecen de experiencia en estadística / aprendizaje automático, por lo que sería interesante saber cómo una persona que tiene una sólida formación en el campo piensa en la cobertura del material en este curso.

Y, por supuesto, tiene Kaggle: el hogar de la ciencia de datos, donde puede competir para ver cuánto ha aprendido realmente.

También una nota al margen: – No se preocupe por las habilidades de programación en ciencia de datos. De todos modos, no implementará la mayoría de los algoritmos, al menos no al comienzo de su carrera. Además, si la programación fuera el criterio principal para seleccionar científicos de datos, no veríamos tanta restricción en su oferta.

Mis dos centavos.

Use sus habilidades de investigación postbac para encontrar un área del mundo que sea relativamente primitiva con respecto a los modelos estadísticos y desarrolle un conjunto de conocimientos en torno a esa área. Podría ser el descubrimiento de petróleo, el uso del agua, la reducción de mosquitos, las migraciones de aves, las enfermedades transmitidas por la sangre, los flujos de efectivo bancarios, el consumo de combustible de los aviones, la demografía de los juegos en línea, etc. Comprenda que nunca dominará múltiples campos como este, aunque tenga las habilidades matemáticas . Usa tu educación para poner un pie en la puerta de una industria interesante y necesaria.

No se trata de ciencia de datos, per se, se trata de ciencia de datos sobre algo .

Hace dos generaciones, la sociología era el título más importante en Estados Unidos. Mis dos padres se convirtieron en científicos sociales. Ambos comenzaron en el departamento de Bienestar como trabajadores sociales, que tenían una enorme reserva frente a la responsabilidad social. Pero con el tiempo, uno se especializó en salud pública y el otro en salas de la corte. Pero la parte de las ciencias sociales desaparece en el fondo cuando comienzas a hablar sobre el acceso público a la atención médica y la delincuencia juvenil y el embarazo adolescente.

Si vas a ser un practicante, entonces la ciencia avanzará sin ti, pero como practicante construirás una experiencia irremplazable sobre algo.

No se trata de ‘ser’ sino de ‘hacer’. Así que averigua qué hacer.

Todo lo que hacen los científicos de datos de hoy es elevar el listón de los programadores / analistas y estadísticos de ayer. Tienen mejores herramientas. Los problemas de la humanidad siguen siendo los mismos.

Estoy de acuerdo con James Leland Harp , y solo quería un par de cosas. Una gran cantidad de mis clientes están buscando doctorados en ciencias de datos con estadísticas o un par de años en Dropbox, Google o similar. Si puede incluir análisis de sentimientos, aprendizaje profundo o similar utilizando tecnologías de Big Data (Python Hadoop, map / reduce) y aprender R y C ++, estará en una mejor posición en 2 años si alguna vez quisiera trabajar en el comercio de accesorios o un Fondo de cobertura de alta frecuencia o banco de inversión. Hay nuevas firmas financieras en el área de la bahía que compiten con los sospechosos habituales por los mejores talentos desde una perspectiva salarial básica y los bonos tienen el potencial de vencer a Google FB o Dropbox considerablemente. Incluso están haciendo que los entornos sean mucho más colaborativos y creativos para fomentar un ambiente similar al de las empresas tecnológicas. Buena suerte con sus estudios y póngase en contacto cuando tenga 4 meses de haber completado sus estudios. [correo electrónico protegido]

Hay (al menos) tres líneas de Data Science: una es casi todo CS todo el tiempo y se enfoca en mover los datos (generalmente datos enormes) y encontrar algunas cosas en ellos.
El segundo capítulo sabe cómo mover datos, pero se enfoca en encontrar algo interesante en él y luego en descubrir cómo aplicarlo. Esto incluye datos “grandes” y datos menos grandes (incluso datos pequeños).
El tercer capítulo está bien para mover datos, aceptar las estadísticas, y se enfoca en generar algo útil a partir de eso y hacerlo significativo para los ejecutivos (para que puedan actuar sobre él).
A menudo, cuantas más estadísticas tenga, más caerá en el segundo campamento.
El tercer campamento requiere experiencia o más entrenamiento tipo MBA (o ambos).

Vea la respuesta de Michiel Van Herwegen a continuación, pero si es capaz de configurar sus propios conjuntos de datos y limpiar sus propios datos, y es bueno para las estadísticas, está en la mayor parte del camino.

Todo lo que toma son unos meses para sumergirse en un lenguaje de programación y dominarlo. Hay tantos tutoriales por ahí en Python y R, simplemente elige uno y listo. No creo que seas totalmente ignorante de la programación, pero tal vez no seas un programador avanzado.

Incluso creo que tiene una mejor ventaja sobre aquellos que tienen una base matemática menos sólida (y más habilidades de CS), porque tienden a tratar con herramientas y modelos de análisis como una caja negra o palos mágicos y realmente no entienden qué está sucediendo o qué tipo de suposiciones que tiene cualquier modelo para ser válido … y aquí ves la tragedia.

Aquí encontrarás una buena lista de los mejores tutoriales allí que te ayudarán. Tutoriales | Kaggle

Complete su disertación y deje de preocuparse por cualquier otra cosa. Es una distracción innecesaria. Una vez que tenga un título en la mano, puede ver de manera realista sus opciones.

Lo que determinará sus futuras oportunidades laborales es su investigación original.

Para convertirse en un científico de datos, su conocimiento de estadísticas debería ser mejor que el de un programador y su programación debería ser mejor que la de un estadístico. Si puede manejar eso, puede convertirse fácilmente en un Científico de Datos.

Pregúnteles a sus amigos qué cursos fueron más útiles y vea si puede tomar algunas de esas clases mientras completa su tesis. Si las clases no son posibles, averigüe qué cursos de edx y coursera serán suficientes para demostrar que puede aprender lo que necesite aprender. Trabaje hacia atrás desde los trabajos que le resulten atractivos; ¿Quieres ser un científico de datos en Facebook? Mire los requisitos de su trabajo y descubra cómo cumplirlos.

Dirija su trabajo a una o dos cosas que sus compañeros sugieren que son más relevantes día a día. Supongo que si puede aprender a programar en Python y R (que supongo que ya usa), entonces no debería tener problemas para ser contratado. Tiene los antecedentes y cualquier programación se puede aprender en el trabajo más allá de eso. No me estresaría demasiado si fuera tú.

Aprenda Python y R (preferiblemente Python).

Tome un campo de entrenamiento de Data Science:

Existe el programa de ciencia de datos de Insight, Galvanize (conocido formalmente como Zipfian Academy), y muchos otros campamentos.