¿Cuál debería ser mi plan de acción anual para convertirme en científico de datos? He estudiado para obtener un título en matemáticas, y tengo una comprensión decente de la mayoría de los conceptos subyacentes en estadística y probabilidad.

Muy bien. En realidad, tiene el privilegio de que la mayoría de las personas que intentan ingresar a Data Science en estos días no entienden los conceptos matemáticos / estadísticos subyacentes. Le sugiero que cree un plan de 30–60–90 días para usted. En los primeros 30 días, le sugiero que comience a aprender SQL, ya que esto ayudará a perfeccionar su experiencia en minería de datos y limpieza de datos, y en el segundo 30 días debe comenzar a aprender a programar en R o Python. Personalmente estoy predispuesto hacia python pero R es igualmente bueno. En los próximos 30 días participe en concursos de Kaggle sobre problemas de ciencia de datos y use su conocimiento estadístico para resolver problemas del mundo real. Si tiene éxito, continúe participando en 1 después de la otra competencia durante los próximos 6 meses. En caso de que te quedes estancado investigando y sigas adelante. Una vez que haya ganado confianza en la resolución de problemas, también sugeriría elegir una herramienta de visualización de datos como Tableau y adquirir experiencia práctica en eso también. Para ser un buen científico de datos, también debe ser un gran narrador de historias y para eso necesitará visualizar los datos para explicar sus hallazgos a personas con menos conocimiento de las matemáticas pero con una buena comprensión del negocio.

Vea un par de videos de Hans Rosling en las charlas de Ted para comprender la importancia de la visualización de datos.

La respuesta es simple. Aprende programación, te sugiero python. Python es una locura flexible y puede usarlo como pegamento en cualquier tipo de rol de ciencia de datos que tome.

Tenía una experiencia similar en el campo con experiencia en econometría. El modelo no es la respuesta pirateando un prototipo que algunos ingenieros pueden escalar es invaluable.

Aparte de las habilidades generales de programación, entienda los negocios. Usted está allí para ahorrar / ganar dinero, no para construir modelos. Entonces entienda los problemas de negocios.

Si desea obtener algunas ideas sobre lo que recomiendo para aprender ciencia de datos, visite aquí:

https://barnesanalytics.com/lear

Y para obtener mi guía para hacer ciencia de datos en los negocios, que incluye hojas de trabajo que lo ayudarán a llegar a la producción en 6 pasos, consulte esta hoja de trabajo gratuita:

http://barnesanalytics.com/go/gu

Es poco probable que una “comprensión decente de la mayoría de los conceptos subyacentes en estadística y probabilidad” incluya parte de la teoría y la práctica que es valiosa en al menos algún trabajo como científico de datos. Debido a que gran parte de la ciencia de datos involucra incertidumbres, recomiendo que su plan de acción incluya el estudio de principios y modelos no frecuentas para razonar sobre la incertidumbre epistémica, por ejemplo, la teoría bayesiana, la teoría de Dempster-Shaefer, el modelo de creencias transferibles, la teoría de Dezert-Smarandache, la teoría de la posibilidad. , Teoría de la plausibilidad, Teoría de conjuntos difusos, Teoría de la probabilidad imprecisa, Entropía.

Con su formación matemática (suponiendo al menos un nivel de posgrado de estadística y un nivel de pregrado de otras matemáticas al menos), sugeriría comenzar con algunos proyectos que apliquen algoritmos de aprendizaje automático y metodología estadística a los datos de código abierto. Esto demostrará su capacidad para aplicar lo que sabe a datos reales y resolver problemas reales; escríbalo y adjúntelo a LinkedIn para que los reclutadores puedan ver su trabajo. Si desea probar algo un poco más avanzado, intente desarrollar sus propios algoritmos y pruebe con datos simulados y reales; envíe el manuscrito a ArXiv y conferencias / revistas.

Si no ha estudiado programación, debe estudiar uno de alto nivel como C / C ++. Las posiciones para la ciencia de datos esperan Python, SQL y R. Estos son lenguajes de programación livianos que le permiten manejar datos. Cubre prototipos básicos, extracción o recuperación de datos y funciones estadísticas. Si estudia idiomas a la par con C / C ++, trabaja más cerca de la computadora, es decir, el procesador y la memoria. Y comprenderá mejor los conceptos informáticos, por ejemplo, redes, sistemas operativos, compiladores, hardware. Y apreciará el poder de una computadora moderna en comparación con los estudios matemáticos, útiles por derecho propio. Pero sigue siendo nomenclatura matemática en papel en una notación específica y gramática formal. Una computadora es una invención útil que tiene una base filosófica de matemáticos / informáticos. Y se ha propagado como una herramienta comercial y buena, es decir, a veces entretenimiento. La red de Internet o global a la que pertenece sigue siendo un producto de defensa militar, es decir, agencia de proyectos de investigación avanzada de defensa. Se recomienda utilizar un año para construir una base o base para el desarrollo y la aplicación de computadoras de larga duración