¿Qué tan bueno tienes que ser en matemáticas para ser un buen científico de datos?

¡Conoce tantas matemáticas como puedas!

Hace varios años, diría que esto fue absolutamente crítico. Por ejemplo, cuando creamos el sistema Aardvark, no había scikit learn o apache mahout, y básicamente tuvimos que integrar el código C académico en ruby. Hubiera sido imposible hacer esto sin poder leer la literatura académica y realmente entender los sistemas. Hubiera sido absolutamente imposible para mí hacer algo si el CEO y el fundador no tuvieran una sólida formación en física; hubo demasiado rechazo por parte de las personas que no son de matemáticas

Hoy es posible que pueda salirse con la suya simplemente ejecutando scikit learn y sin saber qué sucede debajo de lo bueno … pero

Incluso después de que construimos la base de código ML en Aardvark, hubo una gran confusión sobre lo que me parecieron cosas muy elementales, y se hicieron muchas cosas tontas que podrían haberse manejado mucho más fácilmente si todo el equipo tuviera algo de experiencia en lo que está sucediendo. . (Dios te ayude si tienes que trabajar con codificadores de rubíes o lingüistas y realmente hacer aprendizaje automático. Estaba extremadamente decepcionado de que Aardvark no fuera el próximo YouTube, y en mi humilde opinión, esto fue un resultado directo de simplemente no saber suficientes matemáticas)

Del mismo modo, descubro que muchos de mis clientes, la mayoría de los cuales son muy buenos ingenieros de software, se atascan en las matemáticas, ya sea para interpretar lo que está sucediendo o para implementar soluciones complejas. Esto es especialmente cierto en los entornos de desarrollo de software basados ​​en la mayoría de los modernos, donde los propios gerentes de producto solo tienen una comprensión superficial de la tecnología web, y ni siquiera dejan de cálculo y métodos numéricos.

El espacio de Internet se ha dado cuenta de lo que otras industrias han sabido durante mucho tiempo; si no puedes hacer matemáticas, en realidad no eres un “ingeniero”

En contraste, los clientes que son realmente buenos en matemáticas pueden tomar lo que les doy y ponerlo en producción de manera rápida y eficiente. El mejor ejemplo de esto es Demand Media. Aquí, el CTO tenía una formación universitaria en matemáticas, fue muy bien leído y persiguió agresivamente cada idea que discutimos. En unas pocas semanas, pudimos aumentar sus ingresos 5 veces y convertirlos en la primera OPI de $ 1B desde Google.

¿Por qué Google ya no le da al mundo datos de SEO?
Después del PRISM, Google confirma el movimiento silencioso para hacer que todas las búsquedas sean seguras, excepto el clic en el anuncio

No es solo PRISM, fue porque Demand Media era muy bueno en matemáticas, básicamente acorralamos el mercado en todas las búsquedas.

Entonces, supongamos que tiene una montaña de datos y necesita una nueva forma de revisarlos. Me traes. Puedo sugerirte implementar apache mahout y ejecutar algunos clústeres de kmeans simples, o podríamos reimplementar nuestro propio sistema de aprendizaje profundo (algunos clientes apenas pueden tomar el primero; otros saltarán en el segundo).

De hecho, iría tan lejos como para decir que cualquiera que dirija un equipo serio de ciencia de datos debería tener un doctorado en alguna forma de matemática aplicada (física teórica, física química, computación científica, etc.). En otras palabras, sé como Sergey Brin

Cuantas más matemáticas conozca, más oportunidades tendrá.

La investigación financiera cuantitativa es algo similar a la ciencia de datos y ha existido por más tiempo, por lo que podemos usar eso como un ejemplo. Aquí hay una cita de Jim Simons, fundador de Renaissance Technologies (hedge fund) (la principal compañía en ese dominio) que responde bien a esta pregunta:

Las matemáticas y la ciencia son dos nociones diferentes, dos disciplinas diferentes. Por su naturaleza, las buenas matemáticas son bastante intuitivas. La ciencia experimental realmente no funciona de esa manera. La intuición es importante. Hacer conjeturas es importante. Pensar en los experimentos correctos es importante. Pero es un poco más amplio y un poco menos profundo. Entonces las matemáticas que usamos aquí pueden ser sofisticadas. Pero ese no es realmente el punto. No usamos cosas muy, muy profundas. Algunos de nuestros enfoques estadísticos pueden ser muy sofisticados. No estoy sugiriendo que sea simple. Quiero un chico que sepa suficiente matemática para que pueda usar esas herramientas de manera efectiva pero tenga curiosidad sobre cómo funcionan las cosas y suficiente imaginación y tenacidad para mejorarlo.

Entonces responderé su pregunta sobre la base de los proyectos que pueda obtener como científico de datos. Así que tengo alrededor de 1 año y medio de experiencia yo mismo como 1 y he trabajado en una variedad de proyectos. Por lo tanto, los proyectos que puede encontrar pueden ser (pasar de un nivel más bajo de participación matemática a niveles más altos)

1) Proyectos de informes
Este tipo de proyectos se pueden manejar fácilmente conociendo una cantidad mínima de matemáticas. En estos proyectos debe informar diariamente o semanalmente algunos indicadores clave de rendimiento de una empresa. Sobre la base de aquellos que usted ayuda al cliente a generar información sobre cómo se está moviendo su negocio y qué puede hacer para estimular aún más el crecimiento de su negocio. Además, también ayuda a identificar algunas áreas de bajo rendimiento

2) Proyectos estadísticos que tienen una metodología ya definida
En su trabajo como científico de datos, puede encontrarse con varios proyectos de modelado que ya han sido realizados anteriormente por otros equipos.
Por ej. En las empresas de análisis de gama alta ya tenemos métodos fijos definidos para proyectos que implican algún tipo de pronóstico o análisis de control de pruebas, etc. En ese caso, puede que necesite alguna idea de las matemáticas (ecuaciones diferenciales, modelos de ecuaciones diferenciales, módulos de pruebas estadísticas), etc. pero como hay personas alrededor para ayudarlo, su trabajo puede ser un poco más fácil, incluso si no conoce las matemáticas

3) Proyectos que involucran estadísticas de alto nivel y contexto comercial
La mayoría de este tipo de proyectos no han sido realizados anteriormente por ningún otro equipo, por lo que usted es el único y único impulsor del proyecto. Debe conocer el negocio del cliente dentro y fuera, además de métodos estadísticos de alta gama como agrupación de datos, modelado de regresión, pronóstico ARIMA, modelos de mezcla de mercado, etc. Para que pueda tener una idea al respecto, considere un proyecto de pronóstico de los ingresos de Una empresa para los próximos 5 años. Este proyecto incluye agrupación, análisis de supervivencia y pronósticos, todo en un solo paquete.
¡PIENSE EN CUÁNTA DIVERSIÓN PUEDE TENER! 😉

Como fue escrito por Charles H Martin, ¡definitivamente tanto como puedas entender y dominar!

Uno de los grandes desafíos en la ciencia de datos es la reducción de dimensionalidad y la ingeniería de características. En estos campos, podemos ver más y más técnicas “inspiradas en la naturaleza y la física” para los científicos de datos.

Si debo elegir algunos:

  • Las técnicas basadas en wavelets son una pista muy interesante para la reducción de dimensiones y ese es el análisis armónico y la teoría de la transformación.
  • recocido simulado, optimización de enjambre de partículas son un buen sustituto del descenso de gradiente cuando su problema de optimización no es diferenciable, y eso es termodinámica y física de partículas.
  • La Modularidad de Lovaina (o Método de Lovaina) es muy poderosa para comprender los comportamientos sociales en grandes comunidades, y esa es la teoría de grafos.

Hay muchos más de los que hablar, pero a cargo de la enseñanza y la investigación en el Data ScienceTech Institute, puedo decir con seguridad que creemos firmemente y hacemos cumplir que las matemáticas aplicadas son clave para ser un buen científico de datos.

Si vives en un mundo donde las soluciones existentes pueden ayudarte a resolver el problema que estás resolviendo. Pero a veces ese no es el caso. A veces, se le presenta un problema que nunca se ha resuelto antes o que no se puede resolver con métodos convencionales. Entonces, tendrás que ir más allá e investigar. En el campo de la ciencia de datos, las matemáticas son su compañero.
Ahora viene la pregunta, ¿qué tan bueno necesitas ser? Diré al menos lo suficientemente bueno como para comprender los nuevos algoritmos de los trabajos de investigación porque estas pequeñas cosas pequeñas a veces marcarán una gran diferencia en sus resultados.

En la ciencia de datos, como en la programación, y en muchas otras ocupaciones, la lógica es una parte importante de hacer suposiciones, para decidir qué hacer y cómo hacerlo. Diría que puede llegar muy lejos en la ciencia de datos sin un conocimiento matemático real, pero tener la capacidad de hacer suposiciones lógicas es un requisito previo para que se sienta cómodo trabajando con la persona en cuestión.

Lógica + programación> matemáticas, en mi humilde opinión.

Si puede comprender profundamente la perspectiva probabilística del aprendizaje automático de Kevin Murphy, entonces es lo suficientemente bueno.

Bien, corto y simple, no tienes que ser un genio, pero tampoco puedes ser un completo enemigo de las matemáticas.
Si eres un estudiante promedio de matemáticas pero tienes interés en ello, puedes ser un científico de datos, porque después de todo, ¿tienes que disfrutar de lo que haces bien?

More Interesting

¿Cuál es la forma más fácil de recibir alertas cuando alguien cambia un esquema de base de datos?

¿Cuáles son las razones por las que algunos ingenieros son considerados científicos?

¿Debo ser un científico computacional en lugar de un ingeniero de software si prefiero aprender matemáticas en lugar de lenguajes de programación?

¿Qué significa "buenas habilidades de escritura" para los científicos de datos?

¿Los científicos de datos tienen más oportunidades de trabajo o les resulta más fácil conseguir trabajo con un doctorado que un máster, suponiendo que ya hayan tenido un trabajo en el campo? Básicamente, ¿qué beneficio ofrece un doctorado sobre un máster después de obtener su primer trabajo de científico de datos?

¿Puede un estudiante de ingeniería eléctrica y electrónica de último año hacer una carrera en ciencias de datos? ¿Cuál es el trabajo real que hace un científico de datos?

Muchas personas se llaman a sí mismas "científicos de datos". ¿Cómo identificas a un científico de datos real?

¿Un científico de datos necesita saber física? ¿Ayuda de alguna manera?

¿Cuáles son los diferentes tipos de 'científicos de datos' en Facebook?

¿Es el análisis de datos una buena carrera para los estudiantes graduados de BCom?

Cómo obtener el conjunto de habilidades necesarias para ser un científico de datos profesional con un sólido conocimiento del aprendizaje automático en 6-12 meses

¿Qué habilidades o conocimientos se requieren para que un recién graduado de CS se convierta en un científico de datos profesional?

¿Qué tan diferente es una maestría en análisis de una maestría en ciencia de datos?

¿Cuál es el papel del científico de datos en la firma de impuestos?

¿Cómo convertirse en un buen científico de datos? ¿Cuáles son algunos de los cursos en línea de científicos de datos gratis?