¿Es necesaria la inferencia estadística para el rol laboral de un científico de datos?

Es absolutamente necesario comprender las estadísticas para ser un científico de datos exitoso. Realmente no hay forma de evitarlo. Eso no significa que deba ser un estadístico de doctorado.

Pero necesita saber todo lo que está cubierto en ese curso (que también tomé en mi camino en el campo de la ciencia de datos como un recordatorio para tener un curso completo de probabilidad y estadística en la universidad) y necesita poder usarlo correctamente , comprender cuándo y cómo elegir qué método estadístico y comprender la importancia, la confianza y el error.

No es necesario ser profesor de estadísticas universitarias, para poner un pie en la puerta, ¡ciertamente no lo era!

Pero debe ser capaz de ejercer un juicio estadístico apropiado, saber por dónde empezar, tener recursos para trabajar y saber cuándo buscar información.

Si no puede recordar qué código usar para una estadística t de estudiante, está bien. Puedes buscarlo, ir a las pilas o preguntarle al tipo que está a tu lado.

Si no sabe por qué usar uno, ya sea que necesite emparejado o no, simple o doble, eso es problemático … y limitará su capacidad de ser útil.

Si esto es lo que le impide obtener el trabajo que desea, tome un curso o dos de un colegio comunitario o una universidad en línea, o prepárese para trabajar en algunos libros para ponerse al día.

También debe saber qué hay en el curso después del enlace, análisis de regresión. Gran parte de lo que haces en ciencia de datos, incluso si trabajas en bosques, se basará en una regresión de algún tipo, lineal, logística, no paramétrica.

Debería poder aplicar cómodamente la teoría detrás de ellos cuando sea apropiado, interpretar el resultado y comprender la importancia, la confianza y las medidas de error … en mi experiencia, más allá de las preguntas súper simples sobre los medios y el muestreo y las desviaciones estándar, la mayoría de las preguntas sobre estadísticas entendiendo que se le pedirá que explique en una entrevista sobre regresiones … son muy importantes.

También hay cursos completos sobre estadísticas de 8 a 12 semanas en Coursera que le proporcionarán la información que necesita. Nadie me ha pedido una transcripción, siempre que pueda hacerlo honestamente, debería estar bien. Solo asegúrese de usar lo que aprende, practique con él y busque un par de libros sobre aprendizaje estadístico para ayudarlo a bloquearlo en un contexto de ciencia de datos

Y es PERFECTAMENTE BIEN tomar cursos de estadística aplicada, porque aplicará estadísticas. Si nunca calcula nada en papel, totalmente bien, es probable que haga la mayor parte de su trabajo con R, Matlab o Python (tal vez algunos SQL y Excel), por lo que aprender en ese contexto está completamente bien siempre que pueda usar y explicar por qué y cómo a las personas normales que no usan estadísticas en su vida laboral cotidiana.

Lo que me preocupa más que no tener antecedentes en estadísticas, es la idea de que usted, con habilidades de inteligencia artificial y de inteligencia artificial, consideraría darse la vuelta y renunciar al escuchar que se requieren estadísticas.

Lo único que no puede aprender en línea o en otro lugar es ser duradero, valiente y resistente. ¡Tienes que elegir estas cosas, y son extremadamente importantes para tu éxito en este campo!

La ciencia de datos es emocionalmente exigente e intelectualmente difícil. Debes luchar para lograrlo … así que si realmente quieres hacer un trabajo de ciencia de datos (que no es lo mismo que querer ser un científico de datos o ganar salarios de ciencia de datos), averigua cómo obtener lo que quieres .

Si lleva un año y puede trabajar en programación o análisis mientras aprende, ¿es realmente un gran problema?

Gracias por el A2A.

Las revisiones de las aplicaciones erróneas en papel : una introducción comienza con esto:

La amplia disponibilidad de paquetes informáticos sofisticados ha puesto las bazookas matemáticas en manos de algunas personas que serían peligrosas con un ábaco. El resultado ha sido un número inquietante de estudios que contienen todo menos sentido común, realizados por personas que no conocen los supuestos subyacentes de los modelos que están utilizando, y mucho menos si son relevantes para el problema en cuestión. Con demasiada frecuencia, los esfuerzos exhaustivos para recopilar y analizar datos no han arrojado información útil sobre la pregunta que los motivó.

– Arnold Barnett, Sloan School of Management, MIT

Esto es duro, pero está bien fundamentado porque el peligro de no tener la intuición para detectar procesos de generación de datos erróneos y trabajar con muestras de datos es real.

Considere su primer ejemplo:

Una empresa de fabricación que deseaba estimar las ventas del producto solicitó a una muestra de minoristas que seleccionara dos días al mes al azar y registrara el número vendido en ambos días. Los totales de dos días se multiplicaron por 15 para obtener estimaciones de ventas mensuales. Pasaron años antes de que alguien señalara que este procedimiento generaba estadísticas infladas, dado que las tiendas generalmente venden más en los días que están abiertos que en los que están cerrados.

Y otro ejemplo más cercano a casa, esta vez sobre el sesgo de supervivencia de la investigación financiera aquí:

Un estudio de Vanguard Group el año pasado encontró que el 50% de los gerentes de valores de gran capitalización superan su índice de referencia durante 15 años si solo se cuenta la vida. Pero cae a un 27% mucho más débil si se agregan fondos muertos. La cifra de los gerentes de crecimiento cae del 34% al 18%.

Si un científico de datos estuviera asesorando a la primera empresa en compras de inventario basadas en datos de ventas, la empresa podría haberse declarado en bancarrota debido al gasto excesivo. O si el mismo científico de datos estuviera aconsejando a un inversor en el segundo caso sobre rendimientos probables, habrían sobreestimado sistemáticamente la recompensa por el riesgo.

La inferencia estadística es una de las cosas rutinarias para las que entrevistamos a los candidatos, y en mi humilde opinión, es una habilidad no negociable para un científico de datos. Los analistas de datos también se beneficiarían de ello.

La estadística es uno de los temas fundamentales para aprender ciencia de datos y, por lo tanto, es muy relevante aprender este tema bien mientras trabajas para ser contratado como científico de datos.

(Por supuesto, puede discutir sobre qué es exactamente un científico de datos y si los puestos de trabajo realmente están buscando un científico de datos, pero considero “científico de datos” como se define aquí: La industria de la ciencia de datos: quién hace qué (infografía)).

Lo que no se puede ver en esta infografía bastante simple es el hecho de que, como científico de datos, se espera que traiga ideas a la empresa para la que está trabajando, ya sea que trabaje en equipo o solo. Estas ideas alimentan las decisiones comerciales, como las inversiones o tal vez la falta de inversiones en proyectos que no se consideran exitosos. Hay una gran responsabilidad sobre sus hombros como científico de datos.

Es por eso que no tiene por qué sorprenderle que la mayoría de las ofertas de trabajo no solo buscan candidatos que ya tengan experiencia en el campo, sino que también buscan personas con antecedentes formales para ocupar este puesto, es decir, personas que tienen un buen sonido. comprensión de matemáticas, estadísticas y aprendizaje automático.

Todo esto explica por qué definitivamente no debería tener miedo de invertir tiempo (o incluso demasiado tiempo) en estadísticas.

O no?

Déjame darte esta cita:

La estadística es la ciencia y, posiblemente, también el arte de aprender de los datos. Como disciplina, tiene que ver con la recopilación, el análisis y la interpretación de los datos, así como con la comunicación efectiva y la presentación de resultados basados ​​en los datos. Las estadísticas se encuentran en el centro del tipo de razonamiento cuantitativo necesario para hacer avances importantes en las ciencias, […] y para tomar decisiones importantes en los negocios y las políticas públicas. Por qué estudiar estadística

¿Entiendes ahora por qué es tan importante centrarse en las estadísticas cuando quieres aprender ciencia de datos?

Consejo: cuando esté aprendiendo estadísticas para la ciencia de datos, no olvide aplicar lo que ha aprendido . Puede usar la siguiente publicación como guía para los temas que necesita saber para aprender ciencia de datos + recursos que lo ayudarán a aplicar lo que ha aprendido: 40+ estadísticas de Python para recursos de ciencia de datos

Sí, necesita una comprensión exhaustiva de las estadísticas, o aplicará algoritmos incorrectamente, lo que conducirá a una mala percepción. Pruebe un puesto de ingeniería de software con una empresa de tecnología. Trabajará con científicos de datos, que pueden enseñarle algunas de las estadísticas mientras trabaja con ellos.

El modelo que construimos utilizando los datos necesita pruebas estadísticas e inferencias. Aunque la codificación puede obtener el resultado, desafortunadamente con la falta de estadísticas, uno nunca podría inferir lo que dicen los datos. Por lo tanto, lo más básico para el papel del científico de datos es la estadística. Sin estadísticas, es como escribir hebreo, que nunca podrás descifrar lo que dice.

¿Es necesario? No en muchas de las tareas en ciencia de datos. ¿Es un diferenciador? Sí.

More Interesting

¿Qué tipo de ingeniero de software tendrá más demanda en el valle? IOS / C ++ / Científico de datos?

¿Cuáles son las habilidades más valiosas que un científico de datos puede desarrollar para abordar los próximos desarrollos en ciencia de datos?

¿Qué habilidades de ingeniería de software deberían adquirir los científicos de datos?

¿Cuál es un mejor título: Jefe de Ciencia de Datos o Director de Ciencia de Datos?

¿Qué tan fácil / difícil es conseguir un trabajo en los Estados Unidos mientras se está fuera del país? Tengo una tarjeta verde y una sólida formación en tecnología / consultoría. No quiero dejar mi concierto actual hasta que consiga uno bueno allí. ¿Alguien puede compartir su experiencia?

¿Un recién graduado de CS obtiene un trabajo de analista de datos o científico de datos?

Quiero convertirme en un científico de datos con especialidad de aprendizaje automático, ¿qué cursos debo tomar?

¿Es preferible o bueno tener certificaciones en análisis predictivo y aprendizaje automático para que un científico de datos permanezca en la competencia?

¿Es necesario el conocimiento de dominio para un científico de datos?

Quiero convertirme en científico de datos y actualmente estoy en mi año sabático, entonces, ¿qué curso debo elegir después de 12 para convertirme en científico de datos?

¿Cuáles son algunos problemas comunes con los conjuntos de datos reales con los que los científicos de datos tienen que lidiar?

¿Qué característica es más importante para un científico de datos: habilidades de codificación o habilidades de comunicación?

¿Qué habilidades y experiencias debo buscar para convertirme en un profesional de inteligencia empresarial?

¿Cuál es mejor para los científicos de datos para trabajar, Uber o Google?

¿Debería quedarme en India y apurarme para comenzar mi empresa o ir a Silicon Valley para trabajar como científico de datos?