¿Cuánto conocimiento de estadística se necesita para ser un científico de datos?

Propongo una métrica muy diferente para medir el conocimiento en cualquier campo. ¿Qué le parece medirlo por la cantidad de proyectos del mundo real que ha realizado donde tuvo la oportunidad de aplicar estadísticas?

Definitivamente trate de obtener conocimiento de probabilidad y estadísticas de libros, videos, conferencias, trabajos de investigación, reuniones y otras vías. Sin embargo, mucho de lo que ganamos como conocimiento es fácilmente olvidable. Además, el conocimiento es difícil de cuantificar a menos que se demuestre en proyectos del mundo real. Si solicitara convertirse en un científico de datos, uno rara vez le haría preguntas teóricas. Intente encontrar vías en las que aplique su conocimiento de estadísticas (por pequeño o grande que sea) en proyectos de pasatiempos. Estos proyectos de pasatiempo te hacen más interesado en el campo y muestran tu disposición a aprender por ti mismo. Además, trate de tener proyectos de pasatiempos en todos los tamaños de conjuntos de datos (desde MB hasta TB).

Además, gran parte del trabajo de ciencia de datos está automatizado mediante paquetes fácilmente disponibles que arrojan estadísticas. Por lo tanto, debe aprender más sobre la interpretación de estadísticas y advertencias / supuestos que tienen y qué aplicar cuando.

Data Science presenta análisis en tres modos diferentes. (a) Análisis descriptivo (b) Análisis predictivo y (c) Análisis prescriptivo. La analítica descriptiva nos da una idea de lo que está sucediendo en este momento en base a datos pasados ​​y presentes. El análisis predictivo le permite desarrollar modelos que predicen el futuro al extender los datos pasados ​​y la asunción hacia el futuro. La analítica prescriptiva prescribe un curso de acción donde antes había incertidumbre.

Es difícil decir qué herramientas y técnicas exactas de estadística se requieren, pero lo siguiente podría ser una lista inicial.

  1. Conocimiento completo de probabilidad, distribución de probabilidad y cómo los datos pueden clasificarse y estudiarse con la ayuda de distribuciones de probabilidad.
  2. Conocimiento claro y sucinto de correlación y regresión. Dentro de Regresión, es posible que deba explorar los modelos de regresión simple, logística y múltiple y estimar los parámetros de regresión.
  3. Comprensión exhaustiva de las pruebas del proceso de hipótesis y varias pruebas de hipótesis como T-Test, Z-Test, F-Test, ANOVA, etc.
  4. Fundamentos de las técnicas avanzadas como el análisis de conglomerados, análisis discriminante, análisis factorial, etc.
  5. Comprensión básica Modelado de simulación y técnicas relacionadas.

Creo que, dependiendo de un proyecto dado, se pueden desarrollar más técnicas analíticas.

Esta es una gran pregunta. Me alegra ver que 65 de ustedes siguen esto, ya que muchas personas quieren aprender Aprendizaje automático y Aprendizaje profundo sin poder explicar mi pregunta favorita de la entrevista de apertura. ¿Cómo explicarías qué es una mediana y luego el primer, segundo y tercer cuartil a un niño de cuatro años?

Lo haré al final de este blog, pero por ahora vuelvo a tu pregunta.

Los fundamentos de estadísticas para Analytics: tutorial para Analytics de Equiskill cubren todo esto. Entonces, comience a aprender los conceptos básicos ahora antes de comenzar con algoritmos de regresión y temas más avanzados en Data Science.

  • Tipos de variables: nominales, categóricas y ordinales
  • Muestra y diferencia de población y facetas
  • Medidas de tendencia central – Modo medio medio ilustrado con datos
  • Distribuciones de probabilidad de datos como Normal, Poisson y más y su importancia en análisis.
  • Técnicas de estimación para análisis
  • Prueba de hipótesis para analíticos de datos

Espero que comiences a aprender ahora. Si quieres aprender en vivo, únete al seminario web el sábado 16 o el domingo 23. Únase al seminario web de Global Analytics

Tutorial – I

Tutorial – II

Respuesta 1: La mediana es la línea amarilla en el medio del camino que divide el camino en dos partes iguales, una para que podamos conducir, y otra para el otro que viene del otro lado.

Respuesta 2: Los cuartiles son la primera, segunda y tercera línea en un chocolate Kit Kat. Romperlo todo y se convierte en cuatro partes iguales.

Espero que comiences a aprender ahora. Si quieres aprender en vivo, únete al seminario web el sábado 16 o el domingo 23. Aprende y crece con Analytics

¡Feliz aprendizaje!

La estadística es una de las tres cosas (además de las matemáticas y el aprendizaje automático) que conforman los fundamentos desde los cuales se inicia la ciencia de datos.

Para cuantificar un poco su pregunta, “cuánto” necesita saber puede variar y puede depender en gran medida de la forma en que la descripción del trabajo del “científico de datos” que está viendo en realidad es un reflejo verdadero del papel del trabajo del científico de datos.

Sin embargo, en función de ¿Qué temas de estadísticas se necesitan para sobresalir en Data Science ?, puede resumir estos temas:

  • Estadística y teoría de la probabilidad,
  • Distribuciones de probabilidad,
  • Evaluación de la hipótesis,
  • Modelado estadístico y ajuste,
  • Aprendizaje automático,
  • Análisis de regresión,
  • Pensamiento y modelado bayesiano, y
  • Cadenas de Markov

Recomiendo que, si va a abordar estos temas para convertirse en un científico de datos, lo haga de una manera aplicada, aprendiendo haciendo. La codificación es el segundo requisito (según Learn Data Science – Infographic) que sigue sus fundamentos de matemáticas, estadísticas y aprendizaje automático y también es muy importante. ¿Por qué entonces no combinar los dos también?

Echa un vistazo a los siguientes recursos:

  • Más de 40 estadísticas de Python para recursos de ciencia de datos, que enumera en su mayoría recursos gratuitos para los temas que mencioné anteriormente.
  • Consulte también Pensamiento estadístico en Python (Parte 1).
  • Estadísticas con R Track | DataCamp para aprender los conceptos y técnicas estadísticas básicas, pero clave, como el análisis exploratorio de datos, la correlación, la regresión y la inferencia.
  • El análisis de datos y la inferencia estadística, las estadísticas básicas y las estadísticas inferenciales también son excelentes cursos gratuitos para comenzar.
  • OpenIntro: libros de texto de estadísticas gratuitos, que son perfectos para comenzar con las estadísticas en R.

Necesidad de habilidades : conocimiento de algoritmos, estadísticas, matemáticas y amplio conocimiento de lenguajes de programación como R y Python. Amplio conocimiento de cómo estructurar un problema de datos, desde formular las preguntas correctas hasta comunicar los resultados de manera efectiva.

El servicio de capacitación en habilidades de TI Data Science Training ha sido estructurado para aquellos que desean desarrollar el conocimiento avanzado y las habilidades necesarias para trabajar como científico de datos. Obtenga su certificación de ciencia de datos y destaque, ya sea que esté buscando cambiar de trabajo, obtener una promoción o mejorar sus habilidades actuales.

Los estadísticos que se centran en la implementación de enfoques estadísticos de los datos, y los gerentes de datos que se centran en ejecutar equipos de ciencia de datos tienden a caer en el papel de científico de datos.

Los científicos de datos son el puente entre la programación y la implementación de la ciencia de datos, la teoría de la ciencia de datos y las implicaciones comerciales de los datos.

Salarios : los científicos de datos deben tener un amplio conjunto de habilidades que cubran la teoría, la implementación y la comunicación de la capacitación en ciencias de datos . También tienden a ser el grupo mejor remunerado con un salario promedio superior a $ 115,000 USD.

Para ser un buen científico de datos matemáticamente orientado, mucho. Para ser un buen científico de datos orientado al software, mucho menos. Sin embargo, para los puestos de nivel básico y matemáticos, una licenciatura en estadística es probablemente suficiente; menos para puestos de nivel básico de software pesado.

Recomiendo para un científico de datos competente en el campo, uno debe aprobar los exámenes de calificación en estadística aplicada, e idealmente realizar una disertación y defensa en la misma área. Cuanto mayor sea la clasificación de la institución, mejor será la experiencia de investigación y la clase de estudiantes, así como la facultad y los recursos. Pero el conocimiento central puede aplicarse en cualquier universidad con un departamento de estadística maduro, con áreas de investigación en estadística aplicada. Es de gran ayuda, si se considera solicitar un puesto como científico de datos, asegurar un departamento con excelentes contactos de director o gerente de empresa, reclutador y contratación. Esto permite una transición fluida de un estudio académico, generalmente extraído de contextos del mundo real pero no en sí mismo una experiencia del mundo real, a un trabajo profesional trabajando con personas que se ganan la vida haciendo ciencia de datos. Esto coloca a uno en una posición recomendada para contribuir como científico de datos en una empresa asociada.

El tipo de persona que se ajusta a esta educación cumple con la calificación y la experiencia de investigación de alguien con mayor potencial para contribuir a la disciplina. Esto significa que la persona no puede continuar en el mundo académico en estadística aplicada, escribir publicaciones, realizar investigaciones, impartir cursos o interactuar con el departamento. Pero pueden transferir este estudio institucional a una empresa, pensar profundamente sobre la ciencia de datos en la empresa y preparar el conocimiento, las habilidades básicas, la estrategia para el producto y el servicio, las relaciones en la empresa y la agenda de investigación e inversión a largo plazo para obtener los mejores datos. equipo científico para esa empresa. Esto proporciona no solo un retorno de la inversión a corto plazo, por el estudio crítico y las habilidades ofrecidas, sino también una pista de desarrollo que aumenta la ciencia de datos y prepara el equipo necesario para hacer crecer el departamento y la empresa. Ayuda más si esta persona, además, ha desarrollado una experiencia y habilidades de gestión superiores. Si tienen una administración superior, pueden preparar simultáneamente la administración del equipo de ciencia de datos y coordinar este equipo con un departamento o entre la organización. Una persona de este tipo, cumple otra función importante de gobernanza para la ciencia de datos en toda la organización.

Sin embargo, un equipo de científicos de datos sigue los recursos de la compañía asignados. Depende de la posición financiera de la empresa, su actual pila de tecnología, la competencia educativa y experiencial de los empleados actuales en ciencia de datos y la cultura general y la inversión en ciencia de datos en la empresa. Esto significa que una compañía más pequeña y menos desarrollada probablemente necesitará científicos de datos a nivel de entrada, realizando tareas comunes a los analistas, programadores o pasantes tradicionales. Si la compañía no ha desarrollado una base para la ciencia de datos, entonces los empleados que ingresen deberán preparar un sistema, un plan y un plan de pocos años para desarrollar la ciencia de datos al nivel de inversión deseado. Es posible que este tipo de personas necesite una educación superior, sino más bien las habilidades críticas que se exigen actualmente y los conocimientos para construir ciencia de datos en la organización. Por último, una alternativa podría ser una gran empresa con un equipo y una base de ciencia de datos completamente desarrollados. Esto generalmente significa que contratan empleados con un mayor grado, habilidades desarrolladas y buenas habilidades con las personas. Contratan a esas personas para reemplazar transferencias, o empleados que solicitan en diferentes compañías. Una situación más rara podría ser un equipo centrado en la investigación, con recursos dedicados específicamente a aplicar la investigación actual de académicos, organizar publicaciones y transferir los hallazgos intelectuales a la producción. Esto requiere empleados con calificaciones de investigación, un historial de aplicación de la investigación sobre problemas reales y una sólida transcripción. Pueden mostrar esto con una colección de títulos relevantes para la investigación en ciencia de datos.

En general, no se puede ser un buen científico de datos sin una sólida base en las estadísticas. ¡Pero es solo una condición necesaria, no suficiente! También necesita conocer el dominio para el que está modelando los datos, necesita algunas habilidades de programación, la capacidad de hacer buenas preguntas y contar los resultados con una visualización significativa.

Puedes comenzar con lo básico. Las bibliotecas se encargan de usted, pero a la larga para resolver problemas graves o para proporcionar una mejor solución al problema en cuestión, debe tener una buena comprensión de las matemáticas y las estadísticas detrás de cada método.

En resumen, comience con lo básico, pero planee aprenderlo y comprenderlo profundamente.