¿Cómo puedo convertirme en un científico de datos?

Estrictamente hablando, no existe la “ciencia de datos” (ver ¿Qué es la ciencia de datos?). Ver también: Vardi, Science tiene solo dos patas: http://portal.acm.org/ft_gateway…

Aquí hay algunos recursos que he recopilado sobre el trabajo con datos, espero que les sean útiles (nota: soy un estudiante universitario, esta no es una opinión experta de ninguna manera).

1) Aprenda sobre factorizaciones matriciales

  • Tome el curso de álgebra lineal computacional (a veces se llama álgebra lineal aplicada o computaciones matriciales o análisis numérico o análisis matricial y puede ser un curso de CS o matemática aplicada). Los algoritmos de descomposición matricial son fundamentales para muchas aplicaciones de minería de datos y generalmente están subrepresentados en un plan de estudios estándar de “aprendizaje automático”. Con TBs de datos, las herramientas tradicionales como Matlab dejan de ser adecuadas para el trabajo, no puede simplemente ejecutar eig () en Big Data. Los paquetes de cálculo de matriz distribuida como los incluidos en Apache Mahout [1] están tratando de llenar este vacío, pero debe comprender cómo funcionan los algoritmos numéricos / rutinas LAPACK / BLAS [2] [3] [4] [5] para poder úselos adecuadamente, ajústelos para casos especiales, cree los suyos propios y escale hasta terabytes de datos en un grupo de máquinas de productos básicos. [6] Por lo general, los cursos numéricos se basan en álgebra y cálculo de pregrado, por lo que debe ser bueno con los requisitos previos. Recomendaría estos recursos para auto estudio / material de referencia:
  • Ver Jack Dongarra: Cursos y ¿Cuáles son algunos buenos recursos para aprender sobre análisis numérico?

2) Aprenda sobre computación distribuida

  • Es importante aprender cómo trabajar con un clúster de Linux y cómo diseñar algoritmos distribuidos escalables si desea trabajar con grandes datos (¿Por qué la obsesión actual con los grandes datos, cuando generalmente son más grandes los datos, se hace más difícil incluso? análisis básico y procesamiento?).
  • Crays y máquinas de conexión del pasado ahora se pueden reemplazar con granjas de instancias de nube baratas, los costos de computación se redujeron a menos de $ 1.80 / GFlop en 2011 frente a $ 15M en 1984: http://en.wikipedia.org/wiki/FLOPS .
  • Si desea aprovechar al máximo su hardware (alquilado), también se está volviendo cada vez más importante poder utilizar toda la potencia del multinúcleo (consulte http://en.wikipedia.org/wiki/Moo…)
  • Nota: este tema no forma parte de una pista estándar de Machine Learning, pero probablemente pueda encontrar cursos como Sistemas distribuidos o Programación paralela en su catálogo CS / EE. Vea los recursos informáticos distribuidos, un curso de sistemas en UIUC, trabajos clave y para empezar: Introducción a las redes informáticas.
  • Después de estudiar los conceptos básicos de las redes y los sistemas distribuidos, me enfocaría en las bases de datos distribuidas, que pronto se volverán omnipresentes con el diluvio de datos y alcanzarán los límites de la escala vertical. Vea trabajos clave, tendencias de investigación y para empezar: Introducción a las bases de datos relacionales e Introducción a las bases de datos distribuidas (HBase en acción).

3) Aprenda sobre el análisis estadístico

  • Comience a aprender estadísticas codificando con R: ¿Cuáles son las referencias esenciales para R? y experimentar con datos del mundo real: ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?
  • Cosma Shalizi compiló algunos excelentes materiales sobre estadísticas computacionales, revisó sus diapositivas de conferencias y también ¿Cuáles son algunos buenos recursos para aprender sobre análisis estadístico?
  • Descubrí que aprender estadísticas en un dominio particular (por ejemplo, procesamiento del lenguaje natural) es mucho más agradable que tomar Stats 101. Mi recomendación personal es el curso de Michael Collins en Columbia (también disponible en Coursera).
  • También puede elegir un campo donde el uso de estadísticas cuantitativas y principios de causalidad [7] es inevitable, por ejemplo, biología molecular [8], o un subcampo divertido como la investigación del cáncer [9], o incluso un dominio más estrecho, por ejemplo, análisis genético de angiogénesis tumoral [10] y trata de responder preguntas importantes en ese campo en particular, aprendiendo lo que necesitas en el proceso.

4) Aprenda sobre la optimización

  • Este tema es esencialmente un prerrequisito para comprender muchos algoritmos de aprendizaje automático y procesamiento de señales, además de ser importante por derecho propio.
  • Comience con las conferencias en video de Stephen P. Boyd y también ¿Cuáles son algunos buenos recursos para aprender sobre la optimización?

5) Aprenda sobre el aprendizaje automático

  • Antes de pensar en algoritmos, observe cuidadosamente los datos y seleccione las características que lo ayudan a filtrar la señal del ruido. Vea esta charla de Jeremy Howard: en Kaggle, es una desventaja saber demasiado
  • Consulte también ¿Cómo aprendo el aprendizaje automático? y ¿Cuáles son algunos recursos introductorios para aprender sobre el aprendizaje automático a gran escala? ¿Por qué?
  • Estadísticas vs aprendizaje automático, lucha !: http://brenocon.com/blog/2008/12…
  • Puede estructurar su programa de estudios de acuerdo con los catálogos de cursos en línea.
    y planes de estudio de MIT, Stanford u otras escuelas superiores. Experimentar con
    muchos datos, piratear algún código, hacer preguntas, hablar con buenas personas, configurar un rastreador web en su garaje: la anatomía de un motor de búsqueda
  • Puede unirse a una de estas nuevas empresas y aprender haciendo: ¿Qué nuevas empresas están contratando ingenieros con fortalezas en aprendizaje automático / PNL?
  • La opción alternativa (y bastante cara) es inscribirse en un CS
    programa / pista de Machine Learning si prefieres estudiar en un curso formal
    ajuste. Ver: ¿Qué hace que valga la pena un Máster en Informática (MS CS) y por qué?
  • Intenta evitar la sobreespecialización. El enfoque de amplitud a menudo funciona mejor cuando se aprende un nuevo campo y se enfrentan problemas difíciles, vea el Segundo viaje del HMS Beagle sobre las aventuras de un ingenioso joven minero de datos.

6) Aprenda sobre la recuperación de información

  • El aprendizaje automático no es tan genial como parece: http://teddziuba.com/2008/05/mac…
  • ¿Cuáles son algunos buenos recursos para comenzar el entrenamiento de Recuperación de información y por qué se prefieren estos sobre otros?

7) Aprenda sobre la detección y estimación de señales

  • Este es un tema clásico y “ciencia de datos” por excelencia en mi opinión.
    Algunos de estos métodos se utilizaron para guiar la misión Apolo o detectar
    submarinos enemigos y todavía están en uso activo en muchos campos. Esto es
    a menudo parte del plan de estudios de EE.
  • Buenas referencias son las diapositivas de la conferencia de Robert F. Stengel sobre control y estimación óptimos: Página de inicio de Rob Stengel, Señales y sistemas de Alan V. Oppenheim. y ¿Cuáles son algunos buenos recursos para aprender sobre la estimación y detección de señales? Un buen tema para enfocarse primero es el filtro de Kalman, ampliamente utilizado para el pronóstico de series temporales.
  • Hablando de datos, es probable que desee saber algo sobre la información: su transmisión, compresión y filtrado de la señal del ruido. Los métodos desarrollados por los ingenieros de comunicación en los años 60 (como el decodificador Viterbi, que ahora se usa en aproximadamente mil millones de teléfonos celulares, o la wavelet Gabor ampliamente utilizada en el reconocimiento de Iris) son aplicables a una sorprendente variedad de tareas de análisis de datos, desde la traducción automática estadística hasta la comprensión de organización y función de redes moleculares. Un buen recurso para empezar es la teoría de la información y la comunicación confiable: Robert G. Gallager: 9780471290483: Amazon.com: Libros. Además, ¿cuáles son algunos buenos recursos para aprender sobre la teoría de la información?

8) algoritmos maestros y estructuras de datos

  • ¿Cuáles son los recursos más fáciles de aprender para aprender sobre algoritmos?

9) práctica

  • Ponerse en forma para el deporte de la ciencia de datos
  • Carpintería: http://software-carpentry.org/
  • ¿Cuáles son algunos buenos problemas con los juguetes (un solo codificador puede hacer durante un fin de semana) en ciencia de datos? Estoy estudiando el aprendizaje automático y las estadísticas, y estoy buscando algo socialmente relevante utilizando conjuntos de datos / API disponibles públicamente.
  • Herramientas: ¿Cuáles son algunas de las mejores herramientas de análisis de datos?
  • ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

Si decides ir a una maestría:

10) estudiar ingeniería

Iría por CS con un enfoque en IR o Machine Learning o una combinación de ambos y tomaría algunos cursos de sistemas en el camino. Como “científico de datos”, tendrá que escribir una tonelada de código y probablemente desarrollar algoritmos / sistemas distribuidos para procesar cantidades masivas de datos. La Maestría en Estadística le enseñará cómo hacer análisis de modelado y regresión, etc., no cómo construir sistemas, creo que esto último se necesita con más urgencia en estos días ya que las herramientas antiguas se vuelven obsoletas con la avalancha de datos. Hay una escasez de ingenieros que puedan construir un sistema de minería de datos desde cero. Puede recoger estadísticas de libros y experimentos con R (consulte el punto 3 anterior) o tomar algunas clases de estadísticas como parte de sus estudios de CS.

Buena suerte.

[1] http://mahout.apache.org/
[2] http://www.netlib.org/lapack/
[3] http://www.netlib.org/eispack/
[4] http://math.nist.gov/javanumeric…
[5] http://www.netlib.org/scalapack/
[6] http://labs.google.com/papers/ma…
[7] Amazon.com: Causalidad: modelos, razonamiento e inferencia (9780521895606): Judea Pearl: Libros
[8] Introducción a la biología, video conferencias MIT 7.012
[9] Hanahan y Weinberg, The Hallmarks of Cancer, Next Generation: Page on Wisc
[10] La organización caótica de la vasculatura asociada a tumores, de The Biology of Cancer: Robert A. Weinberg: 9780815342205: Amazon.com: Books, p. 562

Aquí hay algunos recursos sorprendentes y completamente gratuitos en línea que puede usar para aprender ciencia de datos.

¡Además de esta página, recomendaría las preguntas frecuentes oficiales de Quora Data Science como su guía completa para la ciencia de datos! Incluye recursos similares a este, así como consejos sobre cómo prepararse para entrevistas de ciencia de datos. ¡Además, siga el tema de Quora Data Science si aún no ha recibido actualizaciones sobre nuevas preguntas y respuestas!

Paso 1. Cumple tus prerrequisitos

Antes de comenzar, necesita Cálculo multivariable, Álgebra lineal y Python. Si su experiencia matemática depende del cálculo multivariable y el álgebra lineal, tendrá suficiente experiencia para comprender casi todas las probabilidades / estadísticas / aprendizaje automático para el trabajo.

  • Cálculo multivariante : ¿Cuáles son los mejores recursos para dominar el cálculo multivariable?
  • Álgebra lineal numérica / Álgebra lineal computacional / Álgebra matricial: Álgebra lineal, Introducción a los modelos lineales y Álgebra matricial. Evite las clases de álgebra lineal que son demasiado teóricas, necesita una clase de álgebra lineal que funcione con matrices reales.

El cálculo multivariado es útil para algunas partes del aprendizaje automático y mucha probabilidad. El álgebra lineal / matricial es absolutamente necesario para muchos conceptos en el aprendizaje automático.

También necesita algunos antecedentes de programación para comenzar, preferiblemente en Python. La mayoría de las otras cosas en esta guía se pueden aprender en el trabajo (como bosques aleatorios, pandas, pruebas A / B), ¡pero no puede escapar sin saber cómo programar!

Python es el lenguaje más importante que debe aprender un científico de datos. Para aprender a codificar, más sobre Python y por qué Python es tan importante, consulte

  • ¿Cómo aprendo a codificar?
  • ¿Cómo aprendo Python?
  • ¿Por qué Python es un lenguaje de elección para los científicos de datos?
  • ¿Es Python el lenguaje de programación más importante para aprender para los aspirantes a científicos de datos y mineros de datos?

R es el segundo lenguaje más importante que debe aprender un científico de datos. Lo digo como alguien con experiencia en estadísticas y que cursó estudios de pregrado principalmente solo con R. Mientras que R es poderoso para tareas estadísticas dedicadas, Python es más versátil ya que lo conectará más con el trabajo a nivel de producción.

Si actualmente estás en la escuela, toma clases de estadística e informática . Echa un vistazo a ¿Qué clases debo tomar si quiero ser un científico de datos?

Paso 2. Conéctate a la comunidad

¡Mira Meetup para encontrar algunos que te interesen! Asista a una charla interesante, aprenda sobre ciencia de datos en vivo y conozca científicos de datos y otros científicos de datos aspiracionales. Comience a leer blogs de ciencia de datos y siga a científicos de datos influyentes:

  • ¿Cuáles son los mejores blogs perspicaces sobre datos, incluida la forma en que las empresas usan los datos?
  • ¿Cuál es su fuente de aprendizaje automático y noticias de ciencia de datos? ¿Por qué?
  • ¿Cuáles son algunas de las mejores cuentas de ciencia de datos para seguir en Twitter, Facebook, G + y LinkedIn?
  • ¿Cuáles son las mejores cuentas de Twitter sobre datos?

Paso 3. Configura y aprende a usar tus herramientas

Pitón

  • Instalar Python, iPython y bibliotecas relacionadas (guía)
  • ¿Cómo aprendo Python?

R

  • Instale R y RStudio (es bueno saber tanto Python como R)
  • Aprende R con remolino

Texto sublime

  • Instalar texto sublime
  • ¿Cuál es la mejor manera de aprender a usar Sublime Text?

SQL

  • ¿Cómo aprendo SQL? ¿Cuáles son algunos buenos recursos en línea, como sitios web, blogs o videos? (Puedes practicarlo usando el paquete sqlite en Python)

Paso 4. Aprender probabilidad y estadística

Asegúrese de realizar un curso que implique una gran aplicación en R o Python. Conocer la probabilidad y las estadísticas solo será realmente útil si puede implementar lo que aprende.

  • Aplicación Python: Think Stats (pdf gratuito) (enfoque de Python)
  • Aplicaciones R: Introducción al aprendizaje estadístico (pdf gratuito) (MOOC) (enfoque R)
  • Imprima una copia de Probability Cheatsheet

Paso 5. Completa el curso de ciencia de datos de Harvard

A partir del otoño de 2015, el curso se encuentra actualmente en su tercer año y se esfuerza por ser lo más aplicable y útil posible para los estudiantes que estén interesados ​​en convertirse en científicos de datos. Un ejemplo de cómo está sucediendo esto es la introducción de Spark y SQL a partir de este año.

Recomiendo hacer los laboratorios y las conferencias de 2015 y las tareas de 2013 (las tareas de 2015 no están disponibles para el público, y las tareas de 2014 están escritas bajo un instructor diferente al de los instructores originales).

Este curso es desarrollado en parte por un compañero usuario de Quora, el profesor Joe Blitzstein. ¡Aquí están todos los materiales!

Introducción a la clase

  • ¿Cómo es diseñar una clase de ciencia de datos? En particular, ¿cómo fue diseñar la nueva clase de ciencia de datos de Harvard, impartida por los profesores Joe Blitzstein y Hanspeter Pfister?
  • ¿Cómo es tomar CS 109 / Statistics 121 (Data Science) en Harvard?

Materiales del curso

  • Página principal de la clase: CS109 Data Science
  • Conferencias, diapositivas y laboratorios: material de clase

Asignaciones

  • Introducción a Python, Numpy, Matplotlib (Tarea 0) (Soluciones)
  • Agregación de encuestas, raspado web, trazado, evaluación de modelos y pronósticos (tarea 1) (soluciones)
  • Predicción, manipulación y evaluación de datos (Tarea 2) (Soluciones)
  • Modelado predictivo, calibración de modelos, análisis de sentimientos (tarea 3) (soluciones)
  • Motores de recomendación, utilizando Mapreduce (tarea 4) (soluciones)
  • Visualización y análisis de redes (Tarea 5) (Soluciones)

Laboratorios

(estos son los laboratorios de 2013. Para los laboratorios de 2015, consulte Material de clase)

  • Laboratorio 2: raspado web
  • Laboratorio 3: EDA, Pandas, Matplotlib
  • Laboratorio 4: Scikit-Learn, Regresión, PCA
  • Laboratorio 5: Sesgo, varianza, validación cruzada
  • Laboratorio 6: Bayes, regresión lineal y muestreo de metrópolis
  • Laboratorio 7: muestreo de Gibbs
  • Laboratorio 8: MapReduce
  • Laboratorio 9: Redes
  • Laboratorio 10: Máquinas de vectores de soporte

Paso 6. Realiza todas las competiciones de iniciación y juegos de Kaggle

NO recomendaría hacer ninguno de los concursos de premios en dinero. Por lo general, tienen conjuntos de datos que son demasiado grandes, complicados o molestos, y no son buenos para el aprendizaje. Las competiciones están disponibles en Competiciones | Kaggle

Comienza aprendiendo scikit-learn, jugando, leyendo tutoriales y foros sobre las competencias que estás haciendo. A continuación, juegue un poco más y consulte los tutoriales para Titanic: Machine Learning from Disaster para una tarea de clasificación binaria (con variables categóricas, valores faltantes, etc.)

Luego, intente una clasificación de varias clases con Predicción de tipo de cobertura forestal. Ahora, intente una tarea de regresión Precios de la vivienda: técnicas de regresión avanzadas Pruebe el procesamiento de lenguaje natural con Quora Question Pairs | Kaggle Finalmente, ¡prueba cualquiera de las otras competencias basadas en conocimiento que te interesan!

Paso 7. Aprenda algunas asignaturas optativas de ciencia de datos

La ciencia de datos es un campo increíblemente grande e interdisciplinario, y diferentes trabajos requerirán diferentes habilidades. Estos son algunos de los más comunes:

  • Las métricas de productos le enseñarán qué rastrean las empresas, qué métricas consideran importantes y cómo las empresas miden su éxito: las 27 métricas en el Panel de control de crecimiento interno de Pinterest
  • Machine Learning ¿Cómo aprendo machine learning? Esta es un área extremadamente rica con enormes cantidades de potencial, y probablemente el área “más sexy” de la ciencia de datos en la actualidad. El curso de aprendizaje automático de Andrew Ng en Coursera es uno de los MOOC más populares, ¡y una excelente manera de comenzar! MOOC de aprendizaje automático de Andrew Ng
  • Las pruebas A / B son increíblemente importantes para ayudar a informar las decisiones de productos para aplicaciones de consumo. Obtenga más información sobre las pruebas A / B aquí: ¿Cómo aprendo sobre las pruebas A / B?
  • Visualización : recomendaría elegir ggplot2 en R para crear gráficos simples pero hermosos y simplemente explorar DataIsBeautiful • / r / dataisbeautiful y FlowingData para obtener ideas e inspiración.
  • Comportamiento del usuario: este conjunto de publicaciones de blogs parece útil e interesante. Esto explica todo “Comportamiento del usuario
  • Ingeniería de funciones: consulte ¿Cuáles son algunas de las mejores prácticas en Ingeniería de funciones? y este gran ejemplo: http://nbviewer.ipython.org/gith
  • Tecnologías de Big Data : son herramientas y marcos desarrollados específicamente para manejar grandes cantidades de datos. ¿Cómo aprendo tecnologías de big data?
  • La optimización lo ayudará a comprender las estadísticas y el aprendizaje automático: optimización convexa – Boyd y Vandenberghe
  • Procesamiento del lenguaje natural : esta es la práctica de convertir datos de texto en datos numéricos mientras se conserva el “significado”. Aprender esto le permitirá analizar nuevas y emocionantes formas de datos. ¿Cómo aprendo el procesamiento del lenguaje natural (PNL)?
  • Análisis de series de tiempo – ¿Cómo aprendo sobre el análisis de series de tiempo?

Paso 8. Hacer un producto Capstone / Proyecto paralelo

Use sus nuevas habilidades de ciencia de datos e ingeniería de software para crear algo que haga que otras personas digan ¡guau! ¡Esto puede ser un sitio web, una nueva forma de ver un conjunto de datos, una visualización genial o cualquier cosa!

  • ¿Cuáles son algunos buenos problemas con los juguetes (un solo codificador puede hacer durante un fin de semana) en ciencia de datos? Estoy estudiando el aprendizaje automático y las estadísticas, y estoy buscando algo socialmente relevante utilizando conjuntos de datos / API disponibles públicamente.
  • ¿Cómo puedo comenzar a construir un motor de recomendación? ¿Dónde puedo encontrar un conjunto de datos interesante? ¿Con qué herramientas / tecnologías / algoritmos es mejor construir el motor? ¿Cómo verifico la efectividad de las recomendaciones?
  • ¿Cuáles son algunas ideas para un proyecto Python rápido de fin de semana? Estoy buscando ganar algo de experiencia.
  • ¿Cuál es una buena medida de la influencia de un usuario de Twitter?
  • ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?
  • ¿Cuáles son algunos buenos algoritmos para una bandeja de entrada priorizada?
  • ¿Cuáles son algunos buenos proyectos de ciencia de datos?

¡Cree repositorios públicos de github, cree un blog y publique su trabajo, proyectos paralelos, soluciones de Kaggle, ideas y pensamientos! Esto le ayuda a ganar visibilidad, crear una cartera para su currículum y conectarse con otras personas que trabajan en las mismas tareas.

Paso 9. Obtenga una pasantía o trabajo en ciencia de datos

  • ¿Cómo me preparo para una entrevista con un científico de datos?
  • ¿Cómo debo prepararme para las preguntas de estadísticas para una entrevista de ciencia de datos?
  • ¿Qué tipo de preguntas de prueba A / B debo esperar en una entrevista con un científico de datos y cómo debo prepararme para esas preguntas?
  • ¿Qué empresas tienen pasantías en ciencia de datos para estudiantes universitarios?
  • ¿Cuáles son algunos consejos para elegir si deseo solicitar una pasantía de Data Science o Software Engineering?
  • ¿Cuándo es el mejor momento para solicitar pasantías de verano de ciencia de datos?

¡Consulte las Preguntas frecuentes oficiales sobre ciencia de datos de Quora para obtener más información sobre pasantías, trabajos y procesos de entrevistas de ciencia de datos! Las preguntas frecuentes sobre ciencia de datos también enlazan con versiones más específicas de esta pregunta, como ¿Cómo me convierto en un científico de datos sin un doctorado? o la contraparte, ¿cómo me convierto en un científico de datos como estudiante de doctorado?

Paso 10. Comparta su sabiduría con la comunidad de ciencia de datos

Si has llegado hasta aquí, ¡felicidades por convertirte en un científico de datos! Te animo a que compartas tus conocimientos y lo que has aprendido con la comunidad de ciencia de datos. ¡La ciencia de datos como un campo incipiente depende del intercambio de conocimientos!


Piensa como un científico de datos

Además de los pasos concretos que enumeré anteriormente para desarrollar el conjunto de habilidades de un científico de datos, incluyo siete desafíos a continuación para que pueda aprender a pensar como un científico de datos y desarrollar la actitud correcta para convertirse en uno.

(1) Satisface tu curiosidad a través de los datos

Como científico de datos, usted escribe sus propias preguntas y respuestas. Los científicos de datos son naturalmente curiosos acerca de los datos que están viendo, y son creativos con las formas de abordar y resolver cualquier problema que deba resolverse.

Gran parte de la ciencia de datos no es el análisis en sí, sino descubrir una pregunta interesante y descubrir cómo responderla.

Aquí hay dos grandes ejemplos:

  • Hilary: el nombre de bebé más envenenado en la historia de los EE. UU.
  • Una mirada a los datos de respuesta al fuego

Desafío : ¡piense en un problema o tema que le interese y responda con datos!

(2) Lea las noticias con ojo escéptico

Gran parte de la contribución de un científico de datos (y por qué es realmente difícil reemplazar un científico de datos con una máquina), es que un científico de datos le dirá qué es importante y qué es falso. Este escepticismo persistente es saludable en todas las ciencias, y es especialmente necesario en un entorno acelerado donde es demasiado fácil dejar que un resultado espurio se malinterprete.

Puede adoptar esta mentalidad usted mismo leyendo noticias con ojo crítico. Muchos artículos de noticias tienen premisas principales inherentemente defectuosas. Prueba estos dos artículos. Ejemplos de respuestas están disponibles en los comentarios.

Más fácil: amas tu iPhone. Literalmente.

Harder: ¿Quién predijo la intervención militar de Rusia?

Desafío: haga esto todos los días cuando encuentre un artículo de noticias. Comente el artículo y señale los defectos.

(3) Ver los datos como una herramienta para mejorar los productos de consumo.

Visite un producto de Internet para el consumidor (probablemente sepa que ya no realiza pruebas A / B exhaustivas) y luego piense en su embudo principal. ¿Tienen un embudo de pago? ¿Tienen un embudo de registro? ¿Tienen un mecanismo de virilidad? ¿Tienen un embudo de compromiso?

Revise el embudo varias veces e hipotetice sobre las diferentes formas en que podría mejorar aumentar una métrica central (tasa de conversión, acciones, suscripciones, etc.). Diseñe un experimento para verificar si su cambio sugerido realmente puede cambiar la métrica central.

Reto : ¡compártelo con el correo electrónico de comentarios para el sitio de Internet del consumidor!

(4) Piensa como un bayesiano

Para pensar como un bayesiano, evite la falacia de la tasa base. Esto significa que para formar nuevas creencias debes incorporar tanto la información recién observada como la información previa formada a través de la intuición y la experiencia.

Al revisar su tablero, los números de participación de los usuarios han disminuido significativamente hoy. ¿Cuál de los siguientes es más probable?

1. Los usuarios de repente están menos comprometidos
2. Característica del sitio roto
3. La función de registro se rompió

Aunque la explicación n. ° 1 explica completamente la caída, los n. ° 2 y n. ° 3 deberían ser más probables porque tienen una probabilidad previa mucho mayor.

Estás en la alta gerencia de Tesla, y cinco de los Model S de Tesla se han incendiado en los últimos cinco meses. ¿Cuál es más probable?

1. La calidad de fabricación ha disminuido y Teslas ahora debería considerarse inseguro.
2. La seguridad no ha cambiado y los incendios en los Tesla Model S son aún más raros que sus homólogos en los automóviles a gasolina.

Si bien el n. ° 1 es una explicación fácil (y excelente para la cobertura de los medios), su anterior debe ser fuerte en el n. ° 2 debido a sus pruebas de calidad regulares. Sin embargo, aún debe buscar información que pueda actualizar sus creencias sobre el n. ° 1 frente al n. ° 2 (y aún así encontrar formas de mejorar la seguridad). Pregunta para pensar: ¿qué información debe buscar?

Desafío: identifique la última vez que cometió la Falacia de tasa base. Evite cometer la falacia de ahora en adelante.

(5) Conozca las limitaciones de sus herramientas

“El conocimiento es saber que un tomate es una fruta, la sabiduría no es ponerlo en una ensalada de frutas”. – Miles Kington

El conocimiento es saber cómo realizar una regresión lineal ordinaria, la sabiduría es darse cuenta de lo raro que se aplica limpiamente en la práctica.

El conocimiento es conocer cinco variaciones diferentes de la agrupación de K-means, la sabiduría es darse cuenta de cuán raramente se pueden agrupar los datos reales de manera limpia, y de qué manera la agrupación de K-means puede funcionar con demasiadas características.

El conocimiento es conocer una amplia gama de técnicas sofisticadas, pero la sabiduría es poder elegir la que proporcionará la mayor cantidad de impacto para la empresa en un tiempo razonable.

Puede desarrollar una amplia gama de herramientas mientras realiza sus cursos Coursera o EdX, pero su caja de herramientas no es útil hasta que sepa qué herramientas usar.

Desafío: aplique varias herramientas a un conjunto de datos real y descubra las compensaciones y limitaciones de cada herramienta. ¿Qué herramientas funcionaron mejor? ¿Puedes entender por qué?

(6) Enseñar un concepto complicado

¿Cómo distingue Richard Feynman qué conceptos entiende y qué conceptos no entiende?

Feynman fue un gran maestro. Se enorgullecía de poder idear formas de explicar incluso las ideas más profundas a los estudiantes principiantes. Una vez, le dije: “Dick, explícame, para que pueda entenderlo, por qué las partículas de la mitad giran obedecen las estadísticas de Fermi-Dirac”. Evaluando a su audiencia perfectamente, Feynman dijo: “Prepararé una conferencia sobre estudiantes de primer año”. Pero regresó unos días después y dijo: “No pude hacerlo. No pude reducirlo al nivel de primer año. Eso significa que realmente no lo entendemos”. – David L. Goodstein, Conferencia perdida de Feynman: El movimiento de los planetas alrededor del sol

Lo que distinguió a Richard Feynman fue su habilidad para convertir conceptos complejos en ideas comprensibles. Del mismo modo, lo que distingue a los principales científicos de datos es su capacidad para compartir de manera convincente sus ideas y explicar sus análisis.

Consulte https://www.quora.com/Edwin-Chen … para ver ejemplos de conceptos técnicos explicados convincentemente.

Desafío: enseñe un concepto técnico a un amigo o en un foro público, como Quora o YouTube.

(7) Convencer a otros sobre lo que es importante

Quizás incluso más importante que la capacidad de un científico de datos para explicar su análisis es su capacidad para comunicar el valor y el impacto potencial de las ideas procesables.

Ciertas tareas de la ciencia de datos se comercializarán a medida que las herramientas de ciencia de datos se vuelvan cada vez mejores. Las nuevas herramientas harán que ciertas tareas queden obsoletas, como escribir paneles, disputas innecesarias de datos e incluso tipos específicos de modelos predictivos.

Sin embargo, la necesidad de que un científico de datos extraiga y comunique lo que es importante nunca quedará obsoleto. Con cantidades crecientes de datos y perspectivas potenciales, las empresas siempre necesitarán científicos de datos (o personas con funciones similares a la ciencia de datos), para clasificar todo lo que se puede hacer y priorizar las tareas en función del impacto.

El papel del científico de datos en la empresa es servir como embajador entre los datos y la empresa . El éxito de un científico de datos se mide por lo bien que él / ella puede contar una historia y tener un impacto. Cualquier otra habilidad se amplifica por esta habilidad.

Desafío: contar una historia con estadísticas. Comunicar los hallazgos importantes en un conjunto de datos. Haga una presentación convincente que le interese a su audiencia.

¡Buena suerte y los mejores deseos en tu viaje para convertirte en un científico de datos! Para obtener más recursos, consulte las Preguntas frecuentes oficiales de Quora Data Science de Quora