¿Cómo es pensar como un científico de datos?

Ser un buen científico de datos requiere el mismo tipo de pensamiento que se necesita para ser un buen científico. El método científico es independiente de una disciplina específica. Comencé mis estudios de física, por lo que muchos de mis ejemplos provienen de ese campo.

En su libro, The Grand Design, Stephen Hawking y Leonard Mlodinow discuten el papel de crear modelos para comprender la realidad. Aunque hablan de física moderna, su discusión y enfoque se aplica a todas las teorías científicas. En particular, describen las siguientes características de buenos modelos.

  1. Es elegante
  2. Contiene pocos elementos arbitrarios o ajustables.
  3. Está de acuerdo y explica todas las observaciones existentes
  4. Realiza predicciones detalladas sobre futuras observaciones que pueden refutar o falsificar el modelo si no se confirman.

También me gusta mucho el enfoque adoptado en los Cinco Elementos del Pensamiento Efectivo. Los cinco elementos son

  1. Entender profundamente
  2. Cometer errores
  3. Hacer preguntas
  4. Sigue el flujo de ideas
  5. Cambio

Un científico debe ser muy escéptico ante cualquier resultado que obtenga. Es realmente fácil dejarse engañar por nuestro propio sesgo cognitivo. Es posible que no cuestionemos los resultados cuando confirman lo que creemos que es cierto (es decir, sesgo de confirmación). Un científico siempre debe estar pensando en posibles fallas en su análisis.

Por último, un científico debería ser curioso. Deben hacer preguntas, formular hipótesis y probarlas.

Un científico de datos debe ser crítico y estar siempre atento a algo que extraña a los demás. Aquí hay algunos consejos que se pueden incluir en el trabajo diario de ciencia de datos para ser mejores en su trabajo:

1. Cuidado con el síndrome de datos limpios

Debe hacerse preguntas incluso antes de comenzar a trabajar en los datos. ¿Tiene sentido esta información? Asumir falsamente que los datos están limpios podría llevarlo a Hipótesis incorrectas . Además de eso, puede discernir muchos patrones importantes al observar las discrepancias en los datos. Por ejemplo, si observa que una columna en particular tiene más del 50% de valores faltantes, puede pensar en no usar la columna. O puede pensar que algunos de los instrumentos de recopilación de datos tienen algún error.

O supongamos que tiene una distribución de Hombre vs Mujer como 90:10 en un negocio de Cosmética femenina. Puede asumir datos limpios y mostrar los resultados tal como están o puede usar el sentido común y preguntar si las etiquetas están cambiadas.

2. Maneje los valores atípicos sabiamente

Los valores atípicos pueden ayudarlo a comprender más acerca de las personas que usan su sitio web / producto las 24 horas del día. Pero incluirlos al construir modelos los sesgará mucho.

3. Esté atento a lo anormal

Esté atento a algo fuera de lo obvio. Si encuentras algo, es posible que hayas alcanzado el oro.

Por ejemplo, Flickr comenzó como un juego multijugador. Solo cuando los fundadores notaron que las personas lo usaban como un servicio de carga de fotos, giraron.

Otro ejemplo: fab.com comenzó como fabulis.com, un sitio para ayudar a los hombres homosexuales a conocer gente. Una de las características populares del sitio fue el “Acuerdo gay del día”. Un día, el trato era para hamburguesas, y la mitad de los compradores eran mujeres. Esto hizo que el equipo se diera cuenta de que había un mercado para vender productos a mujeres. Así que Fabulis se convirtió en fabuloso como un sitio de venta flash para productos de diseño.

4. Comience a centrarse en las métricas correctas

  1. Cuidado con las métricas de vanidad. Por ejemplo, el número de usuarios activos por sí solo no divulga mucha información. Prefiero decir “5% de aumento de MoM en usuarios activos” en lugar de decir “10000 usuarios activos”. Incluso esa es una métrica de vanidad ya que los usuarios activos siempre aumentarían. Prefiero mantener un seguimiento del porcentaje de usuarios que están activos para saber cómo está funcionando mi producto.
  2. Trate de encontrar una métrica que se vincule con el objetivo comercial. Por ejemplo, Promedio de ventas / usuario para un mes en particular.

5. Las estadísticas también pueden mentir

Sea crítico con todo lo que le citan. Las estadísticas se han utilizado para ubicar anuncios, lugares de trabajo y muchos otros espacios de comercialización en el pasado. La gente hará cualquier cosa para obtener ventas o promociones.

Por ejemplo: ¿Recuerdas la afirmación de Colgate de que el 80% de los dentistas recomendaron su marca?

Esta estadística parece bastante buena al principio. Resulta que al momento de encuestar a los dentistas, podían elegir varias marcas, no solo una. Por lo tanto, otras marcas podrían ser tan populares como Colgate.

Otro ejemplo: “99 por ciento de precisión” no significa nada. Pídame que cree un modelo de predicción del cáncer y podría darle un modelo con una precisión del 99 por ciento en una sola línea de código. ¿Cómo? Simplemente prediga “No Cancer” para cada uno. Seré exacto, puede ser más del 99% de las veces, ya que el cáncer es una enfermedad bastante rara. Sin embargo, no he logrado nada.

6. Comprender cómo funciona la probabilidad

Sucedió durante el verano de 1913 en un casino en Mónaco. Los jugadores observaron con asombro cómo la ruleta de un casino aterrizaba en negro 26 veces seguidas. Y dado que la probabilidad de un Rojo vs Negro es exactamente la mitad, estaban seguros de que el rojo era “debido”. Fue un día de campo para el Casino. Un ejemplo perfecto de la falacia del jugador , también conocida como la falacia de Monte Carlo.

Y esto sucede en la vida real. Las personas tienden a evitar largas cadenas de la misma respuesta. A veces, sacrificar la precisión del juicio en aras de obtener un patrón de decisiones que parezca más justo o probable.

Por ejemplo, un oficial de admisiones puede rechazar la siguiente solicitud si ha aprobado tres solicitudes seguidas, incluso si la solicitud debería haber sido aceptada por mérito.

7. La correlación no es igual a la causalidad

La caja de herramientas del Santo Grial de un científico de datos. Ver algo por lo que es. El hecho de que dos variables se muevan juntas en tándem no necesariamente significa que una causa la otra. Ha habido ejemplos divertidos de esto en el pasado. Algunos de mis favoritos son:

1. Al observar los datos del departamento de bomberos, se infiere que cuanto más bomberos se envían a un incendio, más daño se hace.

2. Al investigar la causa del delito en la ciudad de Nueva York en los años 80, un académico encontró una fuerte correlación entre la cantidad de delitos graves cometidos y la cantidad de helados vendidos por vendedores ambulantes. Obviamente, había una variable no observada que causaba ambas. Los veranos son cuando el crimen es mayor y cuando se vende la mayor cantidad de helados. Entonces las ventas de helados no causan crimen. Ninguno de los delitos aumenta las ventas de helados.

8. Más datos pueden ayudar

A veces, obtener datos adicionales puede hacer maravillas. Es posible que pueda modelar el mundo real más de cerca al observar el problema desde todos los ángulos. Busque fuentes de datos adicionales.

Por ejemplo, los datos sobre delitos en una ciudad podrían ayudar a los bancos a proporcionar una mejor línea de crédito a una persona que vive en un vecindario problemático y, a su vez, aumentar el resultado final.

Hola:

Aquí están mis consejos

Primero con una nota más clara: si hablas como un científico de datos, caminas como un científico de datos, grazna como un científico de datos, entonces debes ser un científico de datos .

Estos deben tener habilidades

  • Amor por los números y las cosas cuantitativas.
  • Grit para seguir aprendiendo
  • Amor por la codificación y la programación.
  • Enfoque de pensamiento estructurado
  • Pasión por resolver problemas
  • Buen conocimiento de conceptos estadísticos.

Aquí están mis 10 punteros principales para garantizar un éxito duradero.

  • Aprende tanto como sea posible. Pase de 4 a 5 horas cada semana en el aprendizaje y el desarrollo y conozca lo último en la industria
  • Desafío del status quo. Nunca suponga que lo que se está haciendo está siguiendo el enfoque más efectivo
  • Cree que eres igual a todos los demás en la jerarquía. No tengas miedo de decir lo que piensas
  • Concéntrese en la innovación y salga con la tierra rompiendo ideas en lugar de hacer el negocio como siempre.
  • Concéntrese en desarrollar excelentes habilidades de comunicación y habilidades blandas, ya que esta es una de las brechas más grandes que he visto en los profesionales de análisis
  • No te conviertas en un pony de un solo truco. trate de obtener exposición en diferentes industrias y diferentes áreas funcionales.
  • Participe en competiciones y eventos como Kaggle, para saber cuál es su posición frente a su grupo de compañeros.
  • Intente escribir libros blancos y blogs sobre su experiencia en el tema.
  • Desarrollar experiencia en el dominio ya que sin ese análisis no es efectivo.
  • Finalmente, mantenga siempre una visibilidad clara de su fortaleza y oportunidades y de cualquier punto ciego. Busque activamente comentarios de su grupo de pares y sus superiores.

Espero que esto ayude.

¡Salud!

Gracias por sus votos a favor de antemano. Me mantienen en marcha! ¡Gracias!

Descargo de responsabilidad: Las opiniones expresadas aquí son únicamente las del escritor en su capacidad privada.

Dubner y Levitt son fanáticos aquí. Esos son grandes libros y Think Like a Freak es magistral en términos de mentalidad. Sin embargo, hay un par de ideas falsas en la descripción de su pregunta y espero que al abordar ambas pueda responder a su pregunta.

Cuando dice “qué preguntas hacer de los datos”, está deduciendo que tiene datos y obtendrá preguntas de ellos. Es exactamente lo contrario. Incluso en esta era de Big Data, el conjunto de datos que responde a su pregunta puede no existir y, a menudo, no existe. Los datos pueden estar allí, dispersos en grandes cantidades de archivos XML y datos de sensores, pero el conjunto de datos real no existe. Construyo nuevos conjuntos de datos a partir de miles de millones de eventos cada semana para responder nuevas preguntas. Primero la pregunta, luego el conjunto de datos. Quizás estés preguntando dónde nace la pregunta entonces. En mi humilde opinión, ya sea por necesidad o por curiosidad.

La segunda es cuando dices “cuestionar la hipótesis hasta que se encuentre la verdad”. La ciencia (incluida la ciencia de datos) funciona al revés. Ya sabemos la verdad actual, el status quo. Se llama la hipótesis nula. Lo que queremos establecer es si lo rechazaremos, aceptando así una hipótesis alternativa. Para mí, esto era inicialmente intuitivo, pero intentemos con un ejemplo común de mi propio trabajo.

Digamos que un diseñador de juegos está creando una nueva característica para un juego móvil. El objetivo de la función es aumentar la participación del jugador. Primero definimos qué es el compromiso. En aras de la simplicidad, digamos que es el tiempo de la sesión, es decir, la cantidad de tiempo en segundos que un jugador tiene abierto el juego. Supongamos también (también por simplicidad) que se respetan un montón de requisitos previos. El tiempo medio de sesión es de 100 segundos con una desviación estándar de 10 segundos.

Elegimos al azar un grupo de usuarios y solo ellos tendrán acceso a la nueva característica, siendo todo lo demás constante. Entonces, incluso si la nueva versión del juego tiene correcciones de errores, lo único que es diferente en la experiencia de los jugadores es que un grupo de prueba tiene la nueva característica y el resto de los jugadores (llamado el grupo de control) no.

La pregunta es: ¿cómo determinamos si el compromiso aumentó? La hipótesis nula es que la nueva característica no aumenta el tiempo medio de sesión. La hipótesis alternativa es que sí. La pregunta del millón de dólares es: ¿qué tan extremo debe ser el aumento para nosotros rechazar la hipótesis nula? ¡Estamos declarando la “verdad actual” muerta y el nacimiento de una “nueva verdad”! ¡Es muy serio!

Simplemente definimos un umbral. Un valor sobre el cual podemos decir “con seguridad” que el aumento existió. Esta “seguridad” es una medida de la probabilidad de que este resultado ocurra por casualidad. Por lo general, se mide en desviaciones estándar. Si el tiempo medio de sesión aumentó en 19.6 segundos a 119.6 segundos (es decir, 1.96 desviaciones estándar, que es bastante común pero puede ser diferente en todas las industrias) rechazamos la hipótesis nula de que la nueva característica no aumenta el compromiso.

Hay bastantes estadísticas detrás de esto que hice todo lo posible para simplificar y hay cosas que hacemos, pero los ensayos aleatorios son bastante directos, ya que son lo que mejor se ajusta a lo que describen los libros.

Como conclusión: tenemos una pregunta que define los datos. Realizamos un experimento para producir los datos que necesitamos. Analizamos el conjunto de datos para rechazar (o no) la hipótesis nula.

¡Espero que esto ayude! 🙂