![](http://q.miximages.com/55500/Jobs and Careers in Data Science/main-qimg-afcf4544c2127e666aac72dcbf1470be.png)
Un científico de datos debe ser crítico y estar siempre atento a algo que extraña a los demás. Aquí hay algunos consejos que se pueden incluir en el trabajo diario de ciencia de datos para ser mejores en su trabajo:
1. Cuidado con el síndrome de datos limpios
Debe hacerse preguntas incluso antes de comenzar a trabajar en los datos. ¿Tiene sentido esta información? Asumir falsamente que los datos están limpios podría llevarlo a Hipótesis incorrectas . Además de eso, puede discernir muchos patrones importantes al observar las discrepancias en los datos. Por ejemplo, si observa que una columna en particular tiene más del 50% de valores faltantes, puede pensar en no usar la columna. O puede pensar que algunos de los instrumentos de recopilación de datos tienen algún error.
O supongamos que tiene una distribución de Hombre vs Mujer como 90:10 en un negocio de Cosmética femenina. Puede asumir datos limpios y mostrar los resultados tal como están o puede usar el sentido común y preguntar si las etiquetas están cambiadas.
2. Maneje los valores atípicos sabiamente
Los valores atípicos pueden ayudarlo a comprender más acerca de las personas que usan su sitio web / producto las 24 horas del día. Pero incluirlos al construir modelos los sesgará mucho.
3. Esté atento a lo anormal
Esté atento a algo fuera de lo obvio. Si encuentras algo, es posible que hayas alcanzado el oro.
Por ejemplo, Flickr comenzó como un juego multijugador. Solo cuando los fundadores notaron que las personas lo usaban como un servicio de carga de fotos, giraron.
Otro ejemplo: fab.com comenzó como fabulis.com, un sitio para ayudar a los hombres homosexuales a conocer gente. Una de las características populares del sitio fue el “Acuerdo gay del día”. Un día, el trato era para hamburguesas, y la mitad de los compradores eran mujeres. Esto hizo que el equipo se diera cuenta de que había un mercado para vender productos a mujeres. Así que Fabulis se convirtió en fabuloso como un sitio de venta flash para productos de diseño.
4. Comience a centrarse en las métricas correctas
- Cuidado con las métricas de vanidad. Por ejemplo, el número de usuarios activos por sí solo no divulga mucha información. Prefiero decir “5% de aumento de MoM en usuarios activos” en lugar de decir “10000 usuarios activos”. Incluso esa es una métrica de vanidad ya que los usuarios activos siempre aumentarían. Prefiero mantener un seguimiento del porcentaje de usuarios que están activos para saber cómo está funcionando mi producto.
- Trate de encontrar una métrica que se vincule con el objetivo comercial. Por ejemplo, Promedio de ventas / usuario para un mes en particular.
5. Las estadísticas también pueden mentir
Sea crítico con todo lo que le citan. Las estadísticas se han utilizado para ubicar anuncios, lugares de trabajo y muchos otros espacios de comercialización en el pasado. La gente hará cualquier cosa para obtener ventas o promociones.
Por ejemplo: ¿Recuerdas la afirmación de Colgate de que el 80% de los dentistas recomendaron su marca?
Esta estadística parece bastante buena al principio. Resulta que al momento de encuestar a los dentistas, podían elegir varias marcas, no solo una. Por lo tanto, otras marcas podrían ser tan populares como Colgate.
Otro ejemplo: “99 por ciento de precisión” no significa nada. Pídame que cree un modelo de predicción del cáncer y podría darle un modelo con una precisión del 99 por ciento en una sola línea de código. ¿Cómo? Simplemente prediga “No Cancer” para cada uno. Seré exacto, puede ser más del 99% de las veces, ya que el cáncer es una enfermedad bastante rara. Sin embargo, no he logrado nada.
6. Comprender cómo funciona la probabilidad
Sucedió durante el verano de 1913 en un casino en Mónaco. Los jugadores observaron con asombro cómo la ruleta de un casino aterrizaba en negro 26 veces seguidas. Y dado que la probabilidad de un Rojo vs Negro es exactamente la mitad, estaban seguros de que el rojo era “debido”. Fue un día de campo para el Casino. Un ejemplo perfecto de la falacia del jugador , también conocida como la falacia de Monte Carlo.
Y esto sucede en la vida real. Las personas tienden a evitar largas cadenas de la misma respuesta. A veces, sacrificar la precisión del juicio en aras de obtener un patrón de decisiones que parezca más justo o probable.
Por ejemplo, un oficial de admisiones puede rechazar la siguiente solicitud si ha aprobado tres solicitudes seguidas, incluso si la solicitud debería haber sido aceptada por mérito.
7. La correlación no es igual a la causalidad
![](http://q.miximages.com/55500/Jobs and Careers in Data Science/main-qimg-63e8303136526152be5600d12dfbc50a-c.jpg)
La caja de herramientas del Santo Grial de un científico de datos. Ver algo por lo que es. El hecho de que dos variables se muevan juntas en tándem no necesariamente significa que una causa la otra. Ha habido ejemplos divertidos de esto en el pasado. Algunos de mis favoritos son:
1. Al observar los datos del departamento de bomberos, se infiere que cuanto más bomberos se envían a un incendio, más daño se hace.
2. Al investigar la causa del delito en la ciudad de Nueva York en los años 80, un académico encontró una fuerte correlación entre la cantidad de delitos graves cometidos y la cantidad de helados vendidos por vendedores ambulantes. Obviamente, había una variable no observada que causaba ambas. Los veranos son cuando el crimen es mayor y cuando se vende la mayor cantidad de helados. Entonces las ventas de helados no causan crimen. Ninguno de los delitos aumenta las ventas de helados.
8. Más datos pueden ayudar
A veces, obtener datos adicionales puede hacer maravillas. Es posible que pueda modelar el mundo real más de cerca al observar el problema desde todos los ángulos. Busque fuentes de datos adicionales.
Por ejemplo, los datos sobre delitos en una ciudad podrían ayudar a los bancos a proporcionar una mejor línea de crédito a una persona que vive en un vecindario problemático y, a su vez, aumentar el resultado final.