¿Cómo tratan los científicos los datos?

Depende de a qué nivel de jerarquía académica pertenezca el científico en cuestión.

1. estudiante de pregrado

Deje los datos como están. Realiza un análisis de datos mínimo, si lo hay, y concluye: “No entiendo los datos, pero fue una buena experiencia de aprendizaje”.

2. estudiante de maestría

Lo mismo que la licenciatura, pero consideró el problema no resuelto como un trabajo futuro en lugar de admitir la falta de capacidad.

3.Honest estudiante de doctorado

No obtiene el resultado necesario. Repite el experimento. Repite otra vez. Y otra vez. Mejore el manejo de la muestra para minimizar el riesgo de contaminación. Pruebe cientos de métodos de análisis con la esperanza de encontrar un método que funcione. Golpee su cabeza contra la pared. Sentirse deprimido. Enseña un poco para distraerse.

4. Estudiante de doctorado deshonesto

Elimine algunos puntos de datos para que el resultado parezca más convincente.

5.Postdoc

Mire al estudiante de doctorado y diga “estado allí …”.

6 líder del grupo

Pídale al alumno que repita el experimento.

7.Grupo líder (desesperado)

Manipule al alumno para que el próximo resultado sea favorablemente sesgado. Asegúrese de que su intención no se pueda ver a través.

8.Grupo líder (atrevido)

Elimine completamente los puntos de datos no deseados. Ponga puntos de datos sintetizados para que el gráfico se vea increíble. Someterse a la naturaleza. Presumir que descubrieron algo que cambiará el mundo.

4, 7 y 8 solo existen en mi imaginación. Ojalá.

El análisis de datos sigue siendo un arte y requiere un nivel bastante alto de conocimiento de estadística matemática, minería de datos y, más recientemente, big data. El análisis de datos clásico se basa en suposiciones estrictas sobre la naturaleza de los datos. ¿Qué ha cambiado en la era del big data? Ponemos en el mismo lugar (lago de datos), datos recopilados o generados en diferentes lugares y condiciones por diferentes agentes. Estos datos, por definición, son heterogéneos y multidimensionales. Pero seguimos persiguiendo el mismo objetivo: construir un buen modelo para predecir algunos factores en función de los valores de otro. La minería de Big Data requiere la aplicación de varios métodos, integrados en el flujo de trabajo lógico con peculiaridades para cada caso real. Cada nuevo desafío nos llama a ser creativos y usar una nueva combinación de algoritmos con heurística, inventada para esta clase particular de problemas. Pero la idea principal es la descomposición del espacio de datos en subconjuntos homogéneos para aplicar modelos estadísticos correctos. Forma incorrecta: aplique métodos clásicos a datos no homogéneos. Forma honesta: evite los resultados, que pueden atraer al cliente, pero se obtienen con violaciones de los postulados. Y también un momento importante: si los resultados se interpretan mal en el área temática, son inútiles.

Aquí hay un enfoque general (no formalizado, de la forma ideal en que abordo los datos, aunque podría mezclar el orden y avanzar y retroceder entre los pasos, ya que a menudo tiene varias preguntas).

  1. Obtenga los datos y las preguntas a la mano (ya sea suya o de un cliente)
  2. Averigua de qué se tratan los datos. (lo que se ha medido, cuál es el contenido, ese contenido) Míralo. hacer alguna visualización & c
  3. ¿Los datos son aptos para responder las preguntas en cuestión? Si no, encuentre otros datos o haga preguntas diferentes.
  4. Lo anterior es, con mucho, las cosas más importantes que hacer, a menudo repetirá los pasos anteriores. Ahora tendrá una idea general de las técnicas que puede y debe usar (si no: aquí es el momento de hacerlo)
  5. Comience a limpiar sus datos: habrá errores y, según el tipo de análisis, es posible que deba tratarlos de manera diferente.
  6. Preparación adicional de datos: es posible que deba hacer algunos cálculos preliminares o agregaciones de sus datos. Unirse, subconjunto, extracción de características, … todo lo necesario para llegar al análisis real que desea realizar
  7. Haga su análisis estadístico (o aprendizaje automático, u otro tipo).
  8. Verifique los supuestos de su modelo: si no se cumplen: haga otro análisis.
  9. Ahora … mira los resultados. Mira cómo responden la pregunta.

Puede haber maltrato y error en cualquiera de los puntos anteriores. Lo peor que puede hacer es reclamar una respuesta que no sea compatible con los datos. Puedes hacer esto de más maneras que hacerlo bien, así que no voy a entrar en todos estos detalles. A menudo es porque uno quiere encontrar una respuesta particular, y comienza a seleccionar o eliminar valores atípicos que no son realmente atípicos, o capitalizar la coincidencia.

Los datos son la sangre vital de los campos cuantitativos

Sus conceptos, teorías, conjeturas son validados o repudiados con datos

Por lo tanto, es de suma importancia ser riguroso y honesto acerca de cómo se recopila, gestiona, las herramientas utilizadas para analizarlo y, finalmente, es sincero sobre lo que realmente dice.

More Interesting

¿Cuáles son las habilidades necesarias para realizar una pasantía como científico de datos?

¿Cuál es el trabajo duro de la ciencia de datos?

¿Dónde podemos encontrar científicos de datos en India?

¿Alguien puede escribir su propio plan de estudios sobre cómo convertirse en un científico de datos?

¿Debo ser un científico de datos o un jugador profesional de póker?

¿Qué proyecto se debe seleccionar en ciencia de datos para conseguir un trabajo?

¿Quiénes son los 20 mejores científicos de datos de la India?

Empleos y carreras en ciencia de datos: ¿Sería beneficioso ser un científico de datos con antecedentes médicos (para aquellos que ya tienen MD), o sería innecesario?

¿Qué debe hacer después de convertirse en un científico de datos? ¿Cómo te desarrollas como profesional? ¿En qué dirección llevas tu carrera?

Análisis de datos, ciencia de datos, análisis web, análisis de negocios: ¿Cuáles son los salarios típicos de los "científicos de datos" para las nuevas empresas en el Área de la Bahía?

¿Qué piensas sobre los científicos de datos de 'panorama general'?

¿Seguirán existiendo científicos de datos en el futuro?

Estoy trabajando como analista de negocios y quiero cambiar a un rol de analista de datos. ¿Donde debería empezar?

¿Se requiere conocer el cálculo para convertirse en climatólogo / climatólogo? ¿Puede él / ella manejar sin el conocimiento de ello?

¿Cómo son las oportunidades para las pruebas de big data en el mercado?