¿Cuántos datos son suficientes al analizar un conjunto de datos?

Intentando abordar esta parte de su pregunta: ” Esta pregunta surge del hecho de que todos los científicos de datos afirman que los datos generados por las personas crecerán exponencialmente y que se necesitarán tantos científicos de datos como sea posible para abordar este fenómeno. Y me pregunté qué será la diferencia entre lo que podemos descubrir ahora en nuestros datos y lo que podemos descubrir en el futuro cuando tengamos exponencialmente más datos.

Depende de con qué campo están relacionados los datos, está relacionado con áreas de las que ya sabemos mucho, probablemente no hará una gran diferencia si la distribución de los datos es similar a su conjunto de datos actual.
Si los datos están relacionados con áreas donde no teníamos una gran cantidad de datos existentes: espacio, clima o incluso todos los nuevos rastreadores de condición física que todos usamos en estos días.
Los datos del rastreador de estado físico no estaban disponibles hace unos años, por lo que es probable que más datos cambien los datos, especialmente una vez que la adopción se traslade de los primeros usuarios (expertos en tecnología y estado físico) a otras personas, personas mayores. niños, etc., apuesto a que no hay muchos datos relacionados con ellos.

Sin saber qué tipo de datos, la cantidad y la calidad de los datos existentes, es difícil generalizar.

Aunque puede parecer muy intuitivo que agregar más datos a mi modelo mejorará los resultados, pero los resultados teóricos no respaldan esa idea.
Suponga que ajusta un algoritmo de modelo / ML a sus datos de entrenamiento y observa que el modelo comete grandes errores al calcular los datos de validación cruzada. Ahora tiene varias opciones para dar el siguiente paso.

  • Puedes obtener más datos
  • Puede agregar más funciones o número de parámetros a su conjunto de datos
  • Puedes agregar términos polinomiales
  • Puede jugar con el valor del parámetro de regularización (lambda), etc.

En el aprendizaje automático hay un concepto de sesgo y varianza para verificar la eficiencia del modelo. El sesgo alto corresponde a la situación cuando hay un ajuste insuficiente en los datos de prueba y la varianza alta corresponde al ajuste excesivo en los datos.
Utiliza su modelo para calcular los valores de datos de prueba y los valores de datos de validación cruzada (CV) y luego utiliza estos valores para calcular el error de entrenamiento y el error CV. Trace estos datos para diferentes grados de polinomios que está utilizando en su modelo. Basado en varias formas de estas curvas, usted decide si agregar o no nuevos puntos de datos ayudará o no.
El profesor Andrew Ng lo explica muy bien en su conferencia sobre ML Diagnostics en Coursera.
Semana 10: Coursera

Si tengo 1 millón de puntos de entrada, ¿otro millón marcará la diferencia en el resultado final?

Eliminar al azar el 20% de sus datos. Analizar el 80%. Saca tus conclusiones. ¿Sus conclusiones siguen siendo correctas para el 20%? Si este es el caso, es poco probable que más datos hagan una diferencia.

Ver Validación cruzada (estadísticas) para la misma idea, pero ejecutada de una manera más sofisticada.

Mientras tenga una buena muestra, la cantidad no importa.

Por una buena muestra quiero decir que necesita un conjunto de datos que sea un buen representante de su dominio. 1 millón de nuevos puntos de datos de un subespacio particular no serían de ninguna utilidad y sesgarán su modelo.

Depende de la fuerza del efecto que estás buscando. Cuanto más débil sea el efecto, más datos necesitará para verlo.

En principio, para cualquier conjunto de datos si desea ver un efecto con el coeficiente de correlación R de modo que el valor p sea menor que algún valor p0, debe poder calcular cuántos datos espera ver para el efecto.

Puede pensar en la cantidad de datos como la ampliación de un microscopio.

Leer en Máxima probabilidad.

Bueno, más datos en realidad significa más ruido. Vamos a tener muchos datos inútiles que recopilamos. Necesitamos personas que investiguen formas de hacer uso del ruido o deshacerse de él.

Más datos también significa que nuestros algoritmos actuales pueden no ser útiles. Necesitamos personas que encuentren formas de crear nuevos algoritmos que manejen grandes cantidades de datos.

Además, probablemente encontraremos muchas más cosas que no entendemos pero que funcionan.

¡Oh, en el futuro todos tendremos una obsesiva IA GF / BF que quiere saber todo sobre ti! ¡Así que salud! jaja

Vignesh tiene razón. Una muestra es todo lo que se necesita. Aquí es donde intervienen las estadísticas para ayudar.

Para agregar a la lógica por qué más datos no serían útiles es el adagio – Parálisis por análisis. Es fácil caer en este agujero de conejo con conjuntos de datos realmente grandes.

More Interesting

Tengo dos años de experiencia en ciencia de datos. ¿Cuál sería el siguiente paso lógico?

¿Qué debo hacer si quiero convertirme en científico de datos antes de los 35?

¿Fue difícil cambiar la carrera de mecánico a científico de datos?

¿Son dos años suficientes para que un graduado no informático se convierta en un científico de datos? Sé un poco de Java y Hadoop. ¿Donde debería empezar?

¿Qué flujo crees que será el mejor para convertirte en un científico de datos?

¿Pueden un experto en programación y un campeón estadístico juntos desempeñar un papel de científico de datos?

¿Deberían las personas importantes en matemáticas o estadísticas aprender sistemas distribuidos o diseño de bases de datos para ser un buen científico de datos?

¿Cuál sería mejor, un MIDS de Berkeley o un MBA en ciencia de datos y análisis de Santa Clara?

¿Cuál es una configuración de sistema típica para científicos de datos?

¿Qué campo tiene mejores trabajos en general: minería de datos, manufactura esbelta o cadena de suministro?

¿Qué oportunidades de carrera en ciencia de datos y aprendizaje automático existen en Dropbox?

¿Cómo se conectan los campos del científico de datos, el aprendizaje automático y el procesamiento del lenguaje natural?

¿Cuáles son los mejores trabajos de analista de datos de nivel de entrada / Big Data / análisis de datos que existen? Específicamente, ¿qué compañías ofrecen la mejor compensación y prestigio?

¿Debo resolver los problemas de las competencias de Kaggle para ser un científico de datos?

¿Es posible comenzar una carrera en ciencia de datos a los 28 años?