¿Cuál es el mayor problema para un científico de datos?

El mayor problema para los científicos de datos son los datos faltantes o incompletos. Este problema socava todo lo demás y, por lo general, no se puede hacer mucho. La buena noticia es que una vez que se ha tomado una decisión sobre qué hacer con los datos faltantes o incompletos, el problema ya no consume mucho tiempo. Un ejemplo de esto sería tratar con datos de encuestas faltantes. Si bien es posible interpolar o extrapolar en función de la demografía y otras variables, hacerlo siempre es una batalla cuesta arriba y los críticos pueden descartar fácilmente cualquier conclusión que se base en una forma de especulación.

El segundo mayor problema son los datos inconsistentes o poco confiables. A diferencia de los datos faltantes, se puede hacer mucho para limpiar los datos desordenados. Sin embargo, rara vez hay “balas de plata” que pueden emplearse, por lo que la limpieza de datos puede llevar mucho tiempo y muchos científicos de datos le dirán que aquí es donde pasan la mayor parte de su tiempo. Un ejemplo de esto es la coincidencia de individuos que usan nombres y otros identificadores difusos como la dirección de su casa o números de teléfono fijo. Incluso solo eliminar duplicados puede ser una tarea hercúlea dependiendo de los volúmenes.

El tercer punto más importante es identificar qué variables (también conocidas como atributos, columnas, elementos de datos, etc.) existen o pueden derivarse, y luego aislar esas variables para el desarrollo del modelo. Un buen ejemplo de este desafío es con los datos de registro. Los registros pueden crecer rápidamente en gigabytes o terabytes (o más), y para cualquier pregunta dada, al menos el 99% de los datos contenidos en los registros generalmente no son necesarios y pueden descartarse. Además, los registros de muestreo pueden ser un desafío ya que los eventos del mundo real pueden abarcar cientos o miles de entradas de registro. Por lo tanto, se gasta mucho tiempo derivando variables de registros voluminosos y luego refinando modelos construidos a partir de esas variables, basados en análisis posteriores (por ejemplo, simulaciones de Monte Carlo). Derivar esos modelos de volúmenes de datos de registro puede llevar mucho tiempo y es todo un arte.

Sin embargo, siempre y cuando los datos no tengan lagunas y sean consistentes y confiables, a la mayoría de las personas no les importa gastar este esfuerzo, ya que al menos saben que sus conocimientos tendrán más confianza.

No obstante, el descubrimiento y la selección de variables pueden automatizarse hasta cierto punto con herramientas que pueden detectar automáticamente las variables que son relevantes y las que no lo son. Estas herramientas funcionan bien si todas las variables se definen explícitamente. Pero estas herramientas todavía no pueden sustituir el juicio humano (especialmente los humanos con un amplio esquema de conocimiento). Por ejemplo, un modelo puede contener precipitaciones medidas en milímetros. Sin embargo, a los fines del marketing minorista de consumo, es más relevante saber si hay precipitación en lugar de la cantidad de precipitación. Por lo tanto, un Científico de Datos con algún conocimiento de la psicología humana podría estar mejor derivando una nueva variable booleana “Tiene Precipitación” para enfocarse en los efectos psicológicos de la lluvia en lugar de lidiar con la información extraña con respecto a la cantidad de lluvia.

Data Science es, después de todo, un arte.

Ciencia de datosEmpleos y carreras en Ciencia de datos