¿Cuál es el mayor problema para un científico de datos?

El mayor problema para los científicos de datos son los datos faltantes o incompletos. Este problema socava todo lo demás y, por lo general, no se puede hacer mucho. La buena noticia es que una vez que se ha tomado una decisión sobre qué hacer con los datos faltantes o incompletos, el problema ya no consume mucho tiempo. Un ejemplo de esto sería tratar con datos de encuestas faltantes. Si bien es posible interpolar o extrapolar en función de la demografía y otras variables, hacerlo siempre es una batalla cuesta arriba y los críticos pueden descartar fácilmente cualquier conclusión que se base en una forma de especulación.

El segundo mayor problema son los datos inconsistentes o poco confiables. A diferencia de los datos faltantes, se puede hacer mucho para limpiar los datos desordenados. Sin embargo, rara vez hay “balas de plata” que pueden emplearse, por lo que la limpieza de datos puede llevar mucho tiempo y muchos científicos de datos le dirán que aquí es donde pasan la mayor parte de su tiempo. Un ejemplo de esto es la coincidencia de individuos que usan nombres y otros identificadores difusos como la dirección de su casa o números de teléfono fijo. Incluso solo eliminar duplicados puede ser una tarea hercúlea dependiendo de los volúmenes.

El tercer punto más importante es identificar qué variables (también conocidas como atributos, columnas, elementos de datos, etc.) existen o pueden derivarse, y luego aislar esas variables para el desarrollo del modelo. Un buen ejemplo de este desafío es con los datos de registro. Los registros pueden crecer rápidamente en gigabytes o terabytes (o más), y para cualquier pregunta dada, al menos el 99% de los datos contenidos en los registros generalmente no son necesarios y pueden descartarse. Además, los registros de muestreo pueden ser un desafío ya que los eventos del mundo real pueden abarcar cientos o miles de entradas de registro. Por lo tanto, se gasta mucho tiempo derivando variables de registros voluminosos y luego refinando modelos construidos a partir de esas variables, basados ​​en análisis posteriores (por ejemplo, simulaciones de Monte Carlo). Derivar esos modelos de volúmenes de datos de registro puede llevar mucho tiempo y es todo un arte.

Sin embargo, siempre y cuando los datos no tengan lagunas y sean consistentes y confiables, a la mayoría de las personas no les importa gastar este esfuerzo, ya que al menos saben que sus conocimientos tendrán más confianza.

No obstante, el descubrimiento y la selección de variables pueden automatizarse hasta cierto punto con herramientas que pueden detectar automáticamente las variables que son relevantes y las que no lo son. Estas herramientas funcionan bien si todas las variables se definen explícitamente. Pero estas herramientas todavía no pueden sustituir el juicio humano (especialmente los humanos con un amplio esquema de conocimiento). Por ejemplo, un modelo puede contener precipitaciones medidas en milímetros. Sin embargo, a los fines del marketing minorista de consumo, es más relevante saber si hay precipitación en lugar de la cantidad de precipitación. Por lo tanto, un Científico de Datos con algún conocimiento de la psicología humana podría estar mejor derivando una nueva variable booleana “Tiene Precipitación” para enfocarse en los efectos psicológicos de la lluvia en lugar de lidiar con la información extraña con respecto a la cantidad de lluvia.

Data Science es, después de todo, un arte.

Establecer expectativas puede ser realmente difícil. A menudo se habla de los científicos de datos como estos oráculos ninja detective que pueden tomar sus datos y extraer oro de ellos. Este es un estereotipo dañino.

Debido a que persiste, he trabajado en proyectos en los que el CEO literalmente dirá “sería genial si pudieras echar un vistazo a nuestros datos y descubrir exactamente qué debemos hacer para que nuestros usuarios se obsesionen con nuestro producto”. Esto es ridículo. ¿Como si una persona pudiera tomar datos de observación y convertirlos en ideas que se convertirán en un negocio de mil millones de dólares?

Como tal, explicar la falta de sensualidad del trabajo y reducir las expectativas de las personas a rangos razonables puede ser una de las partes más difíciles y dolorosas del trabajo.

Gran canal de datos no estructurados interpolados con datos sucios aleatoriamente ruidosos.

¡O el desafío donde no hay datos / poco profundos!

Sin embargo, un científico de datos tiene sus habilidades / experiencia en modelado, reducción de ruido, detección de valores atípicos, implementación, etc., el principal problema suele ser el preprocesamiento o la configuración correcta de los datos. Especialmente en dominios industriales que no son tan expertos en tecnología, uno tiene que profundizar y estructurar los datos.

Por lo tanto, construimos sistemas de inteligencia artificial para estructurar datos no estructurados. 😉

Voy a tomar una línea diferente sobre esto que otros encuestados.

Incompleto / faltante / incorrecto / cualquier dato es un problema, claro, pero no es uno que personalmente me parezca particularmente doloroso. Es más como, “Oh, esto de nuevo. Ok, arreglemos o busquemos otra forma de resolver este problema. Nbd “.

Para mí, el mayor problema es, siempre ha sido, y probablemente siempre será: persuadir a los líderes empresariales para que compren mi trabajo. No me considero una “persona de personas”. Soy visceralmente reacio a la venta. Todavía no he descubierto cómo hacer que los CEO y otros tipos de empresarios tradicionales se sientan más cómodos con el carácter negro de un algoritmo de aprendizaje profundo, y generalmente terminamos discutiendo de manera discreta al respecto.

Esta (y otras cosas similares) son la razón principal por la que no tengo ningún deseo de ascender en la escala más alta que el acogedor nivel de liderazgo técnico en el que estoy ahora. Tener un director o vicepresidente que “lo entiende” y le gusta navegar por el panorama empresarial más que yo ha sido un componente clave de la felicidad de mi propio lugar de trabajo.

More Interesting

Cómo cambiar mi carrera de urbanista a científico de datos a los 39 años

¿Los científicos de datos de doctorado son mejores que los calificados?

¿Es una buena decisión cambiar mi carrera de SAP a ciencias de datos después de 5 años de experiencia en SAP?

Quiero convertirme en científico de datos y actualmente estoy en mi año sabático, entonces, ¿qué curso debo elegir después de 12 para convertirme en científico de datos?

¿Debo ingresar a consultoría tecnológica, análisis de datos, desarrollo de software o gestión de productos?

¿Cuáles son los campos más difíciles para que trabaje un científico de datos?

¿Qué habilidades necesito para ser un científico de datos por el que lucharán las grandes compañías tecnológicas?

¿Cómo proceder para buscar una tesis fuera del campus para el primer semestre del '15 -'16 en el Instituto Birla de Tecnología y Ciencia, Pilani, en el campo de la Ciencia de Datos?

¿Qué tipo de habilidades necesito como científico de datos, especialmente como cuantitativo en la industria financiera?

Cómo convertirse en científico de datos después de hacer ingeniería civil

¿Qué es más apropiado para la carrera de ciencias de datos, una maestría en matemática aplicada o una maestría en informática?

¿Cuál es el papel de un científico de datos en una industria?

¿Qué hace a un buen científico?

¿Es el campamento de entrenamiento de Zipfian Academy / Galvanize Data Science un campamento de alta calidad?

¿Seguirán existiendo científicos de datos en el futuro?