Como científico de datos, ¿recuerda todo lo que estaba en sus libros de texto? ¿Utiliza la técnica más óptima para procesar datos la mayor parte del tiempo?

No lo hago

Conozco algunas técnicas y he oído hablar de muchas más.

Cuando quiero hacer un análisis, a menudo voy y busco cosas. Como funciono ¿Hay alternativas? … Como tal, también intento aprender nuevas técnicas.

¿Es el más óptimo? Probablemente no. Hay un gran problema con ‘óptimo’, ya que uno no puede saber qué técnica es óptima de antemano. Por lo tanto, debe probar una variedad de técnicas y hacer algunos ajustes aquí y allá. (Y debe tener alguna forma de evaluar de manera justa las técnicas para evitar las trampas de un ajuste excesivo yc)

Si una técnica es lo suficientemente buena y práctica (¿se puede implementar? ¿Puede ser entendida por el usuario? ¿Es lo suficientemente rápida? ¿Se puede hacer en una computadora portátil o teléfono inteligente?), Está bien. Hay más criterios que ‘óptimos’. Casi óptimo es a menudo más que suficiente.

No puedo afirmar que recuerdo todo lo que leo en el libro de texto, pero ciertamente puedo afirmar que absorbo la idea básica detrás de esas técnicas que forman la base de cualquier técnica avanzada que use. Cualquier buen científico de datos nunca puede olvidar esos principios básicos.

Durante el procesamiento de datos, la mayoría de las veces no se trata solo de hacerlo de manera óptima (más precisa) sino de encontrar un equilibrio entre el tiempo que lleva, el sentido común y el mantenimiento de la integridad de los datos que aún pueden ser generalizables para el análisis.

Por ejemplo, supongamos que tiene datos del nivel de ingresos de cada hogar en EE. UU. Y hay un valor perdido para muchos de los hogares. Una forma más precisa sería llenarlo con la mediana del código postal en el que está presente el hogar, pero podría existir una restricción en términos de esfuerzo requerido o tiempo que toma procesarlo o cualquier otro factor. Entonces, una forma rápida y sucia sería llenarlo con una mediana de estado / país que todavía es correcta pero no tan precisa como la primera.


No puedo afirmar que recuerdo todo en mis libros de texto. El campo es enorme, así que lo que más se pega es lo que uso a menudo. Sin embargo, cuando tengo que lidiar con un nuevo problema, puedo reconocer cuál es una buena técnica para tratarlo, incluso si no lo he tocado recientemente, o en absoluto. En ese caso, volveré a mis libros de texto para actualizar o aprender lo que se requiere.

En general, es difícil identificar o incluso definir cuál es el método “óptimo”, ya que eso requiere no solo conocer todo lo relevante, sino también probar cada solución potencial. Eso es imposible en la práctica, ya que siempre tendrá una fecha límite y necesita entregar la mejor solución para el tiempo que tiene.

Además, “óptimo” puede no ser siempre la solución con la mejor precisión. Por ejemplo, la solución óptima para un problema dado puede ser la que sea más sólida en producción y requiera un soporte mínimo a largo plazo. Por lo general, debe equilibrar muchos factores diferentes para identificar lo que es óptimo para el problema en cuestión.