¿Qué saben los científicos de datos experimentados que los científicos de datos principiantes no saben?

Esa ciencia de datos es 99% de narración de historias .

Un científico de datos bueno, o incluso promedio, al comienzo de su carrera puede hacer la mayor parte de lo que puede hacer un científico de datos de primer nivel. La diferencia realmente no es tan grande: después de todo, los científicos de datos trabajan con una caja de herramientas relativamente limitada y, mientras aprenden qué herramientas usar, cuándo usarlas y cómo usarlas correctamente, suele llevar tiempo, incluso los principiantes tienden a tener idea bastante decente de lo que están haciendo.

Sin embargo, en la etapa más temprana (prefiero este término a ‘principiante’, ya que es mucho más preciso), los científicos de datos se ven a sí mismos principalmente como analistas de datos. La mayoría de ellos provienen de uno de los tres antecedentes profesionales:

  • analistas de negocios, analistas de BI, etc.
  • analistas de datos con una inclinación académica
  • matemáticos, estadísticos e informáticos

Como tal, cada uno de estos grupos tiende a estar un poco atascado en su antigua posición, y eso está perfectamente bien, después de todo, ¡al cerebro le toma un tiempo dar el salto de su carrera anterior a su nueva vida en la ciencia de datos! Los antiguos analistas piensan que todavía son analistas y que esperan usar sus herramientas del oficio para generar ideas cuantitativas: las ventas de widgets han disminuido en un 15%, mientras que las ventas de blodgets han mejorado lentamente en un 3% durante el último mes. Los antiguos analistas de datos académicos hacen lo mismo, aunque a veces con más detalle y con más (¡y más bonitos!) Gráficos. Y los matemáticos, estadísticos y científicos de la computación piensan que su trabajo es escribir código que haga el trabajo analítico, y siempre que el resultado no esté en jeroglíficos egipcios, será lo suficientemente bueno.

Excepto que … eso no es lo que se espera que hagan los científicos de datos, al menos no en un entorno empresarial.

No importa qué tan bien conozca las técnicas de aprendizaje automático, si puede codificar un clasificador de máquina de vectores de soporte en cinco minutos o si es un mago absoluto en el aprendizaje profundo. Esas son las habilidades que necesita para obtener el trabajo como científico de datos de nivel de entrada, pero no son las habilidades que necesita para mantener su trabajo y sobresalir en él.

Como tal, debe comprender que su trabajo es, principalmente, contar una historia, y los datos son la herramienta que utiliza para anclar e ilustrar su historia . Una buena, realmente buena, ciencia de datos se lee como un hilo desgarrador, un thriller de cambio de página que capta su atención y no lo dejará ir hasta que haya pasado su último cálculo.

Eso significa que necesitas entender cosas que probablemente no te enseñaron en la escuela:

  • Teoría narrativa Esa es una manera elegante de decir ‘la forma de escribir una historia buena y apasionante’. ¿Cómo toma sus hallazgos y los estructura de una manera que transmite el mensaje pero que también mantiene el interés de la persona?
  • Estructura . Hay una razón por la cual la mayoría de los libros presentan a sus personajes en las primeras páginas, en lugar de hacerlo hacia el último cuarto del libro. Si eso suena obvio, considere con qué frecuencia las personas, ¡incluso las personas que deberían saber mejor! – no presente el problema y exponga las principales consideraciones de manera clara y convincente en las primeras líneas. La estructura es el arte de presentar información de una manera que “tenga sentido”, sea lógicamente coherente y le dé al lector un sentimiento de coherencia.
  • Escritura. Buena escritura. Ahora, no soy el mejor en la escritura, pero sé que he mejorado mucho a través de la práctica pura y dura. Eventualmente, a medida que asciende en la escala de antigüedad, cada vez más de su producción será leída por compañeros de trabajo fuera de la profesión de la ciencia de datos. Finalmente, sus informes o correos electrónicos podrían llegar a los CEO y miembros de la junta. Debes saber cómo escribir y escribir bien, incluso si es un arte moribundo. Aprenda buena gramática y sea tan asiduo acerca de su ortografía como lo es con sus cálculos. Adopta una forma de hablar clara e inequívoca. Evite las “palabras comadreja”. Desarrolle un estilo de escritura que sea agradable de leer. Escribe algo de ficción, solo por diversión, incluso si nadie lo ve, es práctica y te ayudará a mejorar.
  • Comunicación de información compleja. Dado que la mayoría de nosotros hemos recibido una educación basada principalmente en matemáticas y ciencias que puso un énfasis significativo en la ‘corrección analítica’, también conocida como obtener las premisas y los detalles exactamente correctos (las premisas incorrectas e inexactas son como un árbol envenenado, incapaz de dar más que fruta tóxica) ), la idea de dejar de lado ese compromiso con la precisión aunque sea un poquito es casi dolorosa para la mayoría de los científicos de datos. Sin embargo, a medida que asciendes a la cima de la profesión, escribirás cada vez menos informes. Con mayor frecuencia, sus superiores, o incluso CxO y miembros de la junta, le pedirán sus opiniones. Tendrá que aprender a equilibrar las exigencias del contexto informal con la necesidad de proporcionar una evaluación precisa y confiable. Tendrá que aprender a comunicar información altamente técnica en términos simples. Tendrá que comprender su profesión con tal profundidad que sepa qué es absolutamente indispensable y qué se puede omitir sin distorsionar la verdad. Esa es una habilidad difícil, y que lleva tiempo aprender, pero eventualmente, es lo que diferencia a la ‘crema de la cosecha’ de los científicos de datos que permanecerán para siempre en los rangos medios.

Por supuesto, mis puntos de vista están fuertemente ponderados hacia mi campo de experiencia, es decir, la ciencia de datos empresariales, pero las verdades son universales. Cualquiera que sea la rama de la ciencia de datos que termine persiguiendo, si desea sobresalir en ella, debe aprender cómo convertirse en un gran narrador de historias, cómo manejar sus herramientas con el dominio de un artesano pero la ligereza de un artista. Los científicos de datos de la etapa inicial a menudo toman su título de trabajo demasiado en serio. Pero no eres un científico de datos. Más bien, eres un científico que usa datos para contar una historia. Y saber decirlo bien marca la diferencia.

Primero, debes darte cuenta de que tus modelos están equivocados. El modelado es simplemente una herramienta para reducir el problema más grande presentado por los datos en un problema manejable que los simples mortales podemos resolver. Entonces, cuando ha creado ese modelo fantástico del que está tan orgulloso porque le brinda un 95% de precisión con respecto a los datos de la prueba, o bien ha resuelto un problema muy limitado útil para casi nadie, o ha logrado para engañarte a ti mismo pensando que este modelo se mantendrá por un período de tiempo decente.

Sin embargo, no te desanimes. Ni siquiera los mejores científicos reales , mucho menos los “científicos de datos ” pueden modelar los sistemas complejos que son los problemas más interesantes. Destaco esto porque muchos de los científicos de datos con los que he conocido y discutido problemas en realidad tienen cero antecedentes científicos. Algunos tienen antecedentes matemáticos muy mediocres. Desafortunadamente para ellos, sin una base sólida en la ciencia, se hace cada vez más difícil aplicar cualquier intuición para modelar los problemas que enfrentan.

Entonces, en lugar de enfocarse en construir modelos, enfóquese en una de estas dos cosas:

1. Entender el verdadero problema que requiere PENSAR y no simplemente ejecutar los datos a través de un montón de herramientas hasta que algo parece funcionar, o

2. Indice los datos para proporcionar respuestas.

Lo primero es lo que se supone que debes hacer si usas la capa de un “científico de datos”. Simplemente ejecutar los datos a través de diferentes herramientas, o crear un nuevo modelo de esos datos hasta que un puntaje numérico sea lo suficientemente alto no es el trabajo de un “científico” de datos. Eso podría ser para un trabajo titulado “técnico de datos”. Y no quieres ser un técnico de datos, ¿verdad? Pero, concedido, con las presiones de los plazos, los jefes ansiosos y los clientes demasiado ansiosos, probablemente no tenga ese lujo para pensar adecuadamente sobre el problema antes de que se le envíe el siguiente.

Lo que quiero decir con esto último es lo que Peter Norvig quiere decir cuando dice que el algoritmo más simple superará a los algoritmos complicados cuando aumenten los datos. Entonces, aquí está la clave: los datos siempre aumentarán. Si te pintas en una esquina con un algoritmo complicado (también leído como “modelo”), entonces tu algoritmo comenzará a fallar a medida que crezcan los datos.

Entonces, lo que un científico de datos experimentado sabe que un principiante no sabe es que sea simple. Una solución simple tendrá una vida útil más larga que una complicada y será más fácil de ajustar.

Vea la charla de Peter Norvig titulada “La efectividad irracional de Big Data” para obtener más información sobre por qué los modelos están equivocados y por qué debería crear solo los algoritmos más simples:

Gracias por A2A! Tengo algo de experiencia personal obtenida de mis errores.

  1. Visualización de sus datos: es muy importante visualizar su conjunto de datos antes de incluirlos en la regresión o el aprendizaje automático. A veces puede derivar resultados muy similares de conjuntos de datos totalmente diferentes. Tomemos como ejemplo el cuarteto de Anscombe, los cuatro conjuntos de datos tienen la misma media, varianza e incluso el mismo modelo de regresión. Sin embargo, obviamente son diferentes entre sí.

2. La inferencia es el objetivo final: he visto que a muchos les gusta modelar y piensan que modelar es lo único que importa. Sin embargo, a las personas, especialmente a los no expertos, no les importa el modelo que tengan. Quieren saber el análisis y la inferencia del estudio.

3. Tener una buena habilidad para contar historias: esto se relaciona con la segunda sugerencia y se aplica a algo más que ser un científico de datos. Si tienes buen modelo, buen análisis, buena inferencia e incluso buen palo. Todavía está lejos de entregar su ciencia a su jefe o clientes sin una buena habilidad para contar historias. Los mejores del mundo tienen una buena habilidad para contar historias.

Gracias por A2A.

Esta es una de las realizaciones más difíciles para mí, y dolorosa, pero importante. En pocas palabras, a nadie le importa cómo lo hiciste.

La gran cantidad de datos y la amplitud de los métodos cuantitativos sofisticados de hoy en día pueden conducir a cualquier buen geek a la información. Más datos y más algoritmos significan más oportunidades para encontrar patrones hasta ahora desconocidos de formas novedosas. También puede ser emocionante descubrir la superioridad de una clase de algoritmos para un espacio problemático en particular, o tal vez incluso la configuración óptima para la optimización de hiperparámetros en la aplicación de SVM a una tarea de detección de bot.

Pero a nadie le importa. No les importa cuántos GB / TB / PB de datos, no les importan los métodos del núcleo, no les importan SVM, AUC, ROC ni ninguno de los griegos.

Ahora, eso no significa que lo que hiciste no necesita ser defendible. Lo hace absolutamente, y todos estos datos necesitan ser justificados, en el apéndice. A menudo me refiero a la presentación final como “el 1% que constituye el 99% de lo que les importa”. Este es el entonces qué, la conclusión, el tl; dr, el “¿por qué demonios debería importarme?”

Es doloroso, lo sé, pero cuanto antes podamos reconocer esto, lidiar con esto y elaborar presentaciones con esto en mente, más exitosos seremos.

Si modifico un poco la pregunta, puedo decirlo de esta manera, ¿qué es lo que a los científicos de datos experimentados les gustaría aconsejar a los científicos de datos principiantes?

1. Sé un Data Mungler fuerte

  • La manipulación de datos no debe interponerse en su camino.
  • Ya sea que necesite agregar datos, filtrarlos, ordenarlos, rastrearlos o construir cualquier tipo de tubería, asegúrese de estar preparado.

2. No caigas en la exageración

  • Aprendizaje profundo, sistemas distribuidos, apilamiento de salidas como características … No apuestes por la ciencia de datos extrema al principio.
  • Lo más probable es que no lo necesite y será una distracción.

3. Sea decente en la visualización

  • Sepa cómo hacer gráficos decentes y cómo elegir cuáles usar.
  • Aprenda sobre la teoría del color lo suficiente como para no avergonzarse.
  • Apunte a la legibilidad y la densidad de información.

4. Siempre aprende

  • Más matemáticas, más conocimiento de dominio (piense en el procesamiento de imágenes, PNL, series de tiempo)
  • Siga las noticias sobre Data Science y manténgase actualizado. Descubre cosas interesantes, amplía tu horizonte.

En GreyAtom, con nuestro plan de estudios ágil, listo para la industria y monitoreo activo de carrera, estaremos allí en cada paso de su viaje para llegar al destino final de convertirse y trabajar como ingeniero de ciencia de datos de Full Stack.

Tendrá un historial de contribuciones de código abierto y ayudará a la comunidad más amplia de ingeniería de software (a través de Github, StackOverflow, un blog o similar).

Puede consultar los detalles del curso haciendo clic en este enlace Full Stack Data Science Engineering | Greyatom

Los datos realmente impulsan todo lo que hacemos. Si le apasiona la ciencia de datos y desea redefinir su carrera, visítenos en el programa en el sitio de GreyAtom: ciencia de datos, aprendizaje automático, Big Data

Creemos que “Aprender = hacer trabajo real”

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudar a las personas a encontrar carreras sostenibles en Data Science es mi pasión.

Gracias por A2A! En el gran esquema de las cosas, estoy lejos de ser un científico de datos “experimentado”, pero como tengo más experiencia que hace unos años (¡ por definición! ), Esta es mi opinión.

1. “Al tejón de miel no le importa” : en la mayoría de los casos, a las partes interesadas de su negocio realmente no les importará cómo lo hizo. (La respuesta de Jerrod Lowmaster sobre esto es acertada). Realmente tienes que destilar el conocimiento y explicarlo en términos simples.

XKCD: Academia vs. Negocios

2. “Sé bueno contigo en el futuro”: por otro lado, las personas que mantendrán o se harán cargo de tu código se preocuparán por cómo lo hiciste. Más a menudo que no, ese tonto puede ser tu futuro. Así que deja muchos comentarios y documentaciones para el futuro de ti.

XKCD: Sabiduría de los antiguos

3. “La gente a menudo no sabe (exactamente) lo que quiere”

Ok, no llega al extremo de Steve Jobs, pero a menudo tendrá que ayudar a su parte interesada a refinar las preguntas, a menudo durante muchas iteraciones. La parte interesada a menudo hace preguntas que tienen la dirección correcta, pero que pueden no ser lo suficientemente específicas para que usted “comience a funcionar”. Por ejemplo, cuando se le pidió que “creara un modelo”, es posible que primero deba preguntar (1) ¿qué problema comercial estamos tratando de resolver? y (2) ¿está construyendo el modelo la forma de mayor apalancamiento para resolver este problema en particular?

Por doloroso que sea admitirlo, algunas preguntas comerciales pueden no tener soluciones de ciencia de datos, y cuanto más rápido pueda encontrar si vale la pena buscar una solución de ciencia de datos, mejor.

No me considero un científico de datos experimentado, pero de otras publicaciones, blogs y artículos científicos, se pueden destacar varios puntos:

Capacidad para construir sistemas de aprendizaje automático y no solo análisis. Pasando de la prueba de desarrollo y análisis a una fase de producción. Esto incluye el equilibrio entre rendimiento y usabilidad / escalabilidad (olvide el último modelo de moda que todos usan en Kaggle) y sistemas distribuidos.

Conocimiento de las propiedades del modelo y las hipótesis subyacentes, lo que les permite centrarse en modelos con mayor potencial.

Traducir problemas formulados en preguntas / temas reales para explorar. Los científicos de datos de profesionales de negocios se ocupan a menudo de formular problemas de forma imprecisa o imprecisa, o incluso no formulan el problema adecuado en absoluto, por varias razones (desde el sesgo de la mente humana hasta la política pura).

Tratar con un formato de datos inusual, porque las tablas de variables de observaciones bien formadas rara vez aparecen en problemas del mundo real. ¿Cómo convertir señales / series de tiempo, cadenas de eventos, imágenes, música en entradas utilizables?

Explicar sus hallazgos en lenguaje humano. Esto puede parecer obvio, pero puede ser complicado para algunos temas específicos.

Es peligroso generalizar: hay algunos científicos de datos para principiantes increíblemente perspicaces y maduros. Aún así, hay algunas cosas que creo que aprendes mejor de las cicatrices de la experiencia:

  • En caso de duda, reduzca el alcance. Cree el experimento mínimo que le permitirá probar su hipótesis, o al menos algo parecido a su hipótesis. El tiempo es su recurso más escaso, por lo que debe optimizar la velocidad de aprendizaje.
  • Como dijo Peter Norvig, más datos superan algoritmos inteligentes. Y como agregó Monica Rogati, mejores datos superan a más datos. Los científicos de datos principiantes, especialmente si recién han salido de la escuela, a menudo tienen que aprender a centrarse menos en modelos y algoritmos y más en la cantidad y calidad de datos.
  • Incluso los científicos de datos experimentados sufren de sesgos cognitivos. Percibimos la señal cuando miramos el ruido aleatorio. Y somos demasiado rápidos para percibir evidencia confirmatoria cuando simplemente hay un error en nuestra línea de procesamiento de datos. Pero creo que esa experiencia nos ayuda a desarrollar un escepticismo saludable. O tal vez eso solo muestra mis sesgos cognitivos.

Hace algún tiempo estaba haciendo una sesión de control de calidad después de una presentación. Alguien preguntó si usaba redes neuronales, lo cual, en ese momento, no lo hice. Respondí con otra pregunta “¿en qué debería usar redes neuronales?”. Él respondió “No sé” y yo respondí “¡Yo tampoco!”

La gente está LOCA por los algoritmos. Los algoritmos son divertidos y relevantes, pero son menos importantes que:

  1. Los datos
  2. El caso de uso
  3. Validando tus hallazgos
  4. Habilidades de ingeniería de características
  5. Relaciones con otras personas.

Y probablemente muchos, muchos más. Las personas mayores lo saben.

  1. Su trabajo no es solo responder la pregunta que hicieron. También es para responder la pregunta que deberían haber hecho.
  2. Cuando la interpretabilidad del modelo es importante. Una red neuronal puede brindarle mejores resultados, pero usted sabe exactamente lo que significa ese modelo lineal y, a veces, eso es lo que realmente importa.
  3. Siempre puedes construir un modelo mejor, pero a menudo no vale la pena. El tiempo dedicado a construir un modelo sufre una disminución de la utilidad marginal. Puede construir 50 modelos buenos en el tiempo que lleva construir uno excelente y la diferencia entre bueno y excelente a menudo es insignificante de todos modos.
  4. El aprendizaje automático es excelente, pero un enfoque analítico, cuando es posible, a menudo es mejor.
  5. El aprendizaje automático es altamente modular. Puede mezclar y combinar técnicas, apilar modelos, usar la pérdida de registro para una regresión lineal o cualquier otra cosa que desee.

Los científicos de datos experimentados saben que no se trata de estadísticas y aprendizaje automático, aunque todos (principiantes y no científicos de datos) piensan que sí.

Los científicos de datos con experiencia saben que la ciencia de datos real se trata más de una capacidad más amplia (y entusiasmo) para usar cada herramienta en su caja de herramientas para conducir hacia una solución. Ser un científico de datos se trata de actitudes y propensiones. Nuestra actitud es que, dado el tiempo como recursos, podemos lograr una solución. Entonces es una actitud de “poder hacer”. Y son proclividades porque resolvemos problemas al aprovechar cualquier conjunto de habilidades existente que tengamos, y añadiéndole liberalmente. A menudo tenemos una amplia gama de habilidades a las que podemos recurrir (como programar en varios idiomas, o ser expertos en análisis, o buenos con las estadísticas), pero no estamos limitados a lo que sabemos actualmente. Desarrollamos activamente nuestras habilidades y operamos al límite de ellas.

En pocas palabras: un científico de datos experimentado es realmente hábil para aprender cosas nuevas (de libros, videos, documentación, documentos académicos, desbordamiento de pila, etc.) y aplicarlo a su trabajo diario. Usamos lo que sabemos y lo que acabamos de aprender para resolver problemas complejos y novedosos que intimidan a los demás sin nuestra actitud y propensión.

La ciencia de datos con experiencia (al menos los que aprenden bien de la experiencia), desarrollan algunos tipos importantes de conocimiento tácito que pueden parecerse más a la intuición que a cualquier otra cosa:
-Saber lo que realmente importa frente a lo que es técnicamente correcto. Comúnmente se enseña en la escuela todos los supuestos detrás de un modelo y cómo detectar violaciones de estos. Sin embargo, en el mundo real a menudo encontrará que algunas violaciones bastante obvias de estos asuntos son muy poco importantes, mientras que pasa por alto algunos problemas más sutiles que pueden ser muy importantes. Siempre habrá algunas sorpresas, no importa qué tan experimentado sea, pero una buena ciencia de datos desarrollará un fuerte sentido de cuándo algo importa.
– Saber cuándo algo no pasa la “prueba de olor”: un par de personas ya mencionaron el escepticismo, pero ser más escépticos, aunque útiles en la mayoría de los casos, no es suficiente. Hay un juicio involucrado sobre cuándo ser especialmente escéptico; de lo contrario, el escepticismo extremo puede matar la productividad. Los científicos de datos con experiencia pueden desarrollar un buen instinto para cuando algo parece demasiado bueno para ser verdad o simplemente no es correcto.
-Saber cuándo dejar de lado: los científicos de datos tienden a pasar demasiado tiempo perfeccionando una solución. La experiencia puede ayudarlo a tener una idea de cuándo es probable que los retornos al esfuerzo disminuyan drásticamente y, por lo tanto, tiene sentido pasar a otros problemas con la fruta más baja.
– Saber cuánto decir a qué público. Ya se ha dicho mucho sobre la narración de cuentos y la comunicación (todos buenos puntos), pero la experiencia puede decirle qué nivel y tipo de explicación e historia es mejor para qué público. Por ejemplo, es cierto que a algunas audiencias no les importa cómo resolvió algo, pero ciertas audiencias de alto nivel a veces se tranquilizan mucho con inmersiones selectivas en detalles profundos.

-Saber cómo diseñar características / expandir datos. Es cierto que otros mencionaron que los científicos de datos menos experimentados a menudo se obsesionan con los algoritmos y prestan muy poca atención a los datos. Pero incluso más allá de eso, la experiencia de haber trabajado con numerosos problemas diversos puede generar ideas sobre exactamente qué datos agregar, un mundo de posibilidades para las características de ingeniería y qué problemas verificar con datos que pueden haberlo quemado antes. Por supuesto, esto tiene un lado negativo: una experiencia larga pero limitada podría hacer que algunas personas sean menos creativas y no piensen fuera de su caja tradicional en cómo expandir o manipular datos.

Yo (como siempre) estoy totalmente de acuerdo con la respuesta de Ricardo Vladimiro.

Hay un problema importante, relacionado con su respuesta (específicamente sobre el uso de su cerebro) que incluso los científicos / analistas de datos experimentados / lo que sea que quieran llamarnos pueden y lo hacen, a menos que tengamos cuidado:

Damos las cosas por sentado.

¿Como es eso? Muy a menudo, olvidamos el funcionamiento interno de nuestros algoritmos. Olvidamos los supuestos en los que se basan. Y si hacemos eso … es posible que nuestras predicciones funcionen, esta vez. También es posible que esta vez, y con seguridad en el futuro, se desate un infierno (especialmente en entornos de producción).

Una de las cosas que hice para divertirme y mantener a mi familia alimentada mientras estaba (en su mayoría) tomando tiempo libre en 2015 fue el contrato para limpiar el desorden de los analistas (a menudo justo después de ser despedidos).

Y, digamos, alrededor del 90% del problema era de este tipo.

Los científicos de datos con experiencia saben:

  • cómo contar una historia con datos a los tomadores de decisiones clave de la empresa.
  • cómo enmarcar las preguntas correctas (habilidad clave para resolver problemas).
  • para documentar los supuestos (en los algoritmos para evitar problemas)
  • cómo limpiar, interpretar y transformar datos de manera efectiva.
  • cómo lidiar con problemas comerciales ambiguos.
  • Cómo llevar la solución a la producción rápidamente.
  • para comunicarse de manera efectiva.
  • cómo pronosticar eventos y comportamientos futuros, permitiendo a las empresas realizar análisis hipotéticos para predecir los efectos de posibles cambios en las estrategias comerciales.

Un científico de datos con experiencia puede contextualizar y traducir un problema y su solución a las partes interesadas de diferentes orígenes, utilizando puntos en común, metáforas, escucha hábil y narración de historias.

  • Si tiene datos de alta calidad, un algoritmo simple puede producir resultados sorprendentes. Si la calidad de sus datos es deficiente, la red neuronal más elegante del mundo no puede salvarlo.
  • La calidad de los datos es más importante que la cantidad de datos.
  • Un algoritmo primitivo que puede explicar a un cliente es útil. Un algoritmo inteligente que no puede explicar a un cliente es inútil.

No soy realmente senior, pero esto es lo que los científicos de datos senior me dicen y lo que he experimentado en mis propios proyectos hasta ahora.

Estoy bastante reformulando lo que escribió Ricardo Vladimiro.

Cómo definir el problema y hacer las preguntas correctas a la persona que solicita el análisis. La mayoría de las personas jóvenes (e incluso muchas personas mayores) no hacen esto con la frecuencia suficiente o lo suficientemente bien. Si las discusiones ocurren por adelantado, un científico de datos puede elegir las herramientas adecuadas para lograr los objetivos y presentar los tipos correctos de información de la manera correcta para ese proyecto, y el proyecto no tendrá que ser revisado continuamente después de un “esto” “t-what-I-need” reunión después de que se hayan realizado los análisis. Una hora de discusión con el C-suite o Dean o el cliente de consultoría puede ahorrar más de 20 horas de revisión más adelante en el proyecto y entregar los mejores análisis al cliente en la primera iteración.

Mucho mejor una respuesta aproximada a la pregunta correcta , que a menudo es vaga, que una respuesta exacta a la pregunta incorrecta, que siempre se puede precisar.

John Tukey

(Esto es cierto porque es la pregunta que importa).

Los histogramas son representaciones pobres de datos. Los gráficos circulares son peores.

(Se ha demostrado que ambos son fáciles de distorsionar. Cambiar el ancho del contenedor en un histograma puede cambiar su apariencia enormemente; al girar un pastel, las rebanadas parecen ser de diferentes tamaños y los humanos son malos para juzgar los ángulos)

Tienes que entender el problema

(Es muy fácil evitar esto y los clientes a menudo lo ayudan a evitarlo. Luego les da una solución al problema equivocado. Ver arriba).

Más datos no necesariamente ayudan.

(MÁS basura = MÁS basura. Ver, por ejemplo, encuesta Literary Digest)

No hay preguntas estadísticas de rutina, solo rutinas estadísticas cuestionables

David Cox

Qué son los valores p y por qué son en su mayoría inútiles.

La mayoría de los científicos de datos provienen de uno de estos antecedentes profesionales:

  • Analistas de BI, analistas de negocios, etc.
  • analistas de datos con antecedentes académicos
  • matemáticos, estadísticos e informáticos

Incluso los científicos de datos experimentados son víctimas de sesgos cognitivos. Entienden como señal lo que examinamos como ruido aleatorio. Y tenemos demasiado poco tiempo para obtener pruebas sólidas, aunque en realidad puede haber un error lógico en el código de procesamiento de datos. Es mi opinión que cuanto mayor es la experiencia, menos son los prejuicios del científico de datos. Los principiantes tienen dificultades para visualizar el conjunto de datos antes de ponerlo en el modelo de Regresión. Ocasionalmente, pueden llegar a los mismos resultados de conjuntos de datos completamente únicos.

Convertirse en un científico de datos no es un juego de niños. Requiere un amplio conocimiento de estadística, matemática y análisis de datos. Debe estar capacitado por expertos de la industria para poder abordar adecuadamente los problemas comerciales de la organización. Intellipaat es la respuesta para todas sus necesidades de aprendizaje. Visite su sitio web y no olvide ver las funciones proporcionadas en la sección superior derecha.

Curso de formación en certificación de ciencia de datos – Intellipaat

Los conjuntos de datos del mundo real no están listos para modelar.

El 90% de todos los proyectos de ciencia de datos son sobre limpieza de datos.

Su respuesta generará muchas preguntas. Mantenga el código original y los informes en un lugar separado como copia. Escriba todo y pida comentarios antes de comenzar a analizar. Deje que los resultados descansen una noche antes de informarlos. ¡Siempre!

More Interesting

¿Qué herramientas pueden hacer que los científicos de datos sean más productivos?

¿Es necesario que un estadístico aprenda programación para convertirse en un científico de datos? Si es así, ¿cuáles son los idiomas preferidos?

¿Qué habilidades tiene como analista de datos o científico de datos que otros profesionales de la informática no tendrán?

¿Debo elegir el campo de la informática, el campo de la ciencia de datos o ambos?

¿Qué piensan los científicos de datos sobre el programa de científicos de datos galvanizeU?

¿Cómo puede ayudar la ciencia de datos a mejorar las condiciones de vida de la población rural?

¿Cómo se beneficiaría un científico de datos de aprender React?

¿Cuáles son los pros y los contras / desafíos en un trabajo de científico de datos?

¿Por qué las personas que se especializan en informática y se convierten en científicos de datos están tan poco capacitadas en análisis, estadísticas y aprendizaje automático?

¿Cuál es la vida de un 'científico de datos' en la India que tenía experiencia de 5 años o más? ¿Me refiero a la carga de trabajo diaria en las bases diurnas?

¿Qué startups o empresas tienen vacantes para ingenieros de aprendizaje automático o científicos de datos en Bangalore?

¿A qué tipo de trabajos puedo apuntar con un MBA más conocimiento intermedio de ciencia de datos?

¿Cómo encuentro mi primer trabajo de científico de datos?

Estoy en tercer año de ingeniería y quiero ser científico de datos. Pero estoy completamente confundido por dónde empezar. Entonces, ¿cómo debo hacerlo?

¿Por dónde empiezo y cuál es el proceso paso a paso para convertirse en un científico de datos?