Muchas personas se llaman a sí mismas “científicos de datos”. ¿Cómo identificas a un científico de datos real?

Descargo de responsabilidad: yo, como todos los demás, tengo ciertos prejuicios. Esto, especialmente la lista de tres puntos al final de esta respuesta, es solo mi opinión. Pero creo que es bastante bueno, los puntos en particular. Seguirlos me ha ayudado mucho, y he visto a otros que han ignorado estos aspectos hacer trabajos terribles.

La respuesta comienza:

Hay muchos insultos implícitos en algunas discusiones como esta. Especialmente odio el término “científico de datos falsos”, especialmente cuando es aplicado por ciertas personas a las que no mencionaré, diciendo que, por ejemplo, los estadísticos que se hacen llamar científicos de datos son “falsos” de alguna manera.

Luego están aquellos en el lado de las estadísticas que se burlan completamente de la ciencia de datos y el aprendizaje automático, aunque eso se calmó un poco, dados algunos de los fabulosos éxitos que se han tenido.

Juntos, estos dos grupos han causado alguna duda en el valor de las estadísticas.

El pensamiento estadístico es a menudo un componente necesario de la ciencia de datos. En realidad, siempre es necesario, aunque hay algunos científicos de datos bastante buenos que no tienen una gran cantidad de capacitación estadística.

Las buenas habilidades de programación y la comprensión de al menos algo de ingeniería de datos son necesarias para la ciencia de datos.

Al final del día, sin embargo, cortando todo el BS extendido por todos los lados (y hay muchos “lados” que presentan BS sobre esto, incluidos aquellos que piensan que el ML es algún tipo de magia), un científico de datos es alguien quién puede resolver problemas de datos de manera coherente con principios .

Tienen que saber lo que están haciendo al menos de 3 maneras:

  1. Comprenda los supuestos que están haciendo al aplicar sus algoritmos. La comprensión teórica completa de todo no es completamente necesaria, pero debes conocer las reglas.
  2. Comprenda el problema que están resolviendo y los datos con los que lo están resolviendo. Por lo tanto, tienen que hacer coincidir los supuestos del punto 1 con los datos y el problema en cuestión.
  3. Esto viene con tiempo y capacitación, por lo que no es necesario para un científico de datos “joven” (en términos de capacitación / experiencia), pero probablemente deberían ser conscientes de ello: hay momentos en los que puede “romper las reglas” mencionadas en 1 A veces, el problema debe resolverse rápidamente y aproximadamente. Una vez que haya tenido cierta experiencia, especialmente si aprende a pensar de cierta manera, sabe cómo y cuándo puede hacerlo de manera segura. (Cabe señalar que a menudo esto puede abordarse teóricamente / matemáticamente, pero la mayoría de las personas que he conocido lo hacen mejor a través de la experiencia en lugar de la teoría).

Primero con una nota más clara: si hablas como un científico de datos, caminas como un científico de datos, grazna como un científico de datos, entonces debes ser un científico de datos .

Verdadero científico de datos, ¡¡Levántate !!

Ahora más en serio: aquí están mis consejos para detectar a un científico de datos real utilizando una forma de sentido más común: mirar el perfil de LinkedIn de uno. –

  • Red: compruebe cuántos científicos de datos hay en la red de esta persona. Como sabemos, “las aves de la misma pluma se juntan”, por lo tanto, si encuentra muchos científicos de datos en la red de esta persona, entonces probablemente esta persona sea un científico de datos genuino y viceversa.
  • Recomendaciones: descubra quién ha recomendado y para qué contribuciones
  • Habilidades y avales: profundice en las habilidades que esa persona está destacando. Debe tener nombres como Python, R, Modelado predictivo, Aprendizaje automático, Aprendizaje profundo, Spark, Hadoop, etc. No olvide verificar cuántas personas han respaldado a esta persona por las habilidades resaltadas anteriormente. Los avales más altos muestran un científico de datos más auténtico.
  • Historia: ¿esta persona trabaja constantemente en esta área durante al menos algunos años o un abrigo reciente de algún otro campo?
  • Educación: en general, los científicos de datos verdaderos tendrán títulos cuantitativos pesados ​​como Ingeniería, Estadísticas, Codificación, etc.
  • Artículos: qué artículos ha publicado y le ha gustado esta persona. Deberían mostrar una inclinación hacia temas avanzados en ciencia de datos.

Además de LinkedIn, existen otras buenas fuentes, como Kaggle, estudios de casos, participación, etc., que se pueden usar para identificar a un verdadero científico de datos.

Espero que esto ayude.

¡Salud!

Gracias por sus votos a favor de antemano. Me mantienen en marcha! ¡Gracias!

Descargo de responsabilidad: Las opiniones expresadas aquí son únicamente las del escritor en su capacidad privada.

Para identificar a un científico de datos, necesita un certificado de la autoridad internacional de ciencia de datos …

No.

Un científico de datos es simplemente alguien que es un minero de datos que conoce buenas estadísticas o un estadístico que domina al menos un lenguaje de programación (preferiblemente R). Un científico de datos es un analista de datos con un buen conocimiento de algoritmos y estructuras de datos y una profunda comprensión de conceptos matemáticos como álgebra lineal, probabilidad y combinatoria.

Un científico de datos no es un profeta que hace milagros por usted para identificarlo como tal.

Pero un científico de datos es un profeta (¿me estoy contradiciendo a mí mismo?) En el sentido de que puede hacer predicciones, pero no se da por sentado que esas predicciones sean correctas. Incluso Nate Silver (¿quién es este tipo? Nate Silver – Wikipedia) hace predicciones erróneas … a veces.

Sin embargo, un científico de datos es una persona clave que puede ayudarlo a comprender sus datos. Por ejemplo, él / ella podría ayudarlo a comprender por qué está perdiendo clientes por un servicio particular que ofrece, si un determinado producto puede venderse de manera más rentable en una oferta combinada con otro producto, que son algunos clientes potenciales que comprarán (con un cierto probabilidad) de un determinado producto, etc. Tomé las ventas y el servicio al cliente como un dominio, pero puede aplicar esto a cualquier otro dominio. Más en general, un científico de datos profesional tiene las características que describí aquí: la respuesta de Alket Cecaj a ¿Cuáles son los diferentes tipos de científicos de datos?

Finalmente, para responder a su pregunta, puede “identificar” a un científico de datos por la cantidad y calidad de los proyectos en los que ha participado o liderado con éxito. El trabajo de un científico de datos en un determinado dominio, así como su experiencia, puede ser un buen certificado / credencial para que pueda identificarlo como científico de datos.

Esto es lo que busco

  • Bueno en las reglas de cálculo de Matrix y puede manipular matrices fácilmente
  • Bueno en álgebra lineal, probabilidad y estadística.
  • Conoce la profundidad de los algoritmos de ML y no solo como un procedimiento paso a paso:
  • Suposiciones que hace el algoritmo
  • Consecuencias cuando esos supuestos no son válidos
  • Qué pasos tomar cuando no se sostienen.
  • No hablará como si Deep Learning fuera la solución para todo
  • Sabe que hay algo llamado Teorema de no almuerzo gratis y Teorema del patito feo. Porque él sabe esto, no hablará como si el aprendizaje profundo fuera la solución para todo.
  • Conoce la diferencia entre modelado y codificación de datos
  • Bueno para analizar problemas cuidadosamente y formularlos usando su destreza matemática
  • Conoce las consecuencias de la dimensionalidad de los datos sobre los resultados de los algoritmos de ML y cómo abordarlos.
  • Tiene una comprensión clara del dilema de sesgo-varianza
  • Sabe que la métrica de error utilizada está conectada a la distribución de datos.
  • Puede modificar algoritmos conocidos por él para resolver el problema en cuestión. Esto muestra su clara comprensión de las matemáticas detrás de los algoritmos y su capacidad para leer literatura de ML como crítica.
  • Consciente de la conexión sutil entre diferentes algoritmos que prima facie no parecen relacionados en absoluto. por ejemplo, EM y K significa conexión, K significa y NMF
  • Consciente de diferentes algoritmos de optimización numérica además del descenso de gradiente.
  • En mi opinión, el aprendizaje automático / ciencia de datos / minería de datos son solo aplicaciones creativas de las matemáticas. Necesita una buena combinación de intuición y destreza matemática.

    Tiene un problema a mano, lo analiza con cuidado y luego expresa sus ideas de manera clara a través de las matemáticas de una manera implementable.

    No considero la limpieza de datos usando varias herramientas como una habilidad de ciencia de datos, cualquier Tom-Dick-Harry puede hacer eso y aprender una herramienta particular que lo haga es mucho más fácil que el trabajo real de ML / DS / DM. Esto es algo que hace una vez que comienza a implementar su solución y no es algo que requiera habilidades específicas para un Científico de Datos, incluso un desarrollador de software que corrige errores o un pasajero de la escuela secundaria que sabe que algo de programación puede hacer esto , pero para llegar a un punto en el que tenga algo que implementar necesitaría ser bueno en matemáticas y no hay escapatoria de esto.

    Solo cinco variantes de cómo / por qué a lo que han hecho.

    Por ejemplo, se supone que alguien afirma que ha trabajado en un modelo que predice “precios de acciones utilizando algún tipo de análisis de opinión”. (Por cierto, generalmente esta es la litera 9/10 de las instancias en las que escucho este reclamo pero solo estoy dando un ejemplo de juguete aquí)

    “¿Por qué elegiste tu metodología?”

    “¿Cómo se implementó esto?”

    “¿Por qué funciona esto?”

    “¿Cómo verificaste los resultados?”

    “¿Por qué este método es superior al que se usa en la industria?”

    Cualquier científico de datos que valga la pena puede responder a estas preguntas de manera satisfactoria. Las preguntas falsas se separan rápidamente de una o dos preguntas y comienzan a usar solo descripciones genéricas para estas respuestas.

    No soy un científico de datos. Soy un chico de CS / producto que ha estudiado estadísticas y temas relacionados y trabajo en estrecha colaboración con personas de datos. Tengo un poco de intuición para esto, pero no soy el final de todas las personas conocedoras de esto.

    Dicho esto, esto es lo que personalmente diría:

    • Puede que no sean ingenieros de software, pero pueden limpiar los datos sin que un programador necesite hacer todo por ellos y contarles todo. (es decir, pueden hacer una mierda y no tienen miedo de ensuciarse las manos).
    • Obtienen estadísticas y ML relevantes. Han estudiado matemáticas en la universidad o han utilizado una serie de herramientas estadísticas en contextos del mundo real (o ambos). Entienden la precisión estadística y conocen las trampas más comunes, saben qué son las puntuaciones de la F1 y las usan, ese tipo de cosas.
    • Detrás de esto, el mejor caso es que saben qué son estas cosas y cómo usarlas porque están intrínsecamente interesadas en dichos temas y, por lo tanto, se encuentran con la mayor parte de ellos solos o por proximidad a otros en el campo.
  • Y obviamente pueden usar las herramientas disponibles para producir conclusiones útiles y bien respaldadas a partir de una compleja red de datos. No tienen que producir las acciones o resolver ese tipo de planificación, pero pueden producir resultados y cómo llegaron allí.
  • Siempre odio los debates sobre el título: hay pocas formas de aburrirme más que los debates tontos sobre si los programadores son “ingenieros” o no, especialmente si alguien comienza a hablar sobre los exámenes de educación física, etc., pero como he estado involucrado en la contratación y la reanudación Muchas veces busco a los científicos de datos algunas cosas que busco:

    • Tienen un fondo razonablemente profundo en estadística. Si no tienen una maestría o un doctorado en estadística, deberían haber realizado muchas estadísticas y trabajos de modelado en el pasado, a menudo como un estudiante graduado en algo como física o economía (un par de buenos científicos de datos eran economistas).
    • Han hecho mucho trabajo con “R” y herramientas similares.
    • Saben cómo establecer un análisis, probar hipótesis, etc. (En entrevistas, nuestros científicos de datos pueden hacer que establezcan un experimento de datos simple).
    • No tienen miedo de ensuciarse las manos con SQL y escribir scripts para convertir datos de un formato a otro. Una gran cantidad de trabajo sobre el terreno implica “1000 sabores de grep | sed | awk ”🙂
    • Pueden trabajar con una dirección de nivel relativamente alto y pueden salir y descubrir dónde viven los datos que necesitan.

    La vida de un científico de datos

    Los científicos de datos son grandes expertos en datos. Toman una enorme cantidad de puntos de datos desordenados (no estructurados y estructurados) y usan sus formidables habilidades en matemáticas, estadísticas y programación para limpiarlos, masajearlos y organizarlos. Luego aplican todos sus poderes analíticos: conocimiento de la industria, comprensión contextual, escepticismo de los supuestos existentes, para descubrir soluciones ocultas a los desafíos comerciales.

    Responsabilidades del científico de datos

    “Un científico de datos es alguien que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico”.

    En cualquier día, se puede requerir que un científico de datos:

    Realizar investigaciones no dirigidas y formular preguntas abiertas a la industria

    Extrae grandes volúmenes de datos de múltiples fuentes internas y externas.

    Emplee sofisticados programas de análisis, aprendizaje automático y métodos estadísticos para preparar datos para su uso en modelos predictivos y prescriptivos.

    Limpie y pode a fondo los datos para descartar información irrelevante

    Explore y examine datos desde una variedad de ángulos para determinar las debilidades, tendencias y / u oportunidades ocultas.

    Diseñe soluciones basadas en datos para los desafíos más apremiantes.

    Inventar nuevos algoritmos para resolver problemas y crear nuevas herramientas para automatizar el trabajo.

    Comunique predicciones y hallazgos a los departamentos de administración y TI a través de visualizaciones e informes efectivos

    Recomendar cambios rentables en los procedimientos y estrategias existentes.

    Cada empresa tendrá una visión diferente de las tareas laborales. Algunos tratan a sus científicos de datos como analistas de datos glorificados o combinan sus deberes con ingenieros de datos; otros necesitan expertos en análisis de alto nivel capacitados en aprendizaje automático intenso y visualizaciones de datos.

    A medida que los científicos de datos alcanzan nuevos niveles de experiencia o cambian de trabajo, sus responsabilidades cambian invariablemente. Por ejemplo, una persona que trabaja sola en una empresa mediana puede pasar una buena parte del día en la limpieza de datos y munging. Se le puede pedir a un empleado de alto nivel en una empresa que ofrece servicios basados ​​en datos que estructurar proyectos de big data o crear nuevos productos.

    Póngase en contacto con nosotros en [email protected] para obtener capacitación en Data scientist !!

    Tratemos de hacer algo muy básico y veamos qué podemos obtener dividiendo el término en elementos.

    Primero tratemos con el científico: ¿Un término amplio utilizado para clasificar a alguien que practica la ciencia? Google dice que una persona que está estudiando o tiene un conocimiento experto de una o más de las ciencias naturales o físicas es un científico. Google

    Profundicemos , ¿qué es la ciencia física o natural? Merriam Webster tiene la siguiente definición de ciencias físicas: cualquiera de las ciencias naturales (como física, química y astronomía) que se ocupa principalmente de materiales no vivos. Definición de CIENCIA FÍSICA

    Y ciencias naturales como: cualquiera de las ciencias (como física, química o biología) que se ocupan de la materia, la energía y sus interrelaciones y transformaciones o con fenómenos objetivamente medibles. Definición de CIENCIA NATURAL

    ¿Cuál es el propósito de la ciencia?

    Una vez más, una búsqueda en la web da algunos resultados. Wikipedia dice: “Más recientemente, se ha argumentado que el objetivo final de la ciencia es dar sentido a los seres humanos y nuestra naturaleza”.

    Suponiendo que tenemos suficiente comprensión del término científico y ciencia, veamos el otro término en cuestión, datos.

    Datos: hechos y estadísticas recopilados juntos para referencia o análisis.

    Vamos a evaluar más aquí también, las estadísticas: una rama de las matemáticas que se ocupa de la recopilación, análisis, interpretación y presentación de masas de datos numéricos. Definición de ESTADÍSTICA

    De lo anterior, podemos resumir que un Científico de Datos es una persona que aplica estadísticas como ciencia para descubrir cosas que están confinadas al mundo de datos que analiza.

    Si aún no está satisfecho, puede ver lo que he probado anteriormente. Romper la información / problema que tengo en partes más pequeñas, usar las herramientas a mi disposición para comprender estas partes más pequeñas, resumirlo todo y transmitirlo para que tenga sentido, ¡eso es más o menos lo que hace un científico de datos!

    Finalizando hace solo un año, durante dos años dirigí Datascience Oxford en el Reino Unido, construyéndolo de 200 a 1200 miembros. Paré en la primavera de 2017.

    Inicialmente fue una venta difícil: la gente estaba muy contenta de ser conocida como analistas, expertos en big data o ingenieros. De repente, aproximadamente un año se convirtió en un tema candente y todos querían ser conocidos como científicos de datos.

    Al final se había devaluado por completo: el mundo y su perro querían el título de científico de datos y el tit se convirtió en un campo muy amplio. Se dividió en dos.

    Con mucho, el grupo más grande miraba hacia atrás: querían analizar datos y visualizarlos para lo que yo llamo la toma de decisiones de OWM (viejos hombres blancos): gráficos bonitos para las reuniones de la junta. Solían utilizar herramientas como R y Tableau y trabajar en grandes corporaciones como departamento de datos. Hay una gran superposición con las personas de big data que usan variantes de Hadoop, Spark, etc. Datascience como título fue una forma de obtener salarios más altos y reconocimiento por su papel.

    El segundo grupo realmente no se veía a sí mismo como científico de datos, sino como expertos en ML, AI, VR, aprendizaje profundo, etc., que tienen la ciencia de datos como parte de su conjunto de habilidades. Tienden a usar Python como núcleo (Numpy, Sci-kit, etc.) y herramientas específicas para su especialidad. El tamaño de la empresa varió ampliamente, desde muy pequeñas (menores de 10) hasta divisiones de empresas como Google, Facebook, Amazon y Baidu.

    Esto significa que tenemos una exclusión inversa aquí: los científicos de datos mejores y más avanzados ya no lo valoran como un título, mientras que aquellos que devalúan el título se apresuran a reclamarlo por sí mismos.

    Hágales preguntas que requieran una gran experiencia en software o estadísticas / aprendizaje automático. Un científico de datos debería poder responder la mayoría de las preguntas dentro de cualquiera de esas áreas. Además, pregunte cómo presentarían algo a un niño de kindergarten, abuela o ejecutivo: los científicos de datos deben poder comunicar los resultados de manera simple y efectiva.

    Personalmente trato a los científicos como personas que hacen investigación científica clásica. No profundizaré en lo que quiero decir exactamente con eso, pero en lugar de eso solo mencionaré que en el mundo de la ciencia, se publican todos los resultados de investigación decentes.
    Entonces, cuando veo “(aún otra palabra de moda) científico” al lado del título de alguien, solo voy a http://scholar.google.com y busco los nombres. Por los resultados de búsqueda, decido cuán falso es ese “científico”.
    En mi opinión personal, las personas que usan métodos de aprendizaje automático y estadísticas, herramientas, tecnologías orientadas a “big data”, etc., son solo analistas o ingenieros y definitivamente no científicos. Como en cualquier otro campo.

    Una sólida formación educativa, un currículum poderoso con logros distintivos será una de las primeras revelaciones.

    Usted es muy correcto en su análisis de cómo todos en estos días se autodenominan “científicos de datos”, sin embargo, una capacitación creíble lo ayudará a identificar los verdaderos entre la masa. Una certificación SAS, uno de los mejores cursos de ciencia de datos en la India, es un parámetro de evaluación confiable.

    Un científico de datos certificado por SAS al menos está seguro de ser un científico de datos real, depende de la organización aprovecharlos al máximo.

    Un científico de datos obtiene el título con la compañía y el acuerdo. El puesto tiene una responsabilidad y una declaración de trabajo en el acuerdo, y se mantiene bajo la política de la empresa. Cuanto más creíble sea la empresa, más fácil será transferir la posición y el crédito a otra empresa. Si y cuando la ciencia de datos llega a una organización profesional como actuarios, contadores, médicos, abogados y similares en crédito público, el órgano rector identifica a los miembros calificados.

    Un verdadero científico de datos se entusiasma cuando plantea nuevas preguntas sobre datos existentes o presenta nuevos datos. Disfrutan el desafío de ver cosas nuevas en los datos. Se enfrentan al desafío de responder estas nuevas preguntas.