¿Qué tipo de habilidades debe tener un sorprendente científico de datos?

  • Ser muy escéptico de los resultados, incluido el propio. Las estadísticas (más allá del punto de introducción al campo) es conocer todas las formas en que se pueden extraer inferencias erróneas.
  • No quedar impresionado con la pesada maquinaria matemática (también conocida como aprendizaje automático académico) que conduce a mejoras derivadas y no proporciona grandes saltos en las ideas sobre el problema.

Como ejemplo del segundo punto, permítame señalarle un artículo que acabo de leer: Zou, James Y., et al. “Aprendizaje contrastante utilizando métodos espectrales”. Avances en los sistemas de procesamiento de información neuronal . 2013. NIPS es una conferencia de ML codiciada, y los autores de este artículo son de Harvard (3) y Columbia (1). Sin embargo, en mi opinión personal, es un papel pobre respaldado por muchas matemáticas. El documento dice que “las palabras en el documento se dibujan independientemente de la distribución especificada por el vector de probabilidad [matemática] \ mu_t \ en R ^ D [/ matemática]”. Otra joya: “suponemos que [math] \ mu_1, \ mu_2, …, \ mu_K [/ math] son ​​vectores de probabilidad linealmente independientes en [math] R ^ D [/ math]”. Se supone que el aprendizaje automático es la base. de la ciencia de datos, pero carece del énfasis en la corrección y la estética que tiene la estadística. A menudo, las personas harán suposiciones extrañas que definitivamente no están satisfechas en el mundo real solo para hacer que las matemáticas “se realicen”. Por lo tanto, los científicos de datos deben apoyarse en el aprendizaje automático para obtener una base sólida, pero saben dónde termina el temple y dónde comienza la mierda académica.

Un Científico de Datos debe necesitar herramientas técnicas y no técnicas. Principalmente “científico de datos” significa cosas diferentes en diferentes compañías. La habilidad que necesita tener control sobre la ciencia de datos es “Programación”. Con el control de la programación. Comprender y aplicar conceptos de programación introductorios como secuenciación, iteración y selección también es una necesidad y una habilidad para Data Scientist.

El análisis cuantitativo es el corazón del conjunto de habilidades de un científico de datos. La mayoría de la ciencia de datos se trata de comprender el comportamiento de un sistema complejo. Algunos de los conceptos clave en este análisis cuantitativo son el modelado de sistemas económicos o de crecimiento complejos y el aprendizaje automático.

El trabajo en equipo es importante por muchas razones, incluyendo ser desinteresado, iteración constante, compartir conocimiento con otros. La curiosidad intelectual es el punto que requiere mucho menos desarrollo. En pocas palabras: si no tienes curiosidad intelectual, la ciencia de datos no es para ti, por lo que sin esta habilidad no eres apto para la ciencia de datos.

Habilidades de comunicación Las compañías que buscan un científico de datos sólido están buscando a alguien que pueda traducir sus hallazgos técnicos de manera clara y fluida a un equipo no técnico, como los departamentos de Marketing o Ventas.

Para obtener más información: BEPEC | ¿Por qué ciencia de datos? Bangalore

  • Sin ego: debe estar dispuesto a parecer tonto . Entrarás en nuevos dominios. No puede conducir la conversación de datos hasta que esté dispuesto a hacer preguntas que lo hagan parecer tonto. A medida que empiece a sentirse menos tonto, encuentre personas más inteligentes y haga preguntas más tontas.
  • Un deseo insaciable de comprender cómo funcionan las cosas : análisis, algoritmos, procesos, lo más importante, el negocio. Estamos hablando del tipo de deseo que te hace leer documentos en lugar de navegar por Facebook, jugar con herramientas en lugar de ver esa película, levantarte temprano para construir algo en lugar de mantenerte cómodo.
  • Estar dispuesto a sudar a través de artículos de revistas . En una habitación tranquila, con el teléfono apagado, concéntrate en un concepto que te intimide. Concéntrese en un subconcepto digerible, escriba un resumen del tema, codifíquelo y enséñelo a otra persona. Es difícil imaginar un mayor impulso de confianza que el que proviene de comprender algo que te hizo sentir incómodo.

Curiosidad: creo que sin curiosidad no se puede ser un gran científico de datos. Su mente siempre debe tener curiosidad por saber qué puede estar oculto en el conjunto de datos, debe tener curiosidad por saber cómo puede convertir los datos en información, curiosidad por saber qué nuevas herramientas y técnicas puede utilizar para encontrar nuevos patrones en el conjunto de datos

Mentalidad analítica: sin esto, nadie puede ser científico de datos. Siempre tomé los problemas analíticamente. Intenta convertir los problemas empresariales en problemas de análisis. Piensa en términos de datos y cómo puede aplicarle análisis.

Interpretación: la analítica tiene que ver con la interpretación … cómo interpreta las cosas. Para un chico normal, un hecho es suficiente para sacar conclusiones, pero para un buen científico nunca llega a conclusiones sin tener suficientes hechos. El científico de datos debería ser capaz de interpretar diferentes gráficos y visualizaciones desde diferentes ángulos. Un número puede tener un significado diferente para diferentes personas y diferentes empresas. El científico de datos debería poder verlo de manera integral

Paciencia: la ciencia de datos es un proceso iterativo y se necesita mucha paciencia para llegar al resultado final. En el primer intento, es posible que ni siquiera encuentre nada que agregue valor pero nunca se detenga. La paciencia y la preservación son claves para tener éxito en este dominio. No se puede ser científico de datos simplemente aprendiendo herramientas y estadísticas. Necesitas mucha práctica y pasión.

Comunicación: elemento más crucial de todos. Si no puede transmitir sus hallazgos a los suyos no técnicos o comerciales, entonces su análisis no sirve de nada. Los grandes científicos de datos son excelentes comunicadores. Hable en términos de datos y hechos e influya en las decisiones. Explicar las cosas complejas en un formato más simple es el propósito de la ciencia de datos. Nadie quiere ver su código R o Python. Quieren que les explique qué datos están diciendo, qué ha sucedido, qué puede suceder, cómo puede optimizar las cosas o ahorrar costos o aumentar los ingresos. Si no puedes comunicar lo que has encontrado, creo que eres cero en el campo de la ciencia de datos

Quizás haya una perspectiva diferente cuando hablamos de ‘increíble’. En una perspectiva corporativa general, diría que ‘sorprendente’ significa ‘entregar’, uno que ofrece resultados comerciales, y la capacidad relacionada ya ha sido bien explicada por los expertos anteriores.

Por otro lado, también puedo pensar en personas ‘increíbles’ en el campo de la ciencia de datos, que impulsan el desarrollo de la ciencia de datos. Yo diría que el desarrollo central de la ciencia de datos radica en la capacidad de mapear las matemáticas a problemas del mundo real, por ejemplo, las primeras personas que:

  • usar NMF para construir un sistema de recomendación
  • usar una red neutral para realizar reconocimiento de imagen
  • usar LDA para PNL

Si bien los métodos clásicos de ciencia de datos (árboles de decisión, regresión, agrupamiento) son muy poderosos en muchos casos, la forma innovadora anterior de usar las matemáticas para resolver nuevos problemas es sin duda el motor del avance de la ciencia de datos.

Personalmente, estoy realmente sorprendido por esos líderes de pensamiento e investigadores, y diría que sus habilidades básicas son una comprensión profunda de las matemáticas y los vínculos con el mundo real.