Como ingeniero de datos / científico de datos, ¿qué tan importante es tener un conocimiento profundo de algoritmos y estructuras de datos? ¿No son las funciones de ingeniería de software e ingeniería de datos / ciencia diferentes por una razón y corresponden a diferentes conjuntos de habilidades?

En primer lugar, como ingeniero de datos / científico de datos, debe comprender la importancia de los algoritmos y las estructuras de datos y el papel que desempeñan en la ciencia de datos.

En todo el mundo, las organizaciones están creando más datos todos los días, pero la mayoría está luchando por beneficiarse de ellos. Por lo tanto, para minimizar este tipo de problemas, la mayoría de los científicos de datos utilizan una combinación de diferentes habilidades todos los días para ayudarlos a resolver estos problemas en erupción.

Es bastante confuso para un recién llegado al campo, por lo tanto, permítame desmitificar las diferentes habilidades / herramientas y técnicas dentro de la ciencia de datos para que pueda comprender los matices dentro del campo.

  1. Cómo convertirse en un científico de datos con matemáticas: las matemáticas son una parte importante de la ciencia de datos, cuando los datos crecen, a menudo se vuelven difíciles de manejar . En este momento necesitará usar las matemáticas para procesar y estructurar los datos con los que está tratando. Cuantas más matemáticas sepa, mejorará.
  2. Cómo convertirse en un científico de datos con estadísticas : las estadísticas se utilizan para inferir ideas de conjuntos de datos más pequeños en poblaciones más grandes. Esta es la ley fundamental de la ciencia de datos. Las estadísticas allanarán su camino sobre cómo convertirse en un científico de datos. Es esencial conocer las estadísticas para jugar con la ciencia de datos, le permite comprender mejor los patrones observados en los datos y ayudarlo a extraer los conocimientos necesarios para llegar a una conclusión razonable.
  3. Cómo convertirse en un científico de datos con algoritmos: los algoritmos son la capacidad de hacer que las computadoras sigan un cierto conjunto de reglas o patrones. Comprender cómo usar máquinas para hacer su trabajo es esencial para procesar y analizar conjuntos de datos demasiado grandes para que la mente humana los procese. Para que pueda hacer un trabajo pesado en la ciencia de datos, tendrá que comprender la teoría detrás de la selección y optimización de algoritmos. Tendrá que decidir si su problema requiere o no un análisis de regresión o un algoritmo que ayude a clasificar diferentes puntos de datos en categorías definidas. Querrá conocer muchos algoritmos, también querrá aprender el aprendizaje automático, es decir, el aprendizaje automático es lo que le permite a Amazon recomendarle productos basados ​​en su historial de compras sin ninguna intervención humana directa. Es un conjunto de algoritmos que utilizarán la potencia de la máquina para descubrir ideas para usted.
  4. Cómo convertirse en un científico de datos con visualización de datos: para impulsar el impacto, tendrá que convencer a otros para que crean y adopten sus ideas. Así es como te conviertes en un científico de datos. La visualización de datos es el arte de presentar información a través de gráficos y otras herramientas visuales, para que el público pueda interpretar fácilmente los datos y obtener información de ellos . Según 3M y Zabisco, casi el 90% de la información transmitida a su cerebro es de naturaleza visual, y las imágenes se procesan 60,000 veces más rápido que el texto .
  5. Cómo convertirse en un científico de datos con conocimiento empresarial: los datos significarán muy poco sin el contexto. Tienes que entender el negocio que estás analizando. Por lo tanto, la claridad del tema es imprescindible para ser un científico de datos. El mejor científico de datos no solo tiene la capacidad de trabajar con datos complejos de gran tamaño, sino que también comprende las complejidades de la empresa u organización para la que trabaja.
  6. Cómo convertirse en un científico de datos con experiencia en el dominio: como científico de datos, debe conocer el negocio para el que trabaja y la industria en la que vive. Además de tener un conocimiento profundo de la empresa para la que trabaja, también tendrá que comprender el campo funciona para que sus ideas comerciales tengan sentido.

Volviendo a su pregunta, sí, la ingeniería de software / ingeniería de datos / ciencia de datos son diferentes en función de los diferentes conjuntos de habilidades. Déjame darte una idea de los diferentes roles dentro de la ciencia de datos :

  • Científicos de datos : son los que ajustan los modelos estadísticos y matemáticos que se aplican a los datos. Un científico de datos será quien tome un problema comercial y lo traduzca a una pregunta de datos, creando modelos predictivos para responder las preguntas y aportar una solución a los hallazgos.

Habilidades que necesita: algoritmos, estadísticas, matemáticas, lenguajes de programación como R y Python. Conocimiento de cómo estructurar un problema de datos, desde formular la pregunta correcta hasta comunicar los resultados de manera efectiva.

  • Ingenieros de datos : son los que confían principalmente en su experiencia en ingeniería de software para manejar grandes cantidades de datos a escala. Estos son generalistas versátiles que usan la informática para ayudar a procesar grandes conjuntos de datos. Por lo general, se centran en la codificación, la limpieza de conjuntos de datos y la implementación de solicitudes que provienen de científicos de datos. Por lo general, conocen una amplia variedad de lenguajes de programación, desde Python hasta Java. Cuando alguien toma el modelo predictivo del científico de datos y lo implementa en código, generalmente desempeña el papel de un ingeniero de datos.

Habilidades que necesita: un profundo conocimiento en soluciones de almacenamiento y almacenamiento de datos ( SQL y NOSQL ), marcos de programación como Hadoop y Spark que pueden ayudarlo a obtener datos y procesarlos.

  • Analistas de datos : son ellos quienes examinan los datos y proporcionan informes y visualizaciones para explicar qué información ocultan los datos. Cuando alguien ayuda a personas de toda la empresa a comprender consultas específicas con gráficos, están cumpliendo el rol de analista de datos.

Habilidades que necesita: comprensión sólida de la manipulación de datos (utilizando programas como Excel) y comunicación de datos.

¿Cuál es la comida para llevar?

Se puede decir que los ingenieros de datos confían más en las habilidades de ingeniería , los científicos de datos confían más en su capacitación en matemáticas y estadísticas , y los analistas de negocios confían más en sus habilidades de comunicación y su experiencia en el dominio . Puede estar seguro de que las personas que ocupan estos roles tendrán diferentes cantidades de habilidades fuera de sus especialidades.

¿Cuáles son las habilidades básicas que se necesitan para ser un científico de datos?

Para ser precisos, hay tres habilidades básicas que uno debe considerar en la ciencia de datos:

  1. Algoritmos: usted comprende la teoría de la ciencia de datos, las estadísticas, las reglas de modelado y las matemáticas que constituyen el núcleo de cualquier problema de datos. Entiende cómo se diseñan y miden los experimentos. Entiende los algoritmos y la teoría detrás de la ciencia de datos.
  2. Ingeniería: comprende la ingeniería necesaria para obtener, procesar y almacenar datos. Debe conocer los lenguajes de programación y los esquemas de computación distribuida que lo ayudarán a manejar grandes cantidades de datos a escala. Debe comprender la programación que aplica sus teorías a conjuntos de datos masivos. (Ingenieria)
  3. Comunicación: comprende cómo comunicar sus soluciones y cómo relacionar esas soluciones con los problemas empresariales.

¿Estás listo para comenzar una carrera en ciencia de datos?

Permítame ayudarlo brindándole diferentes trayectorias profesionales para aprender ciencia de datos a su conveniencia.

  1. MOOC en línea como Udacity, Udemy, edWisor y Simplilearn, etc.
    1. Udacity, Udemy , Simplilearn : buenas habilidades de aprendizaje, buen currículum, sesiones en vivo, nano títulos, certificaciones, asistencia laboral pero sin garantía de empleo.
    2. edWisor : buenas habilidades de aprendizaje, sesiones en vivo, proyectos en vivo, experiencia práctica, capacitación práctica, orientación de mentores, evaluación de proyectos y garantía de empleo en una empresa / empresa basada en productos. Hay más de 100 empresas que contratan candidatos capacitados para edwisor hoy.
  2. Libros en línea que puede consultar – (enumere los libros de ciencia de datos, pero recuerde que su objetivo principal es conseguir un trabajo )
    1. Data Jujitsu: el arte de convertir datos en producto
    2. R Cookbook: Recetas comprobadas para análisis de datos, estadísticas y gráficos (O’Reilly Cookbooks)
    3. Big Data: una revolución que transformará la forma en que vivimos, trabajamos y pensamos
    4. Programación de la inteligencia colectiva: creación de aplicaciones web 2.0 inteligentes
    5. Haciendo ciencia de datos: conversación directa desde la primera línea
    6. Ciudades inteligentes: Big Data, piratas informáticos cívicos y la búsqueda de una nueva utopía

Espero que las respuestas anteriores hayan despejado todas tus dudas.

¡Te deseo lo mejor!

La pregunta es compleja en la forma en que, como se hizo, voy a simplificar mi formulario de respuesta para proporcionar una comprensión de las dos áreas en el contexto de los algoritmos.

1 – Ingeniería de software

Este vasto campo de la ingeniería requiere el conocimiento de una amplia gama de estructuras de datos, algoritmos y en las tareas diarias para poder evaluar, elegir y aplicar la implementación adecuada en el lenguaje de programación elegido.

Un ingeniero de software normalmente profundizaría las estructuras de datos y los algoritmos, según el tipo de trabajo. Por ejemplo, el desarrollo front-end, el desarrollador de servicios de back-end se centrará en diferentes estructuras de datos.

2 – Ciencia de datos / Analista de datos

Este es un campo muy específico donde el enfoque de la programación para trabajar con datos en el corte / corte, transformación, visualización y luego aplicar los modelos estadísticos y de aprendizaje automático en los datos.

Por lo tanto, la habilidad de programación necesaria se centra en las estructuras de datos que son más adecuadas para este trabajo, lista de ejemplos, marcos de datos. Por lo tanto, conocer las estadísticas y aprender cómo aplicarlas en diferentes tipos de datos es único aquí. El campo del aprendizaje automático no es tan relevante en el campo general de la ingeniería de software.

Un ingeniero de software definitivamente necesita aprender / adquirir este conjunto de habilidades para poder convertirse en un analista de datos. Lo que hace que sea más fácil para los programadores es que, de hecho, son expertos en la programación misma y, por lo tanto, tienen una ventaja particular frente a los no programadores.

Los estadísticos, cuyo campo principal es el de la ciencia de datos, son fundamentales para el rol y necesitan aumentar sus habilidades aprendiendo un lenguaje de programación que les permita construir y usar las estructuras de datos y las bibliotecas.

Hola.!!

Primero permítanme tratar de diferenciar entre ingeniero de software, ingeniero de datos y una palabra llamada “científico de datos”

Ingeniero de software es un término genérico que incluye desarrollador front-end, desarrollador back-end, desarrollador full stack o desarrollador de aplicaciones. Cualquiera de estos roles donde la implementación es más importante, probablemente nadie se preocupe por una buena estructura de datos o relaciones de base de datos. Hay muchas más cosas que también se pueden incluir en Software Engineer.

¿ Ahora qué / quién es el ingeniero de datos? → La gente está muy confundida entre el ingeniero de datos y el científico de datos. Data Engineer es una persona de tecnología que tiene un gran conocimiento sobre bases de datos y programación. Donde el conocimiento de los algoritmos no cuenta. O tener algún conocimiento algorítmico es útil. Las tareas realizadas por el ingeniero de datos son: limpieza de datos, filtrado de datos, reducción de datos, optimización de datos (¡Aquí, los algoritmos serán útiles para el ingeniero de datos!) El ingeniero de datos también es un tipo de ingeniero de software.

Ahora llegando al científico de datos. Data Science es el campo supremo en el sentido de la ingeniería de software. Se incluyen conceptos un poco o mucho más avanzados. También se puede agregar una palabra llamada “Aprendizaje automático, Aprendizaje profundo” en Ciencia de datos, aunque las transmisiones son diferentes pero útiles en Ciencia de datos.

Un Data Scientist es una persona que posee un conocimiento sólido de los algoritmos, no solo para implementar los algoritmos antiguos sino también lo suficientemente creativo como para crear / generar nuevos algoritmos para los datos. Tener un sólido conocimiento sobre bases de datos y relaciones de bases de datos con algoritmos, un fuerte conocimiento estadístico y predictivo, un fuerte conocimiento de programación Una persona sabe cómo jugar con datos con habilidades clave de algoritmos.

Para ser un poco más específico, no incluyo el campo de Ciencia de datos en una Ingeniería de software. Sé lo que es realmente la ingeniería de software, pero para entender la ciencia de datos, el concepto de ingeniería de software no es suficiente.

Creo que he cubierto toda la información sobre la pregunta. Avíseme si tiene más dudas o consultas sobre lo mismo. 🙂

Gracias.! 🙂

Vi esta pregunta aparecer hace aproximadamente una hora y decidí esperar a ver qué decían los demás sobre esto. ¿Por qué? Me hice la misma pregunta no hace mucho tiempo. Por ahora, compartiré mi postura sobre el asunto. Así que actualmente estoy inscrito en un programa de posgrado especializado en Ciencias de datos. Uno de los cursos obligatorios para el título es Algoritmos donde resolvemos problemas del mundo real utilizando técnicas codiciosas, Divide y vencerás, Programación dinámica, Flujo de red: ya conoces el ejercicio . Tan pronto como vi esto en el catálogo de cursos, pensé: ¿Por qué? Realmente no estoy solicitando un puesto de ingeniería de software. Nunca fue necesario aplicar ese conocimiento en mis proyectos de pregrado.

He realizado un par de proyectos de investigación en visión artificial y procesamiento del habla. El Proyecto Visión incluyó la predicción de la percepción visual de BOLD fMRI: técnicas de selección de características univariadas / multivariadas, reducción de dimensionalidad, modelado estadístico: etapas típicas en dicho proyecto. En el proyecto Speech Processing, creé un sistema ASR (Automatic Speech Recognition) para un idioma raro usando HMM. En ambos proyectos, pude entregar resultados significativos sin mucho conocimiento de Algoritmos. No me malinterpreten: no es que el tema fuera inútil en su conjunto, simplemente no pensé que fuera una necesidad absoluta de dominar.

Han pasado algunos meses y actualmente estoy cerca del final del semestre (tomando Algoritmos). No me arrepiento He estado buscando preguntas de entrevistas para ciencias de datos. La mayoría de ellas no son sus preguntas algorítmicas típicas, pero hay algunas que surgen como resultado de obtener el panorama general ; definiendo un problema mayor que necesita resolver. Por ejemplo, una pregunta de entrevista para Lyft (en un foro abierto) nos obligó a determinar la ruta óptima para un conductor con múltiples recogidas con redireccionamiento. Esto fue aparte de la mezcla heterogénea de preguntas sobre Estadística y teoría ML.

Mi opinión no ha cambiado mucho antes: comprender los detalles arenosos de los algoritmos no es una necesidad absoluta para un científico de datos. Sin embargo, puede ser útil comprender por qué existen los datos y ayuda a definir los puntos de control / objetivos finales para resolver el problema. Una vez que se comprende la tarea, el análisis estadístico se vuelve más significativo.

Debes dejar de leer todas esas tonterías que estás leyendo. La programación informática (en cualquier campo de aplicación que elija) no es tan complicada como implica en su pregunta.

Para tener una carrera como programador informático en ingeniería de datos (o lo que sea), debe estudiar las siguientes materias: estructuras de datos, diseño de algoritmos informáticos, optimización, matemáticas discretas, análisis numérico, teoría de grafos, probabilidad, simulación de Monte Carlo, filtrado de Kalman, filtrado digital, transformaciones de Fourier rápido, sistemas operativos (multitarea), arquitectura de computadora, comunicaciones de datos, redes, gráficos de computadora, bases de datos y lenguaje de computadora, incluido el mecanismo de objeto que crea objetos con la palabra clave: clase o estructura.

Es una elección que usted hace de ser generalista vs especialista.

Un científico de datos puede ser un generalista que tenga una amplia gama de canalizaciones de datos, bases de datos, algoritmos, ecosistema de producción, integración de UI, etc. Sin embargo, puede haber especialistas como DBA, ingeniero de datos, científico de aprendizaje automático, ingeniero de ML, ingeniero de UI, ingeniero de software que hacer una tarea muy específica

Algunos proyectos requieren que una persona (s) tenga una visión general del panorama general para garantizar que todas las cosas se muevan en la dirección correcta, mientras que los especialistas profundizan en un área para mejorar / implementar el proyecto junto con los generalistas.

¡Salud!
Nayan

Sí, los tres son diferentes. Los científicos de datos aún necesitan saber cómo pensar sobre algoritmos y usos apropiados de estructuras de datos comunes, pero no me volvería loco tratando de profundizar demasiado: la habilidad más valiosa que puedes desarrollar es aprender a hacer las preguntas correctas y pensar detenidamente qué necesitas hacer para responderlas.

Para cuando haya llegado a ajustar un algoritmo de rendimiento, ya debería haber demostrado que vale la pena tener las respuestas (y aparentemente tener que justificar rápidamente el esfuerzo)

Un científico de datos requiere una mezcla de habilidades multidisciplinarias que incluye matemáticas, estadística, informática y comunicación empresarial.

Un científico de datos ayuda a las empresas a diseñar políticas y definir procesos basados ​​en evidencia empírica en lugar de en buenas esperanzas. En otras palabras, un científico de datos ayuda a crear políticas y procesos basados ​​en hechos encontrados a partir de datos almacenados.

Conozca más aquí: las 10 mejores habilidades tecnológicas que un científico de datos debe saber

Creo que hay diferencias de opinión sobre cuánto necesita saber un científico de datos sobre algoritmos y estructuras de datos. Lo que me gustaría señalar es que la ingeniería de datos es muy diferente de la ciencia de datos. La ingeniería de datos es la ingeniería de software aplicada a una tubería de big data. Por lo tanto, un ingeniero de datos definitivamente necesita conocer algoritmos y estructuras de datos.

More Interesting

¿Qué habilidades necesita aprender un científico de datos para poner en producción modelos de aprendizaje automático?

Cómo comenzar mi carrera en análisis de datos

¿Hay que obtener un doctorado en ciencia de datos para seguir una carrera como científico de datos? ¿Qué pasa si uno solo tiene una maestría en ciencia de datos?

Cómo convertirse en un científico de datos en informática y programación o desarrollo de juegos

Como novedad, ¿cuál es el alcance de comenzar una carrera en big data como científico de datos en India?

¿Es el científico de datos de McKinsey un rol de consultoría?

¿Cuánto es importante saber sobre IR, PNL y modelado de temas para convertirse en un buen científico de datos? ¿Cuán relevantes son estos para la ciencia de datos?

¿Necesito una computadora bastante poderosa para analizar grandes conjuntos de datos si tengo la intención de establecer un negocio de consultoría como científico de datos y experto en Tableau? ¿Sería suficiente una MacBook Air o similar?

Cómo cambiar de un probador manual a un ingeniero de datos o científico

¿Cómo podemos usar la ciencia de datos para ayudar a los países del tercer mundo?

¿Cómo calificaría la dificultad en cada campo de estudio en términos de tasa de éxito: científico de datos, ingeniero de software o analista de seguridad de la información?

¿Cómo puede un científico de datos conseguir un trabajo en el sector gubernamental en la India?

Al principio, ¿es más importante aprender técnicas de visualización de datos o aprender la teoría / matemática detrás de las técnicas de análisis?

¿Qué tipo de habilidades de piratería requiere un científico de datos?

¿Es posible que un ingeniero civil con 10 años de experiencia en el campo central y una edad de 37 años pueda convertirse en un científico de datos?