¿Cuáles son las habilidades necesarias para convertirse en un científico de datos?

Me gustaría comenzar diciendo que cualquiera de las habilidades que estoy a punto de enumerar no tiene sentido como una habilidad superior en sí misma. Estas habilidades no son algo que por sí solas sean significativas para un científico de datos.

Programación # 1

Como otros han mencionado, la programación es la habilidad número uno. Todas las aplicaciones de ciencia de datos están codificadas. No codificar limita las opciones a un grado en el que personalmente no puedo considerar que sea ciencia de datos.

En la expresión “ciencia de datos”, la programación es la parte de “datos”. Saber cómo manejar cualquier cuerpo de datos implica programación.

# 2 Matemáticas, estadísticas y probabilidad

He escrito esto tantas veces que debería tatuarme esto (pero no lo haré) o arriesgarme a recibir una advertencia de Quora por no citar mis propias publicaciones anteriores:

Estadísticas y probabilidad, cuantos más mejor.

En la expresión “ciencia de datos”, las matemáticas, las estadísticas y la probabilidad son la parte de “ciencia”. Esto puede ser muchas cosas, pero para mí la parte más importante es el diseño y análisis de experimentos que permite evaluar los productos de datos que creamos.

# 3 aprendizaje automático

Aislé el aprendizaje automático del punto anterior porque el proceso de crear un producto de datos basado en aprendizaje automático es un mundo en sí mismo. Conocer la programación y conocer las estadísticas, incluso si uno sabe cómo ajustar modelos estadísticos, no es suficiente para crear un producto de datos de este tipo.

Es cierto que, en esencia, los algoritmos de aprendizaje automático no son fundamentalmente diferentes de muchos de los algoritmos utilizados en estadística. Sin embargo, la aplicación difiere, es decir, las preocupaciones con el rendimiento, especialmente en aplicaciones en tiempo real e ingeniería de características.

# 4 escepticismo

Cuanto más trabajo en ciencia de datos, más escéptico me vuelvo. Creo que el escepticismo está subestimado y subvalorado. Según Wikipedia, el escepticismo científico es:

El escepticismo científico (también escepticismo) es la práctica de cuestionar si las afirmaciones están respaldadas por investigaciones empíricas y tienen reproducibilidad, como parte de una norma metodológica que persigue “la extensión del conocimiento certificado”.

Siempre, SIEMPRE, SIEMPRE sea ​​escéptico. Nuestro quid es la evidencia y nada más.

# 5 comunicación

La comunicación es mucho más de lo que la mayoría de la gente dice. La mayoría de las personas piensan en la comunicación como la forma en que el científico de datos puede mostrar sus hallazgos a otras personas, lo que lleva a que las habilidades de visualización y presentación sean altas en listas como esta. Creo que eso es tremendamente miope.

La comunicación es mucho más que eso:

  • Son sus productos de datos que se comunican con otras piezas de software.
  • Es su capacidad para explicar conceptos complejos a los tomadores de decisiones que son laicos en lo que respecta a los datos
  • Es su código legible por otros profesionales de datos, con comentarios claros, buena estructura e ingeniería.
  • Es su capacidad comprender que el negocio no mejorará simplemente porque tiene un modelo “perfecto”

La comunicación está, por un lado, sobrevalorada, por otro lado, subestimada. Puede crear los mejores mazos del mundo para mostrarle al CEO, pero si codifica para sí mismo o sus productos de datos no se comportan en sistemas en vivo, es una comunicación horrible.

Hace un tiempo, Experfy publicó un recurso de 3 partes sobre cómo convertirse en un científico de datos escrito por un reclutador dentro del campo de la ciencia e ingeniería de datos.

Esto se dirigió principalmente a las personas que querían postularse a nuestro Curso de Analista de Big Data y nuestra Certificación de Ciencia de Datos como una guía útil de “inicio”, pero es un lugar útil para comenzar, independientemente de dónde quieran postularse para ser científicos de datos.

Parte 1: Cómo convertirse en un científico de datos (Parte 1/3) – Experimentar ideas

Parte 2: Cómo convertirse en un científico de datos (Parte 2/3) – Experimentar ideas

Parte 3: Cómo convertirse en un científico de datos (Parte 3/3) – Experimentar ideas

Las habilidades que destacó fueron:

1. Resolución de problemas

El núcleo de todas las disciplinas científicas es la resolución de problemas: un gran científico de datos es un gran solucionador de problemas. Claramente, necesita poseer las herramientas para resolver los problemas, pero son solo eso: herramientas. En este sentido, incluso las técnicas estadísticas / de aprendizaje automático pueden considerarse como las herramientas con las que resuelve problemas. Surgen nuevas técnicas, la tecnología evoluciona; La única constante es la resolución de problemas.

2. Estadísticas / aprendizaje automático

Para proporcionar una aclaración muy necesaria sobre estos términos, el aprendizaje automático puede verse como un campo multidisciplinario que surgió de la inteligencia artificial / informática y las estadísticas.

A menudo se ve como un subcampo de IA, y si bien esto es cierto, es importante reconocer que no hay aprendizaje automático sin estadísticas (ML depende en gran medida de algoritmos estadísticos para funcionar). Durante mucho tiempo, los estadísticos no estaban convencidos por el aprendizaje automático, con la colaboración entre los dos campos como un desarrollo relativamente reciente (ver teoría de aprendizaje estadístico), y es interesante notar que el aprendizaje estadístico de alta dimensión solo ocurrió cuando los estadísticos adoptaron los resultados de ML (gracias a Bhavani Rascutti, Líder de dominio de análisis avanzado en Teradata para esta entrada).

Para los lectores técnicos que estén interesados ​​en una cuenta más detallada, consulte este artículo clásico publicado en 2001 por Leo Breiman: Estadística de modelado: las dos culturas.

3. Computación

a. Programación

Solo necesitamos tocar brevemente la programación porque debería ser obvio: esta es una necesidad absoluta. ¿Cómo puede aplicar la teoría si no puede codificar un algoritmo único o construir un modelo estadístico?

si. Computación distribuída

No todas las empresas tienen conjuntos de datos masivos, pero teniendo en cuenta el mundo moderno, es recomendable desarrollar la capacidad de trabajar con BIG DATA (!). En resumen: la memoria principal de una sola computadora no va a cortarlo, y si desea entrenar modelos simultáneamente en cientos de máquinas virtuales, debe familiarizarse con la computación distribuida y los algoritmos paralelos.

do. Ingeniería de software

Si desea poner en producción algoritmos de aprendizaje automático, necesitará una base sólida en ingeniería de software. Esto sería para un tipo diferente de científico, tipo A de los dos siguientes.

Ciencia de datos para personas (Tipo A), es decir, análisis para apoyar la toma de decisiones basada en evidencia

Ciencia de datos para software (Tipo B), por ejemplo: sistemas de recomendación como vemos en Netflix y Spotify

4. Disputa de datos

La limpieza / preparación de datos es una parte crucial e intrínseca de la ciencia de datos. Y esto ocupará la mayor parte de su tiempo. Si no puede eliminar el ruido de su conjunto de datos (por ejemplo, valores incorrectos / faltantes, categorías no estandarizadas, etc.), la precisión del modelo se verá afectada y, en última instancia, conducirá a conclusiones incorrectas.

Por lo tanto, si no está preparado para pasar el tiempo y la atención en este paso, hace que su conocimiento técnico avanzado sea irrelevante. También es importante tener en cuenta que la calidad de los datos es un problema persistente en las organizaciones comerciales y muchas empresas tienen infraestructuras complicadas en lo que respecta al almacenamiento de datos. Entonces, si no está preparado para este entorno y desea trabajar con conjuntos de datos limpios y agradables, desafortunadamente la ciencia de datos comerciales no es para usted.

5. Herramientas y tecnología

Como ya debería haberse dado cuenta, desarrollar su capacidad como científico de datos para resolver problemas debería tener prioridad sobre todo lo demás: las tecnologías cambian constantemente y, en última instancia, se pueden aprender en un plazo relativamente corto. Pero no debemos ignorarlos por completo, por lo que es útil estar al tanto de las herramientas más utilizadas actualmente. Comenzando con los lenguajes de programación, R y Python son los más comunes; así que si tiene una opción, tal vez use uno de estos cuando esté experimentando.

Es posible que tenga el mejor modelo y las mejores ideas, pero si no puede presentar / explicar los hallazgos de manera efectiva, ¿de qué sirve? Realmente no importa qué herramienta use para la visualización, podría ser R o Tableau (que parece ser la más frecuente en este momento), pero honestamente, la herramienta no es importante. Finalmente, SQL es significativo, ya que es el lenguaje más común utilizado para interactuar con bases de datos en la industria; si estamos hablando de bases de datos relacionales o derivados de SQL utilizados con tecnologías de big data. Y es el pan y la mantequilla de la disputa de datos, al menos cuando se trabaja a escalas más grandes (es decir, no en la memoria). En resumen: realmente vale la pena invertir su tiempo.

6. Comunicación / perspicacia comercial

Esto no debe ser subestimado. A menos que esté entrando en algo muy específico, tal vez una investigación pura (aunque seamos sinceros, no hay muchos de estos puestos en la industria), la gran mayoría de los puestos de ciencia de datos involucran interacción comercial, a menudo con personas que no tienen conocimientos analíticos .

Tener la capacidad de conceptualizar los problemas comerciales y el entorno en el que ocurren es fundamental. Y traducir ideas estadísticas en acciones recomendadas e implicaciones para un público lego es absolutamente crucial.

Podemos dividir estas 5 habilidades en dos categorías.

  • Habilidades técnicas
  • Programación / Software : como R, SQL, Python, plataforma Hadoop, Hive, Manejo de datos no estructurados, …
  • Estadística / Matemáticas : Una sólida comprensión del cálculo multivariante y el álgebra lineal, que forman la base de muchas técnicas de análisis de datos.
  • Visualización: imagen que vale más que mil palabras y números, por lo que el científico de datos debe ser un maestro en visualización y también estar familiarizado con los principios de visualización de datos de manera efectiva.
  • Habilidades no técnicas
    • Curiosidad intelectual: en todos los campos, esta habilidad ayudará a una persona a actualizarse y en la misma fase con la nueva tecnología
    • Habilidades de comunicación: el científico de datos debe hablar con una persona no técnica, y en este tiempo debe ser capaz de comunicarse y explicar claramente el trabajo realizado.

    La respuesta de William Chen es muy útil.

    Espero que ayude 🙂

    En primer lugar, háganos saber quiénes son los científicos de datos.

    Los científicos de datos son una nueva generación de expertos en datos analíticos que tienen las habilidades técnicas para resolver problemas complejos y la curiosidad de explorar qué problemas deben resolverse.

    Los científicos de datos son grandes expertos en datos. Toman una gran cantidad de puntos de datos desordenados (no estructurados y estructurados) y los limpian, masajean y organizan con sus formidables habilidades en matemáticas, estadísticas y programación. Luego aplican todos sus poderes analíticos para descubrir soluciones ocultas a los desafíos del negocio y presentarlo al negocio.

    Data Scientist necesita tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva. Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:

    • Captura de datos y preprocesamiento
    • Análisis de datos y reconocimiento de patrones
    • Presentación y visualización

    Algunas tareas laborales de los científicos de datos:

    • Transformar datos rebeldes en un formato más utilizable.
    • Resolver problemas relacionados con el negocio utilizando técnicas basadas en datos.
    • Trabajando con una variedad de lenguajes de programación.
    • Tener una sólida comprensión de las estadísticas, incluidas las pruebas estadísticas y las distribuciones.
    • Mantenerse al tanto de las técnicas analíticas como el aprendizaje automático, el aprendizaje profundo y la analítica de texto.
    • Comunicándose y colaborando con TI y negocios.
    • Buscar el orden y los patrones en los datos, así como detectar tendencias que pueden ayudar a los resultados de una empresa.

    Aquí hay algunas tendencias laborales de los científicos de datos.

    Para realizar 3 etapas de Data Scientists, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados.

    Diferentes herramientas para realizar las 3 etapas de los científicos de datos:

    1. Herramientas para extracción de datos y preprocesamiento

    a. SQL

    Esta es una habilidad imprescindible para todos los científicos de datos, independientemente de si está utilizando datos estructurados o no estructurados. Las empresas están utilizando los últimos motores SQL como Apache Hive, Spark-SQL, Flink-SQL, Impala, etc.

    si. Tecnologías de Big Data

    Esta es la necesidad de las habilidades necesarias para convertirse en un científico de datos. El científico de datos necesita saber sobre las diferentes tecnologías de big data: tecnologías de primera generación como Apache Hadoop y su ecosistema (colmena, cerdo, canal, etc.), como Next Gene: Apache Spark y Apache Flink (Apache Flink está reemplazando Apache Spark rápidamente como Flink es un motor de Big Data de propósito general, que también puede manejar transmisiones en tiempo real, para más detalles sobre Flink siga este tutorial completo).

    do. UNIX

    Como la mayoría de los datos sin procesar se almacenan en un servidor UNIX o Linux antes de ponerlos en un almacén de datos, es bueno poder acceder a los datos sin la dependencia de una base de datos. Entonces, el conocimiento de Unix es bueno para los científicos de datos. Siga esta guía de comandos para practicar los comandos de Linux.

    re. Pitón

    Python es el lenguaje más popular para el científico de datos. Python es un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Es un lenguaje de alto nivel con enlace dinámico y escritura.

    2. Herramientas para análisis de datos y coincidencia de patrones

    Esto depende de su nivel de conocimiento estadístico. Algunas herramientas se utilizan para estadísticas más avanzadas y otras para estadísticas más básicas.

    a. SAS

    Muchas empresas usan SAS, por lo que es bueno tener un conocimiento básico de SAS. Puedes manipular ecuaciones fácilmente.

    si. R

    R es más popular en el mundo estadístico. R es una herramienta de código abierto y un lenguaje orientado a objetos, por lo que puede usarlo en cualquier lugar. Es la primera opción de cualquier científico de datos, ya que la mayoría de las cosas se implementan en R. Para obtener la comparación entre las principales herramientas de análisis de datos, siga esta guía de comparación entre R vs SAS y SPSS.

    do. Máquina inclinada

    El aprendizaje automático es la herramienta más exigente y útil que los científicos de datos deben tener. Los algoritmos de aprendizaje automático se utilizan para análisis de datos avanzados, análisis predictivo, coincidencia de patrones avanzada.

    Para obtener más herramientas para realizar 3 etapas de visita de Data Scientist: Habilidades necesarias para convertirse en Data Scientist

    Puede ir a través de este enlace para conocer las certificaciones para científicos de datos: varias certificaciones para científicos de datos

    ¡¡Espero eso ayude!!

    Comencemos la respuesta con Data Science, después de eso entenderemos quiénes son los científicos de Data, luego veremos las habilidades necesarias para convertirse en Data Scientist.

    • ¿Qué es la ciencia de datos?

    Data Science es un campo que abarca los relacionados con la limpieza, preparación y análisis de datos. La ciencia de datos es un término general en el que se aplican muchos métodos científicos.

    Por ejemplo, las matemáticas, las estadísticas y muchas otras herramientas que los científicos aplican a los conjuntos de datos. El científico aplica las herramientas para extraer conocimiento de los datos. Es una herramienta para abordar Big Data . Y luego extraer información de él.

    First Data Scientist reúne conjuntos de datos de múltiples disciplinas y los compila. Después de eso, aplique aprendizaje automático , análisis predictivo y sentimental. Luego afílelo hasta un punto donde pueda derivar algo.

    Finalmente, extrae la información útil de la misma. El científico de datos comprende los datos desde un punto de vista comercial. Su trabajo es dar la predicción más precisa. Se encarga de dar sus predicciones. La predicción del científico de datos es muy precisa. Impide que un empresario pierda en el futuro.

    Ahora, comencemos con Data Scientist según la definición:

    • Científico de datos

    Los científicos de datos son una nueva generación de expertos en datos analíticos que tienen las habilidades técnicas para resolver problemas complejos y la curiosidad de explorar qué problemas deben resolverse.

    Los científicos de datos son grandes expertos en datos. Toman una gran cantidad de puntos de datos desordenados (no estructurados y estructurados) y los limpian, masajean y organizan con sus formidables habilidades en matemáticas, estadísticas y programación. Luego aplican todos sus poderes analíticos para descubrir soluciones ocultas a los desafíos del negocio y presentarlo al negocio.

    En otras palabras, los científicos de datos utilizan su conocimiento de estadísticas y modelos para convertir los datos en información práctica sobre todo, desde el desarrollo de productos hasta la retención de clientes y nuevas oportunidades de negocio.

    Data Scientist necesita tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva. Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:

    • Captura de datos y preprocesamiento
    • Análisis de datos y reconocimiento de patrones
    • Presentación y visualización

    Para realizar las 3 etapas anteriores, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados.

    Para obtener más información sobre las herramientas para la extracción y el procesamiento previo de datos, consulte el siguiente enlace:

    Herramientas para extracción de datos y preprocesamiento

    Ahora, comencemos con las habilidades necesarias para convertirse en científico de datos

    1) Se requiere un título educativo para el científico de datos

    Aproximadamente más del 40% de los puestos de científicos de datos necesitan un título avanzado. Tal como un MBA o Ph.D. Más del 80% de los científicos de datos tienen títulos de maestría. Más del 45% tienen doctorados.

    2) Habilidades necesarias para convertirse en Data Scientist

    • Conocimiento profundo de la codificación Python. Es el lenguaje más común, incluido Perl, Ruby, etc.
    • Conocimiento sólido de SAS / R
    • Es necesario que el científico de datos pueda trabajar con datos no estructurados. Ya sea que provenga de videos, redes sociales, etc.
    • Habilidad de sonido en la codificación de bases de datos SQL.
    • Data Scientist debería tener una buena comprensión de varias funciones analíticas. Por ejemplo rango, mediana, etc.
    • Se requiere un conocimiento profundo del aprendizaje automático.
    • Un científico de datos debe estar familiarizado con Hive , mahout, redes bayesianas , etc. En ciencia de datos, el conocimiento de MySQL es como una ventaja adicional.

    3) Roles y responsabilidades del científico de datos

    • Limpieza y procesamiento de datos.
    • Predicción del problema empresarial. Sus roles son dar resultados futuros de ese negocio.
    • Desarrollar modelos de aprendizaje automático y métodos analíticos.
    • Encuentre nuevas preguntas comerciales que luego puedan agregar valor al negocio.
    • Minería de datos utilizando métodos de vanguardia.
    • Presentar resultados de manera clara y hacer el análisis ad-hoc .

    Ahora, después de eso, veamos el porcentaje interesado de solicitantes de empleo en Data Science por Indeed.com

    Para saber más sobre las habilidades del científico de datos, consulte el siguiente enlace:

    Habilidades necesarias para convertirse en Data Scientist

    ¡¡Espero que esto ayude!!

    Los científicos de datos deben tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva. Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:

    1. Captura de datos y preprocesamiento
    2. Análisis de datos y reconocimiento de patrones
    3. Presentación y visualización

    Para realizar las 3 etapas anteriores, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados. Estas son las diferentes herramientas disponibles para realizar lo mismo:

    3. Herramientas para extracción de datos y preprocesamiento

    a. SQL

    Esta es una habilidad imprescindible para todos los científicos de datos, independientemente de si está utilizando datos estructurados o no estructurados. Las empresas están utilizando los últimos motores SQL como Apache Hive, Spark-SQL, Flink-SQL, Impala, etc.

    si. Tecnologías de Big Data

    Esta es una habilidad imprescindible para todos los científicos de datos. El científico de datos necesita saber sobre diferentes tecnologías de big data: 1

    S t

    Tecnologías de Gen como Apache Hadoop y su ecosistema (colmena, cerdo, canal, etc.), Next Gen como – Apache Spark y Apache Flink (Apache Flink está reemplazando a Apache Spark rápidamente ya que Flink es un motor de Big Data de propósito general, que puede manejar objetos reales en tiempo real también, para obtener más detalles sobre Flink, siga este tutorial completo)

    do. UNIX

    Como la mayoría de los datos sin procesar se almacenan en un servidor UNIX o Linux antes de ponerlos en un almacén de datos, es bueno poder acceder a los datos sin la dependencia de una base de datos. Entonces, el conocimiento de Unix es bueno para los científicos de datos. Siga esta guía de comandos para practicar los comandos de Linux.

    re. Pitón

    Python es el lenguaje más popular para el científico de datos. Python es un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Es un lenguaje de alto nivel con enlace dinámico y escritura.

    4. Herramientas para análisis de datos y coincidencia de patrones

    Esto depende de su nivel de conocimiento estadístico. Algunas herramientas se utilizan para estadísticas más avanzadas y otras para estadísticas más básicas.

    a. SAS

    Muchas empresas usan SAS, por lo que es bueno tener un conocimiento básico de SAS. Puedes manipular ecuaciones fácilmente.

    si. R

    R es más popular en el mundo estadístico. R es una herramienta de código abierto y un lenguaje orientado a objetos, por lo que puede usarlo en cualquier lugar. Es la primera opción de cualquier científico de datos ya que la mayoría de las cosas se implementan en R.

    do. Máquina inclinada

    El aprendizaje automático es la herramienta más exigente y útil que los científicos de datos deben tener. Los algoritmos de aprendizaje automático se utilizan para análisis avanzado, análisis predictivo, coincidencia de patrones avanzada. Hay muchas herramientas de aprendizaje automático disponibles en el mercado, como weka, nltk, etc., pero las herramientas de aprendizaje automático además de las tecnologías de big data están atrayendo la atención de la industria como Mahout (en la parte superior de Hadoop), MLlib (en la parte superior de Spark), FlinkML (encima de Flink).

    5. Herramientas para visualización

    a. Cuadro

    Es una herramienta popular, especialmente en Silicon Valley.

    si. JMP (filial de SAS)

    JMP tiene una buena visualización.

    do. R

    R también tiene un gran soporte de visualización, como ggplot2, celosía, rCharts, google chart, shiny for webapps, slidify para presentaciones, etc.

    Además de las herramientas mencionadas anteriormente, las siguientes herramientas también son populares: JasperSoft, SAP BI, QlikView, MicroStrategy, etc.

    6. Habilidades no técnicas

    a. Visión para los negocios

    Uno necesita tener una comprensión sólida de la industria en la que está trabajando, para conocer los problemas que enfrenta la organización. El científico de datos debería ser capaz de determinar qué problemas son críticos y cuáles no, para identificar nuevas formas en que los datos se pueden utilizar como palanca.

    si. Habilidades de comunicación

    Las empresas están buscando científicos de datos que puedan traducir sus conocimientos sobre los datos de manera clara y segura a otros compañeros de equipo. Un científico de datos los arma con ideas cuantificadas.

    do. Solución analítica de problemas

    La habilidad de resolución de problemas analíticos es muy exigente para Data Scientist, por lo que se puede utilizar el enfoque correcto para obtener el máximo rendimiento en tiempo y recursos disponibles.

    Hola:

    Hay una variedad de habilidades necesarias para convertirse en un Data Scientist exitoso. Sin embargo, cualquiera puede convertirse en un científico de datos siempre que tenga las siguientes habilidades y aptitudes. En mi opinión, le he dado las 6 habilidades principales contra las 5 que solicitó, ya que creo que la sexta es muy crítica para que tenga éxito.

    1. Amor por los números y las cosas cuantitativas.
    2. Grit para seguir aprendiendo
    3. Alguna experiencia en programación (preferida)
    4. Enfoque de pensamiento estructurado
    5. Pasión por resolver problemas
    6. Voluntad de aprender conceptos estadísticos.

    Los gerentes de contratación son abiertos, y en varios casos prefieren, contratar personas de diversos antecedentes siempre que demuestren buena aptitud y actitud hacia la ciencia de datos.

    En mi experiencia de más de 15 años, he visto a personas de orígenes muy diversos, como ingeniería en cerámica o civil, graduados en comercio y economía, MBA, etc., contratados en las empresas para las que trabajé. No hace falta decir que a la mayoría de los m les ha ido notablemente bien en su carrera de ciencia de datos siempre que hayan asimilado las habilidades destacadas anteriormente.

    ¡Puedes comenzar este viaje ahora mismo! Le sugiero que visite Coursera, edX y otras plataformas de aprendizaje en línea. Hay varios cursos GRATUITOS disponibles que debes comenzar a aprovechar. Comience a tomar estos cursos e intente hacerlo lo mejor posible. Asegúrese de finalizar todas las tareas y cuestionarios para obtener el máximo valor de los cursos en línea.

    Un último punto : no hay atajos en la vida de la ciencia de datos . Así que recuerda que esto tomará algún tiempo. No te apresures a terminar los cursos máximos en poco tiempo. Más bien, enfóquese en la calidad del aprendizaje, la comprensión de los conceptos y sus aplicaciones prácticas.

    Espero que esto ayude.

    ¡Salud!

    Siempre he creído que la ciencia de datos es un tema multidimensional. Encuentra sus raíces en la probabilidad básica y la informática, pero puede aplicarse en un espacio variado. Cualquier ciencia que se pueda aplicar a numerosos campos debe ser autosuficiente. Un ejemplo clásico de esto es la física. Después de esto, se implica que un científico de datos debe tener un conjunto de habilidades que se extienda a través de los siguientes temas.

    Habilidades básicas

    Data Science es una mezcla de ingeniería de software, matemática y estadística. Estas tres son las habilidades básicas y uno debe ser competente en ello. Profundizando en esto

    Probabilidades y estadísticas

    Uno puede aprender sobre algoritmos con la ayuda de teorías de probabilidad y estadística. Algunos modelos como los modelos de mezcla gaussiana, los modelos naive bayes y los modelos ocultos de Markov exigen una comprensión sólida de la probabilidad y las estadísticas. Aprende la teoría de la medida. Las estadísticas ayudan como medida de evaluación del modelo, como curvas receptor-operador, matrices de confusión, valores p, etc.

    Modelado de datos

    Los científicos de datos también tienen que analizar datos no estructurados. Esto se basa principalmente en la ciencia del modelado de datos, el proceso de evaluar la estructura básica de un conjunto de datos, ubicar patrones y cerrar la brecha donde no hay rastros de datos. El modelado de datos es la base del desarrollo de algoritmos firmes que se pueden mejorar con el tiempo.

    Habilidades en programación

    Sus habilidades de programación y desarrollo de software serán las más importantes, ya que Data Science se trata de desarrollar algoritmos productivos.

    Programación y fundamentos informáticos

    Hay muchos cálculos sobre una cantidad extremadamente grande de datos en Data Science. Por lo tanto, uno debe ser claro con

    • Estructuras de datos como colas, matrices multidimensionales, pilas de árboles, gráficos, etc.
    • Complejidad como problemas NP-completos, P vs. NP, notación big-O.
    • Algoritmos como búsqueda, optimización, programación dinámica, clasificación.
    • Constitución informática como caché, puntos muertos, memoria, ancho de banda, procesamiento distribuido.

    Una vez que conozca profundamente estos fundamentos, también es responsable de saber cómo aplicarlos y desplegarlos durante la programación.

    Diseño de software

    ¿Qué entregan los ingenieros de Data Science? Entregan “Software”. Si miramos de cerca, el software es un componente muy pequeño, sin embargo, un cambio de juego en una gran comunidad de productos y servicios. Por lo tanto, es importante formar sistemas y algoritmos que puedan integrarse efectivamente con dicho software. Al tener un fuerte dominio de la API, las bibliotecas dinámicas ayudarán en el diseño de software adecuado y el desarrollo efectivo de interfaces.

    Matemáticas Aplicadas y Algoritmos

    Las implementaciones universales de Data Science son fácilmente accesibles a través de bibliotecas como Theano, scikit-learn, Spark MLlib, TensorFlow, H2O, etc. Sin embargo, elija un modelo apropiado para implementarlas de manera efectiva como árbol de decisión, vecino más cercano, red neuronal, conjunto de modelos múltiples, admite máquinas de vectores, etc. Debe tener conocimientos sobre optimización convexa, programación cuadrática, descenso de gradiente, ecuaciones diferenciales parciales, lagrange, etc. Además, es importante tener una idea sobre los méritos y deméritos de diferentes enfoques, como el sobreajuste y la falta de ajuste, la fuga de datos, sesgo y varianza, datos faltantes, fuga de datos.

    Lenguajes de programación de ciencia de datos

    Data Science no se limita a ningún lenguaje específico. Encontrará bibliotecas ML en diferentes lenguajes de programación como C, C ++, R y Python. Entre todos estos lenguajes de programación, en mi opinión, el mejor lenguaje para seguir adelante es Python.

    Los científicos de datos se enamoran fácilmente del lenguaje python debido a su fácil sintaxis. Python garantiza una eficiente informática científica y procesamiento de datos, gracias a sus útiles bibliotecas como SciPy, NumPy y Pandas. Algunas bibliotecas especializadas de ML como Theano, scikit-learn y TensorFlow desarrollan fácilmente algoritmos con diversas plataformas informáticas.

    Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

    El programa emblemático altamente selectivo de Gray Atom tiene como objetivo ser mentor de los profesionales que trabajan y novatos en el inicio de su carrera en Data Science. Los estudiantes crearon proyectos a partir de conjuntos de datos REALES y declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y está fuertemente orientado a la práctica. Gray Atom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.

    Algunos enlaces rápidos

    Data Scientist necesita tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva. Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:

    1. Captura de datos y preprocesamiento
    2. Análisis de datos y reconocimiento de patrones
    3. Presentación y visualización

    Para realizar las 3 etapas anteriores, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados. Estas son las diferentes herramientas disponibles para realizar lo mismo:

    • Herramientas para extracción de datos y preprocesamiento

    a. SQL

    Esta es una habilidad imprescindible para todos los científicos de datos, independientemente de si está utilizando datos estructurados o no estructurados. Las empresas están utilizando los últimos motores SQL como Apache Hive, Spark-SQL, Flink-SQL, Impala, etc.

    si. Tecnologías de Big Data

    Esta es la necesidad de las habilidades necesarias para convertirse en un científico de datos. El científico de datos necesita saber sobre las diferentes tecnologías de big data: tecnologías de primera generación como Apache Hadoop y su ecosistema (colmena, cerdo, canal, etc.), como Next Gene: Apache Spark y Apache Flink (Apache Flink está reemplazando Apache Spark rápidamente como Flink es un motor de Big Data de propósito general, que también puede manejar transmisiones en tiempo real)

    Guía completa de Apache Flink completa

    do. UNIX

    Como la mayoría de los datos sin procesar se almacenan en un servidor UNIX o Linux antes de ponerlos en un almacén de datos, es bueno poder acceder a los datos sin la dependencia de una base de datos. Entonces, el conocimiento de Unix es bueno para los científicos de datos.

    Guía de comandos para practicar comandos de Linux.

    re. Pitón

    Python es el lenguaje más popular para el científico de datos. Python es un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Es un lenguaje de alto nivel con enlace dinámico y escritura.

    • Herramientas para análisis de datos y coincidencia de patrones

    Esto depende de su nivel de conocimiento estadístico. Algunas herramientas se utilizan para estadísticas más avanzadas y otras para estadísticas más básicas.

    a. SAS

    Muchas empresas usan SAS, por lo que es bueno tener un conocimiento básico de SAS. Puedes manipular ecuaciones fácilmente.

    si. R

    R es más popular en el mundo estadístico. R es una herramienta de código abierto y un lenguaje orientado a objetos, por lo que puede usarlo en cualquier lugar. Es la primera opción de cualquier científico de datos, ya que la mayoría de las cosas se implementan en R. Para obtener la comparación entre las principales herramientas de análisis de datos, siga esta guía de comparación entre R vs SAS y SPSS.

    do. Máquina inclinada

    El aprendizaje automático es la herramienta más exigente y útil que los científicos de datos deben tener. Los algoritmos de aprendizaje automático se utilizan para análisis de datos avanzados, análisis predictivo, coincidencia de patrones avanzada. Hay muchas herramientas de aprendizaje automático disponibles en el mercado, como weka, nltk, etc., pero las herramientas de aprendizaje automático además de las tecnologías de big data están atrayendo la atención de la industria como Mahout (en la parte superior de Hadoop), MLlib (en la parte superior de Spark), FlinkML (encima de Flink).

    Lea la Guía completa de habilidades necesarias para convertirse en un Data Scientist exitoso.

    Data Science es la última tendencia en la industria. Aunque inicialmente muchos fueron rechazados como una manera simple, pero ahora a lo largo de los años varias organizaciones se han dado cuenta del potencial de la ciencia de datos para generar información útil a partir de datos estructurados y no estructurados.

    Desde bancos hasta empresas de comercio electrónico e industrias manufactureras, todos entendieron la importancia de la carrera de ciencia de datos y la adoptaron en sus actividades diarias para mejorar su rendimiento.

    El papel de un científico de datos ya se ha ganado el nombre de “el trabajo más sexy del siglo XXI”. Según un informe del Instituto Global Mckinsey, habrá una escasez de 140,000 a 190,000 profesionales de la carrera de ciencia de datos para 2018 solo en los Estados Unidos.

    Con respecto a India, algunos estudios sugieren que la industria de análisis y análisis de datos en India se encuentra en una etapa en la que tiene entre 10 y 15 años y que podemos esperar un auge en el campo de la tercerización analítica en India.

    También creo que India, con su grupo de datos de talentos de ciencia / análisis, puede muy bien ser el líder en esta industria. Ya hay algunas historias de éxito como Mu Sigma y Fractal analytics. Además, ahora vivimos oficialmente en la Era de Big Data.

    Por lo tanto, está muy claro que la razón por la cual los investigadores de datos están en demanda y también se crearían muchos empleos nuevos en esta área en un futuro próximo. Por lo tanto, la ciencia de datos puede considerarse una opción profesional lucrativa.

    ¿Qué hace un científico de datos?

    Data Science es una amalgama de comprensión empresarial, matemática, estadística, programación y habilidades de comunicación. Como tal, se espera que todas las habilidades anteriores se presenten como un científico de datos.

    Se espera que un científico de datos comprenda el problema comercial, desarrolle una hipótesis, comprenda el tipo de datos requeridos, realice la limpieza de datos y el análisis preliminar de datos, construya modelos estadísticos para la solución y, en última instancia, comunique ideas al cliente de manera efectiva. Por lo tanto, el trabajo de un científico de datos abarca varios roles y funciones.

    Entrar en la carrera de ciencia de datos como una persona más fresca y con experiencia

    Ahora, para asegurarse de que su currículum llama la atención cuando se postula a un negocio analítico necesita algo de preparación. La preparación sería diferente para una persona más fresca que para alguien que ya tiene algo de experiencia trabajando en su haber a pesar de estar en un área diferente.

    Para un graduado en ingeniería o matemática / estadística, el énfasis se pone más en resolver problemas analíticos y la exposición a ciertos lenguajes de programación. Luego pueden ir a las oficinas de analistas a través de inversiones en colegios universitarios o campañas de colocación fuera del campus e intentar acertar en su proceso de entrevista.

    Pero para alguien con una experiencia laboral sustancial en otra área, digamos un profesional de la informática, es una historia completamente diferente. Un profesional de la computación generalmente es bueno en las habilidades de programación, pero se está quedando corto en cuanto a intuición matemática o profundidad en la comprensión empresarial.

    Por lo tanto, para un profesional de TI o, de hecho, profesional de cualquier otro sector, es un poco difícil hacer la transición en la ciencia de los datos, pero no imposible. He hecho esta transición y puedo dar testimonio de eso.

    Cómo comenzar una carrera en ciencia de datos

    Los reclutadores de análisis o ciencia de datos buscan habilidades relevantes y, por lo tanto, el truco es adquirir estas habilidades durante un período de tiempo y explotarlas durante una entrevista. Ahora discutiremos los diversos aspectos que se necesitan para trabajar para hacer una transición exitosa a la industria analítica.

    1. Obtenga una maestría (MS / MBA) con especialización en análisis de negocios

    Obviamente, esta es la forma tradicional, es decir, comenzar con una pizarra limpia. Uno puede inscribirse en un programa de posgrado en análisis.

    Por ejemplo, IIM Calcutta comenzó un PGP en análisis de negocios con ISI Kolkata e IIT Kharagpur hace unos años y este programa está funcionando bien.

    También hay muy buenos programas de maestría en varias universidades estadounidenses. Por ejemplo, North Carolina State University, MIT Sloan, UC Berkeley, Texas A&M, etc.

    Incluso se puede optar por un MBA general, pero realizar algunos análisis electivos relacionados, como el análisis avanzado de datos, el aprendizaje automático, etc.

    Pero esto es algo que podría no ser posible para todos por varias razones. En este caso, se debe hacer hincapié en el autoaprendizaje y el uso efectivo de los recursos de aprendizaje disponibles gratuitamente. Algunos de éstos se discuten a continuación.

    2. Construir estadísticas / fundamentos de aprendizaje automático

    Se espera que un investigador a cargo de la minería de datos tenga algún conocimiento de los diversos métodos estadísticos o aprendizaje automático en la industria.

    Podemos comenzar desde la base, es decir, la distribución normal, el teorema del límite central, la hipótesis de prueba y luego pasar a técnicas avanzadas. Regresión lineal, regresión logística, árboles de decisión, análisis de conglomerados, modelos aditivos generalizados, etc.

    3. Adquirir habilidades técnicas en análisis

    Con respecto a las herramientas en la industria analítica, SAS y SPSS eran populares antes de que la revolución del código abierto tomara a la industria por sorpresa. Las herramientas de código abierto como R y Python son la próxima gran cosa y tendría sentido invertir tiempo en ellas

    Hay suficientes recursos disponibles gratuitamente en la web para aprender tanto R como Python. Para las personas con habilidades de codificación en lenguajes orientados a objetos como Java, Python considerará intuitivo. Pero R es la mejor herramienta (opinión personal) cuando se trata de modelado estadístico y también es la herramienta preferida en la academia.

    Para un principiante absoluto, el curso de iniciación en R en Learn R, Python & Data Science Online | DataCamp puede ser un punto de partida. Pero la mejor manera de aprender este software es hacerlo. Por lo tanto, sugiero que se reproduzcan los códigos disponibles y se prueben en algunos conjuntos de datos ficticios para comprender lo que está sucediendo.

    Además, un conocimiento práctico de SQL con habilidades avanzadas de MS Excel / VBA puede actuar como un diferenciador cuando aparece uno para su entrevista.

    4. Lea sobre las aplicaciones comerciales de Data Science

    Dado que la ciencia de los datos no es solo una cuestión técnica, sería realmente útil si uno comprende las aplicaciones comerciales de los mismos y también es consciente de varios casos de uso exitoso.

    Esto ayudará a ver la imagen más grande y también a estar bien equipado para comprender qué tipo de metodología se adapta a un problema comercial en particular.

    Por ejemplo, cómo se usa el análisis de la cesta de la compra para agrupar productos por minoristas, cómo se puede usar el análisis de conglomerados para la segmentación de clientes para el lanzamiento de un nuevo producto, cómo se puede usar la regresión logística para detectar fraudes en la banca

    5. Participa en varios concursos de ciencia de datos

    El último pero no menos importante sería: práctica, práctica y práctica. Una forma de hacerlo sería participando en varias competiciones.

    Además, la discusión en los foros con entusiastas de la ciencia de datos con ideas afines puede ser útil.

    Finalmente, incluso después de que uno tiene un descanso en la industria de la ciencia de datos, uno debe protegerse contra la complacencia. La forma en que avanza la tecnología y el campo de análisis se está desarrollando, ¡hay algo nuevo que aprender todos los días!

    ¿Necesitas más detalles?

    ¿Interesado en aprender ciencia de datos? haga clic aquí

    ¿Está usted en el campo de la ciencia de datos y está interesado en enseñar en línea a profesionales de clase mundial? Por favor envíe su perfil a [email protected]

    Data Science es una ciencia multifacética que tiene mucha aplicación. Esto definitivamente exige una base sólida. Las matemáticas, las estadísticas y la programación son los pilares de la ciencia de datos. Por lo tanto, debe ser minucioso con estos temas. Su conocimiento y comodidad en estos temas desarrollará habilidades de programación y pensamiento estadístico. Básicamente, construirás una fuerte intuición de las cosas.

    Ahora, la pregunta obvia aquí es “¿Qué aprender en estas materias? “Bueno, estos temas en sí mismos son tan vastos en sí mismos que no puedes estudiarlos en profundidad individualmente. Por lo tanto, te sugiero que sigas el principio de Pareto para aprenderlos. Debe estudiar solo el 20% de estas materias, que se utiliza el 80% del tiempo.

    Entonces, enumeraré algunos temas imprescindibles con los que puede comenzar:

    Estadística

    • Variables aleatorias
    • Distribuciones estadísticas
    • Teoría de la probabilidad (Cálculo de MGF, CGF, media, mediana, modo, varianza Máxima probabilidad de expectativa, teoremas del límite central, ANOVA)
    • Montaje de una distribución.
    • Muestreo
    • Prueba de una hipótesis.
    • Modelado Bayesiano
    • Regresión y series de tiempo

    Programación

    Ahora aquí, hay mucho debate sobre Python vs R. Ambos idiomas tienen sus propios pros y contras. Personalmente, recomendaría Python ya que es un lenguaje multipropósito general y tiene muchas bibliotecas de visualización como Bokeh, Seaborn y Pygal.

    • Python intermedio para ciencia de datos
    • Importar datos en Python
    • Fundación Pandas
    • Caja de herramientas de ciencia de datos de Python
    • Bases de datos en Python
    • Manipulación de marcos de datos con pandas
    • Visualización de datos con Python
    • Visualización interactiva de datos con Bokeh
    • Análisis de red en Python
    • Fusionar marcos de datos con pandas

    Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

    Algunos enlaces rápidos

    Hola,

    Los analistas de datos recopilan, procesan y realizan análisis estadísticos de datos. Es posible que sus habilidades no sean tan avanzadas como las de los científicos de datos (por ejemplo, es posible que no puedan crear nuevos algoritmos), pero sus objetivos son los mismos: descubrir cómo se pueden usar los datos para responder preguntas y resolver problemas.

    Responsabilidades del analista de datos

    Dependiendo de su nivel de experiencia, los analistas de datos pueden:

    • Trabajar con equipos de TI, administración y / o científicos de datos para determinar los objetivos de la organización.
    • Datos de minas de fuentes primarias y secundarias
    • Limpie y elimine datos para descartar información irrelevante
    • Analice e interprete los resultados utilizando herramientas y técnicas estadísticas estándar.
    • Identifique tendencias, correlaciones y patrones en conjuntos de datos complicados
    • Identificar nuevas oportunidades para la mejora de procesos.
    • Proporcione informes de datos concisos y visualizaciones de datos claras para la administración
    • Diseñar, crear y mantener bases de datos relacionales y sistemas de datos.
    • Problemas de código de triaje y problemas relacionados con datos

    Los analistas de datos a veces se denominan “científicos de datos junior” o “científicos de datos en formación”. En lugar de ser libres de crear sus propios proyectos de big data, pueden limitarse a abordar tareas comerciales específicas utilizando herramientas, sistemas y conjuntos de datos existentes.

    Sin embargo, hay muchas compañías que no hacen una distinción clara entre los dos roles. En algunos casos, un analista / científico de datos podría estar escribiendo consultas o atendiendo solicitudes estándar por la mañana y creando soluciones personalizadas o experimentando con bases de datos relacionales, Hadoop y NoSQL por la tarde.

    Salarios de analistas de datos

    Los números salariales dependen de las responsabilidades laborales. Un analista de datos senior con las habilidades de un científico de datos puede obtener un alto precio. Un analista de datos de nivel de entrada con herramientas técnicas básicas podría estar mirando desde $ 35,000 hasta $ 45,000 por año.

    Calificaciones de analista de datos

    ¿Qué tipo de grado necesitaré?

    La mayoría de los candidatos para trabajos de nivel inicial necesitarán una licenciatura en matemáticas, informática, estadística, gestión de la información, finanzas o economía. Todos estos temas ponen un gran énfasis en las habilidades estadísticas y analíticas.

    Para ascender en la carrera profesional o la transición al papel de científico de datos, probablemente se le pedirá que obtenga un título de maestría o certificado de posgrado en un campo similar.

    ¿Qué tipo de habilidades necesitaré?

    Habilidades técnicas

    • Métodos y paquetes estadísticos (por ejemplo, SPSS)
    • Idiomas R y / o SAS
    • Almacenamiento de datos y plataformas de inteligencia empresarial.
    • Bases de datos SQL y lenguajes de consulta de bases de datos
    • Programación (por ejemplo, marcos XML, Javascript o ETL)
    • Diseño de bases de datos
    • Minería de datos
    • Limpieza de datos y munging
    • Visualización de datos y técnicas de informes.
    • Conocimiento práctico de Hadoop y MapReduce
    • Técnicas de aprendizaje automático

    Esta es una lista de muestra y está sujeta a cambios.

    Habilidades para los negocios

    • Solución analítica de problemas : empleando las mejores prácticas para analizar grandes cantidades de datos mientras se mantiene una intensa atención a los detalles.
    • Comunicación efectiva : uso de informes y presentaciones para explicar ideas y métodos técnicos complejos a una audiencia de laicos.
    • Pensamiento creativo : cuestionar las prácticas comerciales establecidas y generar nuevas ideas para el análisis de datos.
    • Conocimiento de la industria : Comprender qué impulsa su industria elegida y cómo los datos pueden contribuir al éxito de una estrategia de empresa / organización.

    Somos un instituto galardonado que ofrece cursos de certificación para diversas herramientas de análisis de big data como R, SAS, Python, Big Data y Hadoop.

    Si desea sobresalir en una carrera como analista de datos, puede considerar cualquiera de nuestros cursos.

    Brindamos asistencia profesional al 100% para estos programas, que incluye la creación de currículums, preparación extensa de entrevistas, etc.

    Nuestros cursos son los siguientes:

    Imarticus ofrece Data Science Prodegree en colaboración con Genpact como socio de Knowledge. Este programa lo ayuda a comprender en profundidad el análisis de datos y las estadísticas, junto con las perspectivas comerciales y las prácticas de vanguardia que utilizan SAS, R, Python, Hive, Spark y Tableau.

    Programa de posgrado en análisis de datos : este programa lo ayuda a comprender los conceptos fundamentales y el aprendizaje práctico de herramientas analíticas líderes, como SAS, R, Python, Hive, Spark y Tableau, así como análisis funcionales en muchos dominios.

    A través de varios proyectos y estudios de casos, impartimos las habilidades integrales del papel en nuestros estudiantes junto con una amplia capacitación sobre las herramientas y técnicas clave. Lo preparamos para estar listo para el trabajo con la preparación de entrevistas, talleres de creación de currículums y 1-1 entrevistas simuladas con expertos de la industria.

    Para saber más acerca de nuestros programas, visite nuestro sitio web ( https://imarticus.org/?id=Websit …).

    Espero que esto te ayude en tu proceso de toma de decisiones.

    Todo lo mejor..:)

    Las habilidades requeridas para convertirse en un científico de datos se enumerarían como:

    • Habilidades técnicas Es necesario desarrollar una sólida formación educativa para adquirir la profundidad de conocimiento que se necesita para ser un científico de datos. En el aspecto técnico, se requiere un conocimiento profundo de cualquiera de las herramientas analíticas (preferiblemente R o SAS). R sería mejor preferido. Python se ha vuelto bastante popular entre los analistas de datos y los científicos de datos recientemente. El portátil iPython (actualmente conocido como el portátil Jupyter) es muy popular entre los científicos y analistas de datos. Además, tener conocimiento sobre el ecosistema de Hadoop también es un fuerte punto de venta.

    • Habilidades no técnicas Debe ser un solucionador de problemas. Su enfoque para resolver un problema es muy importante si desea ser un buen científico de datos. Una gran comprensión del conjunto de datos disponible es muy importante. También es importante cómo maneja los datos, cómo cuenta una buena historia de los datos. Un factor importante que necesitaría un científico de datos sería qué tan bien él / ella es capaz de comunicar sus hallazgos para que sea comprensible para todos. Es importante presentar las visualizaciones al equipo o al tablero de una manera fácil de dilucidar. Además, algunas de las otras preguntas no técnicas (hacer el tipo correcto de preguntas) que se considerarían útiles son:
    • Preguntas descriptivas Trate de entender lo que ha sucedido.
    • Preguntas predictivas ¿ Cuáles son las mejores áreas donde podemos usar Data Science para predecir un evento?
    • Preguntas prescriptivas ¿ Cuál sería el mejor remedio para el problema en cuestión?

    Las principales habilidades 5-6 con algunas habilidades adicionales son lo suficientemente buenas para una carrera como científico de datos, pero esas habilidades no solo requerirán que aprendas teóricamente, sino que se requiere mucha experiencia práctica. La ciencia de datos es una combinación de una variedad de habilidades y herramientas y debe ser bueno con todas ellas para asegurar la oportunidad deseada.

    Esto es algo que también he mencionado en mi respuesta anterior . Puede leerlo aquí.

    Primero, hablemos sobre cuáles son las habilidades requeridas:

    • Lenguajes de programación-

    Una de las partes más importantes de ser un científico de datos es que debes ser bueno con la programación. El lenguaje más utilizado es “R”, que fue escrito específicamente para fines analíticos y la mayoría de las empresas prefieren trabajar en él.

    Luego viene Python, que es un lenguaje de programación general y es utilizado por más del 30% de las empresas en ciencia de datos. Sin embargo, R tiene un alcance mayor que Python, pero saber que ambos mejorarán significativamente sus posibilidades.

    • Estadística y matemática

    Mucha gente piensa que las estadísticas no tienen mucho que ver con la ciencia de datos, pero eso no es cierto. La mitad del tiempo estará haciendo el análisis, creando modelos, elaborando fórmulas correctas, regresiones, funciones de tiempo, etc., que es tan crucial como la parte de programación. Por lo tanto, asegúrese de mejorar sus habilidades y practicar tanto como pueda.

    • Herramientas de visualización

    Las personas a las que les mostrará sus informes no verán los códigos, sino cuadros, gráficos, divisiones y porcentajes. Las herramientas, es decir , Tableau, iCharts, Excel, etc. son las más utilizadas. Asegúrese de aprender al menos 2 de ellos para poder lidiar con diferentes requisitos.

    • Aprendizaje automático-

    Si bien el aprendizaje automático es un subconjunto de la ciencia de datos y también se usa en otros desarrollos, pero aquí, las aplicaciones son diferentes y uno necesita poder escribir los algoritmos según los requisitos actuales. Los algoritmos básicos de aprendizaje automático son los mismos, pero deberá realizar las modificaciones necesarias en función del análisis.

    • Comunicación-

    Yo, sin lugar a dudas, puedo decir que esta es la habilidad más ignorada por la mayoría de las personas que quieren ser científicos de datos. ¿Por qué? He entrevistado a muchos candidatos en los últimos 3 años y casi la mitad de ellos no tenían ningún tipo de presentación o eran muy pobres y ni siquiera podían dar información básica sobre los proyectos en los que han trabajado. ¿Cómo es tan importante?

    1. Tienes que entender el dominio y el negocio para el que trabajarás y para eso, debes comunicarte con los equipos para entenderlo al revés.
    2. Tratará con las partes interesadas y las personas gerenciales y tendrá que presentarles su análisis en presentaciones y no entenderán códigos sino gráficos. Su trabajo no le servirá de nada si no puede presentarlo como se requiere.

    Obtenga más información sobre las habilidades y oportunidades: lea aquí

    Estas son las habilidades imprescindibles para comenzar

    1. Estadística y matemática
    2. Programación R y Python
    3. Análisis de regresión, series de tiempo y funciones.
    4. Bases de datos: NoSQL y SQL son buenos para tener
    5. Minería de datos que incluye recolección, extracciones, limpieza de datos
    6. Análisis predictivo y modelado.
    7. Minería de texto y aprendizaje profundo
    8. Conceptos y algoritmos de aprendizaje automático.
    9. Herramientas de visualización, es decir, tableau, Excel, icharts, etc.
    10. Excelentes habilidades de presentación.

    Obtenga las habilidades y podrá obtener el perfil y el conjunto de habilidades adecuados para poder comenzar. Si bien esto puede parecer mucho, puede seguir un camino estructurado para cubrir todas estas habilidades en un corto período de tiempo. ¿Cómo lo haces?

    1. Comience a aprender las habilidades buscando ayuda de algunos programas en línea donde puede aprender todas las habilidades en un solo lugar y obtener la comprensión.
    2. El aprendizaje no será suficiente, pero tendrá que aplicar las habilidades en los proyectos en vivo, las declaraciones de problemas en plataformas como Kaggle, HackerRank, Hackerearth, etc., y comprender los problemas y estándares de la industria.
    3. Después de haber trabajado en varias declaraciones de problemas, puede utilizar su cartera y perfil para solicitar las oportunidades. Si bien el aprendizaje es importante, pero al trabajar en proyectos críticos, podrá ser contratado.

    Muchas plataformas en línea ofrecen dicho plan de estudios que incluye todos los requisitos básicos a importantes. Algunos de ellos son Udacity, edWisor, Upgrad, etc. Puede hacer su propia investigación al respecto para encontrar la opción adecuada para usted.

    1. Udacity: tienen un nombre realmente bueno y las ofertas también son buenas en términos de aprendizaje. Obtendrá algunos conocimientos prácticos básicos, pero no mucho. Una desventaja es que se centran más en las certificaciones y los nanogrados (que no se considera válido en India)
    2. edWisor.com : esta es una plataforma que ha combinado 3 partes importantes de su carrera. Aprendizaje y proyectos que ofrecen en el mismo lugar, para que pueda aprender las habilidades y adquirir experiencia técnica también. Una gran cosa acerca de edWisor es que también ofrecen una garantía de empleo en India, que puede ser la mejor opción para cualquiera que busque un cambio o un nuevo trabajo. Lo que les molesta es que solo tienen algunas opciones de asientos limitados, lo que creo que debería aumentarse mirando el escenario actual de la industria.
    3. Upgrad- Otra plataforma que ofrece un plan de estudios a nivel de la industria con conocimientos prácticos con una certificación. El mayor inconveniente aquí es la tarifa. La mayor parte de su plan de estudios cuesta más de 2–3 lacs sin asistencia laboral adecuada y requiere un compromiso de 1 año, lo que no es factible para la mayoría de las personas.

    Estas son mis opiniones según lo que he usado y aprendido y lo que aprendí de mi investigación y experiencia. Usted es libre de ver todas las opciones, ya que cada día aparecen nuevas opciones.

    ¡Los datos son el nuevo oro!

    Data Science requiere que utilices habilidades técnicas y comerciales. Debe desarrollar ciertas habilidades técnicas para dominar Data Science.

    Habilidades técnicas:

    • Matemáticas (por ejemplo, álgebra lineal, cálculo y probabilidad)
    • Estadísticas (por ejemplo, pruebas de hipótesis y estadísticas resumidas)
    • Herramientas y técnicas de aprendizaje automático (p. Ej., Vecinos más cercanos, bosques aleatorios, métodos de conjunto, etc.)
    • Habilidades de ingeniería de software (por ejemplo, computación distribuida, algoritmos y estructuras de datos)
    • Minería de datos
    • Limpieza de datos y munging
    • Visualización de datos (por ejemplo, ggplot y d3.js) y técnicas de informes
    • Técnicas de datos no estructurados.
    • Idiomas R y / o SAS
    • Bases de datos SQL y lenguajes de consulta de bases de datos
    • Python (más común), C / C ++ Java, plataformas de datos PerlBig como Hadoop, Hive y Pig

    Esta lista siempre está sujeta a cambios. Aunque los antecedentes en Ingeniería, Tecnología y Matemáticas serán útiles . La ingeniería no es una habilidad, es una actitud. Si crees que piensas críticamente, tienes un fuerte razonamiento lógico y un fervor por aprender, puedes hacer una carrera en Data Science.

    En la escuela GreyAtom , queremos alinear la educación con la realidad. GreyAtom se centra en los ingenieros de ciencia de datos de Full Stack y le brinda todas las herramientas, técnicas y conceptos básicos necesarios para generar un impacto. En solo 16 semanas, aplicará la resolución de problemas y el pensamiento creativo a conjuntos de datos del mundo real, ganando experiencia en toda la pila de ciencia de datos.

    Tendrá un historial de contribuciones de código abierto y ayudará a la comunidad más amplia de ingeniería de software (a través de Github, StackOverflow, un blog o similar). Puede consultar el plan de estudios haciendo clic en este enlace http://www.greyatom.com/ curso-d …

    Los datos realmente impulsan todo lo que hacemos . Si le apasiona la ciencia de datos y quiere redefinir su carrera, visítenos en GreyAtom – Aprendizaje inmersivo Creemos en “Datos reales – Industria real – Socios de reclutamiento reales – Oficina real (aulas)”

    Descargo de responsabilidad: soy cofundador de @GreyAtom y Data Science es mi pasión.

    Data Scientist, “el trabajo más sexy del siglo XXI ” que todo el mundo desea en estos días solo por la asociación de la palabra ” sexy “.

    Pero esto no es solo una moda que está volviendo loco a todos por el trabajo, es el simple caso de Demand-and-Supply .

    India tiene vacantes de trabajo para 50,000 profesionales de ciencia de datos / análisis

    Se espera que esto aumente a 80,000-100,000 en 2018. A nivel mundial, esta demanda es incluso en una escala mucho mayor con alrededor de medio millón de empleos disponibles como Data Scientist. Como casi todas las grandes empresas multinacionales o nuevas empresas, así como las agencias gubernamentales, están contratando a Data Scientist que puede predecir con base en los datos disponibles la mejor manera de rentabilizar el negocio.

    Para obtener un trabajo como científico de datos, se necesita tener un conocimiento práctico de las siguientes tecnologías / temas:

    1. Estadística
    2. Programación R
    3. Modelado predictivo
    4. Algoritmos de aprendizaje automático
    5. Extracción de textos
    6. Pitón

    Habiendo dicho esto sobre la gran demanda de Data Scientist en la industria, puedo decir que esta es una de las mejores carreras para optar en el futuro.

    Pero el verdadero problema es encontrar un trabajo como Data Scientist. Así que déjame contarte primero sobre los inconvenientes:

    1. Las habilidades y tecnologías requeridas para ser Data Scientist se enseñan en ninguna universidad de la India, que todavía se centra más en tecnología obsoleta como C, Java o Gestión de bases de datos.
    2. Dado que este campo es relativamente nuevo, muchas empresas no contratan candidatos más nuevos / sin experiencia para el puesto.

    Entonces, para seguir una carrera como científico de datos, debe:

    • Primero adquiera las habilidades relevantes requeridas para Data Scientist en las tecnologías mencionadas anteriormente.
    • En segundo lugar, necesita practicar sus habilidades y mostrar sus talentos haciendo proyectos relevantes en Data Science. Hay plataformas como kaggle que pueden ayudarte a perfeccionar tus habilidades.
    • Si todavía estás en la universidad, primero puedes hacer algunas pasantías que pueden perfeccionar tus habilidades.
    • Finalmente apareció en las entrevistas para ser contratado como Data Scientist.

    Ahora viene la verdadera pregunta de cómo va a hacer todo esto. Como estas habilidades no se enseñan en las universidades donde el plan de estudios no está actualizado y los maestros mismos no están lo suficientemente calificados para el mismo. Por lo tanto, hay una gran brecha en la habilidad como uno tiene y como lo requiere la industria.

    Puede adquirir habilidades de cualquiera de las plataformas o recursos mencionados a continuación:

    • Edureka, Udemy, Simplilearn : hay muchas plataformas en línea que proporcionan capacitación y certificaciones para Data Science. Pero las certificaciones no lo contratan como Data Scientist.
    • edWisor.com es una de esas plataformas que no solo lo capacita en las tecnologías requeridas por la industria, sino que también lo contrata como científico de datos. Hay más de 100 empresas que están contratando candidatos calificados para edWisor para un puesto de tiempo completo.

    Por lo tanto, puede optar por cualquier plataforma mencionada anteriormente que se adapte mejor a sus necesidades.

    ¡Todo lo mejor!

    Habilidades técnicas: análisis

    1. Educación : los científicos de datos son altamente educados: el 88% tiene al menos un título de maestría y el 46% tiene doctorados, y aunque hay excepciones notables, generalmente se requiere una formación académica muy sólida para desarrollar la profundidad del conocimiento necesario para ser un científico de datos. Sus campos de estudio más comunes son Matemáticas y Estadística (32%), seguido de Ciencias de la Computación (19%) e Ingeniería (16%).
    2. SAS y / o R : conocimiento profundo de al menos una de estas herramientas analíticas, para la ciencia de datos se prefiere generalmente R.

    Habilidades técnicas: informática

    1. Codificación de Python : Python es el lenguaje de codificación más común que normalmente veo requerido en los roles de ciencia de datos, junto con Java, Perl o C / C ++.
    2. Plataforma Hadoop : aunque esto no siempre es un requisito, es muy preferido en muchos casos. Tener experiencia con Hive o Pig también es un fuerte punto de venta. La familiaridad con herramientas en la nube como Amazon S3 también puede ser beneficiosa.
    3. Base de datos / codificación SQL : aunque NoSQL y Hadoop se han convertido en un gran componente de la ciencia de datos, aún se espera que un candidato pueda escribir y ejecutar consultas complejas en SQL.
    4. Datos no estructurados : es fundamental que un científico de datos pueda trabajar con datos no estructurados, ya sea de redes sociales, videos o audio.

    Tutoriales útiles de Hadoop para convertirse en un buen científico de datos

    Es un poco difícil resumir todo el campo en 5 habilidades (especialmente porque el trabajo de “científico de datos” significa diferentes cosas en diferentes compañías), pero daré una oportunidad aquí. Estas cinco habilidades se ordenan aproximadamente de las “habilidades duras” a las “habilidades blandas”.

    Habilidad # 1: Programación

    Este es quizás el MÁS fundamental del conjunto de habilidades de un científico de datos: el trabajo de un científico de datos se aplica mucho más que el de un estadístico tradicional. La programación es importante de múltiples maneras, incluidas las tres siguientes:

    • Poder programar aumenta tu capacidad de hacer estadísticas. Si tiene muchos conocimientos de estadísticas pero no tiene forma de implementarlos, su conocimiento de estadísticas se vuelve mucho menos útil.
    • La capacidad de analizar grandes conjuntos de datos . Los conjuntos de datos con los que puede trabajar en la industria no son tan pequeños y lindos como el conjunto de datos de iris de muestra: puede obtener fácilmente datos que alcanzan millones de filas y muchos más.
    • Puede crear herramientas para mejorar la ciencia de datos . Esto incluye todo, desde la construcción de sistemas que su empresa puede utilizar para visualizar datos, crea marcos para analizar experimentos automáticamente y administra la canalización de datos en su empresa para que los datos necesarios puedan estar en el lugar correcto en el momento adecuado.

    La capacitación normal en ingeniería de software aquí lo ayudará a desarrollar habilidades de programación (aunque generalmente no tiene que ir tan lejos como lo haría un ingeniero de software habitual).

    Habilidad # 2: análisis cuantitativo

    El análisis cuantitativo es el corazón del conjunto de habilidades de un científico de datos. Gran parte de la ciencia de datos se trata de comprender el comportamiento de un sistema particularmente complejo mediante el análisis de los datos que produce, tanto de forma natural como a través de experimentos. La necesidad de habilidades de análisis cuantitativo es importante en múltiples formas, incluidas las tres siguientes:

    • Diseño y análisis experimentales: en particular para los científicos de datos que trabajan en aplicaciones de Internet para consumidores: la forma en que se registran los datos y la forma en que se pueden ejecutar los experimentos da lugar a una gran cantidad de experimentación para probar varias hipótesis. Hay muchas maneras en que el análisis de experimentos puede salir mal (pregunte a cualquier estadístico), por lo que los científicos de datos pueden ayudar mucho aquí.
    • Modelado de sistemas económicos o de crecimiento complejos: los modelos típicos como los modelos de abandono o los modelos de valor de vida útil del cliente son comunes aquí, así como modelos más complicados como el modelo de oferta + demanda, formas económicamente óptimas para igualar proveedores y proveedores, y métodos para modelar el canales de crecimiento de una empresa para cuantificar mejor qué vías de crecimiento son las más valiosas. El ejemplo más famoso de esto es el aumento de precios de Uber.
    • Aprendizaje automático: incluso para los científicos de datos que no implementan los modelos de Aprendizaje automático, existe un gran valor que los científicos de datos pueden proporcionar para ayudar a crear prototipos para probar suposiciones, seleccionar y crear características e identificar áreas de fortaleza y oportunidad en la máquina existente sistemas de aprendizaje

    El requisito de esta habilidad es por qué, en particular, el campo de la ciencia de datos es atractivo para 1. Físicos 2. Estadísticos 3. Economistas 4. Investigadores de operaciones 5. Muchos más, que están muy acostumbrados a comprender sistemas complejos a través de enfoques de arriba hacia abajo (hacer modelos ) o enfoques ascendentes (inferencias a partir de datos).

    Habilidad # 3: intuición del producto

    La intuición del producto como habilidad está vinculada a la capacidad de un científico de datos para realizar análisis cuantitativos en el sistema. El conocimiento del producto significa comprender el complejo sistema que genera todos los datos que analizan los científicos de datos. Esto es increíblemente importante por varias razones, que incluyen:

    • Generación de hipótesis: un científico de datos que comprende bien el producto puede generar hipótesis sobre las formas en que el sistema puede comportarse si se modifica de una manera particular. Las hipótesis se basan en “corazonadas” sobre cómo se pueden comportar ciertos aspectos del sistema, y ​​uno necesita saber sobre el sistema para poder tener corazonadas sobre cómo funciona.
    • Definición de métricas: el conjunto de habilidades analíticas tradicionales incluye la definición de métricas clave primarias y secundarias que la empresa puede usar para realizar un seguimiento del éxito en objetivos particulares. Un científico de datos necesita saber sobre el producto para crear métricas de producto que 1. midan lo que se pretende 2. midan algo que valga la pena mover.
    • Análisis de depuración: los resultados que son “increíbles” son más a menudo causados ​​por errores que las características “increíbles” reales del sistema. Un buen conocimiento del producto puede ayudar con las comprobaciones rápidas de cordura y los cálculos al final del sobre que pueden ayudar a identificar más rápidamente las cosas que podrían haber salido mal.

    El conocimiento del producto generalmente implica el uso del producto que su empresa está creando. Si eso no es posible, entonces al menos trate de conocer a las personas que realmente usan el producto.

    Habilidad # 4: Comunicación

    Esta habilidad es importante para ayudar a aumentar significativamente el apalancamiento de todas las habilidades anteriores enumeradas. Este es particularmente importante y puede ayudar a distinguir a un buen científico de datos de uno excelente. La buena comunicación puede manifestarse de varias maneras, que incluyen:

    • Comunicación de ideas : algunos científicos de datos llaman a esto “narración de historias”. Lo importante aquí es comunicar ideas de una manera clara, concisa y válida, para que otros en la empresa puedan actuar eficazmente sobre esas ideas.
    • Visualización y presentación de datos: a veces no hay nada más efectivo y satisfactorio que un buen gráfico para hacer o transmitir un punto.
    • Comunicación general: trabajar como científico de datos casi siempre significa trabajar en equipo, incluido trabajar con ingenieros, diseñadores, gerentes de producto, operaciones y más. Una buena comunicación general puede ayudar a facilitar la confianza y la comprensión, lo cual es increíblemente importante para alguien a quien se le confía la custodia de los datos.

    Habilidad # 5: trabajo en equipo

    Esta última habilidad une al resto de las 4 habilidades. Un científico de datos en particular no puede existir de forma aislada y, por lo que he visto, funciona mejor cuando está profundamente integrado en el resto de la empresa (o al menos dentro de la organización de desarrollo de productos).

    El trabajo en equipo es importante por muchas razones, que incluyen:

    • Ser desinteresado : Esto incluye ofrecer ayuda y tutoría a otros, y anteponer la misión de la empresa a sus propias ambiciones profesionales personales.
    • Iteración constante: un científico de datos se nutre de la retroalimentación, y la mayoría de las partes del trabajo del científico de datos involucrará iteraciones de ida y vuelta y retroalimentación con otros para llegar a una solución impactante.
    • Compartir conocimiento con otros: dado que la profesión de científico de datos es bastante nueva, básicamente no hay nadie con el conjunto completo de habilidades, especialmente si reúne todas las técnicas estadísticas, marcos, bibliotecas, idiomas y herramientas posiblemente útiles. Debido a que el conocimiento se extenderá entre los científicos de datos y las organizaciones, es particularmente útil para los científicos de datos compartir constantemente sus conocimientos, métodos y resultados entre sí.

    Conclusión

    Las dos primeras habilidades: la programación y el análisis cuantitativo son quizás lo que la mayoría de la gente piensa primero cuando piensa en las habilidades de un científico de datos. Si bien son importantes y crean la base técnica del conjunto de habilidades de un científico de datos, quiero enfatizar que 3 de estas 5 habilidades más importantes no son habilidades técnicas.

    La tercera habilidad es importante en general para cualquier empresa enfocada en productos o servicios, y las habilidades cuarta y quinta son críticas para cualquier trabajo que realices donde trabajas con otras personas.

    ¡Buena suerte y los mejores deseos en tu propio camino para convertirte en un científico de datos!

    Enchufe descarado: ¡Quora está contratando científicos de datos en https://www.quora.com/careers !

    Gracias por A2A.

    Voy a responder esto desde la perspectiva del tipo de trabajo de Data Science que hago, que tiene cierto sabor de I + D y no tiene ninguna necesidad de “escalar a millones de transacciones en un sistema en vivo”.

    Habilidades cuantitativas : cubre una amplia gama de técnicas y no es necesario que las conozca todas. Aprenda lo que necesita para su trabajo y descubra lo que le interesa, pero no sienta que tiene que aprender cosas solo porque parecen ser populares entre otros científicos de datos. Por ejemplo, tengo antecedentes en estadísticas y he pasado muchos semestres en la universidad estudiando experimentos. Pero no trabajo en tecnología y las pruebas A / B son algo que rara vez necesito hacer. Y las pruebas A / B son una de esas cosas que no siento que necesito saber a nivel experto. Entonces, si bien he ganado múltiples concursos de aprendizaje automático y he realizado muchos ML en un entorno empresarial, estoy perfectamente bien por debajo del promedio en las pruebas A / B. No hay vergüenza para mí.

    Habilidades de programación : nuevamente, trate de encontrar un compromiso que lo haga competente en lo que necesita hacer. No necesito escalar mi trabajo (solo trabajo en una industria donde esto no es una necesidad), así que soy bastante horrible con los conceptos de informática. Para mí, la esencia de la programación en Data Science se reduce a conocer suficiente programación para que la programación no esté en mi camino para resolver problemas cuantitativos. Yo uso Python y Pandas y scikit-learn mucho, y soy experto en usarlos. ¿Pero siento que necesito saber cada módulo de Python o ser un maestro con decoradores? Diablos no!

    Practicidad : para mí, esto se trata principalmente de la capacidad de encontrar 80–20 soluciones, lo cual es increíblemente importante en I + D, pero también en el mundo actual de la ciencia de datos en general, ya que rara vez se trabaja con problemas que tienen una línea de meta bien definida. Encontrar una solución que sea lo suficientemente buena para que la empresa reaccione y promueva o mate es realmente de lo que se trata la practicidad.

    Comunicación : bla bla, sí, esto es realmente importante. Tengo una escalera de comunicación de cuatro niveles.

    • ¿Qué pensaría un experto reconocido mundialmente si le explicara un concepto de la manera más técnica que pueda? (Realmente no me molesto con esto a menos que sepa que voy a presentar una conferencia o escribir un artículo)
    • ¿Puedo explicarle conceptos a un compañero científico de datos?
    • ¿Puedo explicárselo a mi gerente?
    • ¿Se lo puedo explicar a un vicepresidente?

    Mentalidad de resolución de problemas : esto es realmente beneficioso para usted a largo plazo. Si tiene curiosidad natural, y resolver acertijos es algo estimulante y emocionante, entonces la ciencia de datos será un viaje a largo plazo y una caja de arena divertida. Esta no es una habilidad en sí misma, pero no hay nada que las 4 habilidades anteriores puedan hacer por usted si todos los días se despierta y no está entusiasmado con la posibilidad de resolver un nuevo rompecabezas.

    El objetivo principal del análisis de big data es ayudar a las empresas a tomar decisiones comerciales más informadas al permitir que DATA Scientist, modeladores predictivos y otros profesionales de análisis analicen grandes volúmenes de datos de transacciones, así como otras formas de datos que la inteligencia comercial convencional puede aprovechar. (BI) programas. Eso podría incluir registros del servidor web y datos de Internet Click Stream, contenido de redes sociales e informes de actividad de redes sociales, texto de correos electrónicos de clientes y respuestas de encuestas, registros detallados de llamadas de teléfonos móviles y datos de máquinas capturados por sensores conectados a INTERNET. Algunas personas se asocian exclusivamente Big Data con datos semiestructurados y no estructurados de ese tipo, pero las firmas consultoras como Gartner Inc. y Forrester Research Inc. también consideran que las transacciones y otros datos estructurados son componentes válidos de las aplicaciones de análisis de Big Data. Ciencia de datos, estadística y probabilidad: clases combinadas de cursos en línea | Ciencia de datos, estadística y probabilidad: curso combinado en línea

    Los grandes datos se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis preventivo, el análisis de texto y el método estático. El software de BI convencional y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Pero los datos semiestructurados y no estructurados pueden no encajar bien en el Data Warehouse tradicional basado en la base de datos relacional. Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de grandes datos que deben actualizarse con frecuencia o incluso continuamente, por ejemplo, datos en tiempo real sobre el rendimiento de aplicaciones móviles o de oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar grandes datos han recurrido a una nueva clase de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No Sql. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas en clúster.

    En algunos casos, los sistemas Hadoop Cluster y No SQL se están utilizando como pistas de aterrizaje y áreas de preparación de datos antes de que se carguen en un almacén de datos para su análisis, a menudo en forma resumida que es más propicio para las estructuras relacionales. Sin embargo, cada vez más, los proveedores de big data están impulsando el concepto de una toma de datos de Hadoop que sirve como el depósito central para los flujos entrantes de datos sin procesar de una organización. En tales arquitecturas, los subconjuntos de datos se pueden filtrar para su análisis en almacenes de datos y bases de datos de análisis, o se pueden analizar directamente en Big Data y capacitación de Hadoop con certificación en línea Hadoop utilizando herramientas de consulta por lotes, software de procesamiento de flujo y tecnologías Sql AND Hadoop que ejecutan consultas interactivas y ad hoc escritas en SQL. Las dificultades potenciales que pueden hacer tropezar a las organizaciones en iniciativas de análisis de big data incluyen la falta de habilidades analíticas internas y el alto costo de contratar profesionales analíticos experimentados. La cantidad de información que generalmente está involucrada, y su variedad, también pueden causar dolores de cabeza en la gestión de datos, incluidos la calidad de los datos y problemas de consistencia. Además, integrar sistemas Hadoop y almacenes de datos puede ser un desafío, aunque varios proveedores ahora ofrecen conectores de software entre Hadoop y bases de datos relacionales, así como otras herramientas de integración de datos con capacidades de big data.

    Las empresas están utilizando el poder de los conocimientos proporcionados por Big Data para establecer instantáneamente quién hizo qué, cuándo y dónde.

    More Interesting

    Como Data Scientist, ¿alguna vez tienes miedo de las decisiones importantes que tomas para una empresa?

    ¿Cuál es el trabajo real de un científico / analista de datos?

    ¿Quién puede convertirse en analista de datos o científico de datos?

    Cómo pasar de un programador de computadoras a un científico de datos

    Cómo comenzar mi carrera como científico de datos desde un gerente de TI (implementación de ERP)

    ¿Quién es un científico de datos?

    Para obtener un trabajo de ciencia de datos, ¿qué habilidades específicas necesitas tener en R o Python?

    ¿Cuáles son las mejores prácticas para la colaboración entre científicos de datos?

    ¿Cuáles son las buenas fichas de estadísticas para un analista / científico de datos?

    ¿Cuánto es importante saber sobre IR, PNL y modelado de temas para convertirse en un buen científico de datos? ¿Cuán relevantes son estos para la ciencia de datos?

    ¿Cuál es el camino correcto para convertirse en un científico de datos?

    ¿Es la ciencia de datos una moda? ¿Cuánto tiempo seguirá creciendo como campo?

    ¿Cuáles son las habilidades típicas que poseen los científicos de datos especializados en 'búsqueda' que la mayoría de los otros científicos de datos probablemente no tendrían?

    ¿Cuál sería su consejo para que pueda ser un científico de datos exitoso? ¿Es el siguiente currículum lo suficientemente bueno para una pasantía en ciencia de datos?

    ¿Cómo interactúan los analistas de datos y los científicos de datos con los administradores de bases de datos?