¿Cómo es útil Microsoft Azure para los científicos de datos?

MS Azure se puede usar en la tubería de ciencia de datos de varias maneras diferentes. La opción obvia es utilizar AzureML. Con AzureML, un científico de datos puede usar su navegador y crear experimentos complejos de aprendizaje automático sin escribir una sola línea de código (simplemente arrastre y suelte diferentes módulos en el lienzo del experimento). Es una forma visual de diseñar y ejecutar algoritmos de aprendizaje. También puede usar R, Python y SQL para realizar modificaciones de datos e ingeniería de características.
Recientemente, el cuaderno Jupiter (anteriormente conocido como IPython) se ha agregado a AzureML (mi favorito). Por lo tanto, puede agregar fácilmente su conjunto de datos y escribir código Python en un cuaderno y obtener la misma sensación de Anaconda con la elasticidad de Cload.
El plan de Microsoft es admitir más idiomas de esta manera, como R y Julia.
Con AzureML, la transición del diseño y la prueba a la producción es muy fácil. En realidad, solo necesita dos clics (para el diseñador visual) o unas pocas líneas de código para convertir su modelo en un servicio web totalmente funcional.

Si necesita trabajar con Hadoop, Azure proporciona Hdinsight, que es la distribución de HadoonWorks de Hadoop. Incluye Hive, MapReduce, Spark y …

Para el almacenamiento de datos, Azure proporciona AzureSQL (base de datos relacional), DocumentDB (base de datos de documentos), AzureTable (almacén de valores clave) y AzureBlob (almacén de blobs) además de HDFS.

Por cierto, Azure incluye eventHub y streamAnalytics para la transmisión de datos (puede considerarlo como un motor de procesamiento de eventos complejo).

En resumen, hay varias opciones para los científicos de datos en Azure y algunas de ellas se superponen en la funcionalidad.

Por cierto, todas las herramientas y tecnologías mencionadas se pueden integrar con Excel y PowerBI.

En casi todos los sentidos posibles.

No reiteraré lo que Pouria y Roberto ya mencionaron, pero creo que una lista de las increíbles herramientas disponibles para los científicos de datos en Azure estaría incompleta sin mencionar tanto Data Factory como Data Lake. Ambas ofertas son bastante nuevas (en realidad, tuvieron que verificar dos veces para asegurarse de que ambas se hayan anunciado públicamente).

Data Lake es una gran oferta de almacenamiento y cómputo de datos que es realmente algo sorprendente. Puede pensarlo casi como Hadoop, pero con la capacidad de escalar dinámicamente en función de los recursos disponibles.

Data Factory es una oferta que hace que la creación de movimiento de datos y el procesamiento de tuberías sea tan fácil como definir algunos valores de configuración. Con él, puede programar el preprocesamiento, la puntuación (a través de Azure ML) y mover los resultados a un lugar fácilmente accesible (como Azure SQL).

Microsoft Azure Data Lake es un servicio de nube pública altamente escalable que permite a los desarrolladores, científicos, profesionales de negocios y otros clientes de Microsoft obtener información de conjuntos de datos grandes y complejos. Como con la mayoría de las ofertas de data lake, el servicio se compone de dos partes: almacenamiento de datos y análisis de datos.

Según Microsoft, los clientes pueden aprovisionar Azure Data Lakes para almacenar una cantidad ilimitada de datos estructurados, semiestructurados o no estructurados de una variedad de fuentes. El servicio no impone límites en el tamaño de las cuentas, el tamaño de los archivos o la cantidad de datos que se pueden almacenar en un lago de datos.

En el lado analítico, los clientes de Azure Data Lake pueden escribir su propio código para realizar tareas específicas de análisis y transformación de datos operacionales o transaccionales. También pueden usar herramientas existentes, como el Sistema de plataforma de análisis de Microsoft o Azure Data Lake Analytics, para consultar conjuntos de datos.

Azure Data Lake se basa en la plataforma de administración de clúster Apache Hadoop YARN (Yet Another Resource Negotiator) y está diseñado para escalar dinámicamente en servidores SQL en Azure Data Lake, así como en servidores en Azure SQL Database y Azure SQL Data Warehouse. Un enfoque unificado dentro del ecosistema de Hadoop ayuda al servicio a adaptarse a las necesidades de los proyectos de Big Data, que requieren mucha computación y a menudo tienen fuentes de datos distribuidas.

El precio de Azure Data Lake depende de numerosas variables, incluida la capacidad de almacenamiento, la cantidad de unidades de análisis (AU) por minuto, la cantidad de trabajos completados y el costo de los clústeres Hadoop y Spark administrados. Al momento de escribir este artículo, el servicio Azure Data Lake Store tiene un precio de $ 0.039 por GB por mes para pagar a medida que avanza, con descuentos basados ​​en la capacidad de hasta 33% para compromisos mensuales. La Calculadora de precios de Azure puede ayudar a los clientes a determinar los costos exactos del lago de datos.

Encontrar un equilibrio entre la regulación del lago de datos y mantenerlo abierto para usos analíticos es una de las consideraciones más importantes para una implementación exitosa.

Hablando honestamente, Microsoft no es un nombre que tradicionalmente se asociaría con la ciencia de datos.

Pero tal como lo estamos viendo en otras áreas, ¡rápidamente se pusieron al día!

Recientemente, hemos visto aparecer los siguientes servicios en el radar de Microsoft Data Science:

• Azure Machine Learning

• Cortana Analytics Suite

• Adquisición de Datazen y Revolution Analytics

• Power BI

• Integración de R en SQL Server

Algunas de las formas en que Microsoft Azure ayuda a los científicos de datos I o analista son

El uso de Microsoft Azure Data Scientist puede entrenar petabytes de datos usando una clase SVM para la detección de anomalías o mediante el uso de PCA o “Aprendizaje con recuentos”.

Azure ML proporciona un entorno dinámico para el desarrollo y la implementación en la nube de soluciones analíticas predictivas

La API de Azure Machine Learning también fomenta Hadoop y Spark para el procesamiento de big data, por lo que es la mejor opción independientemente de la plataforma.

El código R y Python está configurado para integrarse en el flujo de trabajo de Azure ML

Por lo tanto, Microsoft Azure ayuda en el desarrollo meticuloso, la selección y el filtrado de características, que es la solución para la mayoría de los desafíos de la ciencia de datos. Básicamente, la identificación de objetivos y necesidades comerciales es indispensable para hacer una solución exitosa de ciencia de datos. El uso de Microsoft Azure, junto con una comprensión detallada de los residuos, es necesario para la evaluación del rendimiento del modelo predictivo.

La plataforma en la nube Microsoft Azure Machine Learning proporciona herramientas de gestión de datos, transformación y aprendizaje automático simplificadas pero potentes. Los scripts de lenguaje R se integran con los módulos incorporados de Azure ML para extender la plataforma.

Se le proporcionará información sobre cómo realizar tareas de ciencia de datos, incluida la administración de datos, la transformación de datos y el aprendizaje automático en el entorno de nube Azure ML.

Lea también: https://azureinfo.microsoft.com/

Como la computación en la nube se ha apoderado del mundo por una tormenta, el cambio de paradigma en las prácticas informáticas está respaldado por una necesidad adicional de capacitación en certificación de Azure.

Azure ayuda a desarrollar, probar, implementar y administrar aplicaciones y servicios para organizaciones a través de una red global de centros de datos. Estos centros de datos se conocen como la nube y ayudan a las organizaciones a ahorrar grandes cantidades en el desarrollo de infraestructura.

Sin duda, Azure es la mayor ayuda comercial actual, ayuda desde la reducción de costos hasta un mejor desarrollo comercial. Las carreras en Azure están en plena floración, y la búsqueda de profesionales expertos continúa. Puede comenzar su plan de aprendizaje de Azure con los diversos cursos de capacitación de certificación Azure de la cartera de NetCom Learning.

¡Gracias!

Por muchas razones:

  • Pueden usar el componente Machine Learning de la plataforma
  • Es una plataforma muy amplia y sólida para hacer simulaciones.
  • El componente IaaS de Azure tiene máquinas virtuales muy potentes que se pueden usar para simulación
  • El componente HPC (High Performance Computing) de azure es muy flexible y puede extenderse desde uno existente en las instalaciones.
  • El componente de servicios en la nube también se puede escalar casi infinitamente para tareas de alto rendimiento (Roles de trabajo)

Más información y detalles aquí:

Big Compute: HPC y Batch

Página en microsoft.com (Enlace a Microsoft Research que detalla el componente HPC)

Los científicos de datos pueden usar la plataforma de nube de aprendizaje automático Microsoft Azure en su trabajo. La plataforma es simple. Ofrece potentes herramientas de gestión de datos, transformación y aprendizaje automático. R es un lenguaje ampliamente utilizado en la ciencia de datos y entre los estadísticos. Las secuencias de comandos escritas en R se integran bien con los módulos Azure ML para ampliar la plataforma. Los científicos de datos suelen publicar los modelos que se ejecutan en Azure ML como servicios web. El entorno de nube Azure ML proporciona información clara para realizar tareas de ciencia de datos como la gestión de datos, la transformación de datos y el aprendizaje automático. Puede obtener más información sobre Azure a través del entrenamiento de Intellipaat en Azure. El curso proporciona detalles completos sobre la plataforma en la nube y los detalles del curso pueden derivarse del siguiente enlace:

https://intellipaat.com/microsof