¿Existe alguna posición en el aprendizaje automático y los grandes datos donde uno no tiene que escribir códigos? Alguien más lo hará, solo desarrollas la teoría.

El análisis de Big Data es el proceso de examinar grandes conjuntos de datos que contienen una variedad de tipos de datos, es decir, Big Data, para descubrir patrones ocultos, correlaciones desconocidas, tendencias del mercado, preferencias del cliente y otra información comercial útil. Los resultados analíticos pueden conducir a nuevas oportunidades de ingresos de marketing más eficaces, un mejor servicio al cliente, una mejor eficiencia operativa, ventajas competitivas sobre las organizaciones rivales y otros beneficios comerciales.

Visite este enlace: Big Data Hadoop, Spark, Storm, Scala – Combo Training Classes Online | Big Data Hadoop, Spark, Storm, Scala – Cursos combinados en línea El objetivo principal del análisis de big data es ayudar a las empresas a tomar decisiones comerciales más informadas al permitir que DATA Scientist, modeladores predictivos y otros profesionales de análisis analicen grandes volúmenes de datos de transacciones, también como otras formas de datos que los programas convencionales de inteligencia empresarial (BI) pueden aprovechar. Eso podría incluir registros del servidor web y datos de Internet Click Stream, contenido de redes sociales e informes de actividad de redes sociales, texto de correos electrónicos de clientes y respuestas de encuestas, registros detallados de llamadas de teléfonos móviles y datos de máquinas capturados por sensores conectados a INTERNET. Algunas personas se asocian exclusivamente Big Data con datos semiestructurados y no estructurados de ese tipo, pero las firmas consultoras como Gartner Inc. y Forrester Research Inc. también consideran que las transacciones y otros datos estructurados son componentes válidos de las aplicaciones de análisis de Big Data.

Los grandes datos se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis preventivo, el análisis de texto y el método estático. El software de BI convencional y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Pero los datos semiestructurados y no estructurados pueden no encajar bien en el Data Warehouse tradicional basado en la base de datos relacional. Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de grandes datos que deben actualizarse con frecuencia o incluso continuamente, por ejemplo, datos en tiempo real sobre el rendimiento de aplicaciones móviles o de oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar grandes datos han recurrido a una nueva clase de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No Sql. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas agrupados.

En algunos casos, los sistemas Hadoop Cluster y No SQL se están utilizando como plataformas de aterrizaje y áreas de preparación de datos antes de que se carguen en un almacén de datos para su análisis, a menudo en forma resumida que es más propicio para las estructuras relacionales. Sin embargo, cada vez más, los proveedores de big data están impulsando el concepto de una toma de datos de Hadoop que sirve como el depósito central para los flujos entrantes de datos sin procesar de una organización. En tales arquitecturas, los subconjuntos de datos se pueden filtrar para su análisis en almacenes de datos y bases de datos de análisis, o se pueden analizar directamente en Hadoop utilizando herramientas de consulta por lotes, software de procesamiento de flujo y tecnologías SQL y Hdoop que ejecutan consultas interactivas y ad hoc escritas en SQL Las posibles trampas que pueden hacer tropezar a las organizaciones en iniciativas de análisis de big data incluyen la falta de habilidades analíticas internas y el alto costo de contratar profesionales analíticos experimentados. La cantidad de información que generalmente está involucrada, y su variedad, también pueden causar dolores de cabeza en la gestión de datos, incluidos la calidad de los datos y los problemas de coherencia. Además, integrar sistemas Hadoop y almacenes de datos puede ser un desafío, aunque varios proveedores ahora ofrecen conectores de software entre Hadoop y bases de datos relacionales, así como otras herramientas de integración de datos con capacidades de big data.

Las empresas están utilizando el poder de los conocimientos proporcionados por Big Data para establecer instantáneamente quién hizo qué, cuándo y dónde. El mayor valor creado por estos conocimientos oportunos y significativos de grandes conjuntos de datos es a menudo la toma de decisiones empresariales efectivas que permiten los conocimientos.

Extrapolar información valiosa de grandes cantidades de datos estructurados y no estructurados de fuentes dispares en diferentes formatos requiere la estructura adecuada y las herramientas adecuadas. Para obtener el máximo impacto comercial, este proceso también requiere una combinación precisa de personas, procesos y herramientas analíticas. Algunos de los beneficios comerciales potenciales de implementar una metodología eficaz de información de big data incluyen:

  1. Información oportuna de la gran cantidad de datos. Esto incluye los que ya están almacenados en las bases de datos de la compañía, de fuentes externas de terceros, Internet, redes sociales y sensores remotos.
  2. Monitoreo y pronóstico en tiempo real de eventos que impactan el desempeño del negocio o la operación
  3. Capacidad para encontrar, adquirir, extraer, manipular, analizar, conectar y visualizar datos con las herramientas de elección (SAP HANA, SAP Sybase®, SAP Intelligence Analysis para la aplicación del sector público de Palantir, Kapow®, Hadoop).
  4. Convergencia de la solución BDI para variedad con la velocidad de SAP HANA para velocidad
  5. La capacidad de Hadoop para volúmenes de gestionar grandes cantidades de datos, dentro o fuera de la nube, con validación y verificación.
  6. Identificar información significativa que pueda mejorar la calidad de las decisiones.
  7. Mitigar el riesgo optimizando las decisiones complejas de eventos no planificados más rápidamente
  • Aborda la velocidad y escalabilidad, movilidad y seguridad, flexibilidad y estabilidad.
  • Integración de datos estructurados y no estructurados.
  • El tiempo de realización de la información es crítico para extraer valor de varias fuentes de datos, incluidos dispositivos móviles, identificación por radiofrecuencia (RFID), la Web y una lista creciente de tecnologías sensoriales automatizadas.
  • SAP HANA proporciona el almacén de negocios / almacén de datos empresariales (BW / EDW) extremadamente acelerado.
  • Hadoop proporciona almacenamiento de datos confiable y procesamiento paralelo de datos de alto rendimiento, la capacidad de almacenar conjuntos de datos extremadamente grandes.
  • La nube es extensible, flexible, escalable, elástica, autorreparable, bajo demanda, etc. y proporciona la plataforma económica de hardware / software con todas las aplicaciones (como Kapow, SAP Intelligence Analysis for Public Sector application de Palantir, CRM, SAP Sybase IQ, SAP Data Services con análisis de texto) para una aceleración rápida con requisitos de menor costo de capital.

Hadoop es un marco de código abierto que permite almacenar y procesar grandes datos en un entorno distribuido en grupos de computadoras utilizando modelos de programación simples. Está diseñado para escalar desde servidores individuales hasta miles de máquinas, cada una de las cuales ofrece computación y almacenamiento local.

Este breve tutorial proporciona una introducción rápida a Big Data, el algoritmo de reducción de mapas y el sistema de archivos distribuidos de Hadoop.

Hadoop es un marco de código abierto de Apache escrito en Java que permite el procesamiento distribuido de grandes conjuntos de datos en grupos de computadoras que utilizan modelos de programación simples. Una aplicación con marco Hadoop funciona en un entorno que proporciona almacenamiento distribuido y cómputo en grupos de computadoras. Hadoop está diseñado para escalar de un solo servidor a miles de máquinas, cada una de las cuales ofrece computación y almacenamiento local.

  • Hadoop Common: son bibliotecas y utilidades de Java requeridas por otros módulos de Hadoop. Estas bibliotecas proporcionan abstracciones a nivel del sistema de archivos y del sistema operativo y contienen los archivos y scripts Java necesarios para iniciar Hadoop.
  • Hadoop YARN: este es un marco para la programación de trabajos y la gestión de recursos de clúster.
  • Sistema de archivos distribuidos de Hadoop (HDFS ™): un sistema de archivos distribuido que proporciona acceso de alto rendimiento a los datos de la aplicación.
  • Hadoop MapReduce: este es un sistema basado en YARN para el procesamiento paralelo de grandes conjuntos de datos.

Hadoop MapReduce es un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos en paralelo en grandes clústeres (miles de nodos) de hardware Commodity de manera confiable y tolerante a fallas.

El término MapReduce en realidad se refiere a las siguientes dos tareas diferentes que realizan los programas de Hadoop:

  • La tarea de mapa: esta es la primera tarea, que toma datos de entrada y los convierte en un conjunto de datos, donde los elementos individuales se dividen en tuplas (pares clave / valor).
  • La tarea Reducir: esta tarea toma la salida de una tarea de mapa como entrada y combina esas tuplas de datos en un conjunto más pequeño de tuplas. La tarea de reducción siempre se realiza después de la tarea de mapa.

Por lo general, tanto la entrada como la salida se almacenan en un sistema de archivos. El marco se encarga de programar tareas, monitorearlas y volver a ejecutar las tareas fallidas.

El marco MapReduce consta de un único JobTracker maestro y un TaskTracker esclavo por nodo de clúster. El maestro es responsable de la gestión de recursos, rastreando el consumo / disponibilidad de recursos y programando las tareas del componente de trabajos en los esclavos, monitoreándolos y volviendo a ejecutar las tareas fallidas. Los esclavos TaskTracker ejecutan las tareas según lo indicado por el maestro y proporcionan información del estado de la tarea al maestro periódicamente.

JobTracker es un punto único de falla para el servicio Hadoop MapReduce, lo que significa que si JobTracker se cae, todos los trabajos en ejecución se suspenden.

Sistema de archivos distribuidos de Hadoop

Hadoop puede trabajar directamente con cualquier sistema de archivos distribuido montable como Local FS, HFTP FS, S3 FS y otros, pero el sistema de archivos más común utilizado por Hadoop es el Sistema de archivos distribuidos de Hadoop (HDFS).

El Sistema de archivos distribuidos de Hadoop (HDFS) se basa en el Sistema de archivos de Google (GFS) y proporciona un sistema de archivos distribuido que está diseñado para ejecutarse en grandes grupos (miles de computadoras) de máquinas pequeñas de una manera confiable y tolerante a fallas.

HDFS utiliza una arquitectura maestro / esclavo donde el maestro consiste en un solo NameNode que administra los metadatos del sistema de archivos y uno o más DataNodes esclavos que almacenan los datos reales.

Un archivo en un espacio de nombres HDFS se divide en varios bloques y esos bloques se almacenan en un conjunto de DataNodes. NameNode determina la asignación de bloques a los DataNodes. DataNodes se encarga de la operación de lectura y escritura con el sistema de archivos. También se encargan de la creación, eliminación y replicación de bloques según las instrucciones proporcionadas por NameNode.

HDFS proporciona un shell como cualquier otro sistema de archivos y hay una lista de comandos disponibles para interactuar con el sistema de archivos. Estos comandos de shell se tratarán en un capítulo separado junto con ejemplos apropiados.

¿Cómo funciona Hadoop?

Nivel 1

Un usuario / aplicación puede enviar un trabajo a Hadoop (un cliente de trabajo hadoop) para el proceso requerido especificando los siguientes elementos:

  1. La ubicación de los archivos de entrada y salida en el sistema de archivos distribuido.
  2. Las clases de Java en forma de archivo jar que contiene la implementación de las funciones map y reduce.
  3. La configuración del trabajo estableciendo diferentes parámetros específicos del trabajo.

Etapa 2

El cliente de trabajo de Hadoop luego envía el trabajo (jar / ejecutable, etc.) y la configuración al JobTracker, que luego asume la responsabilidad de distribuir el software / configuración a los esclavos, programar tareas y monitorearlas, proporcionando información de estado y diagnóstico al cliente de trabajo .

Etapa 3

Los TaskTrackers en diferentes nodos ejecutan la tarea según la implementación de MapReduce y la salida de la función reducir se almacena en los archivos de salida en el sistema de archivos.

Ventajas de Hadoop

  • El marco Hadoop permite al usuario escribir y probar rápidamente sistemas distribuidos. Es eficiente y distribuye automáticamente los datos y el trabajo a través de las máquinas y, a su vez, utiliza el paralelismo subyacente de los núcleos de la CPU.
  • Hadoop no depende del hardware para proporcionar tolerancia a fallas y alta disponibilidad (FTHA), sino que la biblioteca de Hadoop se ha diseñado para detectar y manejar fallas en la capa de aplicación.
  • Los servidores se pueden agregar o quitar dinámicamente del clúster y Hadoop continúa funcionando sin interrupción.
  • Otra gran ventaja de Hadoop es que, además de ser de código abierto, es compatible con todas las plataformas, ya que está basado en Java.

Creo que incluso los informáticos teóricos, matemáticos profesionales, físicos escriben código; Es una era moderna, ¿cómo se puede desarrollar la teoría sin codificar cuando se trata de la investigación en el aprendizaje automático?

La investigación teórica requiere prototipos básicos; Además, sin un conocimiento decente en la codificación real, es difícil desarrollar un algoritmo útil aplicable a problemas del mundo real.

Si quieres desarrollar teoría, entra en la academia. Allí, en ocasiones, todavía es posible publicar trabajos teóricos. De acuerdo, es útil que tus estudiantes de posgrado codifiquen para que puedas mostrar que tus ideas realmente funcionan. Ah, claro, para obtener estudiantes de posgrado probablemente tengas que haber sido un estudiante de posgrado.

Pero en la industria? Cada hora que gaste en una nueva configuración teórica tendrá que dedicar un mes a realizarla. En primer lugar, tendrá dificultades para convencer a las personas de su idea si no puede al menos codificar una prueba de concepto.

Esta es una pregunta ingenua y para demostrar competencia en tal posición, necesita logros en programación y proyectos. También debe mostrar el plan de estudios académico para apoyar estas propuestas teóricas, que siempre requerirán sofisticación matemática para su aprendizaje automático. Puede llegar a codificar muy poco en este puesto de investigación si 1. su equipo tiene suficiente apoyo para el programa y 2. puede demostrar rápidamente una prueba de concepto. La primera es una consideración práctica de que su trabajo es relevante en absoluto con una empresa, y la segunda es que la teoría no es aire caliente y es demostrable en código psuedo o programación funcional rápida.

¿Cómo desarrollarás la teoría? El punto central de la ciencia de datos, que lo diferencia de las estadísticas, es que, como en cualquier otra ciencia, las teorías tienen que ser falsificables en función de los datos. Si no escribe código para ingeniería de características y análisis de datos, sus teorías no serán verificadas.

Creo que la mayoría del aprendizaje automático, los grandes datos y los científicos de datos tienen que escribir algo de código. Sin embargo, creo que en los niveles gerenciales más altos de la ciencia de datos no tendría que escribir el código usted mismo si no quisiera. Por lo tanto, un puesto de Director de Ciencia de Datos o gerente de un equipo de científicos de datos probablemente no necesitará codificación. Sin embargo, me imagino que para llegar a una posición como esa ya sabes cómo codificar las cosas bastante bien.

También puede haber algún puesto de investigador en la industria que sea más similar a los puestos académicos si desarrolla la teoría.

Pero para mí, al menos algo de codificación es una parte esencial del aprendizaje automático, big data y data science. Sería como tratar de escribir un libro de cocina pero no querer cocinar. Podrías desarrollar todas estas teorías sobre qué ingredientes van bien juntos, pero si no lo has practicado, ¿por qué alguien debería tomarte en serio?

Si totalmente.

Esto se llama consultoría estratégica.

En McKinsey & Company tienen básicamente dos equipos, uno es el equipo de Analytics que escribe códigos y todo eso, y el otro equipo desarrolla las teorías y obtiene información de los datos procesados.

Ambos equipos trabajan sinérgicamente.

More Interesting

¿Cuál es el futuro, el salario y la demanda de científico de datos versus ingeniero de datos en EE. UU.?

Quiero trabajar como científico de datos y hacer del mundo un lugar mejor. Tengo un doctorado en ingeniería y estoy casi parcialmente calificado como contador público. ¿Qué podría hacer y dónde puedo encontrar trabajos interesantes?

¿Cómo debo prepararme para un trabajo de científico de datos? Actualmente, soy estudiante de primer año de ingeniería informática.

Cómo saber si realmente me apasiona la ciencia de datos / análisis de datos

¿Cómo se ve el perfil (currículum y carta de presentación) de un ingeniero de datos o científico de datos en Facebook?

¿Dónde puedo prepararme para diferentes temas como estructura de datos, algoritmos, SO, DBMS, etc. para el tema GATE en el formato MCQ?

Como científico de datos junior de fin de estudios en París, ¿qué tan difícil será encontrar oportunidades de trabajo en los Estados Unidos?

¿Cuáles son las etapas de crecimiento de un científico de datos?

Recién salido de una universidad de ingeniería, ¿cuál es una mejor opción de trabajo a largo plazo, una carrera en análisis de datos o una carrera en consultoría?

¿Qué hace a un buen científico?

¿Qué hace realmente un científico de datos en tiempo real dentro de una empresa?

¿Cómo es ser un miembro de Insight Data Science?

¿Cuáles son las mejores empresas en la India para trabajar como Data Scientist? ¿Qué tan buenos son los salarios?

¿Qué lenguaje de programación debo aprender a ser un científico de datos?

¿Cómo pueden los aspirantes a científicos de datos aprovechar mejor los recursos de Kaggle?