¿Cómo puede un tipo de finanzas corporativas no técnicas entrar en Big Data?

La respuesta de Kevin es genial, pero estoy sentado en un asiento diferente y veo la pregunta desde una perspectiva diferente.

Soy un consumidor de todas las cosas que producen Kevin y sus píos. Me siento cómodo analizando el resultado de las aplicaciones que se encuentran en la parte superior de las grandes pilas de datos y extrayendo significado, pero no generando los datos en sí mismos o creando los entornos para limpiar, almacenar y / o mezclar datos. Soy más del mundo del análisis predictivo y las estadísticas, que es una competencia separada de ser un científico de grandes datos consumado.

Dada su formación académica, recomendaría leer un montón y tal vez tomar algunos cursos de estadística avanzada, análisis predictivo y visualización. Aprenda a ser un monstruo de análisis de datos, con la capacidad de comprender datos multidimensionales y especificar proyectos diseñados para extraer significado y conocimiento de grandes conjuntos de datos, a menudo en tiempo real. Estas son habilidades poderosas que lo harán valioso para casi cualquier empresa, grande o pequeña, y podrían ponerlo en la mentalidad de posiblemente comenzar su propio negocio.

Ser un consumidor efectivo de Big Data es valioso al igual que ser un generador y administrador de Big Data. No todos los roles de Big Data se relacionan directamente con convertirse en un científico de Big Data. Solo tienes que averiguar qué vector es el adecuado para ti.

Apache Hadoopasesoramiento profesional en informáticaBig Datatrabajos y carreras

¿Cómo es el Lenovo Y720 para un estudiante de informática?

¿Cómo puede un estudiante indio encontrar un MBA o una maestría en informática (curso y universidad)?

Cómo decidir entre una gerencia o un campo técnico

¿Qué es lo mejor que puede hacer un estudiante de primer año con especialización en informática para crear un currículum?

¿Cuáles son las mejores escuelas / programas de posgrado para aquellos interesados en la minería de datos / ciencia de datos?

¿Qué ciudades de EE. UU. Tienen la mejor relación hombre / mujer para un hombre soltero?

Aprenda R [1] y comience a usarlo en lugar de sobresalir para casi todo. No solo aprenda MapReduce [2] y Hadoop [3], úselo. Obtenga un conjunto de datos interesante o invente uno para practicar en Elastic MapReduce de Amazon [4]. Echa un vistazo a Pig [5]. Sea realmente bueno en SQL [6]. Si no puede combinar datos rápidamente en la línea de comandos de Unix, estará a años luz de todos los demás. [7] Enciende una caja ubuntu barata en la nube EC2 como tu sandbox. [8]

Este diagrama de Venn [9] lo deja bastante claro. En este momento no tienes las habilidades de piratería en bruto que necesitarás para ser considerado un científico de big data. Necesitarás al menos entender en qué debes meterte. La limpieza de datos antes de hacer grandes estadísticas [10] es bastante necesaria. Hilary Mason tiene una visión general bastante buena del flujo de datos necesarios para extraer información de grandes conjuntos de datos. [11]

El quid de la cuestión es que realmente necesita comprender cómo extraer respuestas de datos pequeños si desea poder extraer respuestas de datos grandes. Se profundizará en la informática de lo que se sentirá cómodo cuando comience a crecer. El teorema de CAP [12] describe todo tipo de problemas inherentes a los sistemas distribuidos que son la base de los grandes datos. Lea el documento de Amazon Dynamo [13] y el documento de Google BigTable [14]. Estas serán lecturas desafiantes, pero, sinceramente, cualquier tipo de arquitectura de big data dependerá de los conceptos popularizados por esos dos artículos científicos.

Los discos duros son (muy) lentos, la memoria es rápida. El almacenamiento en caché es importante y debe comprender por qué. Le tomará mucho tiempo leer este documento, pero le garantizo que tendrá una mejor comprensión de la arquitectura de los sistemas de Big Data si puede superarlo. [15] Comprender incluso una cuarta parte de este documento hará evidentes las compensaciones en ciertos sistemas de big data.

Ya que hasta ahora has sido un tipo de dinero, hablemos de eso. Si desea acceder a Big Data, invente una razón para que las personas le den dinero para hacer algún tipo de análisis sobre algún tipo de datos. Honestamente. Comience a recopilar datos sobre algo o comience a comprarlo, a limpiarlo y a venderlo para obtener ganancias. Este es un modelo de negocio bien conocido. ¿Sobre qué industria las personas necesitan preguntas respondidas? ¿Quién rastrea esos datos y a quién le venden los informes? A sus clientes no les importa mucho cómo recupera las respuestas de grandes conjuntos de datos. Solo quieren poder confiar en que lo que les está vendiendo es exacto o tan exacto como puede ser. Su propuesta de valor es que ha realizado el procesamiento de datos que no tenían los recursos para obtener ellos mismos.

Si no quiere profundizar tanto como lo describí en el primer párrafo y solo quiere contratar a personas que puedan profundizar tanto, le sugiero que al menos tenga una comprensión superficial de las tecnologías y tendencias involucradas. Le resultará difícil contratar a menos que sepa qué se está utilizando actualmente en la industria y por qué.

¡Buena suerte!

[1] Estadísticas introductorias con R:
http://www.amazon.com/Introducto …

[2] MapReduce: procesamiento de datos simplificado en grandes grupos:
http://labs.google.com/papers/ma …

[3] Hadoop:
http://hadoop.apache.org/

[4] Amazon Elastic MapReduce:
http://aws.amazon.com/elasticmap …

[5] Cerdo:
http://pig.apache.org/

[6] El arte de SQL:
http://www.amazon.com/Art-SQL-St …

[7] Procesamiento de texto con Unix:
http://www.brezeale.com/technica …

[8] Amazon Elastic Compute Cloud:
http://aws.amazon.com/ec2/

[9] El diagrama de Venn de ciencia de datos:
http://www.dataists.com/2010/09/…

[10] Elementos del aprendizaje estadístico:
http://www-stat.stanford.edu/~ti …

[11] Una taxonomía de la ciencia de datos – Hilary Mason:
http://www.dataists.com/2010/09/…