¿Cómo puede un tipo de finanzas corporativas no técnicas entrar en Big Data?

La respuesta de Kevin es genial, pero estoy sentado en un asiento diferente y veo la pregunta desde una perspectiva diferente.

Soy un consumidor de todas las cosas que producen Kevin y sus píos. Me siento cómodo analizando el resultado de las aplicaciones que se encuentran en la parte superior de las grandes pilas de datos y extrayendo significado, pero no generando los datos en sí mismos o creando los entornos para limpiar, almacenar y / o mezclar datos. Soy más del mundo del análisis predictivo y las estadísticas, que es una competencia separada de ser un científico de grandes datos consumado.

Dada su formación académica, recomendaría leer un montón y tal vez tomar algunos cursos de estadística avanzada, análisis predictivo y visualización. Aprenda a ser un monstruo de análisis de datos, con la capacidad de comprender datos multidimensionales y especificar proyectos diseñados para extraer significado y conocimiento de grandes conjuntos de datos, a menudo en tiempo real. Estas son habilidades poderosas que lo harán valioso para casi cualquier empresa, grande o pequeña, y podrían ponerlo en la mentalidad de posiblemente comenzar su propio negocio.

Ser un consumidor efectivo de Big Data es valioso al igual que ser un generador y administrador de Big Data. No todos los roles de Big Data se relacionan directamente con convertirse en un científico de Big Data. Solo tienes que averiguar qué vector es el adecuado para ti.

Aprenda R [1] y comience a usarlo en lugar de sobresalir para casi todo. No solo aprenda MapReduce [2] y Hadoop [3], úselo. Obtenga un conjunto de datos interesante o invente uno para practicar en Elastic MapReduce de Amazon [4]. Echa un vistazo a Pig [5]. Sea realmente bueno en SQL [6]. Si no puede combinar datos rápidamente en la línea de comandos de Unix, estará a años luz de todos los demás. [7] Enciende una caja ubuntu barata en la nube EC2 como tu sandbox. [8]

Este diagrama de Venn [9] lo deja bastante claro. En este momento no tienes las habilidades de piratería en bruto que necesitarás para ser considerado un científico de big data. Necesitarás al menos entender en qué debes meterte. La limpieza de datos antes de hacer grandes estadísticas [10] es bastante necesaria. Hilary Mason tiene una visión general bastante buena del flujo de datos necesarios para extraer información de grandes conjuntos de datos. [11]

El quid de la cuestión es que realmente necesita comprender cómo extraer respuestas de datos pequeños si desea poder extraer respuestas de datos grandes. Se profundizará en la informática de lo que se sentirá cómodo cuando comience a crecer. El teorema de CAP [12] describe todo tipo de problemas inherentes a los sistemas distribuidos que son la base de los grandes datos. Lea el documento de Amazon Dynamo [13] y el documento de Google BigTable [14]. Estas serán lecturas desafiantes, pero, sinceramente, cualquier tipo de arquitectura de big data dependerá de los conceptos popularizados por esos dos artículos científicos.

Los discos duros son (muy) lentos, la memoria es rápida. El almacenamiento en caché es importante y debe comprender por qué. Le tomará mucho tiempo leer este documento, pero le garantizo que tendrá una mejor comprensión de la arquitectura de los sistemas de Big Data si puede superarlo. [15] Comprender incluso una cuarta parte de este documento hará evidentes las compensaciones en ciertos sistemas de big data.

Ya que hasta ahora has sido un tipo de dinero, hablemos de eso. Si desea acceder a Big Data, invente una razón para que las personas le den dinero para hacer algún tipo de análisis sobre algún tipo de datos. Honestamente. Comience a recopilar datos sobre algo o comience a comprarlo, a limpiarlo y a venderlo para obtener ganancias. Este es un modelo de negocio bien conocido. ¿Sobre qué industria las personas necesitan preguntas respondidas? ¿Quién rastrea esos datos y a quién le venden los informes? A sus clientes no les importa mucho cómo recupera las respuestas de grandes conjuntos de datos. Solo quieren poder confiar en que lo que les está vendiendo es exacto o tan exacto como puede ser. Su propuesta de valor es que ha realizado el procesamiento de datos que no tenían los recursos para obtener ellos mismos.

Si no quiere profundizar tanto como lo describí en el primer párrafo y solo quiere contratar a personas que puedan profundizar tanto, le sugiero que al menos tenga una comprensión superficial de las tecnologías y tendencias involucradas. Le resultará difícil contratar a menos que sepa qué se está utilizando actualmente en la industria y por qué.

¡Buena suerte!

[1] Estadísticas introductorias con R:
http://www.amazon.com/Introducto

[2] MapReduce: procesamiento de datos simplificado en grandes grupos:
http://labs.google.com/papers/ma

[3] Hadoop:
http://hadoop.apache.org/

[4] Amazon Elastic MapReduce:
http://aws.amazon.com/elasticmap

[5] Cerdo:
http://pig.apache.org/

[6] El arte de SQL:
http://www.amazon.com/Art-SQL-St

[7] Procesamiento de texto con Unix:
http://www.brezeale.com/technica

[8] Amazon Elastic Compute Cloud:
http://aws.amazon.com/ec2/

[9] El diagrama de Venn de ciencia de datos:
http://www.dataists.com/2010/09/…

[10] Elementos del aprendizaje estadístico:
http://www-stat.stanford.edu/~ti

[11] Una taxonomía de la ciencia de datos – Hilary Mason:
http://www.dataists.com/2010/09/…

[12] Teorema de la PAC:
http://en.wikipedia.org/wiki/CAP

[13] Papel Amazon Dynamo:
http://s3.amazonaws.com/AllThing

[14] BigTable: un sistema de almacenamiento distribuido para datos estructurados
http://labs.google.com/papers/bi

[15] Lo que todo programador debe saber sobre la memoria:
http://citeseerx.ist.psu.edu/vie

More Interesting

¿Cuáles son las materias de ingeniería para un estudiante de 1er año de ciencias de la computación?

¿A qué entrenamiento debo ir ahora? ¿Cuáles son los buenos institutos en Ghazvanid, Noida y Delhi para esto?

¿Qué actividades no relacionadas con la informática ayudan a entrenar al cerebro a pensar más como un informático?

Cómo dejar de ser un usuario de bibliotecas y diseñar un código / programa / sistema real

¿Por qué los estudiantes no informáticos toman CSE?

¿Debo seguir trabajando en una licenciatura en informática?

¿Aprende a crear sitios web cuando se especializa en informática, o es un título completamente separado?

¿Cómo debo abordar mi ambición para llegar a mi destino en los próximos 3 o 4 años?

¿Alguien puede compartir una historia de éxito de aprender a programar tarde y conseguir un trabajo en una gran empresa como Google?

¿Está saturada la informática?

¿Cómo puede un tipo de finanzas corporativas no técnicas entrar en Big Data?

Cómo aprovechar al máximo mis conferencias de informática

¿Cómo un transistor NpN con una ganancia de 100 toma una entrada de 1 mA a la base y amplifica a 100 mA fuera del colector? ¿Dónde se conectan el lado positivo y negativo de mi fuente de alimentación y en qué orden?

¿Debo obtener una maestría en ciencias de la computación después de 6 años de experiencia como ingeniero de software?

¿Cuál es el conocimiento previo necesario para un estudiante de ingeniería CS justo antes de ingresar a la universidad?