Aprenda R [1] y comience a usarlo en lugar de sobresalir para casi todo. No solo aprenda MapReduce [2] y Hadoop [3], úselo. Obtenga un conjunto de datos interesante o invente uno para practicar en Elastic MapReduce de Amazon [4]. Echa un vistazo a Pig [5]. Sea realmente bueno en SQL [6]. Si no puede combinar datos rápidamente en la línea de comandos de Unix, estará a años luz de todos los demás. [7] Enciende una caja ubuntu barata en la nube EC2 como tu sandbox. [8]
Este diagrama de Venn [9] lo deja bastante claro. En este momento no tienes las habilidades de piratería en bruto que necesitarás para ser considerado un científico de big data. Necesitarás al menos entender en qué debes meterte. La limpieza de datos antes de hacer grandes estadísticas [10] es bastante necesaria. Hilary Mason tiene una visión general bastante buena del flujo de datos necesarios para extraer información de grandes conjuntos de datos. [11]
El quid de la cuestión es que realmente necesita comprender cómo extraer respuestas de datos pequeños si desea poder extraer respuestas de datos grandes. Se profundizará en la informática de lo que se sentirá cómodo cuando comience a crecer. El teorema de CAP [12] describe todo tipo de problemas inherentes a los sistemas distribuidos que son la base de los grandes datos. Lea el documento de Amazon Dynamo [13] y el documento de Google BigTable [14]. Estas serán lecturas desafiantes, pero, sinceramente, cualquier tipo de arquitectura de big data dependerá de los conceptos popularizados por esos dos artículos científicos.
Los discos duros son (muy) lentos, la memoria es rápida. El almacenamiento en caché es importante y debe comprender por qué. Le tomará mucho tiempo leer este documento, pero le garantizo que tendrá una mejor comprensión de la arquitectura de los sistemas de Big Data si puede superarlo. [15] Comprender incluso una cuarta parte de este documento hará evidentes las compensaciones en ciertos sistemas de big data.
Ya que hasta ahora has sido un tipo de dinero, hablemos de eso. Si desea acceder a Big Data, invente una razón para que las personas le den dinero para hacer algún tipo de análisis sobre algún tipo de datos. Honestamente. Comience a recopilar datos sobre algo o comience a comprarlo, a limpiarlo y a venderlo para obtener ganancias. Este es un modelo de negocio bien conocido. ¿Sobre qué industria las personas necesitan preguntas respondidas? ¿Quién rastrea esos datos y a quién le venden los informes? A sus clientes no les importa mucho cómo recupera las respuestas de grandes conjuntos de datos. Solo quieren poder confiar en que lo que les está vendiendo es exacto o tan exacto como puede ser. Su propuesta de valor es que ha realizado el procesamiento de datos que no tenían los recursos para obtener ellos mismos.
Si no quiere profundizar tanto como lo describí en el primer párrafo y solo quiere contratar a personas que puedan profundizar tanto, le sugiero que al menos tenga una comprensión superficial de las tecnologías y tendencias involucradas. Le resultará difícil contratar a menos que sepa qué se está utilizando actualmente en la industria y por qué.
¡Buena suerte!
[1] Estadísticas introductorias con R:
http://www.amazon.com/Introducto …
[2] MapReduce: procesamiento de datos simplificado en grandes grupos:
http://labs.google.com/papers/ma …
[3] Hadoop:
http://hadoop.apache.org/
[4] Amazon Elastic MapReduce:
http://aws.amazon.com/elasticmap …
[5] Cerdo:
http://pig.apache.org/
[6] El arte de SQL:
http://www.amazon.com/Art-SQL-St …
[7] Procesamiento de texto con Unix:
http://www.brezeale.com/technica …
[8] Amazon Elastic Compute Cloud:
http://aws.amazon.com/ec2/
[9] El diagrama de Venn de ciencia de datos:
http://www.dataists.com/2010/09/…
[10] Elementos del aprendizaje estadístico:
http://www-stat.stanford.edu/~ti …
[11] Una taxonomía de la ciencia de datos – Hilary Mason:
http://www.dataists.com/2010/09/…
[12] Teorema de la PAC:
http://en.wikipedia.org/wiki/CAP …
[13] Papel Amazon Dynamo:
http://s3.amazonaws.com/AllThing …
[14] BigTable: un sistema de almacenamiento distribuido para datos estructurados
http://labs.google.com/papers/bi …
[15] Lo que todo programador debe saber sobre la memoria:
http://citeseerx.ist.psu.edu/vie …