¿Es necesario Hadoop para los científicos de datos?

El trabajo de un científico de datos es extraer información útil oculta de los enormes datos que existen, independientemente de la fuente de los datos.

Las personas definen este papel de manera diferente. Como en, pocos dirían que el tipo debe saber cómo administrar los datos usando Hadoop junto con una buena capacidad para ejecutar estadísticas contra el conjunto de datos y pocos dirían que el tipo debería ser capaz de hacer las preguntas correctas y continuar haciéndolas hasta que Los resultados del análisis revelan lo que realmente se necesita.

Los científicos de datos tendrán que interactuar con la tecnología Hadoop: hay casos excepcionales en los que se les puede exigir que usen el doble sombrero de un desarrollador de Hadoop y un científico de datos. Entonces, si desea convertirse en un científico de datos, aprender Hadoop es útil para acelerar el proceso de convertirse en un científico de datos. Sin embargo, no saber Hadoop de ninguna manera lo descalificará como científico de datos.

Además, no es que deba conocer todo el ecosistema de Big Data. La experiencia con Hive and Pig es un excelente punto de venta para los científicos de datos. La experiencia en herramientas en la nube como Amazon S3 junto con Hadoop agrega valor a la base de conocimiento de un científico de datos.

¡Es todo un complemento!

¿Los científicos de datos son buenos gerentes de producto?

¿Qué hiciste como estudiante para prepararte para convertirte en un científico de datos?

¿Qué piensas sobre los científicos de datos de 'panorama general'?

Yo trabajo como científico de datos. ¿Tiene sentido para mí aprender finanzas cuantitativas por el bien de mis propias inversiones?

¿Qué es Data Science y cuáles son los roles de Data Scientist?

¿Estudiar ciencia de datos en la Universidad es un buen plan para el futuro?

La habilidad de Hadoop no es necesaria ni suficiente para un trabajo como científico de datos. Nunca he usado Hadoop y tengo varios amigos en la industria que están en la misma posición.

Existe una percepción pública de que la ciencia de datos siempre se trata de conjuntos de datos muy grandes, pero eso está equivocado. Los científicos de datos trabajan con datos de cualquier tamaño, y yo personalmente diría que las habilidades de investigación que separan a un científico de datos de un ingeniero de datos o un ingeniero de aprendizaje automático son en realidad mucho más importantes para datos muy pequeños que para datos grandes.

Dicho esto, muchas empresas que manejan datos muy grandes usan Hadoop, y tener experiencia previa en Hadoop les resultará atractivo. Sin embargo, a menos que realmente necesiten que alguien comience a funcionar la primera semana, no esperaría que la falta de experiencia previa en Hadoop sea lo único que le impida conseguir un trabajo. Mucho más importante es la capacidad de aprender cualquier tecnología nueva requerida para resolver el problema comercial, no el conocimiento de tecnología específica que está de moda en este momento.

Abhinav Maurya

Hadoop es una herramienta, las herramientas nunca son necesarias, son accesorios.

Lo que es necesario es una buena comprensión del procesamiento de datos distribuidos, lo que implica, cuáles son algunas operaciones básicas (mapear, reducir), qué es una combinación aleatoria, cómo se almacenan los datos en un entorno distribuido, cómo funciona un clúster, etc.

Es difícil aprender esos temas de manera abstracta de la misma manera que es muy difícil aprender a programar sin un lenguaje de programación. Por lo tanto, deberá utilizar una herramienta para aprender sobre el procesamiento de datos distribuidos. Esa herramienta puede ser Hadoop o cualquier otra herramienta.

Lo importante es esforzarse mucho para aprender a distinguir los conceptos de cómo se implementan esos conceptos en cada herramienta en particular. Si tiene éxito, cambiar las herramientas será fácil y tarde o temprano las herramientas cambiarán porque la tecnología avanza a un ritmo muy rápido.

Abhinav Maurya

NO.
Hadoop es una herramienta para hacer análisis de datos.
Intenta convertirte en ingeniero informático, primero.

Data Science es un campo de investigación de ingeniería informática. La investigación en ingeniería informática es realizada por hackers. Los hackers son ingenieros informáticos con más de 10000 horas de trabajo duro en ingeniería informática.

Data Scientist es una persona que puede utilizar su comando sobre los lenguajes de programación de la computadora en los datos proporcionados por alguna compañía para aumentar las ganancias de esa compañía.

Un científico de datos realmente competente solo puede ser reclutado después de una discusión profunda sobre el desempeño de TopCoder-GitHub-Kaggle de los solicitantes de empleo. NO hay otra manera con la industria para reclutar un científico de datos competente. Si alguna compañía está reclutando a un científico de datos, de cualquier otra manera, en el 90% de los casos, quedarán insatisfechos con la calidad de la producción obtenida de ese científico de datos.

Por lo tanto, solo mejore sus rendimientos de TopCoder-GitHub-Kaggle y deje que la industria decida la aplicación de sus habilidades.

Praveen Kumar Singh

Por favor, consulte mi respuesta en otro hilo

¿No puedo ser un científico de datos sin conocer a Hadoop? Veo que muchas personas se refieren a Hadoop cuando se habla de ciencia de datos / big data. ¿Hadoop es tan importante para un científico de datos? ¿No hay alguna alternativa a Hadoop?

Abhinav Maurya

Es imprescindible conocer el lenguaje en términos de manejo de Big Data. Algunas compañías lo requieren cuando contratan personal de Data Science, pero otras tampoco.

Abhinav Maurya

No, no es obligatorio, pero, por supuesto, agregará un valor extra en su perfil con seguridad.

Luis Argerich

More Interesting

¿La oferta de científicos de datos está creciendo más rápido que la demanda?

Cómo agudizar mis habilidades de ciencia de datos en el contexto de conseguir un trabajo como científico de datos

¿Qué pasos toma alguien con títulos en EE y CS para convertirse en un científico de datos?

Quiero convertirme en ingeniero de datos. ¿Qué tengo que hacer?

¿Cuáles son las posibilidades de que Australia incluya posiciones relacionadas con la ciencia de datos en SOL en un futuro cercano?

¿Qué roles específicos en ciencia de datos tienen actualmente una gran demanda en Silicon Valley?

¿Sería ventajoso saber muchas matemáticas para convertirse en un minero de datos?

¿Puedo aplicar los algoritmos de aprendizaje automático sin saber cómo funcionan realmente para resolver el problema de la ciencia de datos y convertirme en científico de datos?