¿Qué habilidades necesito para ser un científico de datos en Google o Facebook?

Facebook busca un amplio conjunto de habilidades al contratar científicos de datos para análisis de productos:

  • Habilidades matemáticas: ¿Entiende las estadísticas, la probabilidad y la combinatoria básica? ¿Te sientes cómodo con las ecuaciones matemáticas? ¿Puedes pensar de forma cuantitativa, estructurada, precisa y rigurosa?
  • Habilidades técnicas: ¿Puede demostrar profundidad en un área técnica relevante para realizar investigaciones en conjuntos de datos muy grandes generados por sistemas de software? ¿Puedes resolver un problema de análisis con SQL? ¿Se puede codificar un algoritmo simple en un lenguaje de programación procesal o SQL avanzado?
  • Habilidades de razonamiento de análisis: ¿Puede tomar una situación ambigua y aportar una estructura suficiente para generar un resultado procesable? Esto incluye una combinación de escepticismo científico, conciencia y cuestionamiento de suposiciones, pensamiento en términos de modelos causales, capacidad de generar un camino de investigación que conduzca a respuestas y la capacidad de enmarcar problemas y poner todo junto en una comprensión coherente.
  • Sentido del producto: ¿Tiene una intuición suficiente para que los productos piensen en términos de objetivos comerciales y de producto, consideraciones de interacción del usuario y objetivos comerciales? ¿Puedes definir un criterio de éxito para un producto?
  • Habilidades de comunicación: ¿Puede comunicar sus ideas de manera clara y estructurada y organizada? ¿Puedes formar un punto de vista y expresarlo sucintamente? ¿Eres capaz de desafiar algo que dudas, pero lo suficientemente flexible como para ver otros puntos de vista?

No existe una formación ideal para el análisis de productos. Los antecedentes de las personas son diversos, y probablemente el requisito principal y más difícil de articular es una habilidad para encontrar ideas procesables en conjuntos de datos estructurados complejos.

Para las personas que trabajan en el lado de la investigación de la ciencia de datos, hay consideraciones adicionales: doctorado o equivalente en un campo relevante, generalmente estadística o aprendizaje automático estadístico, y un pensamiento excepcionalmente riguroso y objetivo.

Para las personas que trabajan en el lado de la ingeniería de la ciencia de datos, las habilidades de producto y análisis son menos importantes, mientras que las habilidades de ingeniería de software y ETL (Extraer-Transformar-Cargar) son fundamentales. Las habilidades de ETL incluyen diseño de esquemas de bases de datos, arquitectura de procesamiento de datos de etapas múltiples y construcción de sistemas.

Estas son las habilidades:

Quizás también debería echar un vistazo a los grados que poseen los científicos de datos:

Sueldos de científicos de datos
Así como la descripción del trabajo de los científicos de datos cambia según la industria, también cambia la compensación por los trabajos de los científicos de datos. Basado en 7,000 perfiles recopilados por Paysa, el salario promedio de los científicos de datos es de $ 189,000 por año. Esto incluye un salario base de $ 107K, un bono anual de $ 26K, un bono de firma de $ 20K y un patrimonio anual de $ 56K.

Por supuesto, los salarios de los científicos de datos dependen tanto de las empresas para las que trabajan como de la ubicación de su empleo. Por ejemplo, echemos un vistazo a cómo los salarios difieren según la empresa. Las cuatro principales compañías de científicos de datos son Facebook, Microsoft, Twitter y Apple. [1]

Notas al pie

[1] Cómo convertirse en un científico de datos

Un científico de datos es mejor estadístico que cualquier ingeniero de software y mejor ingeniero en comparación con cualquier estadístico. Se dice que el científico de datos es el “trabajo más sexy del siglo XXI. Analicemos cómo convertirse en un científico de datos (¿Cuáles son las habilidades necesarias?)

1.¿Cuáles son los roles y las responsabilidades de los científicos de datos?

Los científicos de datos son grandes expertos en datos. Toman una gran cantidad de puntos de datos desordenados (no estructurados y estructurados) y los limpian, masajean y organizan con sus formidables habilidades en matemáticas, estadísticas y programación. Luego aplican todos sus poderes analíticos para descubrir soluciones ocultas a los desafíos comerciales y presentarlo a la empresa. En otras palabras, los científicos de datos utilizan su conocimiento de estadísticas y modelos para convertir datos en información procesable sobre todo, desde el desarrollo de productos hasta la retención de clientes y nuevas oportunidades de negocios.

Los científicos de datos deben tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva. Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:

  1. Captura de datos y preprocesamiento
  2. Análisis de datos y reconocimiento de patrones
  3. Presentación y visualización

Para realizar las 3 etapas anteriores, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados. Estas son las diferentes herramientas disponibles para realizar lo mismo:

2. Herramientas para extracción de datos y preprocesamiento

a. SQL

Esta es una habilidad imprescindible para todos los científicos de datos, independientemente de si está utilizando datos estructurados o no estructurados. Las empresas están utilizando los últimos motores SQL como Apache Hive, Spark-SQL, Flink-SQL, Impala, etc.

si. Tecnologías de Big Data

Esta es una habilidad imprescindible para todos los científicos de datos. El científico de datos necesita saber sobre las diferentes tecnologías de Big Data: tecnologías de primera generación como Apache Hadoop y su ecosistema (colmena, cerdo, canal, etc.), como Next Gen: Apache Spark y Apache Flink (Apache Flink está reemplazando Apache Spark rápidamente como Flink es un motor de Big Data de propósito general, que también puede manejar transmisiones en tiempo real, para más detalles sobre Flink siga este tutorial completo)

C. UNIX

Como la mayoría de los datos sin procesar se almacenan en un servidor UNIX o Linux antes de ponerlos en un almacén de datos, es bueno poder acceder a los datos sin la dependencia de una base de datos. Entonces, el conocimiento de Unix es bueno para los científicos de datos. Siga esta guía de comandos para practicar los comandos de Linux.

re. Pitón

Python es el lenguaje más popular para el científico de datos. Python es un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Es un lenguaje de alto nivel con enlace dinámico y escritura.

3. Herramientas para análisis de datos y coincidencia de patrones

Esto depende de su nivel de conocimiento estadístico. Algunas herramientas se utilizan para estadísticas más avanzadas y otras para estadísticas más básicas.

a. SAS

Muchas empresas usan SAS, por lo que es bueno tener un conocimiento básico de SAS. Puedes manipular ecuaciones fácilmente.

si. R

R es más popular en el mundo estadístico. R es una herramienta de código abierto y un lenguaje orientado a objetos, por lo que puede usarlo en cualquier lugar. Es la primera opción de cualquier científico de datos ya que la mayoría de las cosas se implementan en R.

C. Máquina inclinada

El aprendizaje automático es la herramienta más exigente y útil que los científicos de datos deben tener. Los algoritmos de aprendizaje automático se utilizan para análisis avanzado, análisis predictivo, coincidencia de patrones avanzada. Hay muchas herramientas de aprendizaje automático disponibles en el mercado, como weka, nltk, etc., pero las herramientas de aprendizaje automático además de las tecnologías de big data están captando la atención de la industria como Mahout (en la parte superior de Hadoop), MLlib (en la parte superior de Spark), FlinkML (encima de Flink).

4. Herramientas para visualización

a. Cuadro

Es una herramienta popular, especialmente en Silicon Valley.

si. JMP (filial de SAS)

JMP tiene una buena visualización.

C. R

R también tiene un gran soporte de visualización, como ggplot2, celosía, rCharts, google chart, shiny for webapps, slidify para presentaciones, etc.

Además de las herramientas mencionadas anteriormente, las siguientes herramientas también son populares: JasperSoft, SAP BI, QlikView, MicroStrategy, etc.

5. Habilidades no técnicas

a. Visión para los negocios

Uno necesita tener una comprensión sólida de la industria en la que está trabajando, para conocer los problemas que enfrenta la organización. El científico de datos debería ser capaz de determinar qué problemas son críticos y cuáles no, para identificar nuevas formas en que los datos se pueden utilizar como palanca.

si. Habilidades de comunicación

Las empresas están buscando científicos de datos que puedan traducir sus conocimientos sobre los datos de manera clara y segura a otros compañeros de equipo. Un científico de datos los arma con ideas cuantificadas.

C. Solución analítica de problemas

La habilidad de resolución de problemas analíticos es muy exigente para Data Scientist, por lo que se puede utilizar el enfoque correcto para obtener el máximo rendimiento en tiempo y recursos disponibles.

Hablaré sobre Facebook desde que los entrevisté para el puesto de científico de datos. Las preguntas de la entrevista definitivamente serán diferentes, pero creo que cubren el mismo material / similar.

Del contenido de las entrevistas (2 rondas), lo que necesita son:

  1. Estadística básica y probabilidad
  2. Habilidad de programación : en mi entrevista, probaron mi SQL + uno del lenguaje de scripting de su elección (elegí Python). Otras opciones son C ++. Java, etc. Realmente no les importa qué idiomas usas, ya que pueden elegir el idioma con el que quieren trabajar.
  3. La pregunta de algoritmo (el tipo de pregunta de algoritmo típica en entrevistas de ingeniería de software) necesita la capacidad de pasar por alto los datos de diferentes puntos de vista y encontrar la mejor manera de acercarse.
  4. Análisis estadístico y el procedimiento (flujo de trabajo o pasos para realizar un análisis estadístico para una tarea determinada). Una de las preguntas que me hicieron fue: “¿Cómo saber si la información de la escuela secundaria para un usuario determinado es correcta o no?” y me pidieron que enumerara cómo voy a comenzar el análisis. (fue bastante interesante 🙂).

Bueno, esta pregunta se puede enmarcar como “¿Qué hace que una persona sea mejor en el análisis de datos y presente sistemas de predicciones, modelos de datos, inferencias estadísticas buenas y limpias”. Sin embargo, como ha pedido, específicamente para Google y Facebook, no es diferente de los datos en Internet, que en su mayoría no están estructurados o seudoestructuran, y el trabajo del científico de datos es primero filtrar y manipular, luego aplicar el modelo adecuado. en los datos filtrados y luego llegar a la conclusión de lo que se puede hacer con esta predicción / clasificación.

así que ahora para responder la pregunta:
1. Google trabaja mucho en Python y también lo usan para algunos de sus análisis de datos. Además, utiliza R para informes y análisis.
2. Asegúrate
3. Facebook depende en gran medida de Hive / Cassandra, por lo que aprender eso puede ayudar
4. Conceptos matemáticos y conceptos básicos de Machine Learning es imprescindible (módulos estadísticos de Python y R como numpy, scikit-learn)
5. Visualización (matplotlib o similar)

y hay una larga lista de otras herramientas y tecnologías de soporte.

-DS

Hay varias habilidades para convertirse en un científico de datos en google o facebook: –
1. Habilidades de programación y base de datos
2.Habilidades de modelado de datos, almacén y datos no estructurados
3.Habilidades de herramientas estadísticas
4 habilidades matemáticas
5.Habilidades de herramienta de visualización
6.Habilidades para contar historias

Al leer otras respuestas, siento que hay una falta de claridad entre los diferentes roles como científico de datos, analista de datos, ingeniero de datos, etc. La mayoría de las respuestas sugieren herramientas de aprendizaje y tecnología para un análisis de datos eficiente (Hadoop, Java, Python, etc.).

En mi opinión, la ciencia de datos se trata de encontrar nuevas formas de obtener, limpiar, enriquecer, modelar y comunicar datos. Los buenos científicos de datos son agnósticos de herramientas y tecnología. Entienden los conceptos subyacentes pero no son ingenieros. De hecho, utilizan los servicios de un ingeniero para lograr aspectos tecnológicos del análisis de datos.

  • Este curso proporciona un enfoque de análisis de datos exploratorio utilizando conceptos de programación R y Hadoop.
  • Grandes compañías multinacionales como Data Science, Hadoop – Clases de capacitación de cursos combinados todo en 1 en línea | Data Science, Hadoop: cursos combinados todo en 1 en línea Google, Yahoo, Apple, eBay, Facebook y muchos otros están contratando profesionales capacitados capaces de manejar Big Data utilizando técnicas de Hadoop y Data Science.
  • La capacitación lo certifica para las oportunidades laborales más grandes y mejor pagadas en las principales empresas multinacionales que trabajan en Big Data, Programación R y Hadoop. Alguna experiencia previa en cualquier lenguaje de programación
  • Conocimientos básicos de comandos de Unix, secuencias de comandos SQL
  • No se requiere conocimiento previo de Apache Hadoop
  • Desarrolladores de programación, administradores de sistemas y desarrolladores de ETL
  • Gerentes de proyecto ansiosos por aprender nuevas técnicas para mantener grandes datos
  • Profesionales experimentados que trabajan para convertirse en analistas de Big Data
  • Profesionales con el objetivo de desarrollar una carrera en análisis de datos en tiempo real con técnicas de Apache Storm y Hadoop Computing
  • Profesionales que aspiran a ser ‘científicos de datos’
  • Arquitectos de información para adquirir experiencia en el dominio de Análisis predictivo
  • Profesionales de mainframe, arquitectos y profesionales de pruebas
  • Graduados ansiosos por aprender la última tecnología de Big Data.

Como la “ciencia de datos” es un campo que cambia rápidamente y a menudo está mal definido, la gama de habilidades que encontrará entre los científicos de datos es impresionantemente amplia. La mayoría tiene alguna capacitación en estadística, análisis de datos y matemáticas. Casi todos tienen experiencia en programación, especialmente en Python, R, Hadoop, SQL y otros lenguajes que se utilizan para el almacenamiento de datos, estadísticas y aprendizaje automático. Debido a que es especialmente popular en el análisis de datos, aprender Python es un buen lugar para comenzar.

Conocer también otros programas de análisis de datos, como MATLAB, SAS y Minitab también puede ser bastante útil.

La respuesta que estoy dando no es competir, pero te dará un buen comienzo:

1. Aprenda el lenguaje de programación Java y Python. No necesitas ser un jefe, pero debes tener habilidades como un profesional.

2. Aprenda a trabajar con Big Data utilizando softwares como Hadooo, Pig, etc.

3. Obtenga algunos conocimientos prácticos sobre computación en la nube.

Esto debería darle un comienzo … ¡Espero que ayude!

El mismo conjunto de habilidades que necesitarías para ser un científico de datos en cualquier otra empresa (incluida la tuya, ¿quién sabe?).

Como esta pregunta ya se ha formulado (y respondido), con una extensa colección de fuentes, simplemente te señalaré allí:
¿Cómo me convierto en un científico de datos?

Bueno, Google y Facebook no son diferentes que cualquier otra compañía. Lo único es que son bien conocidos. Todos los científicos de datos necesitan saber SAS, R, Python, SQL, etc.

Puedes pasar por Scinatics – Escuela en línea, cursos en línea

More Interesting

Además de Kaggle, ¿qué otras opciones hay para hacer un perfil científico de datos?

Cómo prepararse para trabajos de ingeniero de datos en Amazon / Google / Facebook / Quora

¿Son inútiles las especializaciones MOOC de ciencia de datos para comenzar un trabajo en el campo de ciencia de datos?

¿Cómo es ser un miembro de Insight Data Science?

¿Cómo es ser un científico de datos en Evernote?

Quiero convertirme en científico de datos. Un amplio campo extendido. Tengo conocimiento sobre ML. ¿Cuáles son otros temas / materias requeridos que debo aprender?

Como científico de datos, ¿debo trabajar en cumplimiento de bancos de inversión o tecnología publicitaria?

¿Cómo convertirse en un científico de datos? ¿Qué campo ofrece más oportunidades de trabajo / investigación? ¿Cómo se relaciona con la automatización de datos?

Cómo comenzar mi carrera en análisis como un nuevo

¿Qué oportunidades profesionales hay en el aprendizaje automático? ¿Qué puedo hacer con el aprendizaje automático además de aplicarlo en Data Science?

Quería ser microbiólogo, con suerte en Cornell. Pero ni siquiera soy tan atractivo. ¿Se enfrenta la materia para convertirse en científico?

¿Cómo se puede definir la ciencia de datos? ¿Se puede describir como un tema? ¿Cuál es su dominio? ¿Se puede limitar? Como científico de datos, ¿cómo definirá los requisitos previos para convertirse en científico de datos?

Cómo convertirse en un científico de datos en las Naciones Unidas

¿Puede un científico de datos fingirlo hasta que lo logre?

¿Cuáles son algunas sugerencias para un curso de certificación en Big Data?