El rol de ingeniero de datos cubre muchas tecnologías como: Hadoop, Hive, Spark, SQL, etc. Algunas de las preguntas más populares de la entrevista de ingeniero de datos son las siguientes:
- ¿Cuáles son las cuatro V de Big Data?
- ¿Cuál es la diferencia entre Big Data estructurado y no estructurado?
- ¿Cuáles son los componentes principales de una aplicación Hadoop?
- ¿Cuál es el concepto central detrás del framework Apache Hadoop?
- ¿Qué es Hadoop Streaming?
- ¿Cuál es la diferencia entre NameNode, Backup Node y Checkpoint NameNode en HDFS?
- ¿Cuál es la configuración de hardware óptima para ejecutar Apache Hadoop?
- ¿Qué sabes sobre Block y Block Scanner en HDFS?
- ¿Cuáles son los números de puerto predeterminados en los que se ejecutan Name Node, Job Tracker y Task Tracker en Hadoop?
- ¿Cómo deshabilitará un escáner de bloque en HDFS DataNode?
- ¿Cómo obtendrá la distancia entre dos nodos en Apache Hadoop?
- ¿Por qué utilizamos hardware básico en Hadoop?
- ¿Cómo funciona la copia de datos entre clústeres en Hadoop?
- ¿Cómo podemos actualizar un archivo en una ubicación arbitraria en HDFS?
- ¿Qué es el factor de replicación en HDFS y cómo podemos configurarlo?
- ¿Cuál es la diferencia entre NAS y DAS en el clúster de Hadoop?
- ¿Cuáles son los dos mensajes que NameNode recibe de DataNode en Hadoop?
- ¿Cómo funciona la indexación en Hadoop?
- ¿Qué datos se almacenan en un NameNode HDFS?
- ¿Qué pasaría si NameNode se bloquea en un clúster HDFS?
- ¿Cuáles son las funciones principales de Secondary NameNode?
- ¿Qué sucede si el archivo HDFS se configura con un factor de replicación de 1 y DataNode se bloquea?
- ¿Cuál es el significado de Rack Awareness en Hadoop?
- Si establecemos el factor de replicación 3 para un archivo, ¿significa que algún cálculo también se realizará 3 veces?
- ¿Cómo comprobará si existe un archivo en HDFS?
- ¿Por qué usamos el comando fsck en HDFS?
- ¿Qué sucederá cuando NameNode esté inactivo y un usuario envíe un nuevo trabajo?
- ¿Cuáles son los métodos principales de un reductor en Hadoop?
- ¿Cuáles son las fases principales de un reductor en Hadoop?
- ¿Para qué sirve el objeto Context en Hadoop?
- ¿Cómo funciona la partición en Hadoop?
- ¿Qué es un combinador en Hadoop?
- ¿Cuál es el factor de replicación predeterminado en HDFS?
- ¿Cuánto almacenamiento asigna HDFS para almacenar un archivo de 25 MB de tamaño?
- ¿Por qué HDFS almacena datos en la estructura de bloques?
- ¿Cómo va a crear un Partitioner personalizado en un trabajo de Hadoop?
- ¿Cuáles son las diferencias entre el modelo de datos RDBMS y HBase?
- ¿Qué es un nodo Checkpoint en HDFS?
- ¿Qué es un nodo de respaldo en HDFS?
- ¿Cuál es el significado del término localidad de datos en Hadoop?
- ¿Cuál es la diferencia entre Data science, Big Data y Hadoop?
- ¿Qué es un equilibrador en HDFS?
- ¿Cuáles son los puntos importantes que un NameNode considera antes de seleccionar el DataNode para colocar un bloque de datos?
- ¿Qué es Safemode en HDFS?
- ¿Cómo reemplazará el volumen de datos HDFS antes de cerrar un DataNode?
- ¿Cuáles son los archivos de configuración importantes en Hadoop?
- ¿Cómo va a monitorear la memoria utilizada en un clúster de Hadoop?
- ¿Por qué necesitamos la serialización en los métodos de reducción de mapas de Hadoop?
- ¿Para qué sirve la caché distribuida en Hadoop?
- ¿Cómo sincronizará los cambios realizados en un archivo en caché distribuida en Hadoop?
- ¿Cómo mejorará el rendimiento de un programa en Hive?
- ¿Podemos usar Hive para sistemas de procesamiento de transacciones en línea (OLTP)?
- ¿Cómo va a cambiar el tipo de datos de una columna en Hive?
- ¿Qué es Metastore en Hive?
- ¿Qué es SerDe en Hive?
- ¿Cuáles son los componentes en el modelo de datos de Hive?
- ¿Cuáles son los diferentes modos en los que podemos ejecutar Hive?
- ¿Cuáles son los componentes principales de Hive?
- ¿Para qué sirve Hive en el ecosistema Hadoop?
- ¿Qué tipos de datos de colección / complejo son compatibles con Hive?
- ¿Para qué sirve el archivo .hiverc en Hive?
- ¿Cómo ejecutarás los comandos de Unix desde Hive?
- ¿Cuál es el propósito del comando USE en Hive?
- ¿Cuál es el orden de precedencia en la configuración de Hive?
- ¿Cómo mostrará la fila del encabezado con los resultados de una consulta de Hive?
- ¿Podemos crear varias tablas en Hive para un archivo de datos?
- ¿Cómo funciona la función CONCAT en Hive?
- ¿Cómo va a cambiar la configuración de una sesión de Hive?
- ¿Cómo cambiarás el nombre de una tabla en Hive sin usar el comando ALTER?
- ¿Cuál es la diferencia entre SORT BY y ORDER BY en Hive?
- ¿Para qué sirve el modo estricto en Hive?
- ¿De qué sirve la cláusula IF EXISTS en las declaraciones de Hive?
- ¿Cuál es el uso de PURGE en la declaración DROP de Hive?
- ¿Cuáles son las principales limitaciones de Apache Hive?
- ¿Cuál es la diferencia entre HBase y Hive?
- ¿Qué es ObjectInspector en Hive?
- ¿Cuáles son los componentes principales del procesador de consultas en Apache Hive?
- ¿Cómo resolverá un error de falta de memoria mientras ejecuta una consulta JOIN?
- ¿Cuáles son las diferentes implementaciones de SerDe en Hive?
- ¿Para qué sirve HCatalog?
- ¿Cuál es el modelo de datos de HCatalog?
- ¿Qué es el operador RLIKE en Hive?
- ¿Podemos usar el mismo nombre para TABLE y VIEW en Hive?
- ¿Cómo cargará datos en un VIEW en Hive?
- ¿Qué es Bucketing en Hive?
- ¿Cuáles son las ventajas y desventajas de archivar una partición en Hive?
- ¿Cuáles son las funciones generadoras de tablas en Hive?
- ¿Cómo podemos especificar en Hive para cargar un archivo HDFS en LOAD DATA?
- ¿Qué es una mesa sesgada en Hive?
- ¿De qué sirve la cláusula CLUStered BY durante la creación de la tabla en Hive?
- ¿Qué es una tabla administrada en Hive?
- ¿Cómo evitará que se eliminen o consulten datos de una partición en Hive?
- ¿Cuál es el uso de TOUCH en la declaración ALTER?
- ¿Cómo funciona la cláusula OVERWRITE en la declaración CREATE TABLE en Hive?
- ¿Cuáles son las opciones para conectar una aplicación a un servidor Hive?
- ¿Cómo funcionan las funciones TRIM y RPAD en Hive?
- ¿Cómo accederá recursivamente a los subdirectorios en Hive?
- ¿Cuál es la optimización que se puede hacer en la consulta SELECT * en Hive?
- ¿Para qué sirven las tablas de formato ORC en Hive?
- ¿Cuáles son los principales casos de uso para usar Hive?
- ¿Qué es STREAMTABLE en Hive?
- ¿Cuáles son las principales características de Apache Spark?
- ¿Qué es un conjunto de datos de distribución resiliente en Apache Spark?
- ¿Qué es una transformación en Apache Spark?
- ¿Cuáles son las opciones de seguridad en Apache Spark?
- ¿Cómo va a monitorear Apache Spark?
- ¿Cuáles son las principales bibliotecas de Apache Spark?
- ¿Cuáles son las funciones principales de Spark Core en Apache Spark?
- ¿Cómo va a ajustar la memoria en Spark?
- ¿Cuáles son las dos formas de crear RDD en Spark?
- ¿Cuáles son las principales operaciones que se pueden hacer en un RDD en Apache Spark?
- ¿Cuáles son las transformaciones comunes en Apache Spark?
- ¿Cuáles son las acciones comunes en Apache Spark?
- ¿Qué es una operación aleatoria en Spark?
- ¿Cuáles son las operaciones que pueden causar una confusión en Spark?
- ¿Cuál es el propósito de Spark SQL?
- ¿Qué es un DataFrame en Spark SQL?
- ¿Qué es un archivo Parquet en Spark?
- ¿Cuál es la diferencia entre Apache Spark y Apache Hadoop MapReduce?
- ¿Cuáles son los principales idiomas compatibles con Apache Spark?
- ¿Cuáles son los sistemas de archivos compatibles con Spark?
- ¿Qué es un controlador de chispa?
- ¿Qué es un linaje RDD?
- ¿Cuáles son los dos tipos principales de Vector en Spark?
- ¿Cuáles son los diferentes modos de implementación de Apache Spark?
- ¿Qué es la evaluación perezosa en Apache Spark?
- ¿Cuáles son los componentes principales de una aplicación distribuida en Apache Spark?
- ¿Cuál es la diferencia en los métodos cache () y persist () en Apache Spark?
- ¿Cómo eliminará los datos de la memoria caché en Apache Spark?
- ¿Para qué sirve SparkContext en Apache Spark?
- ¿Necesitamos HDFS para ejecutar la aplicación Spark?
- ¿Qué es Spark Streaming?
- ¿Cómo funciona internamente Spark Streaming?
- ¿Qué es una tubería en Apache Spark?
- ¿Cómo funciona Pipeline en Apache Spark?
- ¿Cuál es la diferencia entre Transformer y Estimator en Apache Spark?
- ¿Cuáles son los diferentes tipos de Cluster Managers en Apache Spark?
- ¿Cómo minimizará la transferencia de datos mientras trabaja con Apache Spark?
- ¿Cuál es el uso principal de MLib en Apache Spark?
- ¿Qué es el Checkpointing en Apache Spark?
- ¿Qué es un acumulador en Apache Spark?
- ¿Qué es una variable de difusión en Apache Spark?
- ¿Qué es la transmisión estructurada en Apache Spark?
- ¿Cómo pasará funciones a Apache Spark?
- ¿Qué es un gráfico de propiedades?
- ¿Qué es la agregación de vecindarios en Spark?
- ¿Cuáles son los diferentes niveles de persistencia en Apache Spark?
- ¿Cómo seleccionará el nivel de almacenamiento en Apache Spark?
- ¿Cuáles son las opciones en Spark para crear un gráfico?
- ¿Cuáles son los operadores básicos de Graph en Spark?
- ¿Cuál es el enfoque de partición utilizado en GraphX de Apache Spark?
- ¿Escribir una consulta SQL para obtener el segundo salario más alto entre todos los empleados?
- ¿Cómo podemos recuperar registros alternativos de una tabla en Oracle?
- Escriba una consulta SQL para encontrar el salario máximo y el nombre del departamento de cada departamento.
- Escriba una consulta SQL para buscar registros en la Tabla A que no estén en la Tabla B sin usar el operador NOT IN.
- ¿Cuál es el resultado de la siguiente consulta?
- Escriba SQL Query para buscar empleados que tengan el mismo nombre y correo electrónico.
- Escriba una consulta SQL para encontrar el salario máximo de cada departamento.
- Escriba una consulta SQL para obtener el enésimo salario más alto entre todos los empleados.
- ¿Cómo puede encontrar 10 empleados con número impar como ID de empleado?
- Escriba una consulta SQL para obtener los nombres de los empleados cuya fecha de nacimiento es entre el 01/01/1990 y el 31/12/2000.
- Escriba una consulta SQL para obtener la fecha del trimestre.
- Escribir consulta para encontrar empleados con correo electrónico duplicado.
- ¿Es seguro usar ROWID para ubicar un registro en consultas Oracle SQL?
- ¿Qué es una pseudocolumna?
- ¿Cuáles son las razones para desnormalizar los datos?
- ¿Cuál es la característica en SQL para escribir declaraciones If / Else?
- ¿Cuál es la diferencia entre DELETE y TRUNCATE en SQL?
- ¿Cuál es la diferencia entre los comandos DDL y DML en SQL?
- ¿Por qué usamos caracteres de escape en consultas SQL?
- ¿Cuál es la diferencia entre la clave primaria y la clave única en SQL?
- ¿Cuál es la diferencia entre INNER join y OUTER join en SQL?
- ¿Cuál es la diferencia entre Left OUTER Join y Right OUTER Join?
- ¿Cuál es el tipo de datos de ROWID?
- ¿Cuál es la diferencia entre where cláusula y tener cláusula?
- ¿Cómo calculará el número de días entre dos fechas en MySQL?
- ¿Cuáles son los diferentes tipos de disparadores en MySQL?
- ¿Cuáles son las diferencias entre la tabla Heap y la tabla temporal en MySQL?
- ¿Qué es una tabla Heap en MySQL?
- ¿Cuál es la diferencia entre el tipo de datos BLOB y TEXT en MySQL?
- ¿Qué sucederá cuando AUTO_INCREMENT en una columna INTEGER alcance MAX_VALUE en MySQL?
- ¿Cuáles son las ventajas de MySQL en comparación con Oracle DB?
- ¿Cuáles son las desventajas de MySQL?
- ¿Cuál es la diferencia entre el tipo de datos CHAR y VARCHAR en MySQL?
- ¿Cuál es el uso de ‘i_am_a_dummy flag’ en MySQL?
- ¿Cómo podemos obtener la fecha y hora actual en MySQL?
- ¿Cuál es la diferencia entre la marca de tiempo en Unix y MySQL?
- ¿Cómo limitará una consulta MySQL para mostrar solo las 10 filas principales?
- ¿Qué es la inicialización y actualización automática de TIMESTAMP en una tabla MySQL?
- ¿Cómo podemos obtener la lista de todos los índices en una tabla?
- ¿Qué es SAVEPOINT en MySQL?
- ¿Cuál es la diferencia entre ROLLBACK TO SAVEPOINT y RELEASE SAVEPOINT?
- ¿Cómo buscará una cadena en la columna MySQL?
- ¿Cómo podemos encontrar la versión del servidor MySQL y el nombre de la base de datos actual mediante la consulta SELECT?
- ¿Para qué sirve el operador IFNULL () en MySQL?
- ¿Cómo comprobará si existe una tabla en MySQL?
- ¿Cómo verá la estructura de una tabla en MySQL?
- ¿Cuáles son los objetos que puede crear la instrucción CREATE en MySQL?
- ¿Cómo verá al usuario actual conectado a la conexión MySQL?
- ¿Cómo puede copiar la estructura de una tabla en otra tabla sin copiar los datos?
- ¿Cuál es la diferencia entre los modos Batch e Interactivo de MySQL?
- ¿Cómo podemos obtener un número aleatorio entre 1 y 100 en MySQL?
Referencia : Preguntas y respuestas de la entrevista de los 200 principales ingenieros de datos
Sígueme en Gautam Gupta para obtener más información sobre los temas de la entrevista del ingeniero de datos.
- ¿Qué buscan en un candidato que aparece en una entrevista de IAS (Indian Administrative Services)? ¿Cuánto importan tus logros académicos?
- ¿Cuáles son algunos buenos KPI para buscar trabajo?
- Cómo manejar el rechazo laboral
- ¿Qué se debe llevar a una entrevista en Palantir?
- Como dar mi primera entrevista