¿Cuáles son las preguntas más populares de la entrevista con el ingeniero de datos? Cazar Trabajos es un oficio

El rol de ingeniero de datos cubre muchas tecnologías como: Hadoop, Hive, Spark, SQL, etc. Algunas de las preguntas más populares de la entrevista de ingeniero de datos son las siguientes:

¿Cuáles son las cuatro V de Big Data?
¿Cuál es la diferencia entre Big Data estructurado y no estructurado?
¿Cuáles son los componentes principales de una aplicación Hadoop?
¿Cuál es el concepto central detrás del framework Apache Hadoop?
¿Qué es Hadoop Streaming?
¿Cuál es la diferencia entre NameNode, Backup Node y Checkpoint NameNode en HDFS?
¿Cuál es la configuración de hardware óptima para ejecutar Apache Hadoop?
¿Qué sabes sobre Block y Block Scanner en HDFS?
¿Cuáles son los números de puerto predeterminados en los que se ejecutan Name Node, Job Tracker y Task Tracker en Hadoop?
¿Cómo deshabilitará un escáner de bloque en HDFS DataNode?
¿Cómo obtendrá la distancia entre dos nodos en Apache Hadoop?
¿Por qué utilizamos hardware básico en Hadoop?
¿Cómo funciona la copia de datos entre clústeres en Hadoop?
¿Cómo podemos actualizar un archivo en una ubicación arbitraria en HDFS?
¿Qué es el factor de replicación en HDFS y cómo podemos configurarlo?
¿Cuál es la diferencia entre NAS y DAS en el clúster de Hadoop?
¿Cuáles son los dos mensajes que NameNode recibe de DataNode en Hadoop?
¿Cómo funciona la indexación en Hadoop?
¿Qué datos se almacenan en un NameNode HDFS?
¿Qué pasaría si NameNode se bloquea en un clúster HDFS?
¿Cuáles son las funciones principales de Secondary NameNode?
¿Qué sucede si el archivo HDFS se configura con un factor de replicación de 1 y DataNode se bloquea?
¿Cuál es el significado de Rack Awareness en Hadoop?
Si establecemos el factor de replicación 3 para un archivo, ¿significa que algún cálculo también se realizará 3 veces?
¿Cómo comprobará si existe un archivo en HDFS?
¿Por qué usamos el comando fsck en HDFS?
¿Qué sucederá cuando NameNode esté inactivo y un usuario envíe un nuevo trabajo?
¿Cuáles son los métodos principales de un reductor en Hadoop?
¿Cuáles son las fases principales de un reductor en Hadoop?
¿Para qué sirve el objeto Context en Hadoop?
¿Cómo funciona la partición en Hadoop?
¿Qué es un combinador en Hadoop?
¿Cuál es el factor de replicación predeterminado en HDFS?
¿Cuánto almacenamiento asigna HDFS para almacenar un archivo de 25 MB de tamaño?
¿Por qué HDFS almacena datos en la estructura de bloques?
¿Cómo va a crear un Partitioner personalizado en un trabajo de Hadoop?
¿Cuáles son las diferencias entre el modelo de datos RDBMS y HBase?
¿Qué es un nodo Checkpoint en HDFS?
¿Qué es un nodo de respaldo en HDFS?
¿Cuál es el significado del término localidad de datos en Hadoop?
¿Cuál es la diferencia entre Data science, Big Data y Hadoop?
¿Qué es un equilibrador en HDFS?
¿Cuáles son los puntos importantes que un NameNode considera antes de seleccionar el DataNode para colocar un bloque de datos?
¿Qué es Safemode en HDFS?
¿Cómo reemplazará el volumen de datos HDFS antes de cerrar un DataNode?
¿Cuáles son los archivos de configuración importantes en Hadoop?
¿Cómo va a monitorear la memoria utilizada en un clúster de Hadoop?
¿Por qué necesitamos la serialización en los métodos de reducción de mapas de Hadoop?
¿Para qué sirve la caché distribuida en Hadoop?
¿Cómo sincronizará los cambios realizados en un archivo en caché distribuida en Hadoop?
¿Cómo mejorará el rendimiento de un programa en Hive?
¿Podemos usar Hive para sistemas de procesamiento de transacciones en línea (OLTP)?
¿Cómo va a cambiar el tipo de datos de una columna en Hive?
¿Qué es Metastore en Hive?
¿Qué es SerDe en Hive?
¿Cuáles son los componentes en el modelo de datos de Hive?
¿Cuáles son los diferentes modos en los que podemos ejecutar Hive?
¿Cuáles son los componentes principales de Hive?
¿Para qué sirve Hive en el ecosistema Hadoop?
¿Qué tipos de datos de colección / complejo son compatibles con Hive?
¿Para qué sirve el archivo .hiverc en Hive?
¿Cómo ejecutarás los comandos de Unix desde Hive?
¿Cuál es el propósito del comando USE en Hive?
¿Cuál es el orden de precedencia en la configuración de Hive?
¿Cómo mostrará la fila del encabezado con los resultados de una consulta de Hive?
¿Podemos crear varias tablas en Hive para un archivo de datos?
¿Cómo funciona la función CONCAT en Hive?
¿Cómo va a cambiar la configuración de una sesión de Hive?
¿Cómo cambiarás el nombre de una tabla en Hive sin usar el comando ALTER?
¿Cuál es la diferencia entre SORT BY y ORDER BY en Hive?
¿Para qué sirve el modo estricto en Hive?
¿De qué sirve la cláusula IF EXISTS en las declaraciones de Hive?
¿Cuál es el uso de PURGE en la declaración DROP de Hive?
¿Cuáles son las principales limitaciones de Apache Hive?
¿Cuál es la diferencia entre HBase y Hive?
¿Qué es ObjectInspector en Hive?
¿Cuáles son los componentes principales del procesador de consultas en Apache Hive?
¿Cómo resolverá un error de falta de memoria mientras ejecuta una consulta JOIN?
¿Cuáles son las diferentes implementaciones de SerDe en Hive?
¿Para qué sirve HCatalog?
¿Cuál es el modelo de datos de HCatalog?
¿Qué es el operador RLIKE en Hive?
¿Podemos usar el mismo nombre para TABLE y VIEW en Hive?
¿Cómo cargará datos en un VIEW en Hive?
¿Qué es Bucketing en Hive?
¿Cuáles son las ventajas y desventajas de archivar una partición en Hive?
¿Cuáles son las funciones generadoras de tablas en Hive?
¿Cómo podemos especificar en Hive para cargar un archivo HDFS en LOAD DATA?
¿Qué es una mesa sesgada en Hive?
¿De qué sirve la cláusula CLUStered BY durante la creación de la tabla en Hive?
¿Qué es una tabla administrada en Hive?
¿Cómo evitará que se eliminen o consulten datos de una partición en Hive?
¿Cuál es el uso de TOUCH en la declaración ALTER?
¿Cómo funciona la cláusula OVERWRITE en la declaración CREATE TABLE en Hive?
¿Cuáles son las opciones para conectar una aplicación a un servidor Hive?
¿Cómo funcionan las funciones TRIM y RPAD en Hive?
¿Cómo accederá recursivamente a los subdirectorios en Hive?
¿Cuál es la optimización que se puede hacer en la consulta SELECT * en Hive?
¿Para qué sirven las tablas de formato ORC en Hive?
¿Cuáles son los principales casos de uso para usar Hive?
¿Qué es STREAMTABLE en Hive?
¿Cuáles son las principales características de Apache Spark?
¿Qué es un conjunto de datos de distribución resiliente en Apache Spark?
¿Qué es una transformación en Apache Spark?
¿Cuáles son las opciones de seguridad en Apache Spark?
¿Cómo va a monitorear Apache Spark?
¿Cuáles son las principales bibliotecas de Apache Spark?
¿Cuáles son las funciones principales de Spark Core en Apache Spark?
¿Cómo va a ajustar la memoria en Spark?
¿Cuáles son las dos formas de crear RDD en Spark?
¿Cuáles son las principales operaciones que se pueden hacer en un RDD en Apache Spark?
¿Cuáles son las transformaciones comunes en Apache Spark?
¿Cuáles son las acciones comunes en Apache Spark?
¿Qué es una operación aleatoria en Spark?
¿Cuáles son las operaciones que pueden causar una confusión en Spark?
¿Cuál es el propósito de Spark SQL?
¿Qué es un DataFrame en Spark SQL?
¿Qué es un archivo Parquet en Spark?
¿Cuál es la diferencia entre Apache Spark y Apache Hadoop MapReduce?
¿Cuáles son los principales idiomas compatibles con Apache Spark?
¿Cuáles son los sistemas de archivos compatibles con Spark?
¿Qué es un controlador de chispa?
¿Qué es un linaje RDD?
¿Cuáles son los dos tipos principales de Vector en Spark?
¿Cuáles son los diferentes modos de implementación de Apache Spark?
¿Qué es la evaluación perezosa en Apache Spark?
¿Cuáles son los componentes principales de una aplicación distribuida en Apache Spark?
¿Cuál es la diferencia en los métodos cache () y persist () en Apache Spark?
¿Cómo eliminará los datos de la memoria caché en Apache Spark?
¿Para qué sirve SparkContext en Apache Spark?
¿Necesitamos HDFS para ejecutar la aplicación Spark?
¿Qué es Spark Streaming?
¿Cómo funciona internamente Spark Streaming?
¿Qué es una tubería en Apache Spark?
¿Cómo funciona Pipeline en Apache Spark?
¿Cuál es la diferencia entre Transformer y Estimator en Apache Spark?
¿Cuáles son los diferentes tipos de Cluster Managers en Apache Spark?
¿Cómo minimizará la transferencia de datos mientras trabaja con Apache Spark?
¿Cuál es el uso principal de MLib en Apache Spark?
¿Qué es el Checkpointing en Apache Spark?
¿Qué es un acumulador en Apache Spark?
¿Qué es una variable de difusión en Apache Spark?
¿Qué es la transmisión estructurada en Apache Spark?
¿Cómo pasará funciones a Apache Spark?
¿Qué es un gráfico de propiedades?
¿Qué es la agregación de vecindarios en Spark?
¿Cuáles son los diferentes niveles de persistencia en Apache Spark?
¿Cómo seleccionará el nivel de almacenamiento en Apache Spark?
¿Cuáles son las opciones en Spark para crear un gráfico?
¿Cuáles son los operadores básicos de Graph en Spark?
¿Cuál es el enfoque de partición utilizado en GraphX de Apache Spark?
¿Escribir una consulta SQL para obtener el segundo salario más alto entre todos los empleados?
¿Cómo podemos recuperar registros alternativos de una tabla en Oracle?
Escriba una consulta SQL para encontrar el salario máximo y el nombre del departamento de cada departamento.
Escriba una consulta SQL para buscar registros en la Tabla A que no estén en la Tabla B sin usar el operador NOT IN.
¿Cuál es el resultado de la siguiente consulta?
Escriba SQL Query para buscar empleados que tengan el mismo nombre y correo electrónico.
Escriba una consulta SQL para encontrar el salario máximo de cada departamento.
Escriba una consulta SQL para obtener el enésimo salario más alto entre todos los empleados.
¿Cómo puede encontrar 10 empleados con número impar como ID de empleado?
Escriba una consulta SQL para obtener los nombres de los empleados cuya fecha de nacimiento es entre el 01/01/1990 y el 31/12/2000.
Escriba una consulta SQL para obtener la fecha del trimestre.
Escribir consulta para encontrar empleados con correo electrónico duplicado.
¿Es seguro usar ROWID para ubicar un registro en consultas Oracle SQL?
¿Qué es una pseudocolumna?
¿Cuáles son las razones para desnormalizar los datos?
¿Cuál es la característica en SQL para escribir declaraciones If / Else?
¿Cuál es la diferencia entre DELETE y TRUNCATE en SQL?
¿Cuál es la diferencia entre los comandos DDL y DML en SQL?
¿Por qué usamos caracteres de escape en consultas SQL?
¿Cuál es la diferencia entre la clave primaria y la clave única en SQL?
¿Cuál es la diferencia entre INNER join y OUTER join en SQL?
¿Cuál es la diferencia entre Left OUTER Join y Right OUTER Join?
¿Cuál es el tipo de datos de ROWID?
¿Cuál es la diferencia entre where cláusula y tener cláusula?
¿Cómo calculará el número de días entre dos fechas en MySQL?
¿Cuáles son los diferentes tipos de disparadores en MySQL?
¿Cuáles son las diferencias entre la tabla Heap y la tabla temporal en MySQL?
¿Qué es una tabla Heap en MySQL?
¿Cuál es la diferencia entre el tipo de datos BLOB y TEXT en MySQL?
¿Qué sucederá cuando AUTO_INCREMENT en una columna INTEGER alcance MAX_VALUE en MySQL?
¿Cuáles son las ventajas de MySQL en comparación con Oracle DB?
¿Cuáles son las desventajas de MySQL?
¿Cuál es la diferencia entre el tipo de datos CHAR y VARCHAR en MySQL?
¿Cuál es el uso de ‘i_am_a_dummy flag’ en MySQL?
¿Cómo podemos obtener la fecha y hora actual en MySQL?
¿Cuál es la diferencia entre la marca de tiempo en Unix y MySQL?
¿Cómo limitará una consulta MySQL para mostrar solo las 10 filas principales?
¿Qué es la inicialización y actualización automática de TIMESTAMP en una tabla MySQL?
¿Cómo podemos obtener la lista de todos los índices en una tabla?
¿Qué es SAVEPOINT en MySQL?
¿Cuál es la diferencia entre ROLLBACK TO SAVEPOINT y RELEASE SAVEPOINT?
¿Cómo buscará una cadena en la columna MySQL?
¿Cómo podemos encontrar la versión del servidor MySQL y el nombre de la base de datos actual mediante la consulta SELECT?
¿Para qué sirve el operador IFNULL () en MySQL?
¿Cómo comprobará si existe una tabla en MySQL?
¿Cómo verá la estructura de una tabla en MySQL?
¿Cuáles son los objetos que puede crear la instrucción CREATE en MySQL?
¿Cómo verá al usuario actual conectado a la conexión MySQL?
¿Cómo puede copiar la estructura de una tabla en otra tabla sin copiar los datos?
¿Cuál es la diferencia entre los modos Batch e Interactivo de MySQL?
¿Cómo podemos obtener un número aleatorio entre 1 y 100 en MySQL?

Referencia : Preguntas y respuestas de la entrevista de los 200 principales ingenieros de datos

Sígueme en Gautam Gupta para obtener más información sobre los temas de la entrevista del ingeniero de datos.

entrevista de trabajoEntrevistasEntrevistas de trabajopreguntas de lapreguntas de la entrevista