ETL significa Extracción de transformación y carga, recopila los diferentes datos de origen del sistema heterogéneo (DB), transforma los datos en el almacén de datos (destino). En el momento de la transformación, los datos se transforman primero en tabla de etapas (tabla temporal). Según las reglas comerciales, los datos se asignan a la tabla de destino, este proceso se asigna manualmente / lo configuramos con la herramienta ETL.
Las aplicaciones ETL implementan tres tipos principales de paralelismo:
- Datos : al dividir un solo archivo secuencial en archivos de datos más pequeños para proporcionar acceso paralelo.
- Canalización: permite la ejecución simultánea de varios componentes en la misma secuencia de datos. Por ejemplo: buscar un valor en el registro 1 al mismo tiempo que agrega dos campos en el registro 2.
- Componente : la ejecución simultánea de múltiples procesos en diferentes flujos de datos en el mismo trabajo, por ejemplo, ordenar un archivo de entrada y eliminar duplicados en otro archivo.
- Las herramientas ETL disponibles comercialmente incluyen:
- Alteryx
- Informatica PowerCenter
- IBM Datastage
- Ab Initio
- Microestrategia
- Oracle Data Integrator (ODI)
- Servicios de integración de Microsoft SQL Server (SSIS)
- Integración de datos de Pentaho (o hervidor de agua)
- Talend
- FlyData