La empresa Informatica, ha sacado recientemente una versión reducida de su herramienta de ETL Informatica PowerCenter DI, tras la salida de su nueva versión 9.6.x, denominada PowerCenter Express Personal Edition. Bajo mi punto de vista está demasiado limitada como para adquirir unos conocimientos globales de esta herramienta, aunque tengo que decir que … más vale esto que nada.
Durante las próximas semanas, voy a publicar varios posts con información sobre como instalar esta herramienta, iniciación al desarrollo de soluciones ETL y referencias para comenzar a adquirir conocimientos sobre Informatica PowerCenter DI. Toda esta información os servirá como base, e incluso como primer paso para obtener la Certificación en dicha herramienta.
En este primer post, lo que voy a explicar es la arquitectura de Informatica PowerCenter DI, de forma que en las próximas entradas comprendamos de una manera más sencilla que es cada parte y el porque de la configuración de estas.
Introducción a la herramienta Informatica PowerCenter DI
El primer paso para comprender el diagrama anterior, es definir cada una de las partes que aparecen en esta figura. Así que paso a comentar brevemente los elementos que se pueden ver en la figura anterior:
- Dominio: Es una colección de Nodos y Servicios (estos dos términos se explicarán en futuros posts) que definen el entorno PowerCenter. Se podría extrapolar a lo que es un dominio de red (conjunto de equipos que forman parte de un grupo dentro de una red). Esto nos puede servir por ejemplo para crear un Dominio de Desarrollo, otro de Test y otro de Producción. Estando aislados, pero desde los que se pueden exportar (mediante despliegues), objetos entre dichos dominios.
- Repositorio: Almacén donde se aloja toda la información del dominio de la propia herramienta, objetos y configuración. Dicha información se guarda en forma de metadatos, sobre una base de datos.
- Repository Service: Es el servicio de la plataforma que gestiona los objetos generados y sus configuraciones sobre las peticiones de las herramientas de cliente y el Integration Service, Es decir, cuando se lanza un proceso desde la aplicación de cliente, este servicio es el encargado de gestionar, que objetos componen ese proceso (objetos, conexiones, etc) y cargarlos para que sean gestionados por el Integration Service.
- Integration Service: Este es un servicio de aplicación que se utiliza para, una vez realizada la instancia de carga de los objetos implicados en un desarrollo sobre el servicio de repositorio, sean puestos en ejecución y controlados.
- Sources: Son los orígenes desde donde se extrae la información. Estos orígenes pueden ser de tipo fichero o una base de datos. Además pueden ser locales o remotos.
- Targets: Son los destinos de inserción de las transformaciones realizadas. Al igual que en el caso anterior, pueden ser ficheros o base de datos (Data Wharehouse, Data Mart, etc), y además encontrarse dicho destino en la máquina local o en una (o más) máquina/as remota/as.
- Domain Metadata: Es donde se almacena la configuración del dominio y las cuentas de usuario. Se almacena en forma de metadatos y solo contiene la configuración de esto.
- Administrator (panel): Para los administradores y arquitectos de la herramienta, este panel es el más usado. Ya que desde este se administra todo. Como funciones principales que se pueden mencionar, estarían la gestión de usuarios, roles y privilegios. La configuración de conexiones, instalación de servicios y aplicación de licencias. Definición de puertos de conexión, logs de diferentes niveles y contextos, y un largo etc, el cual hacen de este panel una de las herramientas más útiles de PowerCenter.
- Powercenter Client (tools): Las herramientas de cliente que hay disponibles en PowerCenter, son cuatro. Designer, Workflow Manager, Repository Manager y Workflow Monitor. Simplemente las nombro para que comiencen a ser familiares estos nombres, ya que la finalidad de este articulo no es ahondar en cada una de las partes, sino tener una visión global de esta herramienta ETL.
Esquema básico de uso de la ETL Inforatica PowerCenter
Una vez presentada la herramienta de BI Informatica PowerCenter DI, voy a explicar (por último) que significa ETL. Sobre todo para aquellos que se están iniciando en el ámbito de Business Intelligence. Estas siglas significan Extracción, Transformación y Carga (Load), significado que define los pasos en el modelado de datos de esta tecnología. Por lo que el diagrama de la figura anterior, podríamos enmarcarlo en la siguiente figura:
Imagenes de Informatica
One Comment