Currently viewing the tag: "etl"

pdi_gis_00Pentaho Data Integration a toujours autorisé la création de « plugins » permettant d’étendre les fonctionnalités de cet ETL en ajoutant notamment de nouvelles « JobEntries » pour les « Jobs » ou de nouveaux « Steps » pour les « Transformations ». Cette possibilité offerte à l’utilisateur permettait de couvrir nombre de besoins mais il fallait se limiter à la manipulation de données dont le type était nativement reconnu par l’ETL (BigNumber, Binary, Boolean, Date, Integer, Number, String).
Dans le contexte de l’information géographique et avec les versions antérieures à la version 5, la manipulation de données spatialisées nécessitait de transformer les géométries pour les exploiter à travers les types standards «String » ou « Binary ». Si cet artifice permettait de transporter tant bien que mal les descriptions géométriques d’objets dans les flux de données elle nécessitait cependant la mise en place de mécanismes particuliers afin de d’assurer notamment la lecture et l’écriture depuis ou vers les bases de données (utilisation de fonctions telles que St_Astext() pour PostGIS ou SDO_UTIL.TO_WKTGEOMETRY() pour Oracle).
Avec l’arrivée de la version 5.0 de Pentaho Data Integration, il devient désormais possible d’étendre les types de données proposés par défaut en ajoutant ses propres types de données basés sur la classe « ValueMetaBase ». Tirant parti de cette nouvelle possibilité, les équipes d’Atol Conseils et Développements ont souhaité enrichir l’ETL Pentaho Data Integration d’un nouveau type de données « Geometry » dédié à la manipulation de l’information géographique. Cette fonctionnalité initialement mise en œuvre pour couvrir les besoins en lecture et en écriture vers ou depuis PostGIS a finalement débouché sur la création de briques complémentaires permettant notamment de lire ou de produire les formats SIG courants, de prendre en compte les systèmes de coordonnées et de proposer quelques fonctionnalités de manipulation de géométries.

pdi_gis_01

Continue reading »

Tagged with:
 

Une fois n’est pas coutume, le billet proposé aujourd’hui n’a pas vocation à présenter une technologie spécifique ou une astuce liée à l’utilisation de tel ou tel composant mais plutôt de percevoir comment plusieurs technologies peuvent, entre elles, s’associer pour répondre le plus efficacement aux souhaits d’un client. En effet, dans le domaine de l’open source (n’est-ce pas vrai ailleurs ?), dès lors que la problématique métier prend une part importante, il est rare de trouver « la solution » qui même en présence d’un paramétrage adapté, permet de satisfaire tout ou partie des besoins attendus.

C’est dans ce contexte d’application « spécialisée » qu’en 2011, l’Agence Nationale des Fréquences a confié à Atol Conseils et Développements la refonte de son site www.cartoradio.fr. Ce site permet au grand public d’accéder de manière cartographique aux informations relatives aux installations radioélectriques (stations émettrices de téléphonie mobile, de télévision de radio, etc.) et aux mesures de champs électromagnétiques implantées/réalisées sur l’ensemble du territoire national.

Continue reading »

Tagged with:
 

Depuis peu, la Release Candidate de Geokettle 2.0 est disponible en téléchargement sur Sourceforge . Pour rappel, cet ETL basé sur Pentaho Data Integration ajoute à ce dernier des fonctionnalités dédiées à la manipulation de l’information géographique. Si les premières versions de GeoKettle proposaient déjà des fonctionnalités intéressantes (cf. billet précédent), il faut bien reconnaître que pour cette version, les équipes de Spatialytics ont clairement mis le paquet afin de proposer une version corrigée et très enrichie de Geokettle. Cette dernière, encore basée sur un coeur PDI 3.2 fonctionne en 32 ou 64bits ; des réflexions sont en cours pour porter les fonctionnalités spatiales vers les versions 4.x de PDI.

Continue reading »

Tagged with:
 

L’utilisation du format GML est aujourd’hui courante dans les fichiers d’échanges XML. Parallèlement, les outils ETL procurent de réels avantages pour mettre en place les chaines de traitements liées à ces besoins d’échanger (changements de format et/ou de structure de la données, échanges entre plateformes, etc.). Aujourd’hui, et à moins de disposer d’un ETL spatial évolué ou de faire appel à des librairies externes comme OGR, il faut bien reconnaitre que la manipulation du GML dans les ETL Open source non spatiaux peut s’avérer fastidieuse, ce format étant par nature assez verbeux (emboitement de nœuds successifs). Pour les amateurs de Kettle (Pentaho Data Integration), il existera pourtant prochainement une solution : Exploiter conjointement la librairie JTS et la future brique améliorée de lecture XML disponible dans la prochaine version PDI 4.2 (en cours de développement). Les paragraphes suivants expliquent la démarche à suivre pour réaliser ce genre de traitements.

Continue reading »

Tagged with:
 

GeoKettle est une version enrichie de Kettle (PDI) incluant des fonctionnalités propres lui permettant de manipuler de l’information spatiale. L’objet de cet article est de présenter les fonctionnalités globales de l’outil et d’en faire ressortir les avantages et limites.

Continue reading »

Tagged with:
 

La parution récente du livre blanc “Les ETL Open Source, une réelle alternative aux solutions propriétaires” sur notre site web a déjà suscité de nombreuses demandes d’informations, ainsi que quelques compliments sur le travail d’étude et de synthèse effectué par le pôle Business Intelligence d’Atol CD.

Les responsables des projets Pentaho Data Integration et Talend nous ont ainsi apporté plusieurs compléments et remarques très constructives sur leurs ETL respectifs, ainsi nous profitons de l’ouverture de notre blog technique pour diffuser ceux-ci.

Continue reading »

Tagged with: