Currently viewing the tag: "kettle"

pdi_gis_00Pentaho Data Integration a toujours autorisé la création de « plugins » permettant d’étendre les fonctionnalités de cet ETL en ajoutant notamment de nouvelles « JobEntries » pour les « Jobs » ou de nouveaux « Steps » pour les « Transformations ». Cette possibilité offerte à l’utilisateur permettait de couvrir nombre de besoins mais il fallait se limiter à la manipulation de données dont le type était nativement reconnu par l’ETL (BigNumber, Binary, Boolean, Date, Integer, Number, String).
Dans le contexte de l’information géographique et avec les versions antérieures à la version 5, la manipulation de données spatialisées nécessitait de transformer les géométries pour les exploiter à travers les types standards «String » ou « Binary ». Si cet artifice permettait de transporter tant bien que mal les descriptions géométriques d’objets dans les flux de données elle nécessitait cependant la mise en place de mécanismes particuliers afin de d’assurer notamment la lecture et l’écriture depuis ou vers les bases de données (utilisation de fonctions telles que St_Astext() pour PostGIS ou SDO_UTIL.TO_WKTGEOMETRY() pour Oracle).
Avec l’arrivée de la version 5.0 de Pentaho Data Integration, il devient désormais possible d’étendre les types de données proposés par défaut en ajoutant ses propres types de données basés sur la classe « ValueMetaBase ». Tirant parti de cette nouvelle possibilité, les équipes d’Atol Conseils et Développements ont souhaité enrichir l’ETL Pentaho Data Integration d’un nouveau type de données « Geometry » dédié à la manipulation de l’information géographique. Cette fonctionnalité initialement mise en œuvre pour couvrir les besoins en lecture et en écriture vers ou depuis PostGIS a finalement débouché sur la création de briques complémentaires permettant notamment de lire ou de produire les formats SIG courants, de prendre en compte les systèmes de coordonnées et de proposer quelques fonctionnalités de manipulation de géométries.

pdi_gis_01

Continue reading »

Tagged with:
 

Mesurer les statistiques de connexion d’un site web est désormais devenu incontournable dans de nombreux domaines d’activités. Comprendre les comportements, les profils et les caractéristiques des internautes sont des facteurs déterminants pour la visibilité, le succès et donc la longévité de nombreux sites. Ceci est tout particulièrement vrai pour les sociétés dont le business model repose exclusivement sur une présence sur la toile :  e-commerce, services en ligne…

Habituellement, pour récupérer les statistiques de connexion d’un serveur web, on utilise des outils spécifiques de mesure d’audience : Xiti, Piwik, Mint, Google Analytics… Lorsque ce dernier est utilisé conjointement avec Google AdWords, il devient même possible de calculer le retour sur investissement (ROI) d’achats de mots clés par rapport au trafic généré.

Cet article vous propose de découvrir :

  • Comment récupérer simplement des statistiques de connexion Google Analytics avec l’ETL open source Pentaho Data Integration (PDI)
  • Comment analyser rapidement les données récupérées avec l’outil de modélisation intégré dans PDI
  • Comment publier efficacement les analyses sur un serveur décisionnel Pentaho

Continue reading »

Tagged with:
 

Depuis peu, la Release Candidate de Geokettle 2.0 est disponible en téléchargement sur Sourceforge . Pour rappel, cet ETL basé sur Pentaho Data Integration ajoute à ce dernier des fonctionnalités dédiées à la manipulation de l’information géographique. Si les premières versions de GeoKettle proposaient déjà des fonctionnalités intéressantes (cf. billet précédent), il faut bien reconnaître que pour cette version, les équipes de Spatialytics ont clairement mis le paquet afin de proposer une version corrigée et très enrichie de Geokettle. Cette dernière, encore basée sur un coeur PDI 3.2 fonctionne en 32 ou 64bits ; des réflexions sont en cours pour porter les fonctionnalités spatiales vers les versions 4.x de PDI.

Continue reading »

Tagged with:
 

GeoKettle est une version enrichie de Kettle (PDI) incluant des fonctionnalités propres lui permettant de manipuler de l’information spatiale. L’objet de cet article est de présenter les fonctionnalités globales de l’outil et d’en faire ressortir les avantages et limites.

Continue reading »

Tagged with:
 

La parution récente du livre blanc “Les ETL Open Source, une réelle alternative aux solutions propriétaires” sur notre site web a déjà suscité de nombreuses demandes d’informations, ainsi que quelques compliments sur le travail d’étude et de synthèse effectué par le pôle Business Intelligence d’Atol CD.

Les responsables des projets Pentaho Data Integration et Talend nous ont ainsi apporté plusieurs compléments et remarques très constructives sur leurs ETL respectifs, ainsi nous profitons de l’ouverture de notre blog technique pour diffuser ceux-ci.

Continue reading »

Tagged with: