Analysez vos statistiques web avec Google Analytics et Pentaho

Sylvain Decloix février 28th, 2012

Introduction

Mesurer les statistiques de connexion d’un site web est désormais devenu incontournable dans de nombreux domaines d’activités.

Comprendre les comportements, les profils et les caractéristiques des internautes sont des facteurs déterminants pour la visibilité, le succès et donc la longévité de nombreux sites.

Ceci est tout particulièrement vrai pour les sociétés dont le business model repose exclusivement sur une présence sur la toile :  e-commerce, services en ligne…

Habituellement, pour récupérer les statistiques de connexion d’un serveur web, on utilise des outils spécifiques de mesure d’audience : Xiti, Piwik, Mint, Google Analytics

Lorsque ce dernier est utilisé conjointement avec Google AdWords, il devient même possible de calculer le retour sur investissement (ROI) d’achats de mots clés par rapport au trafic généré.

Cet article vous propose de découvrir :

  • Comment récupérer simplement des statistiques de connexion Google Analytics avec l’ETL open source Pentaho Data Integration (PDI)
  • Comment analyser rapidement les données récupérées avec l’outil de modélisation intégré dans PDI
  • Comment publier efficacement les analyses sur un serveur décisionnel Pentaho

Continue Reading »

Geokettle 2.0. Une entrée dans la cour des grands

Cédric Darbon juillet 20th, 2011

Depuis peu, la Release Candidate de Geokettle 2.0 est disponible en téléchargement sur Sourceforge . Pour rappel, cet ETL basé sur Pentaho Data Integration ajoute à ce dernier des fonctionnalités dédiées à la manipulation de l’information géographique. Si les premières versions de GeoKettle proposaient déjà des fonctionnalités intéressantes (cf. billet précédent), il faut bien reconnaître que pour cette version, les équipes de Spatialytics ont clairement mis le paquet afin de proposer une version corrigée et très enrichie de Geokettle. Cette dernière, encore basée sur un coeur PDI 3.2 fonctionne en 32 ou 64bits ; des réflexions sont en cours pour porter les fonctionnalités spatiales vers les versions 4.x de PDI.

Premières impressions

Un installateur dédié

Geokettle dispose désormais d’un script d’installation dédié. L’installation par décompression d’un zip reste bien entendu possible mais désormais, les géomaticiens n’auront plus d’excuses pour ne pas installer cet outil sur leur poste.

Une prévisualisation cartographique des données

Un mécanisme de prévisualisation cartographique est désormais disponible pour toutes les étapes. Un onglet « Vue géographique » permet de visualiser la représentation des différentes colonnes géométriques présentes dans le flux. Les actions de zoom, de centrage, d’interrogation d’objets et de personnalisation des styles cartographiques sont également proposées. A l’usage, cet onglet se révèle bien pratique pour vérifier sur des jeux de données restreints que les traitements à réaliser sont corrects avant de lancer ces derniers sur des gros volumes.

Prévisualisation cartographique des données

Continue Reading »

GeoKettle : Quand PDI flirte avec le monde des SIG

Cédric Darbon novembre 12th, 2009

GeoKettle est une version enrichie de Kettle (PDI) incluant des fonctionnalités propres lui permettant de manipuler de l’information spatiale. L’objet de cet article est de présenter les fonctionnalités globales de l’outil et d’en faire ressortir les avantages et limites.

Les fonctionnalités

En plus des fonctionnalités proposées nativement par Kettle et sur lesquelles nous ne reviendrons pas (consulter Sylvain, le spécialiste BI d’Atol pour plus d’infos !), GeoKettle apporte :

Un nouveau type de données « geometry » en plus des types (integer, string, etc.) déjà présents dans Kettle. A la prévisualisation des données, les géométries sont visibles dans leur représentation textuelle Well Known Text (POINT, LINESTRING, POLYGON, etc.) en attendant le « viewer carto » annoncé. Continue Reading »

Notre livre blanc « Les ETL Open Source »: quelques compléments

Sylvain Decloix avril 15th, 2008

La parution récente du livre blanc « Les ETL Open Source, une réelle alternative aux solutions propriétaires » sur notre site web a déjà suscité de nombreuses demandes d’informations, ainsi que quelques compliments sur le travail d’étude et de synthèse effectué par le pôle Business Intelligence d’Atol CD.

Les responsables des projets Pentaho Data Integration et Talend nous ont ainsi apporté plusieurs compléments et remarques très constructives sur leurs ETL respectifs, ainsi nous profitons de l’ouverture de notre blog technique pour diffuser ceux-ci.

Talend Open Studio :

Quelques précisions de la part de Fabrice Bonan, Directeur Général de Talend :

  • Depuis la version 2.3, la librairie de composants de Talend Open Studio inclut plus de 250 composants
  • Au travers du composant générique JDBC tJDBCSP, Talend peut appeler les procédures stockées de n’importe quel SGBD (comme Kettle)
  • Talend prend en charge complètement la norme JMS au travers des composants tMomInput et tMomOutput
  • Talend gère de façon native le transcodage par table de référence, les jointures hétérogènes ainsi que les jointures internes (left outer join mode), externe (right join) avec les modes « First Match », « Last Match » et « All Matches » (produit cartésien). En mode ELT, T.O.S. supporte nativement toutes les jointures ANSI.
  • Des briques Open Source Commerciales permettent l’automatisation de la mise en production, la gestion de grappes de serveurs (grid computing, load balancing, gestion du fail over), la visualisation de l’historique et des stats de traitements des jobs (temps de traitement, erreurs, alertes).
  • Talend permet la définition de n’importe quel format de logs. Celles-ci peuvent être envoyées directement au composant tMap pour réorganiser les colonnes, les filtrer, etc…

-

Pentaho Data Integration (Kettle) :

Plusieurs échanges avec Matt Casters (le créateur de Kettle) ont permis d’affiner les tests comparatifs entre Kettle et Talend Open Studio, notamment les essais n° 4, 5 et 6 du livre blanc (pages 26 à 35).

En effet, dans ces tests, l’étape « Database Lookup » (qui sert à récupérer la description du produit dans la table [produits] à partir de son code) est loin d’être la plus performante.

Matt Casters suggère en effet d’utiliser un « Stream Lookup » qui permet d’effectuer la recherche directement sur les données montées en mémoire après un chargement via un « Table Output« .

Vous trouverez de plus amples informations sur les différentes étapes de lookup disponibles dans Kettle sur le wiki de pentaho.

Dans notre livre blanc, les temps de traitement obtenus avec Kettle pour le test 6 étaient très élevés en comparaison avec Talend Open Studio.

Ci-dessous, le graphe extrait de notre livre blanc indiquait un écart de performance très important pour 1 million de lignes traitées: 602 secondes pour Kettle contre 28 pour Talend.

En remplaçant l’étape « Database Lookup » par un « Stream Lookup », les temps de traitement sont améliorés de façon très conséquente.

Pour 1 million de lignes, on passe ainsi de 602 à 88 secondes pour Kettle :

La transformation Kettle associée est la suivante :

-

Des gains de performance ont encore été obtenus avec la méthodologie suivante:

  • Augmentation de la taille de la JVM disponible (passage de 256Mo à 750Mo)
  • Utilisation de la dernière Release v3.0.3 de Kettle (merci à Matt pour la fourniture de cette version encore non disponible sur SourceForge)
  • Remplacement de l’étape JavaScript par 2 étapes successives finalement moins gourmandes en mémoire: ajout de constante + calcul

On obtient alors au final un temps de traitement de 42 secondes pour Kettle (toujours pour 1 million de lignes en entrée).

-

Pour conclure :

conclusion

42 secondes pour Kettle et 28 secondes pour Talend Open Studio pour réaliser un traitement d’intégration de données complexe sur un fichier CSV comprenant un million de lignes, voila qui devrait sans aucun doute interpeller les utilisateurs actuels d’ETL commerciaux… !

Comme nous l’avions déjà indiqué dans notre livre blanc, Kettle et Talend sont deux excellents ETL Open Source.

Maintenant, c’est à vous de vous faire votre idée en les testant pour vos propres besoins !

Pour vous guider, voici quelques liens pouvant vous être utiles :

Et bien sûr, l’équipe Business Intelligence d’Atol CD reste à votre disposition pour tout renseignement, conseil ou « Webex » sur ces 2 ETL Open Source.

Sylvain Decloix – 18 Avril 2008