Cartoradio.fr, nouvelle réalisation Atol C&D

Charles-Henry Vagner juillet 18th, 2012

Une fois n’est pas coutume, le billet proposé aujourd’hui n’a pas vocation à présenter une technologie spécifique ou une astuce liée à l’utilisation de tel ou tel composant mais plutôt de percevoir comment plusieurs technologies peuvent, entre elles, s’associer pour répondre le plus efficacement aux souhaits d’un client. En effet, dans le domaine de l’open source (n’est-ce pas vrai ailleurs ?), dès lors que la problématique métier prend une part importante, il est rare de trouver « la solution » qui même en présence d’un paramétrage adapté, permet de satisfaire tout ou partie des besoins attendus.

Le contexte

C’est dans ce contexte d’application « spécialisée » qu’en 2011, l’Agence Nationale des Fréquences a confié à Atol Conseils et Développements la refonte de son site www.cartoradio.fr. Ce site permet au grand public d’accéder de manière cartographique aux informations relatives aux installations radioélectriques (stations émettrices de téléphonie mobile, de télévision de radio, etc.) et aux mesures de champs électromagnétiques implantées/réalisées sur l’ensemble du territoire national.

 

Page d’accueil du site www.cartoradio.fr

Coté fonctionnalités, les principes de l’ancien site Cartoradio ont été conservés mais repensés pour s’adapter aux modes de navigation actuels (interactivité, fonds de cartes tuilés, etc.). La demande était claire ; proposer aux internautes un mode d’accès facilité à de l’information technique reposant sur :

  • Une navigation cartographique fluide avec accès direct aux territoires couverts par l’ANFR (France métropolitaine, départements et territoires d’outre mer),
  • Une recherche par adresse facilitant la localisation sur sa commune, son quartier, sa rue en évitant les zooms successifs sur la carte,
  • Un mode de consultation des informations intuitif permettant de « masquer » la complexité propre à la nature même des données,
  • La possibilité de se constituer des espaces personnels permettant de mémoriser ses favoris cartographiques et de bénéficier de fonctionnalités d’export de données.

 

Continue Reading »

Geokettle 2.0. Une entrée dans la cour des grands

Cédric Darbon juillet 20th, 2011

Depuis peu, la Release Candidate de Geokettle 2.0 est disponible en téléchargement sur Sourceforge . Pour rappel, cet ETL basé sur Pentaho Data Integration ajoute à ce dernier des fonctionnalités dédiées à la manipulation de l’information géographique. Si les premières versions de GeoKettle proposaient déjà des fonctionnalités intéressantes (cf. billet précédent), il faut bien reconnaître que pour cette version, les équipes de Spatialytics ont clairement mis le paquet afin de proposer une version corrigée et très enrichie de Geokettle. Cette dernière, encore basée sur un coeur PDI 3.2 fonctionne en 32 ou 64bits ; des réflexions sont en cours pour porter les fonctionnalités spatiales vers les versions 4.x de PDI.

Premières impressions

Un installateur dédié

Geokettle dispose désormais d’un script d’installation dédié. L’installation par décompression d’un zip reste bien entendu possible mais désormais, les géomaticiens n’auront plus d’excuses pour ne pas installer cet outil sur leur poste.

Une prévisualisation cartographique des données

Un mécanisme de prévisualisation cartographique est désormais disponible pour toutes les étapes. Un onglet « Vue géographique » permet de visualiser la représentation des différentes colonnes géométriques présentes dans le flux. Les actions de zoom, de centrage, d’interrogation d’objets et de personnalisation des styles cartographiques sont également proposées. A l’usage, cet onglet se révèle bien pratique pour vérifier sur des jeux de données restreints que les traitements à réaliser sont corrects avant de lancer ces derniers sur des gros volumes.

Prévisualisation cartographique des données

Continue Reading »

Manipuler le GML avec Pentaho Data Integration

Cédric Darbon mars 8th, 2011

1. Contexte

L’utilisation du format GML est aujourd’hui courante dans les fichiers d’échanges XML. Parallèlement, les outils ETL procurent de réels avantages pour mettre en place les chaines de traitements liées à ces besoins d’échanger (changements de format et/ou de structure de la données, échanges entre plateformes, etc.). Aujourd’hui, et à moins de disposer d’un ETL spatial évolué ou de faire appel à des librairies externes comme OGR, il faut bien reconnaitre que la manipulation du GML dans les ETL Open source non spatiaux peut s’avérer fastidieuse, ce format étant par nature assez verbeux (emboitement de nœuds successifs). Pour les amateurs de Kettle (Pentaho Data Integration), il existera pourtant prochainement une solution : Exploiter conjointement la librairie JTS et la future brique améliorée de lecture XML disponible dans la prochaine version PDI 4.2 (en cours de développement). Les paragraphes suivants expliquent la démarche à suivre pour réaliser ce genre de traitements.

2. Mise en pratique

Pour notre exemple, nous disposons des outils suivants :

Pentaho Data Intégration permet nativement de faire appel à des librairies Java au sein des étapes « Appel script interprété Rhino ». Pour pouvoir exploiter la librairie JTS à travers ces étapes, il faut déposer au préalable les jars « jts-1.11.jar » et « jtsio-1.11.jar » dans le dossier libext de PDI.

2.1. Principe

Les transformations proposées ci-après correspondent à deux besoins simples :

  • Comment lire un contenu GML pour pouvoir l’intégrer en base de données spatiale ?
  • Comment produire un fichier XML avec du contenu au format GML à partir d’une base de données spatiale ?

2.2. Intégrer un contenu GML en base de données spatiale

Dans cet exemple, nous disposons d’un fichier XML regroupant des îlots agricoles (entité administrative utilisée par les agriculteurs dans le cadre de la Politique Agricole Commune pour prétendre au versement d’aides européennes) et des parcelles culturales (limites d’une même culture = les « champs »).

  • Un îlot peut contenir une ou plusieurs parcelles culturales et possède une géométrie de type « polygone » équivalente à l’union géométrique des parcelles qui le compose,
  • Une parcelle possède une géométrie de type « polygone » et ne peut être rattachée qu’a un seul îlot.

Continue Reading »

Notre livre blanc « Les ETL Open Source »: quelques compléments

Sylvain Decloix avril 15th, 2008

La parution récente du livre blanc « Les ETL Open Source, une réelle alternative aux solutions propriétaires » sur notre site web a déjà suscité de nombreuses demandes d’informations, ainsi que quelques compliments sur le travail d’étude et de synthèse effectué par le pôle Business Intelligence d’Atol CD.

Les responsables des projets Pentaho Data Integration et Talend nous ont ainsi apporté plusieurs compléments et remarques très constructives sur leurs ETL respectifs, ainsi nous profitons de l’ouverture de notre blog technique pour diffuser ceux-ci.

Talend Open Studio :

Quelques précisions de la part de Fabrice Bonan, Directeur Général de Talend :

  • Depuis la version 2.3, la librairie de composants de Talend Open Studio inclut plus de 250 composants
  • Au travers du composant générique JDBC tJDBCSP, Talend peut appeler les procédures stockées de n’importe quel SGBD (comme Kettle)
  • Talend prend en charge complètement la norme JMS au travers des composants tMomInput et tMomOutput
  • Talend gère de façon native le transcodage par table de référence, les jointures hétérogènes ainsi que les jointures internes (left outer join mode), externe (right join) avec les modes « First Match », « Last Match » et « All Matches » (produit cartésien). En mode ELT, T.O.S. supporte nativement toutes les jointures ANSI.
  • Des briques Open Source Commerciales permettent l’automatisation de la mise en production, la gestion de grappes de serveurs (grid computing, load balancing, gestion du fail over), la visualisation de l’historique et des stats de traitements des jobs (temps de traitement, erreurs, alertes).
  • Talend permet la définition de n’importe quel format de logs. Celles-ci peuvent être envoyées directement au composant tMap pour réorganiser les colonnes, les filtrer, etc…

-

Pentaho Data Integration (Kettle) :

Plusieurs échanges avec Matt Casters (le créateur de Kettle) ont permis d’affiner les tests comparatifs entre Kettle et Talend Open Studio, notamment les essais n° 4, 5 et 6 du livre blanc (pages 26 à 35).

En effet, dans ces tests, l’étape « Database Lookup » (qui sert à récupérer la description du produit dans la table [produits] à partir de son code) est loin d’être la plus performante.

Matt Casters suggère en effet d’utiliser un « Stream Lookup » qui permet d’effectuer la recherche directement sur les données montées en mémoire après un chargement via un « Table Output« .

Vous trouverez de plus amples informations sur les différentes étapes de lookup disponibles dans Kettle sur le wiki de pentaho.

Dans notre livre blanc, les temps de traitement obtenus avec Kettle pour le test 6 étaient très élevés en comparaison avec Talend Open Studio.

Ci-dessous, le graphe extrait de notre livre blanc indiquait un écart de performance très important pour 1 million de lignes traitées: 602 secondes pour Kettle contre 28 pour Talend.

En remplaçant l’étape « Database Lookup » par un « Stream Lookup », les temps de traitement sont améliorés de façon très conséquente.

Pour 1 million de lignes, on passe ainsi de 602 à 88 secondes pour Kettle :

La transformation Kettle associée est la suivante :

-

Des gains de performance ont encore été obtenus avec la méthodologie suivante:

  • Augmentation de la taille de la JVM disponible (passage de 256Mo à 750Mo)
  • Utilisation de la dernière Release v3.0.3 de Kettle (merci à Matt pour la fourniture de cette version encore non disponible sur SourceForge)
  • Remplacement de l’étape JavaScript par 2 étapes successives finalement moins gourmandes en mémoire: ajout de constante + calcul

On obtient alors au final un temps de traitement de 42 secondes pour Kettle (toujours pour 1 million de lignes en entrée).

-

Pour conclure :

conclusion

42 secondes pour Kettle et 28 secondes pour Talend Open Studio pour réaliser un traitement d’intégration de données complexe sur un fichier CSV comprenant un million de lignes, voila qui devrait sans aucun doute interpeller les utilisateurs actuels d’ETL commerciaux… !

Comme nous l’avions déjà indiqué dans notre livre blanc, Kettle et Talend sont deux excellents ETL Open Source.

Maintenant, c’est à vous de vous faire votre idée en les testant pour vos propres besoins !

Pour vous guider, voici quelques liens pouvant vous être utiles :

Et bien sûr, l’équipe Business Intelligence d’Atol CD reste à votre disposition pour tout renseignement, conseil ou « Webex » sur ces 2 ETL Open Source.

Sylvain Decloix – 18 Avril 2008