BI experience

22 février 2009
par maryam khiali
3 Commentaires

Une nouvelle adresse ?

Comme je vous en avais déjà parlé dans un précédent post, j’avais prévu de prendre mon propre nom de domaine et hébergement. J’ai donc choisi OVH c’est ce qui m’a paru le plus fiable et le plus facile d’après vos conseils et ceux de mes proches.

Maintenant je ne dépends plus de free!

J’ai donc mis une redirection sur le site http://infodecisionnel.free.fr vers cette nouvelle adresse http://infodecisionnel.com comme vous aurez pu le constater.

Il est donc temps de mettre à jour vos favoris!

3 février 2009
par maryam khiali
0 Commentaires

Estimer la memoire utilisée par votre JVM avec Talend

Lorsque vous utilisez Talend avec le mode ETL, il est important de suivre l’évolution de la mémoire utilisée par votre JVM. Cela vous permettra de voir si votre serveur est bien configuré, et faire des estimations de montée en charge.

Voici une procédure que j’ai utilisée pour analyser mes jobs Talend :

Dans Talend, allez dans Windows > Préférences > Talend > Run/Debug

dans cette fenêtre vous pouvez entrer des arguments. Créez ces 3 arguments :

  • Dcom.sun.management.jmxremote.port=25000 (exemple de port)
  • Dcom.sun.management.jmxremote.authenticate=false
  • Dcom.sun.management.jmxremote.ssl=false

talend_arg.JPG

Après vous être assurés que votre machine possédait bien une JRE et un JDK, allez dans JAVA>JDK> bin>jconsole.exe

Il ne vous reste plus qu’à lancer un job et double cliquer sur cet exécutable pendant que votre job s’exécute.

Une fenêtre s’ouvre à vous : « New Connection ». Au niveau de Local Process le nom du job que vous avez lancé s’affiche vous n’avez plus qu’à cliquer dessus et faire « Connect ».

new_connection.JPG

Allez dans l’onglet memory de la fenêtre qui s’ouvre à vous, un graphique se dessine sous vos yeux.

fenetre_controle.JPG

Astuce : pour avoir une réelle vision de ce qui est consommé il faut vider le garbage collector donc cliquer aussi souvent que possible sur Perform GC qui se trouve en haut à droite de la fenêtre.

En effet les composants JAVA candidats (flagué : qui devrait être dans le garbage collector puisqu’ils ne sont plus réellement utilisés) à la garbage collection persiste dans le heap memory usage et donc la vision du graphique peut être faussée.

En appuyant sur le bouton « Perform GC » on force donc le passage du garbage collector pour enlever ces composants JAVA flagués du heap memory.

Je tiens juste à préciser que mon client Talend est sur ma machine locale et que le serveur Talend est sur un serveur.

1 février 2009
par maryam khiali
3 Commentaires

ETL et ELT

Ces 2 modes ont une même vocation extraire les données, les transformer et les loader.

La différence vient du procédé utilisé.

ETL :

  • exploité dans des environnements très hétérogènes
  • pour les transformations, c’est un moteur engine autre que ceux des SGBD  qui est utilisé  (exemple le moteur JAVA ou PERL pour Talend)
  • Il traite ligne par ligne pour faire les traitements

ELT :

  • exploité dans des environnements homogènes
  • utilise seulement les moteurs SGBD (donc les traitements aussi sont faits par ces moteurs)
  • permet de charger plutôt de gros volumes

Il est possible de coupler les deux approches pour tirer parti des deux avantages mais encore faut-il savoir bien analyser le contexte, sinon on pourrait arriver à de grosses pertes de performances.

30 janvier 2009
par maryam khiali
2 Commentaires

MyISAM vs InnoDB

Lorsque les clients ont envie d’avoir une BDD open source, 3 bases de données sont proposées : MySQL, PostgreSQL, Ingres.

MySQL propose deux moteurs de stockage : MyISAM et InnoDB. Pour en comprendre les avantages et les inconvénients je vous laisse consulter ce lien : tux-planet.fr

Voici un schéma qui je pense vous permettra d’avoir un exemple de mise en application de l’utilisation d’InnoDB et MyISAM dans le décisionnel…

plateforme.JPG

Vous l’aurez donc j’espère compris, dans un contexte décisionnel, l’intérêt est porté sur la performance des temps d’accès en lecture. C’est ainsi que pour le datawarehouse ce sont les performances de MyISAM qui seront utilisées.

Mais pour un souci d’intégrité de données, les flux créés avec l’ETL seront dans un premier temps travaillés dans un ODS (Operating Data Store) puis ensuite déversés dans le datawarehouse.
J’espère que cet article vous aura clarifié les idées sur l’utilité de ces 2 moteurs de stockage.