BI experience - Part 25

24 mars 2009
par maryam khiali
0 Commentaires

S’abonner au flux RSS d’infodecisionnel.com

J’ai découvert FeedBurner. C’est un logiciel qui permet d’avoir des statistiques sur les flux RSS auxquels, vous lecteurs, vous pouvez vous abonnez sur des plateformes telles que Netvibes ou encore googleReader…

J’ai donc changé l’adresse de mon flux RSS wordpress pour un flux RSS qui transitera par FeedBurner. J’aurai donc des statistiques sur vos lectures…

Êtes-vous déjà abonné à ce blog? Si oui, vous pouvez mettre à jour l’adresse du flux RSS avec la nouvelle adresse : http://feeds2.feedburner.com/biexperience

Et si vous n’êtes pas encore des nôtres, je vous y encourage vivement!

16 mars 2009
par maryam khiali
12 Commentaires

ODS vs Staging Area

Certains parlent d’ODS (Operating Data Store ou magasin de données opérationnelles) d’autres de Staging Area. Mais quelles en sont les points communs et les différences?

l’ODS et le Staging Area ont deux points communs :

ils permettent de stocker les données extraites des SI sources
de faire des opérations sur ces données

Leurs différences :

Dans le cas du staging Area, les données sont détruites directement après avoir été chargées dans le Datawarehouse mais pas pour l’ODS où les données auront quand même une durée de vie plus longue.

Finalement l’ODS répond plus à une problématique de reporting immédiat dans le sens où l’ODS sera mis à jour plus souvent que le datawarehouse : on pourrait dire que l’ODS pourrait être alimenté toutes les semaines et le Datawarehouse une fois par mois.

l’ODS n’est donc pas forcement indispensable si l’entreprise peut recharger son Datawarehouse toutes les semaines : Il sera plus utilisé dans ce cas un Staging Area. C’est une question de politique, de stratégie.

Et vous, dans quel cas êtes-vous?

8 mars 2009
par maryam khiali
2 Commentaires

La nomenclature de votre Datawarehouse

Il est conseillé lors de la création de votre datawarehouse d’avoir, au préalable, réfléchi à une nomenclature. Alors voici celle que l’on m’a conseillé :

Les tables devront s’appeler :

tb_dwh_fait_nomdufait
tb_dwh_dim_nomdemadimension

Pour les tables présentes dans l’ODS qui sont finalement des tables provenant de sources fichiers ou de copies de table de production faute de bases de données de préproduction :

tb_ods_fic_nomdufichier
tb_ods_source_nomdelatable
tbw_ods_nomdelatable : table de travail

Ensuite il faut que

les clefs primaires s’écrivent : pk_nomdemaclef
les clefs étrangères s’écrivent : fk_nomdelatable_nomduchamp

pour les index s’écrivent : idx_nomdelatable_nomduchamp
pour les séquences s’écrivent : seq_nomdelatable_nomduchamp

Et enfin les colonnes de vos tables commenceront si possibles par :

type_nomduchamp
bool_nomduchamp
num_nomduchamp
code_nomduchamp
lib_nomduchamp
date_nomduchamp
nb_nomduchamp

Tout ce travail de nommage permettra une lecture plus aisée et de finalement pourvoir mieux naviguer dans les données.

Et vous, avez-vous un autre type de nomenclature?

4 mars 2009
par maryam khiali
1 Commentaire

Talend et son commandline

Dans un de mes posts précédents, j’ai décrit l’architecture d’un projet avec les serveurs de développement, de recette et de production.

Mais comment passer les flux Talend d’un serveur à un autre?
Et bien le commandline.bat ou commandline.sh présent dans le répertoire de votre client TIS est la clef!

Voici un tutorial très bien mené sur developpez.com

Et puis en bonus voici la liste des commandes auxquelles vous aurez accès avec ce commandline :

2 mars 2009
par maryam khiali
0 Commentaires

Talend, les librairies Java et la manipulation des String

Chez mon client actuel, le datawarehouse était sous SQL Server. Puis pour des raisons politiques, on m’a finalement demandé de stocker ce datawarehouse sous Postgres.

Après avoir réadapté mes flux, reconstruit la structure de mon datawarehouse sous Postgres, je me suis vite rendue compte à quel point SQL Server était permissif : certains flux ne fonctionnaient plus.

Il a donc fallu que je me penche réellement sur le sujet du « nettoyage des données ». J’avais déjà fait un post sur une routine qui nettoyait les données des caractères spéciaux.

Mais comme vous le savez Talend est souple et permet d’utiliser les librairies JAVA. Alors il faut profiter de cet avantage…

Pour les String par exemple, il suffit de télécharger ce .jar : commons-lang-2.4.jar et de l’appeler dans votre flux pour pouvoir utiliser ses fonctions.

Vous pourrez l’insérer dans vos job avec ce composant présent dans la rubrique Custom Code (en lui indiquant le point jar que vous pouvez télécharger ici ):

Voici un exemple d’utilisation avec la fonction trimToEmpty : org.apache.commons.lang.StringUtils.trimToEmpty(monchampString)).

Si vous avez d’autres libraires à conseiller pour manipuler les String ou d’autres types de données n’hésitez pas à nous en faire part.