BI experience

Industrialiser son datawarehouse

| 0 Commentaires

Comment rechargez-vous, ou rafraichissez-vous votre datawarehouse? Quelle est votre méthode d’industrialisation afin que la plateforme de production puisse offrir des données à jour aux utilisateurs finaux?

Voici la méthodologie utilisée dans mon projet :

1 – Pointer les bases de données sources des datamarts => il faudra séparer les datamarts en fonction afin que s’il y ai un problème sur l’une des bases de données sources cela n’impacte pas d’autres datamarts non liés à cette source.

2 – Lister les dimensions et les datamarts qu’elles touchent => si une dimension est rechargée il faudra recharger les faits concernés en conséquence

3 – Identifier les fréquences de chargement pour rassembler les faits ou dimensions qui devront être rafraichis en même temps

4 – Etablir l’ordre dans lequel les dimensions et faits doivent être remplis

En fonction de ces 4 points il se dégage deux visions :

- une vision faits => en fonction de la base de données, de la fréquence, de l’ordre de chargement il faudra créer des blocs de faits qui seront ensuite schedulés en évaluant le temps de chargement de chaque blocs

- une vision dimensions/faits => dès qu’une dimension est rechargée il faudra recharger les faits qu’elle touche. Lors du scheduling il faudra aussi évaluer le temps de chargement de ces blocs dimensions/faits

La représentation sous forme de schémas peut vraiment aider…

Ce scheduling est donc fait pour les jobs de production sur le datawarehouse de production. La fenêtre de temps d’exécution de cet industrialisation doit quand même être bien évaluée car si juste avant vous avez l’alimentation de votre infocentre (copie des bases de données sources) lui-même lancé après les actions de backup, restore des bases de données sources…Vous imaginez que tout ça doit être prévu assez précisément.

Et vous comment faites-vous?

Laisser un commentaire

Champs Requis *.

*