BI experience

26 mars 2008
par maryam khiali
0 Commentaires

Comment bien choisir son ETL?

Pour bien choisir son ETL, plusieurs critères sont à considérer :

  • Regarder l’accès aux différentes sources de données:
    • BDD, fichiers plats…
    • en regardant les connecteurs dont ils peuvent avoir accès et ainsi assurer l’indépendance de l’ETL.
    • Connecteur d’analyse des fichiers plats : .csv, .txt, xls…
    • Connecteur d’analyse des fichiers hiérarchisés : XML
    • Connecteur de base de données les plus connues : Oracle, Sql Server, Sybase, IBM DB2, Teradata, MS Access, MySQL, PostGres, Informix, FileMaker, Pervasive.
    • Connecteur HTML
    • Connecteur SOA/WebService
    • Connecteur FTP
    • Connecteur Mail IMAP/POP3
    • Connecteur OLAP/MDX
    • Connecteur aux ESB du marché : Tibco, MSMQ, MQSeries …
    • Connecteur annexe : WMI, Standalone application
  • Vérifier l’indépendance aux différents OS : AIX, Linux, Windows, …
  • Evaluer les outils de transformation flexibles et performants
  • Le Scripting : faire appel à un langage de Scripting tel que VBScript, WSH, PERL…
  • L’ouverture aux langages de programmation traditionnels tel que C#, Java, C++
  • Outil graphique : en regardant les temps et volumétrie supportés : les benchmarks
  • les coûts du logiciel, du matériel, des formations et maintenance.
  • Vérification de la présence d’un scheduler : Il existe deux types d’insertion dans l’entrepôt, soit une insertion dite ‘Temps Réel’ soit une insertion en ‘Mode Batch’.S’il y a un quelconque problème il faut que l’application puisse le notifier (email, Net send, …)
  • Support d’outil de Monitoring : pour capter des métriques techniques ou fonctionnelles du système d’information ( fichiers de log, connexion à des micro-agents, extension WMI ou compteur de performance NT…).
  • Outil de Sécurisation des données source
  • Vérifier la présence d’un outil de vérification sémantique qui permet de vérifier la cohérence des données pour s’assurer que la donnée entrée dans l’entrepôt est valide.

Je vous laisse évaluer votre outil….

Bien sûr ces critères s’accompagnent d’un contexte : celui de la société cliente. Il faudra donc prendre en plus en compte sa politique, son environnement technique et le marché.

21 mars 2008
par maryam khiali
0 Commentaires

Assez de la documentation technique post projet!

Je voudrai juste vous présenter un petit soft pour SSIS :

mainlogo.jpg
Ce soft permet de faire la documentation rapidement de vos différents packages. Voici un petit aperçu. Mais attention il n’y a pas que les composants qui sont répertoriés mais tous les paramètres que vous avez ajoutés ou configurés qui sont précisés pour chaque composant. C’est clair, précis. Vous n’aurez plus qu’à justifier vos choix!

SSIS Documenter

20 mars 2008
par maryam khiali
0 Commentaires

L’Open Source en pleine expansion

Et oui après IBM, Microsoft, SAP (BO)…Il fallait bien que les PME se mettent aussi au décisionnel…Alors l’open source est arrivé…

Voici un récapitulatif de qui existe dans l’open source

ETL

  • Kettle
  • Talend

Analyse multidimensionnelle

  • Mondrian : serveur OLAP écrit en JAVA
  • Palo : server OLAP pour excel
  • Jpivot, Jrubik, FreeOLAP : client Mondriant (bibliothèque)
  • Jpalo : client Palo (bibliothèque)

Générateurs d’états

  • Birt, JasperReports : outil de conception de rapports basé sur Eclipse et un moteur d’exécution installable dans un serveur d’applications J2EE
  • JFreeReport (bibliothèque)

Générateur de graphiques

  • JFreeChart(bibliothèque)

Datamining

  • Weka

Portail de Restitution

  • JasperServer (son ETL : Talend)
  • Pentaho(son ETL : Kettle)
  • SpagoBI(son ETL : Talend)

J’espère que ce petit récapitulatif vous a permis d’y voir plus clair….

18 mars 2008
par maryam khiali
2 Commentaires

Schéma en étoile et schéma en flocon

Je sais que certains ne visualisent pas très bien ce qu’est un star schéma…Je voudrais donc replacer les choses. Voici un exemple :

start schéma assurance
Comme vous pouvez le constater un schéma en étoile est finalement une table de fait entourée de ces différents axes d’analyse : les dimensions.
Un star schéma correspond à un datamart donc à un fait particulier du métier : ici l’assurance.
Les valeurs calculées de ce fait sont : blessés, montant, état dossier.
Les autres attributs de la table de fait sont les clefs étrangères qui la relient aux différentes dimensions.

Il existe aussi le schéma en flocon…Il est moins utilisé :
schéma en flocon

La différence est au niveau de la table « réponse » où une hiérarchie est visible. En effet une réponse correspond à un « choixreponse » et à une « question ».

Mes posts précisent des notions basiques…Mais la technique plus spécifique et pointue ne tardera pas à venir. Je préfère bien poser les bases.

14 mars 2008
par maryam khiali
0 Commentaires

Un peu de vocabulaire

Dans tout métier, il y a un jargon a acquérir…

Je vous propose des petites définitions:

Base de données relationnelle ou OLTP (On-Line Transaction Processing). : est une base de données dite « classique » qui stocke les informations. Elle est interrogée à l’aide de requêtes SQL de façon quotidienne et répétitive .

Base de données OLAP ou multidimensionnelle, Datawharehouse, hypercube: ces quatre mots désignent un entrepôt de données contenant toutes les informations agrégées de façon structurée sous forme de hiérarchie. Les données sont interrogées à l’aide de requêtes DMX.

Requête MDX : Ce langage est l’équivalent du langage SQL mais pour interroger une base de données multidimensionnelle.

Cube : Un cube est un regroupement de dimensions autour d’une table de fait. Un cube traite d’un fait particulier qu’un département métier veut étudier. Exemple : l’étude du Chiffre d’affaire selon les dimensions : produit, temps, géographie, client…

Dimension : Une dimension est un axe d’analyse qui permet de préciser le sens d’une mesure.

Agrégations : sont des valeurs qui résultent d’une règle de calcul.

Hiérarchie : est une organisation logique de mesure ou de dimension. Exemple : La hiérarchie géographie contient Pays qui possède comme fils région et lui-même possède comme fils ville.

Mesure : est un indicateur qui va permettre d’évaluer une quantité aux croisements de dimensions d’analyse. Ces mesures se trouvent dans la table de fait. Exemple : le chiffre d’affaire est la quantité de produits vendus multipliée par le prix.

Indicateur clé : est un indicateur où l’on a précisé un seuil. Si l’indicateur clé est représenté par un composant graphique. Exemple si le Chiffre d’affaire est en dessous de 10000 alors on affichera un rond rouge mais si il est au-dessus le rond sera vert.

Tableau de bord : Un tableau de bord est un ensemble de rapports qui fait ressortir une information qui aidera a la prise de décision.

ETL (Extract, Transform and Load) : Ce sont des outils qui filtrent des informations et les inserts dans une base de données. Ce sont donc les outils nécessaires au remplissage des données relationnelles.