Base De Données | BI experience - Part 2

Archive pour le mot-clef ‘Base de données’

La base de données Ingres se positionne dans OSBI et plus encore !

Lundi 5 mai 2008

Ingres c’est 10.000 clients dans le monde et une expérience de 25 ans dans les bases de données relationnelles.

ingres.JPG

Cette base de données était à l’origine payante. Depuis 2 ans, elle est devenue Open Source pour se positionner tout doucement dans le monde de l’OSBI. D’autres actions ont été menées pour arriver entrer dans ce monde. En effet Ingres est partenaire de Jaspersoft, Pentaho, SpagobI.

Mais le plus étonnant, c’est son offre spéciale et originale : son appliance Ingres IceBreaker BI qui est en fait une VM ( marchine vituelle) avec:

  • un système d’exploitation : la distribution Linux de rPath
  • le SGBDR Ingres 2006
  • les outils décisionnels de Jaspersoft :ETL Talend et la solution Jaspersoft

L’avantage vraiment majeure de cette offre pour nous développeur est qu’Ingres assurera la maintenance de l’ensemble comme s’il s’agissait d’un seul logiciel.

C’est pas beau ça?

Vous aurez accès à cette solution pour un coût modique de 35k€ pour 2 CPU.

c’est quoi un datawarehouse?

Jeudi 27 mars 2008

Dans le datawarehouse les données sont :

  • intégrées, c’est-à-dire qu’elles sont complètes et directement exploitables (et non sous la forme de code ou de liens à résoudre avant exploitation), on utilise pour cela un ETL.
  • non volatiles, elles ne peuvent pas être supprimées après exploitation.
  • historisées,c’est-à-dire que les données sont positionnées dans le temps, pour suivre leur évolution.
    _______________________________________________________

Les informations peuvent être nettoyées. En effet un datawarehouse devrait avoir de données de qualités pour être optimisées au maximum.
Les données peuvent être consolidées. c’est à dire regroupées de façon cohérente. Cette consolidation concerne généralement des données organisées logiquement ou liées entre elles. Ce regroupement a pour but de répondre aux différents besoins métiers en choisissant correctement la granularité de l’information à montrer, les bonnes dimensions avec les bons attributs et les bonnes hiérarchies.

Cette concentration de données hétérogènes, provenant de diverses sources amonts, est centralisée dans le système décisionnel et, constitue notre entrepôt de données (ou datawarehouse) auquel on peut y adosser un ou plusieurs magasins de données (ou datamarts) spécialisés le plus souvent par processus ou fonction de l’entreprise.

C’est ainsi que les datamarts et que le datawarehouse sont bien ciblés et donc l’information contenue répond aux besoins attendus.

Dans les deux cas, il s’agit souvent d’une base de données relationnelle qui doit accueillir et manipuler une volumétrie importante de données. Ce peut être une

  • base de données commerciale (Oracle, DB2, SQL Server, …)
  • base de données open source (MySql, PostgreSql, …)

Comment bien choisir son ETL?

Mercredi 26 mars 2008

Pour bien choisir son ETL, plusieurs critères sont à considérer :

  • Regarder l’accès aux différentes sources de données :
    • BDD, fichiers plats…
    • en regardant les connecteurs dont ils peuvent avoir accès et ainsi assurer l’indépendance de l’ETL.
    • Connecteur d’analyse des fichiers plats : .csv, .txt, xls…
    • Connecteur d’analyse des fichiers hiérarchisés : XML
    • Connecteur de base de données les plus connues : Oracle, Sql Server, Sybase, IBM DB2, Teradata, MS Access, MySQL, PostGres, Informix, FileMaker, Pervasive.
    • Connecteur HTML
    • Connecteur SOA/WebService
    • Connecteur FTP
    • Connecteur Mail IMAP/POP3
    • Connecteur OLAP/MDX
    • Connecteur aux ESB du marché : Tibco, MSMQ, MQSeries …
    • Connecteur annexe : WMI, Standalone application
  • Vérifier l’indépendance aux différents OS : AIX, Linux, Windows, …
  • Evaluer les outils de transformation flexibles et performants
  • Le Scripting : faire appel à un langage de Scripting tel que VBScript, WSH, PERL…
  • L’ouverture aux langages de programmation traditionnels tel que C#, Java, C++
  • Outil graphique : en regardant les temps et volumétrie supportés : les benchmarks
  • les coûts du logiciel, du matériel, des formations et maintenance.
  • Vérification de la présence d’un scheduler : Il existe deux types d’insertion dans l’entrepôt, soit une insertion dite ‘Temps Réel’ soit une insertion en ‘Mode Batch’.S’il y a un quelconque problème il faut que l’application puisse le notifier (email, Net send, …)
  • Support d’outil de Monitoring : pour capter des métriques technique ou fonctionnel du système d’information ( fichiers de log, connexion à des micro-agents, extension WMI ou compteur de performance NT…).
  • Outil de Sécurisation des données source
  • Vérifier la présence d’un outil de vérification sémantique qui permet de vérifier la cohérence des données pour s’assurer que la donnée entrée dans l’entrepôt est valide.

Je vous laisse évaluer votre outil….

Bien sur ces critères s’accompagnent d’un contexte : celui de la société cliente. Il faudra donc prendre en plus en compte sa politique, son environnement technique et le marché.