Datawarehouse

Wat is een Datawarehouse?

Een datawarehouse is een geavanceerde opslag plaats voor het verzamelen van data afkomstig uit diverse bronnen.

Tegenwoordig kan dit van alles zijn:

  • ERP pakket
  • Webshop
  • Machines in de productie
  • Een website van een organisatie zoals de overheid die API’s beschikbaar stelt voor het publiek
  • Een ECG apparaat of beademingsapparaat in het ziekenhuis
  • Weermeter
  • Sensoren van boeien in de atlantische oceaan
  • Enz.

Je kunt het zo gek niet bedenken of het kan tegenwoordig.
Je kunt overal data van verzamelen, het enige wat je hoeft te doen is ervoor zorgen dat de bronnen die jouw data bevatten ook daadwerkelijk een interface hebben die data kunnen versturen in een leesbaar formaat.

Voorbeelden van diverse bronnen waaruit je data kan ontsluiten:

·       Excel

·       PDF

·       Apache Spark

·       CSV

·       API

·       JSON

·       SQL Database

·       Databricks

·       Maria DB

·       SAP

·       Exchange

·       Sharepoint

·       OLE DB

·       ODBC

·       SnowFlake

·       Azure (van alles)

·       Parquet

·       Hadoop

·       Dynamics 365

·       Oracle

·       MySql

 

Extract Transform Load (ETL):
Alle data wordt via een ETL proces verzamelt in een Staging database.
De data wordt bewerkt en er worden aggregaties op uitgevoerd.
Deze data wordt gezuiverd van alle ruis zodat je hier kraakheldere analyses op kunt uitvoeren.
Als dit proces klaar is, wordt de data klaar gezet in het Datawarehouse

ETL

STAR schema
Als je analyses op je data wil doen maken we een STAR schema. Dit is een schema waarin de tabellen optimaal op elkaar zijn afgestemd zodat er met een visualisatie tool zoals Power BI op in geprikt kan worden.
Hieronder zie je een voorbeeld van een STAR schema.

Ster

Waarom heb je een datawarehouse nodig?
Als je met analyse programma’s zoals Power BI gaat werken is het Essentieel om een goed datawarehouse te hebben. Dit is je waarheid.
De best practise is om met een analyse tool zoals Power BI in te prikken op het Datawarehouse.
Vervolgens laad je alle benodige tabellen in Power BI. Dan komen je rapportages en dashboards tot leven.

Voordelen Datwarehouse:

  • Een Datawarehouse is ingericht als OLAP database. Deze is geoptimaliseerd voor data analyse.
    Juist voor het snel opvragen van gegevens. De database van een datawarehouse heeft een totaal andere structuur dan een OLTP database (productie database).
    Een OLTP database is geoptimaliseerd voor het snel weg kunnen schrijven, updaten en verwijderen van records.
  • Je kunt historische records bijhouden indien gewenst.
  • Je kunt s’nachts de data ontsluiten uit de bronsystemen waardoor de bronsystemen/gebruikers hier geen last van hebben.
  • Doordat je de data uit het Datawarehouse haalt heb je geen last van performance problemen door het tegelijktijdig gebruik maken van de productie databases.