Hei,
Tietovarastot ovat yritysten keskeinen järjestelmä raportoinnille, tietojohtamiselle sekä data-analytiikalle.
Niiden periaate on se, että yhteen tietokantaan tuodaan datat ERP:stä sekä muista IT-järjestelmistä.
Hajallaan olleet tiedot integroidaan ja käsitellään tietovarastossa mahdollistaen näin yrityksen datan analysoinnin ja raportoinnin.
Voimme esimerkiksi laskea tuotteen katteita, hoitokäyntien kustannuksia terveydenhuollossa tai optimoida hinnoittelua vähittäiskaupassa tietovarastoa hyödyntäen.
Jokaisella isommalla organisaatiolla on tietovarasto ja moni on vaihtamassa vanhaa järjestelmää uuteen, parempaan versioon.
Miten tietovarastoa rakennetaan
Tietovarastossa on siis tietokanta, jossa on tauluja, hieman kun Excelissä. Siksi se on hyvä Excel-tyyppisen datan käsittelyyn.
Koska sinne tuodaan datoja eri järjestelmistä, niin se pitää varta vasten suunnitella ja rakentaa. Datat ovat vaikkapa SAP:ssa ja esim Salesforcessa hieman eri muodossa, siksi datat pitää tuoda uusiin, parempiin rakenteisiin.
Yksi suosittu tapa on rakentaa se tietotarpeiden pohjalta. Kysytään, että mitä tietoa johto tarvitsee ja sitten tehdään sen mukainen.
Esim S-ryhmä haluaa tietää paljonko lounaita myydään eri ABC-ravintoloissa. Tietysti heillä on muitakin tarpeita tämän lisäksi, mutta näin esimerkkinä.
Tällaista kutsutaan ns Kimball-tyyppiseksi menetelmäksi tietovarastointiin. Ne ovat usein paikallisia ratkaisuja, eivätkä monen eri osaston käytettävissä.
Haasteena on se, että kun tulee uusia tarpeita, niin tietovarastoa on vaikea laajentaa.
Nyttemmin on huomattavasti yleistynyt ns. Inmonilainen arkkitehtuuri, jossa korostuu tietovaraston EDW (Enterprise Data Warehouse) -rooli.
Tämän rakentamiseen menee ehkä enemmän aikaa, mutta se lopulta tyydyttää johtoa paremmin myöhemmin, koska sitä voi laajentaa koskemaan uusia tietotarpeita.
Esim joku johtaja haluaa dataa siitä, kuinka moni ABC-ravintolassa lounastaja myös tankkaa samalla. Tämä ei tullut aluksi mieleen, mutta nyt tätä tietoa tarvitaan.
Nykyisin yksi suosituimmista menetelmistä rakentaa yhteistä, laajempaa tietovarastoa on Data Vault.
Se on amerikkalaisen Dan Linstedtin kehittämä mallinusmenetelmä ja arkkitehtuuri. Se siis ohjaa tietovarastotietokannan rakentamista teknisellä tasolla.
Tutustuin Data Vaultiin n. 2005 ja pari vuotta myöhemmin olin Linstedtin kurssilla Hollannissa hankkimassa suomen ensimmäistä sertifiointia.
Data Vaultin etuja
Data Vaultin suurimpia etuja on, että se tukee tietovaraston nopeaa laajentamista. Laajentaminen tapahtuu lisäämällä uusia tauluja. Vähän kuin lisäisi legopalikoita rakennelmaan.
Tässä on se etu, että jo tuotantoon saatuihin tietovaraston tauluihin ja niiden latauksiin ei tarvitse lainkaan koskea. Uuden rakentaminen ei siis tarkoita jo tehtyjen osien piikkaamista, purkamista tai korjaamista.
Tämä on tärkeä asia. Usein on ongelmana, että jo tehdyt tietovaraston osat tai latauksen lakkaavat toimimasta, kun niitä koko ajan muutellaan.
Data Vault -menetelmä sisältää myös toimivat menetelmät tietojoen historiointiin. Jos vaikka asiakkaan kunta muuttuu, vanha kunta jää automaattisesti talteen, asiakkaan vanhana versiona.
Tietovaraston rakentamisessa aikaa vievä vaihe on datan tuominen samaan keskusvarastoon. Tämä on tietovaraston latausvaihe, jossa tehdään paljon koodaamista.
Nyt osan tästä työstä voi automatisoida.
Monilla systeemioperaattoreilla onkin itse tehty tietovarastolatauksia automatisova ohjelmisto. Lisäksi on kansainvälisiä ns. Data Warehouse Automation -tuotteita.
Automaation avulla tietovaraston rakentaminen nopeutuu. Jos tietovaraston rakentaminen on ollut hidasta, syy on yleensä muualla kuin tietovaraston latauksessa.
Mallipohjainen lähestymistapa on suositeltavaa
Data Vaultin suunnittelua voi lähestyä kahdella eri tavalla.
Ensimmäinen, lähdejärjestelmäl
Etuna on suoraviivainen toteutus.
Ongelmana on, että lähdejärjestelmien tietokannat ovat usein vanhoja, kuten SAP:ssa, ja liiketoiminnan kannalta oudosti suunniteltuja, ja nyt nuo rakenteet siis ohjaavat tietovaraston rakentamista. Entä jos lähdejärjestelmä vaihtuu?
Toinen menetelmä on mallipohjainen lähestyminen. Ensin mallinnetaan liiketoimintalähtöisesti eri alueita, syntyy siis käsitemalleja.
Näistä malleista sitten johdetaan Data Vault -tietovaraston rakenne. Näin tietovarasto noudattaa liiketoiminnan näkemystä.
Tämä on nykyisin kansainvälisten alan huippuasiantiuntijoiden näkemys ja lähes kaikki konsulttitalot tekevät nykyisin näin.
Edistykselliisimmissä toteutuksissa Data Vault -rakenteet voidaan generoida automaattisesti käsitemalleista.
Dan Linstedt itse sanoo ”Data Vault is, and always will be about the business.” Hän siis kannattaa mallipohjaista, liiketoimintalähtöistä etenemistä.
Käytännössä Data Vault -rakenne on parhaimmillaan eräänlainen hybridi.
Tietovaraston perusrakenne tehdään liiketoimintalähtöisten mallien mukaan. Lähtöjärjestelmien attribuutit ja jotkin rakenteet heijastuvat alimmalle attribuuttitasolle.
Kolikon toinen puoli
Olen luetellut Data Vaultin etuja. Luonnollisesti siinäkin on ongelmansa. Yksi hankaluus on, että kun tauluja tulee paljon, tulee tietovaraston rakennekaavioista hankalasti ymmärrettäviä.
Niiden kanssa ei voi kommunikoida liiketoiminnan tai oikeastaan kenenkään muun kuin Data Vault -spesialistin kanssa.
Tehdessämme tietovarastojen auditointeja olemme huomanneet, että välillä asiakasorganisaatiossa ei oikein pysytä kärryillä siitä mitä toimittaja rakentaa.
Pahimmillaan uudesta tietovarastosta tulee uusi musta laatikko, jota ei tunneta. Ei tiedetä tarkkaan mitä dataa siellä on.
Tämä on turhauttavaa asiakkaalle, koska juuri dataan käsiksi pääseminen on koko tietovaraston rakentamisen pointti.
Mutta tähän on lääkkeitä.
Data Vault -kannasta kannattaa ylläpitää selkeitä käsite- ja tietomalleja. Tarvitaan siis kahden tason malleja.
Toisaalta tekniset Data Vault-mallit ja toisaalta ymmärrettävät käsite- ja tietomallit, joiden avulla voi kommunikoida eri osapuolten kanssa.
Olen tutkinut asiaa yli 20 suomalaisten isojen organisaatioiden sekä ulkomaalaisten alan huippujen kanssa ja todennut tämän parhaaksi menettelyksi asiakkaan kannalta.
Suosio kasvaa
Data Vaultin kehittäjä Dan Linstedt on vanha tuttuni. Puhuin juuri hänen kanssa Skypellä ja hänen mukaansa Data Vaultin suosio on nyt todella kovassa kasvussa.
Ennen siitä ei pidetty isoa numeroa, että tehtiin Data Vault-tietovarastoja. Nyt sitä suorastaan mainostetaan, että tämä tietovarasto on Data Vault-tietovarasto eikä mikään ihan mikä vain varasto.
Esimerkiksi nyt erittäin kovassa nousussa olevat tietovarastotietokanta Snowflake mainostaa Data Vault yhteensopivuutta.
Automaatiotyökalu WhereScapen edustaja kertoi minulle, että valtaosa heidän uusista asiakkaistaan käyttää Data Vaultia. Meidänkin Ellie-mallinnustyökalu on Data Vault yhteensopiva.
Moni konsulttiyritys tekee nyt kaikki hankkeet Data Vaultilla, olemme kouluttaneet satoja asiantuntijoita siihen. Eli se valitaan tilanteesta riippumatta toteutusmenetelmäksi.
Isompiin tietovarastoihin menetelmä tuottaa hyviä etuja.
Tärkeää on sopia tietovaraston toteutusmenetelmästä ja rakentaa tietovarastoa mallipohjaisesti ja samalla selkeästi kuvaten, kuten tuossa ylempänä kerroin.
Data Vault edellyttää osaamista
Data Vault on suhteellisen monimutkainen menetelmä ja vaatii osaamista. Dan Linstedt on itse tästä hyvin tarkkana, hänen Data Vault -sääntöjään ei kannata ruveta oikomaan.
Yrityksemme on järjestänyt jo vuosia Dan Linstedtin antamalla yksinoikeudella Suomessa Data Vault 2.0 sertifiointikurssin (katsoa mailin alaosasta seuraavan toteutuksen ajankohta, jos kiinnostaa).
Suosittelen, että kun hankitte tietovarastoa ja lähetätte tarjouspyyntöjä, varmistakaa että tekijöillä on sertifikaatit. Tämä on Danin viesti kaikille.
Toki Data Vaultia voi soveltaa ilman sertifikaatteja, mutta se on tietysti yksi aika varma tapa varmistaa osaaminen.
Tietovarastot tehdään lähes aina siten, että pari konsulttia suunnittelee Data Vault-rankenteen. Siitä tulee siis heidän kädenjälkeään ja he tekevät omat ratkaisunsa sinne, joiden muuttaminen on myöhemmin vaikeaa ja kallista.
Hyvin harvoin kukaan käy niitä läpi tai niitä arvioidaan. Samaan tapaan kun koodari koodaa sovellusta, se on heidän oma tekninen näkemyksensä ja ratkaisunsa.
Kun Data Vaultin suosio kasvaa, myös ”villejä” tekijöitä on entistä enemmän. Dan on tietysti huolissaan, että jos Data Vaultia tehdään väärin ja tietovarasto epäonnistuu, Data Vaultin maine menee.
Hän on kyllä oikeassa, koska olen törmännyt epäonnistuneisiin data vault-toteutuksiin. Niissä menetelmää on sovellettu väärin.
Ystävällisin terveisin,
Ari Hovi
Ps. Järjestämme jälleen Data Vault 2.0 -sertifiointikurssit 2020 HUOM! Ensimmäinen toteutus on jo suhteellisen täynnä, eli vain nopeimmat mahtuvat mukaan.
Data Vault 2.0 Bootcamp – Sertifiointikoulutus 08.01 – 10.01.2020
Data Vaultin suosio on kasvanut Suomessa räjähdysmäisesti tietovarastoissa.
Sen oikeanlainen soveltaminen edellyttää sertifiointia, tule siis mukaan oppimaan ja verkostoitumaan muiden DV-käyttäjien kanssa.
Koulutuksen vetää Data Vaultin kehittäjän Dan Linstedtin auktorisoima amerikkalainen Cynthia Mayersohn.
Lisätiedot ja ilmoittautuminen tästä