13.11.2018

Data Platformien suosio on nyt huimaa

Hei,

Olen puhunut paljon datakeskeisestä ajattelusta ja nyt se tuntuu olevan hyvin ajankohtainen aihe monilla, koska data-alustoja rakennetaan nyt ennen kuulumattomalla vauhdilla. Miksi juuri nyt?

Haastattelimme äskettäin ison yrityksen toimitusjohtajaa aiheesta (iso plussa siitä, että hänen tasoinen ihminen oli näin valistunut). Hän näki suurena haasteena sen, että eri osastojen henkilöt kokevat alueensa datat ikään kuin ominaan.

Ei osata ajatella, että datat, jotka meillä talletetaan, voisivat hyödyttää muita osastoja. Hän jopa peräänkuulutti ajattelutapaa, että henkilö voisi tallettaa tietoja, jotka eivät ole itselle kiinnostavia, mutta ovat avuksi muille osastoille.

Datojen siiloutuminen

Lähtökohtainen ongelma on siis datojen siiloutuminen eri osastojen erillisiin tietojärjestelmiin. Isoissa yrityksissä on nykyisin satoja järjestelmiä. Asiakastietoja voi siis olla aika monessa paikassa eikä ole helppoa saada asiakkaasta kokonaiskuvaa.

Lisäksi on tietojen laatuongelmaa, ne asiakastiedot pitää saada nopeasti ja helposti sisään – ymmärrettävä tavoite kiireisiä myyntimiehiä ajatellen – mutta näin syntyy helposti tupla-asiakkaita ja muuta kuraa.

Sen lisäksi, että data ovat siiloutuneet eri järjestelmiin, myös osaaminen ja ihmiset on sirpaloitunut ”nahkakansioihin”, kuten konsulttimme Jari Ylinen asian ilmaisee. Yksi tuntee taloustiedot, toinen henkilöstötiedot kolmas tuotannon datat.

Dataprojektit ovat yleensä komplekseja juuri sen vuoksi, että osaaminen ja asiantunjat toimivat eri yksiköissä joilla voi olla hyvin erilaisen tavoitteet. Joskus jopa ristiriitaiset sellaiset. Kirjoitin tästä blogin aikaisemmin.

Voiko näille siiloutumisille tehdä mitään? Sikäli tilanne ei ole muuttumassa, että tietojärjestelmien määrä vähenisi, päinvastoin tulee lisää pikkusovelluksia ja appeja. Alkaa olla myös kyllästymistä isoihin, budjetit ylittäviin ERP-hankkeisiin, joista olemme nähneet uutisiakin.

Suuntaus saattaa olla kohti modulaarisempia, pienemmissä paloissa rakennettavia järjestelmiä. Puhutaan joskus best-of-breed -järjestelmistä.

Yllä olevaa kehityssuuntaa ei taida voida muuttaa. Miten sitten ratkoa tiedonhallinnan haasteita näin monimutkaisessa ympäristössä?

Käsitemallinnuksen hyödyntäminen

Hyvä uutinen on, että tähän tilanteeseen on kelpo ratkaisuja. Kaksi erittäin tärkeää asiaa ovat: ensinnäkin kuvaa ja ymmärrä tietosi ja toiseksi huolehdi että datat ovat nopeasti  ja yhdistettynä saatavissa erilaisiin tarpeisiin, kuten tekoälyn hyödyntäminen automatisoinnissa.

Liiketoimintalähtöinen käsitemallinnus (business oriented data modeling) on hyvä tapa kuvata yhteisiä datoja yli organisaatiorajojen. Jos eri osastot käsittelevät ja puhuvat sellaisista asioista kuin asiakas, liidi, potentiaalinen asiakas on välttämätöntä istua yhdessä alas ja määritellä yhteisesti mitä näillä tarkoitetaan.

Miten muuten voidaan keskustella siitä montako asiakasta tai liidiä meillä on, jos ei ole määritelmää siitä, milloin joku on asiakas tai liidi? Määritelmän lisäksi meidän on tiedettävä kaikki riippuvuudet eli mihin kaikkiin muihin asioihin asiakas tai liidi liittyy, kuvattuna yli osastorajojen.

Nämä määrittelyt auttavat paljon myös tietojen – kuten juuri asiakastietojen – laatutason määrittelyssä ja laatuongelmien ratkaisemisessa.

Käsitemäärittelyt ja käsitemallit voidaan tehdä aluksi osastokohtaisesti, mutta näkökulma on koko ajan yritystaso ja yhteiset määritelmät. Näin saadaan organisaation keskeisen tärkeä data-assetti vihdoin kuvattua liiketoimintalähtöisesti. Tämä on data-assetin arvon kasvattamisen edellytys.

Käsitemallit ja kuvaukset ovat usein hyvin teknisen näköisiä ja liiketoiminnan kannalta luotaantyöntäviä. Kokemuksemme mukaan liiketoiminta kuitenkin jopa osallistuu mielellään ja ymmärtää käsitemalleja, jos työ tehdään oikein ja hyvillä välineillä. Juuri siksi olemme kehittäneet HDF-menetelmän  ja mallinnustyökalu Ellien.

Ei tietenkään riitä, että tiedot on mallinnettu ja kuvattu ja määriteltykin on. Se on vähän kuin että meillä olisi asemakaava ja talojen rakennuspiirustukset, mutta siinä kaikki. On edettävä toteutukseen.

Tietovarastoinnista data-alustoihin

Päästään toiseen tärkeään pointtiini eli datan hyödyntämiseen ihan konkreettisesti. Tähän tarjotaan usein realaatioohjaista tietovarastoa (data warehousing). Tietovarastojen suosio on maailmalla huikeassa kasvussa.

Uuden tietovarastotoimittajan Snowflake nousu on ollut rakettimaista. Se sai  263 miljoonaa dollarin rahoituksen 1,5 miljardin arvostuksella. Snowflake on noussut muutamassa vuodessa ”yksisarviseksi” eli yli miljardin arvoiseksi yritykseksi. Piilaaksossa toki kaikki on suurta, mutta siellä uskotaan nyt tietovarastojen tulevaisuuseen vahvasti. Ratkaisuja on toki monia muitakin, eli en nyt halua liikaa korostaa yhtä toimittajaa.

Tietovarasto toimiin hyvin luotettavaan, päivittäiseen raportointiin ja analysointiin, joka kohdistuu ihan perusdataan, kuten asiakkaisiin, tilauksiin, laskutukseen, talous- ja henkilöstötietoihin jne. Näiden tietojen analysointiin ja raportointiin on relaatiotietokantapohjainen tietovarasto edelleen hyvä ratkaisu.

Joskus vaihtoehtona nähdään ns Data Lake -ratkaisut (Big Data). Ne ovatkin hyviä, kun dataa tulee massoittain eri tietolähteistä ja mukana on ei-strukturoituakin tietoa (kuva, teksti yms). Tai on paljon aluksi tuntemattomia tietolähteitä. Uudet datasetit voidaan vain helposti tallentaa ja tutkia myöhemmin.

Nämä ei ole todellisuudessa ole toisiaan poissulkevia ratkaisuja, eikä toinen voi korvata toista. Meidän arkkitehtuuriratkaisut sisältävät nykyään aina näiden kahden yhdistelmän, jota kutsun Data Platformiksi, eli data-alustaksi.

Ei ole kovin mielekästä edes puhua näistä teknisistä ratkaisuista kovin aikaisessa vaiheessa, koska tärkeämpää on miettiä mihin data-alustaa tarvitaan.

HUS hyödyntää mallinnusta

Data-alusta on siis alusta, jonka avulla pääsemme hyvälaatuiseen dataan käsiksi ja voimme hyödyntää sitä tehokkaasti. Se, että mikä tekninen ratkaisu sopii kuhunkin tilanteeseen, riippuu aina monesta asiasta, kuten mitä dataa halutaan ensimmäisessä vaiheessa analysoida ja mitä sitten myöhemmin.

Käsitemallinnus ja data-alustojen suunnittelu kulkevat aina käsi kädessä, muuten ne eivät onnistu halutulla tavalla.

Data-alusta mallinnetaan ensin hyvin ja siten, että mallit perustuvat liiketoiminnan näkemyksiin. Tästä jatketaan data-alustan toteutukseen asti.  Vaikka data-alusta toteutettaisiin jollakin teknisellä ja ei-asiantuntijalle vaikealukuisella toteutustavalla, kuten Data Vault, pidetään koko ajan yllä liiketoiminnalle ymmärrettäviä käsitemalleja. Näin data-alustasta ei tulekaan musta laatikko. Tiedetään koko ajan mitä siellä on ja mitä siellä ei vielä ole.

Juuri näin on tehty esimerkiksi HUS:ssa ja useilla muilla asiakkailla, ja kokemukset ovat hyviä. Data-alustaa suunnitellaan liiketoiminnan näkökulmasta ja toteutus menee tarkasti tämän mukaan, ei siis lähtöjärjestelmien tietorakenteiden mukaan. Tässä on iso ero. Operatiiviset järjestelmät voivat olla hyvin vanhoja ja jo ryvettyneitä. Se, että lähtöjärjestelmät tulevat vaihtumaan – kuten HUS:ssa – tukee osaltaan tätä lähestymistapaa.

Entä jos vaikkapa tietovarasto on jo tehty eikä ole niitä kuvauksia ja ymmärrettäviä käsitemalleja? Silloin tarvitaan ns data—arkeologiaa (eng- reversed engineering) eli kuvataan tietovarasto jälkikäteen selkeiksi käsitemalleiksi.

Näin data-alusta ikään kuin avautuu ymmärrettäväksi. Jatkokehitys voidaan sitten tehdä malleihin perustuen. Lisätään asiakkaaseen klikkidataa ja asiakastyytyväisyyskyselyjä, eli nämä lisäykset ensin käsitemalliin, sitten toteutus data-alustalle (osa tietovarastoon ja osa siitä data lakeen).  Kehitetäänkö uusi asiakastyytyväisyysmittari, KPI? Käsitemallista voidaan tarkastella, mitä lähtötietoa se tarvitsee.

Asiakaskyselyn tulokset, ehkä miinuspisteitä reklamaatioista, painokerroin tilausten määrästä tai frekvenssistä, klikkaukset verkkosivuilla yms, näin voidaan muotoilla kaavaan tai algoritmia käsitemallin tukemana.

Sitten vaan data scientistille opetetaan dataympäristö käsitemallien avulla ja toimeksianto proton tekemiseksi. Jos proto onnistuu, lisätään tietovarastoon valmiiksi laskettu KPI, eli saatetaan homma tuotantoon asti. Ei siis tullut PoC-kokeilua, joka jäi siihen, kuten yleensä.

Vanhat ratkaisut eivät enää toimi

Datakeskeiseen ajatteluun kuuluu paljon muutakin, mutta niistä toisella kertaa. Mutta jos liiketoimintalähtöinen mallinnus ja mallinnusohjattu data-alusta etenee kuten tässä olen kuvannut, ollaan jo päästy hyvin alkuun datakeskeisessä ajattelussa ja organisaation arvokkaan data assetin hyödyntämisessä – ja jopa sen arvon kasvattamisessa.

Uskon että juuri tekoälybuumi yhdistettynä uusien datalähteiden (IT-järjestelmät, applikaatiot yms) lisääntyminen on se syy, miksi data-alustoja rakennetaan ja kehitetään nyt todella laajasti.

Nyt joku saatta miettiä, että meillähän on jo ollut tietovarasto jo pitkään ja silti meillä on ”datakaaos”. Tämä johtuu siitä, että monet 90-luvulla tehdyt ”legacy-tietovarastot” eivät yksinkertaisesti enää toimi, ne ovat jo ajat sitten vanhentuneet.

Itse olen ollut jo pitkään sitä mieltä, että muutenkin koko ”tietovarasto” -konsepti on hieman vanhentunut ja se vaatii päivitystä.

Uudet modernit ratkaisut ovat nyt suosiossa ja tämä tietysti näkyy meillä tilauskirjojen täyttymisellä ja sovelluksemme Ellien suosiolla.

Ystävällisin terveisin,

Ari Hovi

Ps. Alta löydät lisää tietoaa yhdysvaltalaisen datagurun Stephen Brobstin valmennuksesta. Vaikka nykyisin puhutaan tekoälystä paljon, on kysymys siinäkin datakeskeisen ajattelun omaksumisesta.

Data Science, Artificial Intelligence and Advanced Practices in Data Visualization, 29.11.2018 – 30.11.2018

Koulutus soveltuu kaikille, joita kiinnostaa datakeskeinen ajattelu ja sen liittäminen organisaation strategiaan. Koulutuksessa opit, miten kehittyneen datatieteen avulla ratkotaan liiketoimintaongelmia ja miksi siihen kannattaa nyt panostaa.

Data ja sen hyödyntäminen on muuttanut maailmaa dramaattisesti, tule kuulemaan tämän kehityksen viimeisimmistä käänteistä eräältä Yhdysvaltojen arvostetuimmista CTO:sta (Chief Technlogy Officer).

Lue lisää lisää kurssista ja sen sisällöstä tästä

Saattaisit olla kiinnostunut myös näistä

Data Lakehouse -projektit käytännössä: Kokemuksia asiantuntijoilta

Lue lisää

Eettinen tiedonkäyttö: Vastuullisuuden peruspilarit

Lue lisää

Tieto on valtaa – ja vastuuta

Lue lisää