25.10.2022

Mikä on datasopimus (Data Contract)?

Hei,

Data-alan ikuisuuskysymys on: kuka omistaa (owns) datan. Lähes kaikissa organisaatioissa prosessi menee seuraavasti.

Data syntyy sovelluksiiin sekä IT-järjestelmiin (ns operatiiviset järjestelmät), joista osa on itse kehitettyjä ja osa hankittu ulkopuolelta. Näiden systeemien takana oleviin tietokantoihin kertyy dataa niiden käytön myötä. Esim myyjät syöttävät CRM;ään, sairaanhoitajat ja lääkärit kirjaavat asioita potilastietojärjestelmään.

Tätä dataa sitten hyödynnetään BI:ssä, data-analytiikassa, datatutkimuksessa (data science), sovelluskehityksessä ja muilla alueilla.

 

Ongelmien juurisyillä

Ennen kun päästää varsinaiseen tiedon hyödyntämisvaiheeseen, data engineerit vievät  ja muokkaavat (ETL) datat data-alustalle (DW/Datalake), ikään kuin käyttövalmiiksi varastoon, josta sitä sitten prosessoidaan eteenpäin edellä kuvattuihin käyttötapauksiin. 

Jokainen alan ihminen tietää minkälainen savotta tämä on. Sen lisäksi, että se työlästä ja vaikeaa, siinä piilee lisäksi perustavanlaatuisia ongelmia.

Datan laatu on nimittäin usein alituinen huolenaihe. Ja mikäli data on laadultaan huonoa, data-analytiikka ja raportointi perustuu väärään tai puutteelliseen tietoon.

Toinen ongelma on se, että data engineerit eivät tunne data syntymisen logiikkaa operatiivisissa järjestelmissä, jolloin datan käsittely hankaloituu merkittävästi.

Juuri tässä kohtaa tullaan “omistamishaasteeseen” eli kuka tämän datan oikeellisuudesta lopulta vastaa? 

 

Kaikki kärsivät

Omistamisen ongelmat aiheuttavat päänsärkyä monille osapuolille.

Datan hyödyntäjät ovat harmissaan, koska datan laadussa on suuria puutteita, eikä raportteja ja analyysejä saada kunnolla tehtyä esim johdon päätöksentekoon, koneoppimisen malleihin tai viranomaisraportointiin.

Liiketoiminta, eli tiedon (työstettyä dataa) kuluttaja, on tyytymätön, koska eivät saa kunnolla dataa päätöksenteon tueksi.  Heitä myös alkaa mietityttämään miksi he investoivat data-alustan teknologioihin ja konsultteihin, jos mitään ei lopulta saada aikaiseksi.

Data engineerit ovat tuskissaan, koska eivät voi vaikuttaa datan laatuongelmiin. Jos vaikkapa lääkäri syöttää puutteellisesti tietoja potilastietojärjestelmään, niin eivät he voi siihen vaikuttaa.

Data engineerit eivät myöskään ole keskusteluyhteydessä operatiivisista järjestelmistä vastaaviin tai liiketoimintaan usein lainkaan. He joutuvat korjaamaan laatuongelmia jälkikäteen, joka sekään ei onnistu.

Mikä siis eteen?

Tähän on esitetty ratkaisuna ns Datasopimusta (eng Data Contract). Käydään läpi mitä sillä tarkoitetaan.

 

Datasopimuksen perusteet

Datasopimus on ikään kuin mikä tahansa palvelusopimus. Ideana on sopia datan tuottajien (operatiivisista It-järjestelmistä vastaavien), data engineerien ja hyödyntäjien kesken tietyt raamit, miten dataa tuotetaan hyödynnettäväksi.

Ne sisältävät API-rajapintojen kuvaukset, sekä semanttisen kuvauksen tietystä alueesta sisältäen käsitteet (entiteetit), niiden väliset yhteydet (relaatiot) sekä attribuutit.  

Tämä abstraktio ja yhteiset pelisäännöt mahdollistavat järjestelmien yhdenmukaistamisen API-rajapintojen osalta, jolloin muutokset lähdejärjestelmiin voidaan tehdä vaarantamatta integraatioita. 

Nämä pelisäännöt usein kuvataan SLA:na (Service Level Agreement).  Sillä tarkoitetaan ikään kuin datan käyttöehtoja sisältäen määritykset sen laadulle, uptimelle, virhemarginaalille, saatavuudelle sekä, tuotekehityssuunnitelman ja versionnin.

Sen lisäksi, että datasopimus on tekninen dokumentaatio, se pyrkii ratkomaan myös “omistajuusdilemmaa”. Siitä huolimatta, että operatiivisen järjestelmän vastuulliset eivät omista tuottamaansa dataa, he tulevat sopimuksen myötä osalliseksi datan jatkokäyttöön.

 

Ovatko datasopimukset ratkaisu?

Datasopimuksista puhutaan sellaisilla alueilla kuten Data Mesh, Modern Data Stack (MDS)  ja datatuotteet. Niiden hyödyt tulevat parhaiten esiin silloin, kun yrityksen datan kuluttajat, hyödyntäjät sekä tuottajat ovat kaikki koodareita tai teknisiä ihmisiä. 

Näin on tilanne ns big tech-yrityksissä (Piilaakson teknologiajätit, kuten Google, Facebook) tai vaikkapa suomalaisessa Supercellissä.

Keskustelu datasopimuksista ja niiden soveltamisesta jatkuu verkossa varmasti vilkkaana. Osa epäilijoistä pitää virallisten sopimusten tekoa hieman outona tapana ratkoa yhteistyön sekä yhteensopivuuden ongelmia. Kriitikkojen mielestä myös tietynlainen innovointi katoaa, jos kehittäjien käsiä sidotaan liikaa.

Kuten Data Meshissä, ydinidea siinä on kuitenkin kannatettava: datan tuottajien, liiketoiminnan ja dataosaajien tuominen saman pöydän ääreen. Tämän toteuttamiseen yrityksen ei tarvitse olla teknologiayritys vaan näin voi toimia mikä vain organisaatio toimialasta riippumatta.

Ari Hovin toimitusjohtaja Jari Ylinen kertoi juuri onnistuneesta BI-hankkeesta. Kysymykseeni mikä mahdollisti onnistumisen hän sanoi, että heti tietovarastoprojektin aloitusvaiheessa lähdejärjestelmistä vastuussa olevat henkilöt (tässä tapauksen ulkoiset konsultit) sitoutettiin myös tietovarastoprojektiin mukaan.

Näinhän ei useinkaan ole, tietovarastoprojekti on oma erillinen hankkeensa, johon lähtöjärjestelmähenkilöt eivät osallistu. Juuri tässä datasopimuksista olisi hyötyä. 

Jari puhuu muutenkin paljon siitä voimustavasta trendistä, että jos valmisohjelmaa hankittaessa käytetään ns käsitemallia sopimuksen osana, taklataan heti sitä vääjäämätöntä ongelmaa, joka tulee valmisohjelmiston tuottaman datan hyödyntämisen kanssa.

 

Lopuksi

Yhteenvetona voisi sanoa, että kaikki mikä edistää yhteistä datakultuuria, datan ymmärtämistä ja datasta kommunikaatiota, on hyvästä ja tarpeen. Datasopimukset voisivat osaltaan tuoda tiettyä järjestelmällisyyttä tälle alueelle. 

Ystävällisin terveisin,

Johannes Hovi

 

Ps. Vielä ehdit mukaan viimeiseen 2022 Tiedon Mallinnus -kurssitoteutukseen:

Tietojen mallintaminen – Data Modeling 21.12 – 22.12.2022

Kurssi on saatavana myös yrityskohtaisena ja englanniksi.

Tämä ei ole pelkkä tietokannan suunnittelu -kurssi, vaan kattaa käsitteiden mallintamisen liiketoimintaihmisten kanssa, arkkitehtuurityyppisen mallinnuksen sekä laajat, yritystasoiset tietomallinnukset. Myös laajat mallinnukset voi laatia nopeasti ja tehokkaasti – oikeilla menetelmillä ja organisoinnilla.

Lue lisää ja ilmoittaudu tästä.

Saattaisit olla kiinnostunut myös näistä

Tiedolla johtaminen

Power BI perusteet workshop

Lue lisää

10 000 tuntia tietovarastokehittämistä – mitä olen oppinut?

Lue lisää

Tietojen mallintaminen – Data Modeling

Lue lisää