Aloitan kirjoitukseni seuraavalla väitteellä, jota pyrin myöhemmin perustelemaan: Dataprojekti on erilainen kuin ohjelmistoprojekti.
Miksi näin on? Molemmissa tyypeissä kehittäjä tekee perustyötään ja vääntää koodia.
Monesti dataprojekti näyttäytyykin liiketoiminnan suuntaan koodaamisena, jolloin odotukset menevät pieleen. Liiketoiminta olettaa, että kun koodaus on tehty, työ on valmis ja vaatii korkeintaan testauksen ympäristössä, jossa ei ole tuotannollista dataa.
Näinhän prosessi toimii, kun kyse on ohjelmistoprojektista. Dataprojektissa on kuitenkin toisin. Siinä koodi ei ole ongelma, vaan haasteet nousevat nimenomaan dataprojektin erityispiirteistä. Näitä ovat muun muassa tarve kollektiiviselle viisaudelle ja datan jatkuvalle verifioinnille ja validoinnille. Lisäksi dataprojektissa kyse on miljoonien rivien käsittelystä ja mukaan tarvitaan laaja joukko ihmisiä ennen kaikkea liiketoiminnan puolelta.
Voidaan puhua dataprojektien ainutlaatuisesta dynamiikasta, jota käsittelen seuraavassa tarkemmin.
Kollektiivinen viisaus kaiken keskiössä
Dataprojektien maailmassa korostuu kollektiivinen viisaus datasta.
Ohjelmistoprojektissa voidaan luottaa yhteen tuotteen omistajaan, jolla on vastaus kaikkiin kysymyksiin ja valta tehdä kaikki päätökset. Sen sijaan dataprojektin haaste on, ettei yksi ihminen yleensä tunne tarvittavaa dataa niin perusteellisesti, että osaisi tehdä kaikki päätökset tai pystyisi vastaamaan kaikkiin datasta esiin nouseviin haasteisiin.
Dataprojektiin liittyy siis yleensä useita ”datatuoteomistajia”. Nämä edustavat monia eri data-alueita ja tekevät yhteistyötä dataratkaisun varsinaisen teknisen omistajan, kuten tietovaraston tuoteomistajan, kanssa.
Esimerkiksi kun tuotemyynnin ja palvelumyynnin tapahtumatiedot ovat samassa järjestelmässä, tarvitaan mukaan molempien tietoalueiden asiantuntijat. Projektin vetäjän tehtävänä on pystyä määrittelemään kulloinkin tarvittavat asiantuntijat, hänen on toisin sanoen ymmärrettävä mistä kollektiivinen viisaus koostuu.
Yhtä lailla mukana olevien liiketoiminnan ihmisten on ymmärrettävä, mistä puhutaan, jotta he pystyvät tekemään tarvittavia päätöksiä. Ja jotta liiketoiminnan ihmiset ymmärtävät, mistä on kysymys, on dataihmisten tehtävä se ensiksi itselleen selväksi. Tässä yhteisen ymmärryksen luomisessa käytetään yleensä mallinnusta.
Oleellista on synnyttää kokonaiskuva datasta ja siitä, miten se liittyy liiketoimintaan. On nähtävä datan koko ketju liiketoiminnassa ja osattava tunnistaa sen eri osista ne ihmiset, jotka pystyvät osallistumaan seuraavaan keskeiseen vaiheeseen, datan verifiointiin ja validointiin.
Verifiointi ja validointi korostuvat
Dataprojektissa tarvitaan jatkuvaa verifiointia ja validointia, ja nimenomaan tämä piirre erottaa sen ehkä selkeimmin ohjelmistoprojektista, jossa painopiste on koodaamisessa.
Dataprojektissa käytetään paljon aikaa valtavien tietojoukkojen selvittelyyn, odottamattomien skenaarioiden kanssa painimiseen, datan laadun ongelmien ratkaisuun ja ratkaisujen hienosäätöön. Data perustuu reaalimaailmaan, joka on aina monimutkainen ja jossa on mukana hyvin monia eri tahoja. Mukaan tarvitaan yhtä lailla perusjärjestelmien ja tiedon rakentamisen osaajia kuin ennen kaikkea liiketoiminnan osaajia.
Verifiointi on näistä kahdesta helpompi hoitaa, koska siinä kysymys on datan teknisen oikeellisuuden tarkistamisesta, jonka dataihmiset pääsääntöisesti pystyvät hoitamaan.
Validointi taas on työtä, jota vain liiketoimintaa hyvin tuntevat ihmiset pystyvät tekemään. Vain heillä on tarvittava tietämys liiketoiminnan lainalaisuuksista ja erityispiirteistä, jotka dataprojektissa on otettava huomioon. Ja vain he pystyvät tekemään projektia ohjaavat päätökset, eivät devaajat omissa luolissaan.
Valitettavan yleistä on, että tiedon validointi aloitetaan lähellä deadlinea, jolloin työn valmistumisesta aikataulussaan tulee hyvin epävarmaa ja työmäärä kasvaa kohtuuttomasti projektin loppua kohti.
Kun tietoja on päästy validoimaan etupainotteisesti, valmistuu työ yleensä ajallaan. Tämä edellyttää työn pilkkomista riittävän pieniin osiin ja sen varmistamista, että jokainen osa on tarkistettavissa. On löydettävä kullekin osalle oikea asiantuntija, joka validoinnin pystyy tekemään ja mikä tärkeintä, että häneltä on löydyttävä tähän työhön aikaa ja kiinnostusta.
Kymmenet miljoonat rivit ojennukseen
Dataprojektin ehkä suurin haaste on miljoonien rivien käsittely, joista jokainen kuvaa jonkin monesti aika monimutkaisen reaalimaailman tilanteen liiketoiminnassa. Tietojen tarkkuuden varmistaminen, poikkeamien huomioiminen ja liiketoiminnan vaatimusten mukauttaminen edellyttävät erikoistunutta lähestymistapaa, joka poikkeaa perinteisistä projektimenetelmistä.
Ennen projektin aloittamista on liiketoiminnan ja projektin pystyttävä yhdessä määrittelemään, millainen verifioitu ja validoitu miljoonien rivien kokonaisuus ketterän kehityksen kautta tulisi syntyä. Tästä on oltava yhteinen näkemys, kollektiivinen viisaus.
Yhtä lailla on ymmärrettävä, että data on liiketoiminnan sivutuote. Toisin sanoen data on aina toisarvoista liiketoimintaan nähden; tärkeintä on, että bisnes pyörii.
Ketterässä ohjelmistokehityksessä tehdään kullakin kehityssyklillä parannettuja versioita työn alla olevasta sovelluksesta niin että siihen lisätään käyttäjille arvokkaita ominaisuuksia.
Dataprojektissa sen sijaan kunkin ketterän kehityskierroksen jälkeen saadaan parannettu versio koko datasetistä eli kaikista kymmenistä miljoonista riveistä. Kyse on eräänlaisesta evoluutioprosessista, jossa kunkin kehityskierroksen tuottama arvo on laajennettu ”data-avaruus”
Liiketoiminnan työpanos ratkaisee
Emme Ari Hovilla ole koskaan olleet mukana dataprojektissa, jossa liiketoiminnan edustajilla olisi ollut käytettävissään runsaasti aikaa projektiin. Olemme oppineet hyväksymään sen tosiasian, että liiketoiminnan ihmiset tekevät aina tätä työtä ”vasemmalla kädellä”.
Koska tilanne on tämä, meidän dataihmisten on pystyttävä tekemään projektiin osallistuminen liiketoiminnan edustajille mahdollisimman helpoksi. Lisäksi meidän on toimittava siten, että liiketoiminnan ihmiset kokevat aidosti omistavansa projektin: kyse on liiketoiminnan, ei datan, kehittämisestä.
Liiketoiminnan kiireisten aikataulujen vuoksi dataprojektit on suunniteltava siten, että jokaisen tiimin jäsenen lyhyitä vapaita aikavälejä pystytään hyödyntämään mahdollisimman paljon, mikä käytännössä tarkoittaa etupainotteista validointia. On liian suuri riski jättää validointi projekti loppupäähän. Testaaminen on aloitettava heti projektin alussa ja sitä on tehtävä projektin loppuun asti.
Liiketoiminta saadaan ottamaan projekti omakseen myös mallinnuksen keinoin, luomalla kollektiivista viisautta yhteistyössä. Kun liiketoiminta on itse ollut käymässä läpi keskeisiä kysymyksiä ja luomassa niihin ratkaisuja, tuntuu työ heistä omalta ja tuotokset on helpompi hyväksyä.
Bisneksen asiantuntijoiden on siis oltava alusta alkaen mukana määrittelemässä, kuvailemassa, kokeilemassa ja ottamassa kantaa eri tilanteisiin. Datan asiantuntijoiden ei tule tehdä mitään heidän puolestaan tai heidän ohitseen. Tämä toimintatapa varmistaa, että liiketoiminta kokee datat omikseen.
Paras palaute liiketoiminnalta onkin toteamus, että ”te olette ihan väärässä”. Silloin dataprojektin johto tietää tekevänsä työtään oikein, koska liiketoiminta on paneutunut asiaan ja havainnut ongelman reaalimaailman ja datan välillä.
Viisi vinkkiä dataprojektien onnistumiseen
- Löydä kollektiivinen viisaus yhdessä liiketoiminnan kanssa siitä, mitä ja millaista työn alla oleva data ja tieto ovat.
- Organisoidu siten, että oikeat henkilöt ovat riittävän usein saatavilla vastaamaan mihin tahansa datan ja tiedon rakenteeseen tai laatuun laatuun liittyviin kysymyksiin.
- Sovi ja opettele työn tekemisen tapa sykleineen organisaation tilanteen ja tarpeen mukaiseksi.
- Varaudu taklaamaan ja ratkaisemaan kaiken tyyppiset dataan liittyvät ongelmat.
- Havainnollista datan haasteet visuaalisesti
a) mahdollisimman monelle
b) mahdollisimman helposti
c) mahdollisimman nopeasti
d) mahdollisimman usein
Veli-Matti Anttila
Ps. Kiinnostaako oppia lisää? Katso Dataprojektien tehokas johtaminen koulutus.