tiistai, 13 lokakuu 2015 10:48

DATA ILMAISTA, TIETO KALLISTA

Kirjoittanut  tiistai, 13 lokakuu 2015 10:48

Avoin data on kovassa nosteessa. Se nähdään vähintään uuden taloudellisen toiminnan moottorina, digitalisaation rinnalla jopa osaratkaisuina julkisen sektorin rahoitusongelmiin. Avoin data on kuitenkin uusi asia, ja sen sisältö voi olla monille hämärä. Mitä tiedon avoimuus käytännössä tarkoittaa?

Ensin on syytä selventää millä nimillä asioista puhutaan. Suomen kielessä avoin data ja avoin tieto nähdään usein synonyymeinä, vaikka data – tietoaineisto – on aivan eri asia kuin tieto, eli ymmärrys jostain asiasta. Avaan näiden välistä eroa teollisuudesta tutun jalostusasteen käsitteen kautta.

Data, avoin tai suljettu, on kaikkein matalimman jalostusasteen tietoa. Se on kuin maasta kaivettua jalostamatonta rautamalmia. Se on pelkkiä numeroita, joka kertoo ainoastaan kuinka paljon jotain on.

Hieman pidemmälle jalostettua tietoa on informaatio. Informaatio on tulkittua dataa, joka tarjoaa vastauksen kysymyksiin mitä, missä tai milloin. Metallivertauksen mukaisesti informaatio on teräslevyjä, se on jalostettu malmista eteenpäin mutta vielä melko yksinkertaisin prosessein.

Tieto sen sijaan on korkeimman jalostusasteen informaatiota. Se luo ymmärrystä ilmiöiden taustoihin vastaamalla kysymyksiin miten tai miksi. Tieto on kuin suuri risteilyalus, joka on rungon teräslevyjen päälle rakennettu mutta jota ei olisi mahdollista synnyttää ilman vahvaa erityisosaamista.

Jos tiedolla on jalostusasteensa, on sillä myös arvoketjunsa. Korkeamman jalostusasteen tieto perustuu aina matalampaan, ja jalostusasteen kasvaessa myös sen arvo ja hyödynnettävyys kasvaa. Arvoketju näkyy selvästi tiedon hinnassa. Avoin data on nimensä mukaan ilmaista. Datasta jalostettu informaatio on usein käyttäjälle ilmaista, ja jos se tarjotaan digitaalisessa muodossa, on se myös informaation tuottajalle edullista.

Sen sijaan ymmärrys asioista, tieto, vaatii syntyäkseen ajattelua. Se vaatii ihmisen analysoimaan dataa, tulkitsemaan analyysin tuloksia suhteessa muuhun tietoon ja tekemään johtopäätöksiä. Tiedon tuottaminen ei onnistu algoritmeilla, vaan se vaatii aikaa ja tuumailua. Siksi tieto tai ainakin sen tuottaminen on yhä kallista.

Pohdinnan lisäksi tiedon tuottaminen vaatii kuitenkin myös raaka-ainetta eli dataa. Juuri tässä korostuu avoimen datan merkitys. Mitä enemmän ja laajemmin dataa on saatavilla, sitä enemmän siitä on mahdollista tuottaa tietoa ja tätä kautta tuottaa hyötyä tiedon arvoketjussa.

Ilmaisen ja avoimen data paras peruste on se, että suljettu datapolitiikka on tiedon arvoketjun kannalta äärimmäisen tuhlailevaista.

Julkaistu kategoriassa Blogi
keskiviikko, 15 huhtikuu 2015 10:51

TIETÄMISEN SIETÄMÄTÖN KEVEYS

Kirjoittanut  keskiviikko, 15 huhtikuu 2015 10:51

Tietämiseen tai tiedon tuottamiseen liittyvät haasteet juontuivat mieleeni hiljattain, kun analysoin liikennevirtojen kehitystä Turun ja Helsingin välillä.

Näennäisen yksinkertaisesta aiheesta ei tahtonut löytyä tietoa, jolla asiaa olisi voinut lähestyä helposti ja laajasti eri näkökulmista. Tietoa kyllä löytyy, mutta se on sirpaleista. Jos yksi tietolähde vastaa yhteen kysymykseen, niin se ei kerro mitään toisesta yhtä tärkeästä kysymyksestä.

Esimerkiksi liikennevirtojen tapauksessa lähdin liikkeelle työssäkäyntitietojen tarkastelusta. Tiedot ovat tarkkoja, mutta ne kertovat vain työssäkäyntiliikenteestä. Eikä oikeastaan siitäkään vaan ainoastaan ihmisten kotien ja työpaikkojen sijanneista. Liikenteen automaattisilta mittauspisteiltä saadaan erinomaista tietoa ajoneuvomääristä, mutta ei matkustajien lukumääristä.

Rautatietilastoista saa tietoa junien matkustajamääristä, mutta varsin summittain ja epätarkasti. Henkilöliikennetutkimus puolestaan tarjoaisi ainoana vaihtoehtona kokonaisvaltaisen kuvan liikennevirroista, mutta valtakunnallisena kyselytutkimuksena sen tietomäärä ei riitä luotettaviin pienipiirteisiin analyyseihin.

Vastaavia esimerkkejä on helppo luetella monia. Työttömyyttä tilastoidaan ainakin kolmella eri tavalla kolmeen eri lähteeseen perustuen. Jokaisella tilastointitavalla on vahvat ja selvät perusteensa, mutta tiedon moninaisuus asettaa vääjäämättä haasteita tiedon tulkitsijalle: miten toisistaan poikkeavia työttömyyslukuja tulisi esittää hämmennyksen välttämiseksi.

Monet ennakolliset tilastot myös tarkentuvat vielä julkaisuajankohdan jälkeen. Esimerkiksi suhdannetilastot päivittyvät yritysten verotustietojen eläessä tai uusien tilinpäätösten valmistuttua. Väestötilastot puolestaan muuttuvat, kun mattimyöhäiset jättävät muuttoilmoituksensa kuukausia myöhässä.

Selvää on, ettei kaikista monimutkaisista ilmiöistä ole mitenkään mahdollista ylläpitää aihetta kaikista näkökulmista monipuolisti kuvaavaa tietoa. Tällöin on kuitenkin riskinä se, että johtopäätöksiä tehdään varsin yksipuolisin ja kevein perustein.

Etenkin tietoperusteisen päätöksenteon tueksi tehtävien analyysien on syytä olla tarkoin puntaroituja, jotta päätökset eivät synny vääristyneeseen tai värittyneeseen tietoon nojautuen.

Julkaistu kategoriassa Blogi