Tiedeakatemiain neuvottelukunta jakaa vuosittain yli 100 000 euroa toimintatukea eri tieteenalojen kansalliskomiteoille. Minkälaista työtä kansalliskomiteajärjestelmän piirissä tehdään? Tapasimme Data-asian kansalliskomitean sihteerin Heidi Laineen alkusyksystä Tieteiden talon Tiedekahvilassa ja keskustelimme Data-asiain kansalliskomitean ponnistuksista kansallisten datan viittaamisen käytäntöjen luomiseksi.

 

Miksi dataan viittaaminen on tärkeää?

Dataan viittaaminen on tärkeää monestakin syystä. Toisten tutkijoiden panoksen tunnistaminen ja tunnustaminen ja näkyväksi tekeminen on tietenkin olennainen osa hyvää tieteellistä käytäntöä, ja toistaiseksi muiden tutkijoiden dataan viittaamiseen ei ole vakiintunutta käytäntöä. On olemassa erilaisia suosituksia, mutta ei standardia, joka tukisi tiedonkeruuta samalla tavalla kuin esimerkiksi bibliometriset menetelmät tutkimuskirjallisuuden puolella.

Dataan viittaaminen on myös läpinäkyvyys- ja luotettavuuskysymys. Tutkimus on muuttumassa dataintensiivisemmäksi, digitaalisten aineistojen määrä ja volyymit lisääntyvät ja niiden merkitys tutkimuksessa ovat kasvamassa. Big data alkaa olla valtavirtaistunut buzz word, joka vaikuttaa yhteiskunnassa monella tavalla eikä pelkästään tutkimuksessa. Dataviittaukset mahdollistavat näiden aineistojen löytämisen paremmin. Kun aineisto ei ole vain julkinen vaan myös helposti löydettävissä esimerkiksi tutkimustekstistä löydettävien sähköisten linkitysten kautta, tämä lisää tutkimuksen läpinäkyvyyttä

 

Mitkä tieteenalat hyötyvät eniten dataan viittaamisen kehityksestä?

Dataintensiivisillä tieteenaloilla, joilla käytetään paljon digitaalisessa muodossa olevaa dataa, tarve toimivalle viittausstandardille on suurin. Research Data Alliance, jonka toimintaa kansalliskomitea aktiivisesti seuraa, on tarttunut tähän omalla työryhmällään, ja tuottanut dynaamiseen dataan viittaamisen suositukset. Näitä suosituksia on pilotoitu mm. fysiikan ja lääketieteen aloilla, mutta dataan viittaaminen koskettaa toki kaikkia muitakin tieteenaloja, joilla kerätään aineistoja.

 

Miten kansalliskomitea on edistänyt kansallisten dataviitauskäytäntöjen luomista?

Olemme tehneet dataviittaustiekarttaa Suomeen opetus- ja kulttuuriministeriön Avoin tiede ja tutkimus -projektin toimeksiannosta. Projekti on käynnissä vuoden loppuun asti, ja sen puitteissa tuotetaan Force 11 -yhteenliittymän dataviittaussuosituksen pohjalta kansallinen malli, jonka avulla saataisiin dataan viittaaminen luonnolliseksi osaksi suomalaista tieteen tekemistä ja kansallista tieteen infrastruktuuria ja ekosysteemiä. Force 11 on kahdeksankohtainen periaatepaperi, jossa on annettu dataan viittaamisen periaatteet, ja sitä täydentämään on olemassa kaksi tiekarttapaperia. Toinen tiekarttapapereista on suunnattu datakeskuksille ja toinen tieteellisille kustantajille. Me nojaamme työssämme kuitenkin ensi sijassa periaatepaperiin, koska tiekarttapaperit menevät niin yksityiskohtaiselle tasolle, ettei se ole tässä vaiheessa mielekästä. On kunkin alan kansallisten toimijoiden kuten datakeskusten ja tiedejulkaisijoiden asia tutustua tiekarttapapereihin ja katsoa, ovatko ne mielekkäitä ottaa käyttöön. Periaatepaperin kanssa olemme edenneet kohta kohdalta ja peilanneet periaatteita kansallista maisemaa vasten ja olemme avanneet, miltä näyttäisi tavoitetila, jossa periaate toteutuisi. Olemme siis hahmotelleet nykytilan ja sillan nykytilasta tavoitetilaan. Kokonaisuus on puolestaan ryhmitelty sidosryhmittäin.

Paperin ensimmäinen luonnos on julkistettu ja pyydämme siihen kommentteja. Työstämme paperia kommenttien pohjalta työpajassa lokakuun lopulla ja tarkoituksena on saada tuotos valmiiksi marraskuun aikana. Sen jälkeen Suomeen paikallistettu pariaatepaperi elää omaa elämäänsä ja joutuu todelliseen testiin.

Datan jäljet -työpajaan tutkimusdataan viittaamisen kehittämiseksi Suomessa voi ilmoittautua täältä 16.10 mennessä. 

 

Mitkä asiat vaikuttavat datan julkaisemisen kehitykseen?

Rahoittajat ovat avainasemassa tavoitteiden jalkauttamisessa. Tällä hetkellä Suomen Akatemia edellyttää ainestonhallintasuunnitelman tekemistä ja tarjoaa DMPTuuli -työkalua aineistonhallintaan. Kun Akatemialle tehdään rahoitushakemus, on siihen liitettävä aineistonhallintasuunnitelma, jossa kerrotaan, millainen aineisto on, missä aineistoa säilytetään tutkimuksen aikana ja tutkimuksen jälkeen ja miten aineistoa kuvaillaan.

Datakysymyksiä tulisi käsitellä jo tieteellisen perustutkinnon metodiopinnoissa. Huolellinen ja vastuullinen aineistonhallinta on luotettavan tutkimuksen perusedellytys. Hyvä aineistonhallinta on myös toistettavuuden edellytys. Erityisesti ihmistieteissä, kun kyse on subjektiivisesta arvioinnista, toistettavuus tulee sitä kautta, että argumentaatio on läpinäkyvää ja aineisto löydettävissä. Vaikka aineistoa ei pystyttäisiin avoimesti julkaisemaan, se voidaan kuvata kertomuksena siitä mitä aineisto on ollut ja mitä sille on tehty.

 

Kuinka läheisesti dataviittauskäytäntöjen kehittämiseen kuuluu pyrkimys datan avoimuuden lisäämisestä?

 On olemassa vahva oletus, että aineistojen julkaiseminen ei ole kovin houkuttelevaa tutkijoille, koska tutkijat eivät hyödy aineistojen julkaisemisesta samalla tavalla kuin perinteisistä julkaisuista.  Eli kun muut tutkijat käyttävät keräämääsi dataa, niin se ei sada samalla tavalla omaan laariin kuin tutkimuskirjallisuuteen viittaaminen.

Dataan viittaamisen kehittyminen saattaisi motivoida tutkijoita julkaisemaan dataa siinä vaiheessa kun datajulkaisuiden ympärille voidaan kehittää samanlaisia meritoitumisen väyliä kuin kirjallisuuden julkaisemisen ympärille. Vankkaa tutkimustietoa aiheesta ei ole, mutta avoimen tieteen keskusteluissa kohtaa mielikuvia, asenteita ja oletuksia, joiden mukaan mahdollisuus edistää tutkimusuraa dataa julkaisemalla loisi insentiivejä ja motiiveita datan avaamiseen tiedeyhteisön sisällä.

Tällä hetkellä monella alalla esiintyy yleisesti viipalointitaktiikkaa, jossa tutkimustuloksia julkaistaan mahdollisimman monessa artikkelissa, jotta julkaisuluettelo saadaan näyttävämmäksi. Dataa ei siis haluta julkaista ennen kuin se on puristettu kuiviin, eikä datan julkisemiselle tämän jälkeenkään ole luotu kannustimia. Datan julkaisemisen infrastruktuurin on oltava olemassa ja ympäristön oltava sille suotuisa ennen kuin tutkijat alkavat julkaista dataa.