Skip to main content

Aineistonhallinnan opas: Hankkeen tulosten hallinta ja aineiston säilyttäminen

TKI-hankkeen tulokset ja niiden hallinta

TKI-hankkeissa kerätyn aineiston säilyttämiseen tulee kiinnittää huomiota, jotta kerättyä aineistoa voidaan tarvittaessa jatkokäyttää. FAIR-periaatteita noudattamalla varmistetaan, että aineistot ovat löydettävissä, saatavissa, liitettävissä ja käytettävissä. FAIR-peiaatteiden noudattaminen varmistaa myös sen, että aineisto on helpommin pitkäaikaissäilytysmuodossa. Turhan usein hankkeen aineistot ovat vain tutkijan tai projektiryhmän saatavissa muistitikuilla, verkkolevyillä, kovalevyillä tai pilvipalveluissa, jolloin aineiston hyödyntäminen hankkeen jälkeen on mahdotonta. Samalla voi vaarantua myös asianosaisten tietoturva. 

Tutkimusaineistojen ja -datan säilytystarpeen arviointi

Tutkimusaineistojen säilytyttämistä ohjataan datapolitiikalla. Säilytystarpeeseen ja -tapaan vaikuttavat myös rahoittajien vaatimukset, yhteistyökumppaneiden kanssa tehdyt sopimukset sekä eettiset ja lainsäädännölliset tekijät.  Lisäksi tutkimusjulkaisun kustantaja (esim. Nature, PLoS) voi vaatia, että tutkimuksen pohjana oleva aineisto on avoimesti saatavissa.

Säilytystarvetta ja –tapaa voi arvioida myös seuraavilla kriteereillä:

  • aineiston laatu: virheettömyys, aitous, väärentämättömyys, sisäinen ristiriidattomuus, kattavuus, ajantasaisuus, oikeellisuus ja käyttökelpoisuus
  • potentiaaliset käyttäjät
  • aineiston tieteellinen arvo
  • aineiston historiallinen arvo
  • uutuusarvo
  • kaupallinen potentiaali
  • ainutlaatuisuus
  • pitkittäistutkimuksen tarve
  • soveltuvuus uusiin käyttötarkoituksiin
  • onko aineiston kerääminen helposti toistettavissa vai onko se hankalaa tai jopa mahdotonta
  • aiheuttaako vastaavan aineiston kerääminen merkittäviä kustannuksia
  • mitä kustannuksia aineiston tuhoamisesta koituu
  • onko aineistosta mahdollista tehdä uusia analyysejä
     

Säilystarpeen arviointi liittyy kiinteästi tutkimusaineiston säilytyspaikan valintaan ja aineiston mahdolliseen avaamiseen. Em. mainitut kriteerit auttavat hahmottamaan, minkä tasoinen tallennus on tarpeen. Riittääkö, että data on tutkijalla itsellään, säilytetäänkö se organisaation data-arkistossa vai onko se tarpeen tallentaa joko kansalliseen tai kansainväliseen data-arkistoon.

 

Data-arkiston voi olla yleinen tai tieteenalakohtainen. Sen valinnassa kannattaa kiinnittää huomiota mm. arkiston ylläpitäjän maineeseen ja luotettavuuteen, turvallisuuteen, säilytysaikaan ja muihin säilytysehtoihin sekä käytön tilastointiin.

IDA - Tutkimusdatan säilytyspalvelu

IDA on tutkimusaineistojen säilytyspalvelu, joka on tarkoitettu niin valmiille tutkimusaineistoille, raakadatalle kuin aineistokokonaisuuksille. IDA-projektin käyttö ei ole sidottu tutkimuksen elinkaareen, ja aineistojen omistajat päättävät itse aineistojensa avoimuudesta ja käyttöpolitiikasta.

IDA-palvelun hyödyt

  • IDA on jatkuva palvelu tutkimusdatan turvalliseen säilytykseen, jota tarjotaan korkeakouluille sekä Suomen Akatemian rahoituksella toimiville tutkijoille maksuttomasti
  • Tutkimuksen rahoittajat, kuten Suomen Akatemia, suosittelevat IDAn käyttöä ja ohjeistavat tähän rahoitusta haettaessa
  • Yhteistyöhankkeissa saadaan käyttöön yhteinen tallennustila, joka ei ole sidottu yhden organisaation palveluihin
  • IDA mahdollistaa suurtenkin aineistojen tallennuksen tilanteessa joissa nämä eivät mahdu organisaation tallennusjärjestelmiin
  • IDAn tiedostoja voidaan liittää osaksi tutkimusaineistokuvailua, jonka pysyvään tunnisteeseen voidaan linkittää esimerkiksi liittyvistä julkaisuista
  • IDAan tallennetut aineistot ovat ehdolla myös pitkäaikaissaatavuuden turvaavaan TutkimusPAS-palveluun

IDA on opetus- ja kulttuuriministeriö tarjoama palvelu Suomen korkeakoulujen ja Suomen Akatemian rahoittamille tutkijoille sekä valtion tutkimuslaitoksille, ja sen käyttöoikeudet ja kapasiteetti myönnetään projektikohtaisesti. IDAn tuottaa CSC – Tieteen tietotekniikan keskus Oy ja se perustuu avoimeen lähdekoodiin. Pitkäaikaissäilytykseen valitut aineistot voidaan siirtää IDA:sta jäädyttämisen ja kuvailun älkeen PAS-palveluun. Kuvailtua aineistoa voidaan myös hakea Etsimen kautta.

lähde: https://www.fairdata.fi/​

Anonymisointi antaa mahdollisuuden datan avaamiseen

Tieto on tunnisteellista, jos sen perusteella voidaan suoraan tai tietoja yhdistelemällä tunnistaa yksittäinen henkilö. Tutkimusaineiston tunnisteet jaetaan yksilöiviin ja epäsuoriin tunnistetietoihin.

  • Suoria tunnistetietoja ovat mm. nimi, osoite, henkilötunnus, syntymäaika, ihmisen ääni ja kuva.
  • Epäsuoria tunnisteita ovat mm. kotipaikkakunta ja asuinalue, koulutus, työpaikka ja perheen koostumus.

Anonymisointi tarkoittaa tunnisteiden poistamista aineistosta. Aineisto voidaan anonymisoida, jos tutkimusaineisto on jatkokäytössä järkevästi analysoitavissa ilman tunnisteita eikä muitakaan tutkimuksellisia perusteita tunnisteiden säilyttämiseen ole. Tutkittavan suostumuksella aineisto voidaan säilyttää jatkotutkimuksiin myös tunnisteellisena.

Anonymisointi on suunniteltava huolellisesti ja tapauskohtaisesti. Hyvä ohjeistusta anonymisoinnista löytyy Tietoarkiston aineistonhallinnan käsikirjasta ja Tietoarkiston videoista

Vain anonymisoitua tietoa voidaan luovuttaa avoimeen käyttöön. 

On hyvä huomata, että myös pseudonyymit aineistot katsotaan henkilötiedoiksi. Pseudonymisoitua tietoa on esimerkiksi pitkittäistutkimusten aineistot, joissa analysoitavissa aineistoissa on havaintotunnus henkilötunnuksen sijaan ja tutkimusryhmällä on hallussa koodi, jonka avulla tunnisteeton aineisto voidaan yhdistää tutkittaviin henkilöihin. Pseudonymisoitua aineistoa ei näin ollen voi avata avoimeen käyttöön.

Datan kuvailu - metadata

Metatieto (metadata) on tietoa tiedosta. Sillä kuvataan tutkimusaineiston tarkoitus, synty, sijainti, tekijät ja käyttöehdot. Metadataan voi sisältyä myös koodien selityksiä, tietoa käytetyistä ohjelmista ja datan analyysista. Metadataa on käytännössä kaikki se tieto, mikä on tarpeellista tutkimusaineiston sisällön ymmärtämiseksi, verifioimiseksi ja mahdollisen uudelleenkäytön arvioimiseksi.

Ilman metatietoja aineistot eivät ole haettavissa eivätkä löydettävissä. Metatiedon merkitystä voi verrata esim. tutkimuksen tiivistelmään, jota ilman käyttäjän on vaikea saada kokonaiskuvaa tutkimuksen sisällöstä ja arvioida tiedon merkitystä. Metatieto auttaa myös aineistoon viittaamisessa.

  • Kuvaileva metatieto kuvaa aineiston sisältöä ja luonnetta, esim. kuten nimi, tekijä, aiheet, avainsanat, kustantaja
  • Hallinnollinen metatieto aineiston hallinnan tekniset vaatimukset ja käyttöehdot
  • Rakenteellinen metatieto kuvaa tutkimusaineiston rakennetta ja sen järjestystä

Pysyväistunnisteet (esim. URN, DOI, ORCID) ovat tärkeää metatietoa. Ne ovat uniikkeja tunnuksia, joilla yksilöidään esim. julkaisuja, henkilöitä ja tutkimusaineistoja. Niillä varmistetaan myös verkkolinkkien toimivuus. Jotkut palvelut, kuten Etsin ja IDA, generoivat tunnisteen automaattisesti.

"Laadukas metatieto on tutkimusaineiston käyntikortti, jonka tutkija voi antaa tutkimusaineistostaan siitä kiinnostuneille"
Lähde: Avoin tiede ja tutkimus: käsikirja

Etsin - tallenna tutkimusaineistosi metatiedot ja tule löydetyksi

Etsin on kansallinen avoimen tieteen ja tutkimuksen palvelu, jolla voi sekä kuvailla tutkimusaineistoja että etsiä niitä. Palveluun kirjaudutaan Haka-tunnuksella.

Etsimessä on valmiina metatietojen tallennusformaatti ja se generoi automaattisesti aineistoille pysyvän tunnisteen. Tunnisteen avulla voi linkittää aineiston esimerkiksi julkaisuun tai ansioluetteloon.