Siirry pääsisältöön

Tutkimusaineistojen hallinta, käsittely ja avaaminen

Dokumentointi ja organisointi

Dokumentoinnin ja kuvailutietojen tavoitteena on, että ulkopuolinenkin voi ymmärtää, millaista aineisto on ja kuinka sitä voidaan jakaa, avata ja käyttää uudelleen. Dokumentoinnista tulisi käydä ilmi, mitä muutoksia aineistoon on tehty. Ilman riittävän tarkkaa tietoa kontekstista tutkimusaineistot ovat usein hyödyttömiä. 

Aineiston dokumentaatio sisältää olennaisia tietoja, esimerkiksi

a) missä, milloin, miksi ja miten tiedot kerättiin

b) miten aineistoa tulkitaan oikein metadatastandardien, sanastojen ja esimerkiksi readme-tiedostojen avulla.

Dokumentointi

Dokumentoinnin hyödyt

  • Aineistoja on helpompi käyttää, jakaa, avata ja arkistoida.
  • Standardoidut käytännöt lisäävät aineiston arvoa ja jatkokäytön mahdollisuuksia.
  • Hyvä dokumentaatio vähentää aineiston väärän tulkinnan riskiä.
  • Huolelliseen dokumentaatioon käytetty aika säästää aikaa sekä projektin aikana että julkaisuvaiheessa.
  • Hyvä kuvailutieto lisää aineiston löydettävyyttä.

Tutkimuksen toistettavuuden kannalta on tärkeää pitää kirjaa kaikista aineiston muokkausvaiheista.

  • Älä koskaan muokkaa alkuperäistä niin kutsuttua raakadataa.
  • Tee aina uusi tiedosto aineiston eri vaiheille.
  • Pidä kirjaa eri aineistojen muokkausvaiheista.
  • Kirjaa minkä vaiheiden kautta päädyit raakadatasta analysoitavaan dataan. Voit hyödyntää esimerkiksi erillistä README.txt-tiedostoa ja tallentaa sen samaan kansioon aineistotiedostojen kanssa.
  • Jos organisoit aineistojasi käyttäen esimerkiksi koodia, kirjaa koodin ylle selkeästi, mitä eri vaiheet tekevät.

Hyvässä tutkimusaineistoihin liittyvässä dokumentaatiossa on otettu huomioon seuraavat asiat, joilla varmistetaan aineistojen ymmärrettävyys:

  • Aineistonkeruun menetelmät: näytteenotto, miten aineisto on kerätty, mitä laitteita ja ohjelmistoja on käytetty
  • Laadunvarmistusmenetelmät
  • Kansiorakenne
  • Versionhallinta
  • Tiedot pääsyehdoista eli kenellä oikeus käsitellä, kuka käsitellyt ja milloin
  • Tiedot aineistojen käyttöehdoista ja luottamuksellisuudesta
  • Muuttujien, tietueiden ja niiden arvojen nimet, merkinnät ja kuvaukset
  • Selitys tai määritelmä käytetyistä koodistoista ja luokitusjärjestelmistä
  • Määritelmät käytetyistä erikoistermeistä tai lyhenteistä
  • Puuttuvien arvojen koodit ja syyt niihin.

README.txt-  tai LUEMINUT.txt-tiedosto

  • README.txt-tiedosto sitoo aineistokokonaisuuden osaset yhteen. Siihen voi kerryttää ja kuvata aineiston historiatietoa (lineage) eli erillisten tiedostojen väliset yhteydet, keruumenetelmät, aineston laatutietoja, käyttötarkoituksen ja rajoitukset.
  • README.txt-tiedostoon kirjataan aineiston käsittelyssä (ja versioinnissa) syntyvä dokumentaatio ja aineiston laatuun liittyvää tietoa.
  • Toimii “hiljaisen tiedon” säilyttäjänä itselle ja tutkimusryhmälle.
  • Helpottaa aineiston julkaisua ja ymmärrettävyyttä.
  • Sen avulla ohjeistetaan aineiston uudelleenkäyttöä.
  • README.txt-tiedosto on yksinkertainen tekstitiedosto, kuten .txt.
  • Tulee nimetä selkeästi hyviä nimeämiskäytänteitä käyttäen (ei pakollista).
  • Sisältää tiedon, milloin se on luotu tai päivitetty.
  • Päivämäärä on ISO 8601 -muotoa: YYYYMMDD.
  • Tiedostoon on merkitty tekijä sekä tekijän yhteystiedot.

Aineistoseteistä on README.txt-tiedostossa kuvailutiedot vähintään seuraavista:

  • Milloin aineisto on kerätty tai tuotettu
  • Aineiston lisenssi
  • Linkit julkaisuun, joka käyttää aineistoa
  • Linkit avoimesti saataviin aineistosetteihin
  • Viite aineistosettiin
  • Tiedostojen kuvaukset
  • Viittaus tiedostoon, jossa on esimerkiksi:
    • Muuttujien tai luokitusten kuvaus (code book)
    • Aineistossa käytetyt ulkopuoliset sanastot
    • Menetelmäkuvaukset ja aineiston tai tiedostojen yhteys niihin.

Kansiorakenne

Mieti, ketä varten organisoit tietoa (itsellesi, tutkimuksen tekijälle, hankkeen tarpeisiin, yhteistyökumppaneille jne.) ja onko tarve lyhyt vai pitkäkestoinen. Riittääkö yksinkertainen kansiorakenne vai tarvitaanko monitahoista rakennetta? Oikea tasapaino matalan ja syvän kansiohierarkian välillä auttaa löytämään oikean tiedoston. Mieti myös, kenellä kaikilla tulee olla pääsy kansioihin ja kansioissa oleviin tiedostoihin. Tee tarvittaessa pääsynhallintaa esimerkiksi suojaamalla salasanalla, jos käsittelet erityisten henkilötietoryhmien tietoja.

Hyvä tapa on luoda erilliset kansiot arkistoitaville, julkaistaville ja väliaikaisille työstötiedostoille. Kansioita voidaan jakaa myös esimerkiksi hankkeen hallinnointiin, menetelmille, tekstitiedostoille erikseen. Mietitty kansiorakenne helpottaa tiedostojen hallintaa tiedon eri vaiheissa. Yhteen kansioon ei ole toivottavaa laittaa liikaa aineistoa, jotta sisältö pysyy hallittavana. Parhaiten soveltuvat käytännöt voivat vaihdella tieteenalan ja sisältöjen mukaan.

Vältä kansioita kansioiden sisällä. Älä esimerkiksi tee eri vuosille eri kansioita, vaikka haluat pitää vuodet erillään. Sen sijaan nimeä tiedostot yksilöllisesti ja pidä ne samassa kansiossa.

Tutkimushankkeessa aineisto voidaan jakaa esimerkiksi näin:

>Ainutlaatuinen pääkansio hankkeelle tai tutkimukselle

>>Koodi

>>Data

>>>Raakadata

>>>Muokattu data

>>>Lopullinen data

>>Readme

README-dokumentti sisältää kaiken tärkeän informaation hankkeesta.

Tiedostojen ja kansioiden nimeäminen

Huolehdi tiedosto- ja kansionimien loogisuudesta ja informatiivisuudesta, että aineistot pysyvät jäsenneltyinä ja hallittavina (esim. projektin nimi, aineiston nimi, tekijä, pvm vuosi-kk-pv, versionumero). Tämä systemaattisuus luo myös edellytyksiä aineistojen jatkohyödyntämiselle.

Tiedostojen nimet eri kansioiden alla eivät saa mennä sekaisin, jos kansiorakenne puretaan. Nimeä kansiot ja tiedostot siis eri kansioissa yksilöllisellä ja kuvaavalla nimellä, joka kertoo jollain tunnisteella, mihin kansioon ne kuuluvat. Sisällytä nimiin merkitykselliset elementit, joilla tietoa voisi pidemmänkin ajan päästä kuvitella haettavan. Tasapainoile elementtien määrän kanssa: liian monta tekee nimestä vaikeasti ymmärrettävän, liian vähän puolestaan geneerisen. Nimeämisissä on hyvä huomioida tarve mahdolliseen tietojen luottamuksellisuuden varmistamiseen muun muassa tiedon luokittelulla (esim. julkisiin, sisäisiin, luottamuksellisiin ja salassapidettäviin). Tiedostojen nimeämiskäytäntö kannattaa sopia jo alkuvaiheessa koko ryhmän kesken. Tärkeää on, että jokainen noudattaa sovittua tiedostojen nimeämismallia.

Esimerkkielementtejä sisällytettäväksi tiedostojen nimiin

  • Luomispäivä
  • Projektin numero / kokeen numero, akronyymi
  • Datatyypit (näyte ID, analyysi, olosuhteet, muutokset ym.)
  • Aineistotyyppi (kuva, ääni, video, palvelu, kokoelma, teksti, ohjelmisto ym.)
  • Paikka / koordinaatit
  • Tekijän nimi / nimikirjaimet
  • Versionumero
  • Viimeiset kolme kirjainta kertoo tiedostoformaatin (esim. .xls, .rtf, .mov, .tif, .doc)

Nimeämisvinkit

  • Tee kullekin asialle/hankkeelle/tutkimukselle oma kansio tai esim. eams-ryhmä nimen ja ajankohdan mukaan (esim. lyhenne + vuosi)​.
  • Käytä sanojen ja nimien perusmuotoja.
  • Järjestä elementit yleisestä spesifiseen.
  • Käytä merkityksellisiä lyhenteitä.
  • Käytä alaviivaa (_), väliviivaa (-) tai isoa alkukirjainta elementtien erottamiseen nimessä.
  • Älä käytä välilyöntiä tai erikoismerkkejä: ?!& , * % # ; * ( ) @$ ^ ~ ‘ { } [ ] < >.
  • Käytä päivämääräformaattina (ISO8601): YYYYMMDD (vuosi, kk, päivä) ja aika, jos tarpeen HHMMSS (tunnit, minuutit, sekunnit).
  • Sisällytä versionumero nimeen, jos tarpeen: vähintään kaksi numeroa (V02) ja pidennä, jos tarpeen pienemmille korjauksille (V02-03). Ensimmäiset nollat mahdollistavat, että tiedostot järjestyvät oikein.
  • Kirjoita nimeämiskäytäntösi ylös ja selitä lyhenteet dokumentaatiossasi (esim. README-tiedosto).
  • Jos joudut uudelleen nimeämään ison määrän tiedostoja hallitaksesi tiedostoja helpommin, on mahdollista käyttää sovelluksia, esimerkiksi Bulk Rename Utility (Windows, free), Renamer4Mac (Mac).

Lähde. Helsingin yliopiston ja CSC:n tuottama Datan organisoinnin ABC

Saavutettavuusseloste | Accessibility statement