Hyppää sisältöön

Significant changes to Puhti & Mahti authentication coming in April! Read about the SSH key and multi-factor authentication requirements.

Datan julkaiseminen

Yleiskatsaus

Usein datalähtöinen työ tuottaa uusia aineistoja joko ensisijaisina tuloksina tai mahdollisesti tukimateriaalina ensisijaisille tuloksille, kuten tieteellisille julkaisuille. Julkaistaessa aineistoja, keskeistä on mahdollistaa uusi työ niiden parissa jossain määrittelemättömässä tulevaisuudessa. Julkaisun tulisi perustua yleisesti hyväksyttyihin standardeihin ja hyvään metadataan, koska aineistoja voidaan käyttää projekteissa, jotka ovat täysin erilaisia kuin niiden tuottanut hanke. Kuitenkin usein tärkein tuleva aineistojen käyttäjä on alkuperäinen tekijä, joten aineistojen huolellisesta julkaisemisesta käytetty aika maksaa nopeasti itsensä takaisin.

Missä isännöidä ja julkaista aineistoja

Alla listatut palvelut ovat suomalaisia tai CSC:n yhteistyössä tuottamia ja ne ovat loppukäyttäjille maksuttomia. Lisäksi on monia suositeltuja arkistoja saatavilla. Voit etsiä sopivia vaihtoehtoja Re3data-palvelusta, joka on tutkimusdatan arkistojen rekisteri ja sisältää yksityiskohtaista tietoa melkein 3 000 data-arkistosta eri akateemisilla aloilla.

Mikäli mahdollista, käytä tieteenalakohtaisia arkistoja aineistosi tallentamiseen. Suosittelemme ottamaan yhteyttä kotiorganisaatiosi datatukeen lisäohjeita saadaksesi tutkimusaineiston avaamisesta.

CSC:n työkalut aineistojen julkaisuun

Kuinka julkaista aineistosi Fairdatalla

EUDAT-palvelut

Kuinka julkaista paikkatietoa Paituli-palveluun

Esimerkkitapaus 1: Datan jakaminen tutkimushankkeen aikana, julkaise FAIR-valmiina

Esimerkkitapaus 2: Datan elinkaari CSC:llä – keräämisestä säilyttämiseen

Datan tyypit

Kun valitset, mitä arkistoida ja/tai julkaista, on hyvä vaihtaa näkökulmaa ja miettiä, mitä datan (uudelleen)käyttäjä näkee. Kuinka kauas lukija voi seurata artikkelisi prosessia raakadatasta ennen kuin alkuperäisen prosessin toistaminen ei enää ole mahdollista? Monessa tapauksessa ei ole mahdollista palata raakadataan, mutta jos datan dokumentointi, automaatio, lokien ja koodin talletus sekä niiden versionhallinta toteutetaan alusta alkaen, voidaan taata mahdollisimman suuri läpinäkyvyys. Mikäli mahdollista (tämä on vahvasti tieteenalakohtaista), voi olla hyvä julkaista sekä raakadata että prosessoitu data dokumentoinnin kera.

Datapublicaatiot

Lisenssi: CC BY 4.0

Mieti myös, mikä on varsinainen dataprodukti, jonka julkaiset tieteellisen artikkelisi kanssa. Tämä voi auttaa kategorisoimaan datan jo alkuvaiheessa. Raakadata on dataa, jonka keräät ja/tai digitoit tutkimustasi varten tai muuta dataa, jota on kerätty ja hyödynnetty eri lähteistä. Käyttökelpoinen digitaalinen data voi olla dynaamisessa muodossa julkaistua operatiivista (punaista) dataa. Operatiivinen data ei välttämättä ole lähteellä viitattavissa tai laadunvalvottua. Uudelleenkäytettävä data taas voi olla kerätty ja julkaistu (kumulatiivisena/) geneerisenä tutkimusdatan (vihreänä). Geneerinen tutkimusdata on versionhallittua, dokumentoitua ja laadunvalvottua, ja sen tulisi olla viitattavissa. Se, mitä julkaiset tutkimuksesi tuloksena, on vakaa dataprodukti eli tutkimusaineiston julkaisu (sininen), joka koostuu (mikäli mahdollista) raakadatasta ja dokumentaatiosta, joka kuvaa prosessin, joka on johtanut tuloksiin.

Datatyypit

Lisenssi: CC BY 4.0

Pysyvät tunnisteet

Pysyvät tunnisteet tarjoavat hallittuja tapoja linkittää ja merkitä digitaalista tietoa. Käyttämällä tunnisteita kuten DOI tai URN julkaisussa tai viitatessa dataan, linkitys säilyy, vaikka nimet tai organisaatio muuttuisivat. Tunnisteet ovat globaalisti yksilöllisiä, mikä tarkoittaa, että voit olla varma, että käsilläsi on oikea aineisto tai saat julkaisustasi ansaitsemasi krediti.

Mitä enemmän pysyviä tunnisteita voit sisällyttää työprosesseihisi, sitä parempi ja helpompi tiedonhallintasi on. Älä epäröi ottaa yhteyttä oman organisaatiosi tutkimusdatan palveluihin tai kirjastoon lisäavun saamiseksi.

Lisensointi ja oikeudet

Nykyisin on mahdollista hyödyntää tutkimuksessa tuotettua dataa monipuolisemmin uudessa tutkimuksessa, mikä eliminoi tarpeen kerätä dataa uudelleen, kehittää uusia menetelmiä tai kirjoittaa koodia alusta lähtien.

Kun käytät toisten tuottamaa dataa, heidän käyttöehtonsa on otettava huomioon. Käyttöehdot määritellään yleensä lisenssissä, kuten Creative Commons-lisenssissä. Data voi olla täysin avointa käytettäväksi tai sen käyttö voi olla sidottu tiettyihin rajoituksiin, jotka johtuvat yleensä tietojen arkaluontoisuudesta, liikesalaisuuksista tai tutkijoiden allekirjoittamista sopimuksista. Yleinen sääntö on, että voit käyttää dataa käyttöehtojensa mukaisesti.

Aineiston käyttöehdot määrittelee aina sen tuottaja tai henkilö, jolle tuottaja on siirtänyt oikeudet aineistoon (Tekijänoikeuslaki 404/1961). Tarvittaessa voit ottaa yhteyttä aineiston omistajaan saadaksesi selvennystä sen käyttöön liittyviin epäselvyyksiin.

Kuinka lisensoida oma data?

Kun teet dataa saataville, on suositeltavaa käyttää lisenssejä. Tämä mahdollistaa esimerkiksi tekijänoikeuden säilyttämisen samalla kun muut saavat kopioida, levittää ja hyödyntää dataasi. Creative Commons -lisenssit (CC BY) ovat laajalti käytettyjä lisensointiin. Creative Commons -lisenssien skaala ulottuu yleisestä tietoverkosta (kuvan yläosa) kaikki oikeudet pidätetty -tilaan (kuvan alaosa). Kuvan vasemman puolen esimerkkeihin liittyy käyttöoikeuksia, oikea puoli näyttää lisenssikomponentit.

Creative Commons -lisenssien skaala

Lisenssi: CC BY 4.0

Kokeile itse!

Lisenssinvalitsija Creative Commonsin toimesta.

CC BY 4.0 -lisenssi datallesi sallii datasi käytön mutta vaatii, että tekijä mainitaan.

Voit myös lisätä dataan CC0-lisenssin. Se tarkoittaa, että annat täydet oikeudet muille käyttää dataa.

Käyttörajoitukset

Datan julkaiseminen ei välttämättä tarkoita, että aineistosi tulisi olla kaikkien saatavilla. Mikäli sinulla on huoli siitä, että datan avoin julkaiseminen voisi aiheuttaa haittaa jollekulle tai jollekin tai jokin muu negatiivinen seuraus, voit valita soveltaa erityisiä rajoituksia siihen, miten ihmiset voivat saada pääsyn dataasi. Yleensä vaihtoehdot ovat:

  1. antaa kaikille ladata aineistosi liitetyt tiedostot (Avoin),
  2. antaa kaikille ladata aineistosi liitetyt tiedostot tietystä päivästä alkaen (Embargo),
  3. antaa kaikille hakea pääsyä ladata aineistosi liitetyt tiedostot (Välitetty), tai
  4. ei sallita kenellekään aineistosi liitettyjen tiedostojen lataamista lainkaan (Rajoitettu).

Mikä tahansa vaihtoehto valitaan, se ei vaikuta aineiston kuvailevan metadatan näkymiseen, tarkoittaen, että vaikka pääsy dataan olisi rajoitettu, kuvaileva tieto julkaistusta aineistosta näytetään julkaisualustalla. Mikä tahansa rajoitus tulee kuitenkin määrittää ja yhteystietojen tulee olla saatavilla ja ajantasaisia.