Datanlähteet

Yleiskatsaus

Data ovat havaintoja tai mittauksia (käsittelemättömiä tai käsiteltyjä), jotka on esitetty tekstinä, numeroina tai multimediassa. Datasetti (myös kirjoitettuna data set) on rakennettu ja vakaa kokoelma dataa, joka liittyy yleensä ainutlaatuiseen työhön (esimerkiksi tutkimukseen). Jotta datasetti olisi uudelleenkäytettävissä tutkimustarkoituksiin, sen on oltava FAIR (Findable, Accessible, Interoperable, Reusable). Tämä tarkoittaa, että sillä on oltava esimerkiksi uniikki tunniste kuten DOI tai URN, riittävät metatiedot mukaan lukien alkuperätiedot ja tekijätiedot, sekä lisenssi, joka mahdollistaa uudelleenkäytön. Datasettien on myös täytettävä alakohtaisia vaatimuksia ja standardeja. Lisätietoa datan ja datasetin eroista kohdassa.

Datasetit ovat datavetoisen laskennallisuuden ja data-analyysin kulmakivi. Datasetit mahdollistavat keskittymisen datan alkuperään, elinkaareen ja eettiseen käyttöön, sen sijaan että keskityttäisiin yksittäisten tiedostojen tai laskentamenetelmien teknisiin yksityiskohtiin. CSC tarjoaa palveluita dataset-orientoituneelle tutkimukselle ja kehittää tulevaisuuden palveluita tukemaan paremmin datasettejä ja muita datan korkeampia näkökulmia.

Huomio

Datan omistajuus, tekijänoikeudet ja lisenssi määritellään usein parhaiten koko datasetille, vaikka joissain tapauksissa saatetaan tarvita tarkempia määritelmiä. Tieteellisessä kirjoittamisessa datasettia yleensä siteerataan yhtenä kokonaisuutena.

Datasettien kerääminen

Dataset-orientoituneen työn ensimmäinen vaihe on datasettien kerääminen. On mahdollista etsiä ja ottaa käyttöön olemassa olevia, hyvin määriteltyjä datasettejä tai luoda uusia datasettejä kokoamalla dataa ja järjestämällä se datasetiksi. Keräämisvaihe muodostaa perustan, jolle datavetoiset laskentamenetelmät ja analyysit rakentuvat. Tämän vaiheen aikana tulisi keskittyä varmistamaan, että datan lisenssit ja käyttöehdot ovat tiedossa ja vastaavat aiottua käyttöä, varmistamaan että datan alkuperä on tiedossa hyvän alkuperätiedon varmistamiseksi, ja että data on hyvin järjestetty ja dokumentoitu.

Entä jos datasetin käyttöehdot ovat datan tuottajien itse määrittämiä?
Datasetin luoja varaa oikeuden määritellä oman datasetinsä käyttöehdot, vaikka valmiita lisenssejä ei olisikaan. Tällöin määritettyjä käyttöehtoja on noudatettava, mutta voidaan myös neuvotella käyttöehdoista ottamalla yhteys datasetin omistajaan.

Entä jos datalle ei ole määritetty käyttöehtoja?
Jos käyttöehtoja ei ole tai annettujen käyttöehtojen sisältö on epäselvä, tulisi aina ottaa yhteys kyseisen datasetin omistajaan.

Tutkimusaineiston löytäminen

Kun hyödynnetään ja käytetään uudelleen muiden keräämää tai tuottamaa dataa, tarvitaan tiedot alkuperästä, sisällöstä, sijainnista, lisenssistä, käyttörajoituksista ja muista tarvittavista tiedoista. Hakupalvelut sisältävät kuvailevaa tietoa (metatietoja) tutkimusdatasetista. Mitä paremmin datasetti on kuvattu, sitä helpompi se on löytää ja käyttää. Olemassa olevat tutkimusdatarakenteet saattavat olla saatavilla uudelleenkäytettäviksi.

Katso CSC:n palvelut datasettien löytämisessä

Erityiset datasetit CSC:n laskentaympäristössä

CSC isännöi myös tai tarjoaa pääsyn useisiin datasetteihin eri alustoilla.

Biotieteet

Chipster_genomes Työkalu ladattaviksi kohdistusindekseiksi, joita käytetään Chipster-ohjelmistossa Puhti-palvelussa
AlphaFold-tietokannat ovat saatavilla Puhtissa

Kemia

CSD - Cambridge Crystallographic Database – orgaaniset ja metallo-orgaaniset kiderakenteet ja työkalut
Molport 6M molekyylitietokanta esikäsitelty nopeaa GPU-seulontaa varten Schrödinger Shape -sovelluksella

Geotieteet

Avoimet suomalaiset paikkatietoaineistot saatavilla Puhtissa tai Allasissa.

Viimeisimmät versiot CLARIN PUB tai ACA lisensoiduista korpuksista ovat saatavilla purettuina Puhtissa hakemistopolussa /appl/data/kielipankki/

Datan käsittely ja analysointi

Lue lisää CSC:n data-analyysiohjeesta

CSC:n palvelut datan käsittelyyn ja analysointiin