Datanlähteet
Yleiskatsaus
Data ovat havaintoja tai mittauksia (käsittelemättömiä tai käsiteltyjä), jotka on esitetty tekstinä, numeroina tai multimediassa. Datasetti (myös kirjoitettuna data set) on rakennettu ja vakaa kokoelma dataa, joka liittyy yleensä ainutlaatuiseen työhön (esimerkiksi tutkimukseen). Jotta datasetti olisi uudelleenkäytettävissä tutkimustarkoituksiin, sen on oltava FAIR (Findable, Accessible, Interoperable, Reusable). Tämä tarkoittaa, että sillä on oltava esimerkiksi uniikki tunniste kuten DOI tai URN, riittävät metatiedot mukaan lukien alkuperätiedot ja tekijätiedot, sekä lisenssi, joka mahdollistaa uudelleenkäytön. Datasettien on myös täytettävä alakohtaisia vaatimuksia ja standardeja. Lisätietoa datan ja datasetin eroista kohdassa.
Datasetit ovat datavetoisen laskennallisuuden ja data-analyysin kulmakivi. Datasetit mahdollistavat keskittymisen datan alkuperään, elinkaareen ja eettiseen käyttöön, sen sijaan että keskityttäisiin yksittäisten tiedostojen tai laskentamenetelmien teknisiin yksityiskohtiin. CSC tarjoaa palveluita dataset-orientoituneelle tutkimukselle ja kehittää tulevaisuuden palveluita tukemaan paremmin datasettejä ja muita datan korkeampia näkökulmia.
Huomio
Datan omistajuus, tekijänoikeudet ja lisenssi määritellään usein parhaiten koko datasetille, vaikka joissain tapauksissa saatetaan tarvita tarkempia määritelmiä. Tieteellisessä kirjoittamisessa datasettia yleensä siteerataan yhtenä kokonaisuutena.
Datasettien kerääminen
Dataset-orientoituneen työn ensimmäinen vaihe on datasettien kerääminen. On mahdollista etsiä ja ottaa käyttöön olemassa olevia, hyvin määriteltyjä datasettejä tai luoda uusia datasettejä kokoamalla dataa ja järjestämällä se datasetiksi. Keräämisvaihe muodostaa perustan, jolle datavetoiset laskentamenetelmät ja analyysit rakentuvat. Tämän vaiheen aikana tulisi keskittyä varmistamaan, että datan lisenssit ja käyttöehdot ovat tiedossa ja vastaavat aiottua käyttöä, varmistamaan että datan alkuperä on tiedossa hyvän alkuperätiedon varmistamiseksi, ja että data on hyvin järjestetty ja dokumentoitu.
Entä jos datasetin käyttöehdot ovat datan tuottajien itse määrittämiä?
Datasetin luoja varaa oikeuden määritellä oman datasetinsä käyttöehdot, vaikka valmiita lisenssejä ei olisikaan. Tällöin määritettyjä käyttöehtoja on noudatettava, mutta voidaan myös neuvotella käyttöehdoista ottamalla yhteys datasetin omistajaan.
Entä jos datalle ei ole määritetty käyttöehtoja?
Jos käyttöehtoja ei ole tai annettujen käyttöehtojen sisältö on epäselvä, tulisi aina ottaa yhteys kyseisen datasetin omistajaan.
Tutkimusaineiston löytäminen
Kun hyödynnetään ja käytetään uudelleen muiden keräämää tai tuottamaa dataa, tarvitaan tiedot alkuperästä, sisällöstä, sijainnista, lisenssistä, käyttörajoituksista ja muista tarvittavista tiedoista. Hakupalvelut sisältävät kuvailevaa tietoa (metatietoja) tutkimusdatasetista. Mitä paremmin datasetti on kuvattu, sitä helpompi se on löytää ja käyttää. Olemassa olevat tutkimusdatarakenteet saattavat olla saatavilla uudelleenkäytettäviksi.
Katso CSC:n palvelut datasettien löytämisessä
Erityiset datasetit CSC:n laskentaympäristössä
CSC isännöi myös tai tarjoaa pääsyn useisiin datasetteihin eri alustoilla.
Biotieteet
- Chipster_genomes Työkalu ladattaviksi kohdistusindekseiksi, joita käytetään Chipster-ohjelmistossa Puhti-palvelussa
- AlphaFold-tietokannat ovat saatavilla Puhtissa
Kemia
- CSD - Cambridge Crystallographic Database – orgaaniset ja metallo-orgaaniset kiderakenteet ja työkalut
- Molport 6M molekyylitietokanta esikäsitelty nopeaa GPU-seulontaa varten Schrödinger Shape -sovelluksella
Geotieteet
Kielentutkimus ja muut digitaalinen humanistinen ja yhteiskuntatieteellinen tutkimus
- Viimeisimmät versiot
CLARIN PUB tai ACA lisensoiduista korpuksista ovat saatavilla purettuina Puhtissa hakemistopolussa
/appl/data/kielipankki/
Datan käsittely ja analysointi
Lue lisää CSC:n data-analyysiohjeesta