Allaksen käyttäminen tutkimushankkeen tietoaineiston isännöintiin
Esimerkki Allaksen käyttöskenaariosta.
Roolijako
Saara: Inspiroivan tutkimushankkeen koordinaattori, professori.
Pekka: Tutkimushankkeen tietohallinnosta vastaava tutkija.
Mats: Analyysipalvelukeskuksessa työskentelevä teknikko.
Xi ja Laura: Tutkimushankkeessa työskentelevät tutkijat.
Näytös 1. Professori Saara avaa CSC-projektit
Professori Saara johtaa suurta tutkimushanketta nimeltä HiaNo eräässä suomalaisessa yliopistossa. Projekti on juuri lähettänyt joukon näytteitä analysoitavaksi Analyysipalvelukeskukseen, ja analyysin tuloksena syntyy 80 teratavua dataa, jota tutkimusryhmä käyttää varsinaiseen tutkimukseen.
Saara ja tietohallinnosta vastaava Pekka tutkivat CSC:n tarjoamia tallennusvaihtoehtoja. He päättävät käyttää Allas-palvelua datan tallennukseen ja jakamiseen tutkimushankkeen aikana. Data ei ole arkaluonteista henkilötietoa, joten Allas on sopiva vaihtoehto.
Ensimmäiseksi Saara ja Pekka kirjautuvat MyCSC-portaaliin ja rekisteröityvät CSC:n käyttäjiksi.
Saara luo kaksi tutkimusprojektia CSC:ssa: toinen nimeltään HiaNo-projektin tietohallinta (projektitunnus: project_2000444) ja toinen nimeltään HiaNo-tutkimusprojekti (projektitunnus: project_2000333).
CSC-projektien perustamisen jälkeen Saara aktivoi Allas-, Puhti- ja cPouta-palvelut molemmille projekteille. Koska Saara tietää, että Allaksen oletustallennustila (10 TB) ei riitä tulevalle tietoaineistolle, hän lähettää pyynnön 90 TB:n Allas-kiintiön saamiseksi projektille HiaNo-projektin tietohallinta osoitteeseen servicedesk@csc.fi.
Lopuksi Saara lisää Pekan molempiin CSC-projekteihin ja pyytää häntä huolehtimaan saapuvan datan yksityiskohdista.
Näytös 2. Jaetun bucketin luominen
Analyysipalvelukeskuksen Mats ottaa yhteyttä Pekkaan ja kertoo, että tulokset ovat saatavilla, ja kysyy, miten hän voisi toimittaa datan. Matsilla on CSC:n tili (msundber projektissa project_2000111), jossa on Allas käytössä, joten Pekka ehdottaa, että data ladataan Allakseen. Tätä varten Pekka luo Allakseen bucketin ja sallii Matsin käyttää sitä.
Pekka kirjautuu Puhdille
ja avaa yhteyden tietohallintaprojektiin Allaksessa: Sitten hän luo uuden bucketin Allakseen. Tämä voidaan tehdä monella tavalla, mutta tällä kertaa Pekka tekee sen tuomalla uuden tiedoston Allakseen a-put-komennolla:echo “Tämä bucket isännöi HiaNo-projektin alkuperäistä tietoaineistoa sample1” > README.txt
a-put -b hiano-project-sample001 README.txt
a-list hiano-project-sample001
Seuraavaksi Pekka käyttää a-access-komentoa mukaillakseen uuden bucketin käyttöoikeuksia, jotta Mats (käyttäjä msundber Allas-projektista project_2000111) voi sitä käyttää.
Pekka joutuu vielä lähettämään jaetun bucketin nimen Matsille, sillä tavalliset Allas-listauskomennot eivät näytä nimeä Matsille, joka ei ole projektin jäsen, joka omistaa bucketin.Näytös 3. Datan lataaminen
Matilla on Allas-työkalut asennettuna mittalaitteen käyttöliittymäpalvelimeen Analyysipalvelukeskuksessa. Näin hän voi ladata datan suoraan käyttöliittymäpalvelimelta hiano-project-sample1-bucketiin Allaksessa:
rclone copy sample1/cannel43/aa_3278830.dat allas:hiano-project-sample001/sample1/cannel43/aa_3278830.dat
Näytös 4. Datan käyttö tutkimuksessa
Kun data on saatavilla, varsinainen analyysityö alkaa. Useat käyttäjät tulevat käyttämään tietoaineistoa tutkimushankkeen aikana. Pekka tietää, että jos kaikki käyttäjät käyttävät dataa täysillä käyttöoikeuksilla (luku ja kirjoitus), on vaarana, että joku poistaa tai korvaa vahingossa osan tiedoista. Siksi on sovittu, että kun dataa hallinnoi projektin tietohallinta (project_2000444), tutkijat pääsevät dataan HiaNo-tutkimusprojektin (project_2000333) kautta.
Pekka antaa hiano-project-sample001-bucketille lukuoikeuden projektille project_2000333, mutta ei kirjoitusoikeutta.
Xi ja Laura voivat nyt aloittaa työn datan kanssa. He rekisteröityvät MyCSC-portaalin kautta, jonka jälkeen vastuututkija Saara lisää heidät CSC-projektiin HiaNo-tutkimusprojekti (project_2000333).Xi ja Laura käyvät uudelleen MyCSC:ssä ja hyväksyvät tutkimusprojektin palvelut. Tämän jälkeen he voivat ladata tarvitsemaansa tutkimusdataa mihin tahansa ympäristöön, joka voi muodostaa yhteyden Allakseen: Puhtiin, virtuaalikoneelle cPoutassa tai omaan kannettavaan tietokoneeseensa. Kun uusia tutkijoita liittyy projektiin, Saara lisää heidät projektiin_2000333, jotta heillä on pääsy dataan.
Koska datan tallentaminen Allakseen kuluttaa laskentayksiköitä, Saara joutuu tarkistamaan saldon MyCSC:stä säännöllisesti ja tarvittaessa hakemaan lisää laskentayksiköitä (80 TB kuluttaa 700 800 Bu vuodessa). Onneksi HiaNo on akateeminen tutkimushanke, joten Saaraan ei tarvitse maksaa laskentayksiköistä.
Allaksen tallennustila on vain tutkimusprojektin keston ajan, mutta Saara ajattelee, että olisi hyödyllistä, jos alustavaa dataa tehtäisiin julkisesti saatavilla ja helpommin löydettäväksi. Tähän on tukea CSC:n tuottamista Fairdata-palveluista.
Pekka luo uuden bucketin, jossa on julkinen pääsy ja lataa datan bucketille. Komento a-publish luo bucketin ja lataa valitut tiedostot sinne. Parametria -b
käytetään bucketin nimen määrittämiseen, tässä tapauksessa hiano-project-public001
.
Näytös 5. Loppu
Neljän vuoden intensiivisen tutkimuksen jälkeen, joka on laajentunut useisiin laitoksiin Suomessa ja ulkomailla, HiaNo-projekti on tuottanut muutaman opinnäytetyön ja monia korkealaatuisia julkaisuja (joissa kaikissa on tunnustettu CSC:n resurssien käyttö).
Tällä hetkellä dataa ei enää käytetä aktiivisesti. Osa Allakseen tuodusta datasta on julkaistu kansainvälisissä tutkimustietokannoissa. Jotkin datasetit on siirretty IDA-palveluun (IDA), jotta dataan voidaan liittää DOI-tunniste ja metatieto, jotta muut tutkijat voivat käyttää sitä uudelleen. Näihin datasettiin voi myös tutustua Fairdata Etsin -palvelun kautta. Osa datoista voidaan nyt poistaa ja osa jäljellä olevista osista siirtää uuteen HiaNo2-projektin bucketeihin.
Tässä vaiheessa Pekka puhdistaa jäljellä olevat dataobjektit Allaksesta, minkä jälkeen Saara ilmoittaa CSC:lle, että projekti voidaan sulkea.