Tiedon säilytys CSC:llä
Yleiskatsaus
CSC:n palvelut tiedon säilyttämiseen ovat maksuttomia akateemiseen tutkimukseen, koulutukseen ja opetukseen Suomen korkeakouluissa ja valtion tutkimuslaitoksissa. Palvelun käyttöönottoon tarvitset CSC-tunnuksen ja projektin luomisen. Huomaa, että EUDAT-palveluilla on oma rekisteröitymisprosessinsa.
CSC:n palvelut tiedon säilyttämiseen
Palvelut arkaluonteiselle tiedolle (SD Connect ja Federated EGA)
Allaksen käyttö tietoaineiston isännöintiin tutkimusprojektille
Digitaalinen säilytyspalvelu tutkimusdatalle
Tietojen siirto CSC:n ympäristössä
Seikat huomioitavaksi sopivan säilytysratkaisun valinnassa
Kun etsit paikkaa tiedon säilyttämiseen tutkimusprojektisi aikana, sinun tulee huomioida:
- sisältääkö tieto henkilökohtaisia tietoja ja/tai arkaluonteista dataa, katso arkaluonteisen datan määritelmä
- kuinka tietoa käytetään (varmuuskopioina, analysoitavaksi, jne.)
- kuka päättää tietoaineiston elinkaaren
- mitä tapahtuu tiedollesi, jos poistut yliopistosta/tutkimusorganisaatiosta
- kuka tarvitsee pääsyn tietoihin
- millaisia rajapintoja tarvitaan (esim. selainpohjaiset graafiset käyttäjäliittymät audio/video/taulukko, koneellisesti luettavat rajapinnat, liitettävä polku käyttöjärjestelmälle jne.)
- kuinka paljon säilytystilaa tarvitaan ja onko tarve kumulatiivinen
- pystytkö maksamaan tiedon säilytyskustannuksista, jos tarpeen
- kuinka suuria yksittäiset tiedostot ovat (esim. ei ole järkevää säilyttää liian pieniä tai liian suuria tiedostoja)
- tulisiko tiedonsiirron olla automatisoitu, esim. skriptillä
- tarvitsetko säilyttää metadataa tietojesi kanssa ja minkälaista metadataa
- minkä tason turvallisuutta tiedot vaativat
Kun olet päättänyt, minkä säilytysratkaisun valitset, sinun tulisi miettiä, miten organisoit tietosi.
Kun tutkimushanke päättyy
Tutkimushankkeen päättyessä sinun tulee pohtia:
- mitkä tiedot tulisi julkaista
- kuinka pitkäksi aikaa sinun täytyy säilyttää tiedot rahoittajan, julkaisijan tai kotiorganisaatiosi vaatimusten mukaisesti
- mitkä tiedot voidaan poistaa tässä vaiheessa
- onko sinulla arvokasta tietoa, jota tulee digitaalisesti säilyttää
Vaikka voisi tuntua houkuttelevalta tallentaa kaikki tiedot siltä varalta, että ne olisivat hyödyllisiä tulevaisuudessa, tämä ei aina ole mahdollista, sillä kaiken arkistointi voi osoittautua kalliiksi ja aikaa vieväksi ja joissakin tapauksissa epäeettiseksi. Jos keräät tietoa ihmisiltä tutkimuskohteena, sinun tulee myös varmistaa, että olet saanut heidän tietoon perustuvan ja pätevän suostumuksensa tiedon arkistointiin, jakamiseen ja uudelleenkäyttöön. Tiedostot, joita ei julkaista, arkistoida tai säilytetä, tulisi poistaa, kun ne ovat täyttäneet tarkoituksensa. Tutkijoilla on lakisääteinen vastuu kerätystä datasta ja arkaluonteiset tiedot tulee hävittää asianmukaisesti. Pelkkä tiedostojen poistaminen ei riitä, sillä työkaluja on palautettavan datan poistamiseen. Sinun täytyy varmistaa, että haluamasi hävitettävä data, erityisesti "erityiskategoriaan kuuluvat henkilökohtaiset tiedot", on täydellisesti pyyhitty pois kiintolevyiltä, kannettavista levyistä ja minkään muun tyyppisiltä tallennusratkaisuilta.
Säilyttäminen
Digitaalinen säilyttäminen tarkoittaa digitaalisen tiedon luotettavaa säilyttämistä useiden vuosikymmenien tai jopa vuosisatojen ajan. Laitteistot, ohjelmistot ja tiedostoformaatit vanhentuvat, mutta tieto on säilytettävä. Luotettava digitaalinen säilyttäminen vaatii tiedon eheyden aktiivista valvontaa ja erilaisten riskien ennakointia. Metadata, joka kuvaa esimerkiksi informaation sisältöä, alkuperätietoja ja miten sisältöä voidaan käyttää, on tässä avainasemassa.
Kansalliset digitaalisen säilytyksen palvelut tutkimusdatalle varmistavat digitaalisten tutkimusresurssien saatavuuden ja säilymisen. Täältä löydät lisää tietoa partneriorganisaatioksi ryhtymisestä Digitaalisen Säilytyspalvelun kanssa.
Lisätietoja tutkimusdatan säilyttämisestä löytyy tästä videosta:
Kuinka paljon säilytystilaa tarvitaan
CSC:n palveluiden käyttäjän on arvioitava tarvittavan säilytystilan koko, esimerkiksi gibitavuina (GiB). Yksi tapa tehdä tämä on tarkistaa nykyisten tiedostojen koko ja arvioida lopullinen tilatarve niiden perusteella. Useimpien CSC-palveluiden kiintolevykiintiötä voidaan helposti kasvattaa (tai pienentää) MyCSC-asiakasportaalissa.
Note
Gibitavu (GiB) = 1 073 741 824 tavua, tai noin 1 073 gigatavua (GB)
On myös syytä huomata, että suurten datamäärien siirtäminen vaatii aikaa. Esimerkiksi yhden GiB:n tiedoston siirtäminen 10 Mbps yhteyden kautta kestää tyypillisesti noin 10 minuuttia ja nopean 100 Mb kiinteän yhteyden kautta muutaman minuutin. Suosittelemme käyttämään esimerkiksi kotiorganisaation tarjoamaa nopeaa kiinteää verkkoyhteyttä ja välttämään selainliittymien käyttöä suurien tiedostomäärien tai datan siirtämiseen.
Tiedostokokojen yksiköt pienimmästä suurimpaan:
- 1 tavu (B) = digitaalisen tiedon perusyksikkö
- 1 kibitavu (KiB) = 1024 tavuja
- 1 mebitavu (MiB) = 1024 kibitavuja
- 1 gibitavu (GiB) = 1024 mebitavuja
- 1 terabitavu (TiB) = 1024 gibitavuja
- 1 pebitavu (PiB) = 1024 terabitavuja
Esimerkkitiedostokokoja eri tiedostotyypeille
Huomaa, että tiedostokoot voivat vaihdella suuresti riippuen esimerkiksi kuvan tai videon laadusta.
Tiedosto | Keskimääräinen tiedostokoko | Tiedostojen määrä 1 GiB:ssa | Tiedostojen määrä 25 GiB:ssa | Tiedostojen määrä 1 TiB:ssa |
---|---|---|---|---|
Tekstinkäsittelytiedosto | 730 KiB | 1400 | 35000 | 1436000 |
Esitys (ppt) | 6 MiB | 170 | 4300 | 174000 |
JPEG-kuva | 300 KiB | 3400 | 85000 | 3495000 |
JPEG-valokuva älypuhelimesta | 3 MiB | 340 | 8500 | 349000 |
PDF-dokumentti | 3 MiB | 340 | 8500 | 349000 |
MPEG-video | 650 MiB | 1 | 39 | 1600 |
30 min HD-video | 2,1 GiB | 0 | 12 | 490 |
DVD-levy | 4,7 GiB | 0 | 6 | 218 |
Ihmisen genomisekvenssi | 60 GiB | 0 | 0 | 17 |
Keskimääräinen tiedostokoko perustuu tietoihin 14,000 tekstinkäsittelytiedostosta, 1,000 esitysgrafiikkatiedostosta, 4 miljoonasta JPEG-kuvasta, 27,000 PDF-tiedostosta ja 7,000 MPEG-tiedostosta, jotka liittyvät tutkimukseen, sekä 5 ei-tutkimukseen liittyvästä 30 minuutin HD h264-videosta.
Säilytysratkaisujen vertailu
Tarjoamme useita säilytysvaihtoehtoja tutkimuskäyttöön. Löydät sopivan säilytysratkaisun alla olevasta vertailutaulukosta. Suosittelemme luomaan datanhallintasuunnitelman, kun harkitset tietojen säilytysvaihtoehtoja. Jos sinulla on kysyttävää, palvelupisteemme tarjoaa henkilökohtaista neuvontaa ja asiantuntijatukea sopivan säilytysratkaisun valinnassa.
- Toimitamme myös tallennuskapasiteettia (CEPH/NFS) pyynnöstä.
Palvelu | Tarkoitettu käyttötarkoitus | Nykyisin saatavilla olevat kiintiöt* | Rajapinnat | Yksittäinen käyttäjä tai projektiin perustuva pääsy | Lisäominaisuudet | Palvelun tarjoaja |
---|---|---|---|---|---|---|
Allas objektitallennus | alustan riippumaton tiedon tallennus ja jakaminen | 10 TB (lisää pyynnöstä) | S3 ja Swift -asiakkaat. OpenStack Horizon, Puhti ja Mahti web-käyttöliittymät. | projektiryhmä | mahdollistaa tietojen jakamisen palvelusta | CSC |
Fairdata IDA-noutopalvelu | tutkimusdatan tallentaminen, jakaminen ja julkaiseminen | myönnetään hakemuksen perusteella (1 GB:sta aina noin 100 TB:hen) | selain, CLI | projektiryhmä | käyttäjät sitoutuvat julkaisemaan tallennetun datan Fairdata Etsin -palvelussa | Opetus- ja kulttuuriministeriö (palvelun tuottaja CSC) |
Tallennus CSC:n pilviympäristöissä | väliaikaiset tai pysyvät tallennusresurssit virtuaalikoneiden kautta | 1 TB (lisää pyynnöstä) | lohkotallennus virtuaalikoneiden kautta, suurten datakehysten (Hadoop, Spark) | projektiryhmä | CSC | |
Projektihakemistot CSC supertietokoneissa | levyt arkaluonteisten tietojen prosessointiin | 50 GB, 1-10 TB lyhytaikaista (lisää pyynnöstä) | tiedostojärjestelmä | projektiryhmä | Tallennusaika raapishakemistoissa on rajattu 6 kuukauteen. | CSC |
EUDAT B2DROP | tiedostojen tallentamiseen, jakamiseen ja synkronointiin | 20 GB | selain, työpöytä | yksittäinen käyttäjä | mahdollistaa tietojen jakamisen palvelusta ja tietojen julkaisemisen EUDAT B2SHARE-palvelussa | EUDAT |
Pukki DBaaS-relaatiotietokantapalvelu | tietojen tallennus ja käyttäminen relaatiotietokantojen kautta | jopa 50 GB | PostgreSQL-tietokanta-asiakkaat | projektiryhmä | Tietokannan hallinta perustuu CSC-tunnuksiin. Tietokannan käyttöön tarvittavat tunnukset luodaan käyttäjän toimesta. | CSC |
Arkaluonteinen data (SD) Connect | Salaisten tutkimusdatan tallentaminen, kerääminen ja jakaminen | 10 TB (lisää pyynnöstä) | Selain ja CLI | projektiryhmä | Mahdollistaa tietojen jakamisen palvelusta. Mahdollistaa salattujen tietojen analysoinnin SD Desktop -palvelusta. Lisätietoa SD-palveluista. | CSC |
Federated EGA | Palvelu ihmisten geneettisten ja fenotyyppisten tietojen julkaisuun | Tapauskohtainen | Komentorivi-rajapinta tietojen lataamiseksi. Verkkokäyttöliittymä hallintaan. | Pääsy sopimuksen perusteella | Tietojen lataaminen vaatii sopimuksen kotiorganisaation ja CSC:n välillä, eikä ole maksutonta. Ulkopuolisilla käyttäjillä on mahdollisuus hallittuun tiedon käyttöön CSC:n SD-palveluiden kautta. | CSC |
- Tarkempaa tietoa saatavilla olevasta säilytyskapasiteetista katso tietoa oletuskiintiöistä.