Hyppää sisältöön

Significant changes to Puhti & Mahti authentication coming in April! Read about the SSH key and multi-factor authentication requirements.

Yleiset käyttötilanteet

Datan käsittely CSC:n supertietokoneilla

CSC:n supertietokoneet tarjoavat levyympäristöjä suurten tietoaineistojen käsittelyyn. Nämä tallennusalueet eivät kuitenkaan ole tarkoitettu tietojen säilyttämiseen, jos niitä ei aktiivisesti käytetä. Esimerkiksi Puhti-järjestelmän scratch-alueella käyttämättömät tiedostot poistetaan automaattisesti 180 päivän jälkeen.

Eräs Allaksen pääkäyttötilanteista on tallentaa dataa silloin, kun sitä ei aktiivisesti käytetä CSC:n supertietokoneilla. Työskentelyn alkaessa data siirretään Allaksesta, ja kun dataa ei enää aktiivisesti käytetä, se voidaan siirtää takaisin Allakseen.

CSC:n supertietokoneilla yhteys Allakseen voidaan muodostaa seuraavilla komennoilla:

module load allas
allas-conf
Tämän jälkeen voit:

Luetteloida datakaukalot ja objektit Allaksessa: Luettelointiin suosittelemme a-list.

a-list
Yllä oleva komento listaa käytettävissä olevat datakaukalot Allaksessa. Luetteloidaksesi datan objektit kaukalossa, anna komento:
a-list bucket_name
vaihtoehtoisesti voit käyttää rclone komentoja:
rclone lsd allas:
rclone ls allas:bucket_name
Kopioi data Allaksesta supertietokoneelle (Puhti tai Mahti) (stage in): Lataamiseen suosittelemme a-get
a-get bucket/object_name
tai rclone copy:
rclone copy allas:bucket/object_name ./

Kopioi data supertietokoneelta Allakseen (stage out): Lataamiseen suosittelemme a-put

a-put filename
tai rclone copy:
rclone copy file.dat allas:/bucket_name 

Huomio

Sekä a-put/a-get että rclone käyttävät Swift-protokollaa Allaksessa. On tärkeää olla sekoittamatta Swift- ja S3-protokollia, sillä ne eivät ole täysin yhteensopivia.

Datan jakaminen

Datan, esimerkiksi tietoaineistojen tai tutkimustulosten, jakaminen on helppoa objektitallennuksessa. Voit jakaa niitä joko rajoitetulle yleisölle, kuten muille projekteille, tai antaa pääsyn kaikille tekemällä datasta julkista.

Dataan pääsee käsiksi ja sitä voi jakaa monin tavoin:

  • Yksityinen – oletus: Oletuksena, jos et määrittele muuta, kaukaloiden sisältöä voivat käyttää vain projektisi todentautuneet jäsenet. Yksityinen/Julkinen asetuksia voi hallita:

  • Pääsynvalvontalistat (Access control lists, ACLs): Pääsynvalvontalistat toimivat kaukaloilla, ei objekteilla. ACL:ien avulla voit rajata datan jakamista muille projekteille. Voit esimerkiksi antaa yhteistyöprojektille todentautuneen lukuoikeuden tietoaineistoihisi.

  • Väliaikaiset allekirjoitetut linkit voi luoda s3cmd avulla. Tällaisia linkkejä voi käyttää tilanteissa, joissa dataan pitää päästä käsiksi internetissä ilman tunnuksia, mutta sen ei ole tarkoitus jäädä julkisesti saataville.

  • Julkinen: Voit myös luoda ACL:jä, jotka antavat julkisen lukuoikeuden dataan, mikä on hyödyllistä esimerkiksi tieteellisten tulosten tai tietoaineistojen pysyvää jakamista varten.

Staattinen verkkosisältö

Yleinen tapa käyttää objektitallennusta on tallentaa staattista verkkosisältöä, kuten kuvia, videoita, ääntä, PDF-tiedostoja tai muuta ladattavaa sisältöä, ja lisätä siihen linkit verkkosivulle, joka voi toimia joko Allaksen sisällä tai muualla, kuten tämä esimerkki.

Datan lataaminen Allakseen voidaan tehdä millä tahansa seuraavista asiakkaista: web client, a-commands, rclone, Swift tai S3.

Datan tallentaminen hajautettuun käyttöön

On useita tilanteita, joissa tarvitset pääsyn dataan useissa paikoissa. Näissä tapauksissa datan tuominen yksittäisille palvelimille tai tietokoneille objektitallennuksesta voi korvata jaetun tiedostotallennuksen käytön.

Pääsy samaan dataan useilla CSC-alustoilla

Koska data objektitallennuksessa on saatavilla kaikkialla, voit käyttää sitä sekä CSC-klustereilla että pilvipalveluissa. Tämä tekee objektitallennuksesta hyvän paikan tallentaa sekä väli- että lopputuloksia tapauksissa, joissa työnkulku edellyttää esimerkiksi sekä Allaksen että Puhtin käyttöä.

Datan kerääminen eri lähteistä

On helppoa siirtää dataa objektitallennukseen useista eri lähteistä. Tämä data voidaan sitten myöhemmin käsitellä tarpeen mukaan.

Esimerkiksi useat datankerääjät voivat siirtää käsittelyyn tarkoitettua dataa, kuten tieteellisiä instrumentteja, mittareita tai ohjelmistoja, jotka keräävät sosiaalisen median virtoja tieteellistä analyysiä varten. Ne voivat siirtää datansa objektitallennukseen, ja myöhemmin Puhti-järjestelmän virtuaalikoneet ja laskentatehtävät voivat käsitellä dataa.

Omatoimiset tietojen varmuuskopiot

Objektitallennusta käytetään myös usein varmuuskopioiden säilyttämispaikkana. Se on kätevä paikka viedä tietokantadumppien kopioita.

allas-backup on osa a-commands-ohjelmistoa. Se toimii työkaluna varmuuskopioiden luomiseksi tiedostoista Allaksessa.

Huomio

Allas-backup ei ole oikea varmuuskopiointipalvelu. Se vain kopioi tiedot toiseen kaukaloon Allaksessa, joka voi helposti poistaa tai ylikirjoittaa kuka tahansa todentautunut käyttäjä.

Yli 5 GB:n tiedostot

Yli 5 GB:n tiedostot jaetaan pienempiin segmentteihin latauksen aikana.

  • a-put ja rclone jakavat suuret tiedostot automaattisesti: a-put

  • Käyttäessäsi Swiftiä, voit käyttää Static Large Object: swift with large files

  • s3cmd jakaa suuret tiedostot automaattisesti: s3cmd put

Lataamisen jälkeen s3cmd yhdistää nämä segmentit yhdeksi suureksi objektiksi, mutta swift-pohjaisissa latauksissa (a-put, rclone, swift) suuret tiedostot tallennetaan myös useiksi objekteiksi. Tämä tehdään automaattisesti kaukaloon, joka nimetään lisäämällä jatkoksi _segments alkuperäisen kaukalon nimeen. Esimerkiksi, jos käytät a-put:ia ladataksesi suuren tiedoston kaukaloon 123-dataset, todelliset tiedot tallennetaan useiksi paloiksi kaukaloon 123-dataset_segments. Kohdekaukalo 123_dataset sisältää vain etuobjektin, joka sisältää tiedon siitä, mitkä segmentit muodostavat tallennetut tiedoston. Etuobjektiin kohdistuvat toimenpiteet heijastuvat automaattisesti segmentteihin. Käyttäjien ei yleensä tarvitse käsitellä segments-kaukaloita ollenkaan, eikä niissä olevia objekteja tulisi poistaa tai muokata.

Katselu

CSC:n supertietokoneilla voit tarkistaa projektisi nykyisen Allas-objektien ja tallennettujen tietojen määrän komennolla:

a-info

Jos käytät s3cmd client:ia, tarkista projektisi objektitallennustilan käyttö:

s3cmd du -H

Jos käytät Swift client:ia:

swift stat

Näytä kuinka paljon tilaa kaukalo on käyttänyt:

swift stat $bucketname

Ota yhteyttä servicedesk@csc.fi, jos sinulla on kysyttävää.