Datan toimittaminen
Alla on askel-askeleelta -ohjeet biolääketieteellisen datan lataamiseen, kuvaamiseen ja julkaisemiseen Suomen Federated EGA:n kautta. Huomaa, että tämä prosessi voi olla pitkä (minkä tahansa yksittäisen kuukauden ja kuuden kuukauden väliltä), mutta tarjoamme tukea ja ohjausta koko prosessin ajan.
Tässä käyttäjän oppaassa kuvattu prosessi on erityinen datasetin lähettämiseen Suomen FEGA:han. Keskus EGA ja muut FEGA-solmut käyttävät eri datan lähetysprosesseja.
Lähetyspyynnöt käsitellään vastaanottojärjestyksessä.
Huomio
Ennen kuin aloitat, on keskeistä varmistaa, että palvelusopimus Federated EGA -palvelulle on olemassa CSC:n (datankäsittelijänä) ja kotiorganisaatiosi (tai datan rekisterinpitäjän) välillä. Aloita toimituksen valmistelu hyvissä ajoin (jopa ennen kuin lähetät käsikirjoituksesi tieteelliseen lehteen) ottamalla yhteyttä CSC:n palvelupisteeseen (aihe: Federated EGA) ja kotiorganisaatiosi oikeudellisiin palveluihin.
Vaihe 1: Oikeudelliset sopimukset, Datan Käyttökomitea ja Politiikat
Datan tallettaminen Suomen Federated EGA:lle edellyttää sarjaa oikeudellisia sopimuksia: Federated EGA -palvelusopimusta ja Datan Käyttösopimusta, joka sisältää Datansiirtosopimuksen. Nämä sopimukset sekä datan siihen liittyvä käyttöoikeuksien hallinta ovat datan rekisterinpitäjän vastuulla. Lähetetyn datan rekisterinpitäjä on yleensä tutkimusta tukevan akateemisen organisaation. Datan omistus ei muutu tämän palvelun käytön myötä.
Fegan käytön kattavat CSC:n ilmaiset käyttötapaukset suomalaista akateemista tutkimuskäyttöä varten, mutta maksuton käyttö ei sisällä pakollista varmuuskopiota tiedoista. Varmuuskopiointia voidaan ostaa lisäpalveluna FEGAssa tai lähettävä organisaatio voi sopia muista varmuuskopiointitavoista CSC:n kanssa tehdyssä sopimuksessa. Lisää tietoa FEGAn sisäisen varmuuskopiopalvelun hinnoista löytyy hinnoitteluasiakirjasta. Lähetyspalvelu on saatavilla vain suomalaisille käyttäjille.
Alla löydät lisätietoa tarpeellisista oikeudellisista sopimuksista ja datan käyttöoikeuksien hallinnasta:
-
Palvelusopimus Federated EGA:lle: organisaatiollasi (tai datan rekisterinpitäjällä) on oltava erityinen palvelusopimus CSC:n (datankäsittelijänä) kanssa ennen Suomen Federated EGA -palvelun käyttöä. Tämä palvelusopimus sisältää Datankäsittelysopimuksen (DPA), joka määrittelee datankäsittelyn yksityiskohdat, kuten sen laajuuden ja tarkoituksen sekä rekisterinpitäjän ja käsittelijän väliset oikeudet ja velvollisuudet. Varmista, että organisaatiossasi on FEGA-palvelusopimus ennen lähetysprosessin aloittamista. Jos organisaatiollasi ei ole sopimusta, ota meihin yhteyttä CSC:n palvelupisteeseen (aihe: Federated EGA).
-
Datan Käyttösopimus: Datan Käyttösopimus (DAA) on sopimus Datan Käyttökomitean (DAC) ja hakijan välillä, joka hakee pääsyä dataan uudelleenkäyttöä varten. Datan Käyttösopimuksen kautta datan rekisterinpitäjä voi määritellä ehdot ja rajoitukset datan uudelleenkäytölle, mukaan lukien dataan liittyvät käytännöt, julkaisut, lataamiset ja käyttöoikeudet. Datan käyttösopimukseen tulisi myös sisältyä Datansiirtosopimus (DTA), joka on tarpeen, kun ei-EU/ei-ETA-alueiden tutkijat käyttävät dataa SD Desktopin kautta. DAA ja DTA liitetään datan käyttöpolitiikkoihin (katso seuraava kappale). Lisätietoa varten ota yhteyttä oman organisaatiosi Datan Käyttökomiteaan tai oikeudellisiin palveluihin. Voit löytää esimerkkimallin täältä.
-
Datan Käyttökomitea ja Politiikat: Datan Käyttökomiteasta (DAC) ja Politiikoista vastaa datan rekisterinpitäjä. Datan käyttö sekä DAC ja Poliittinen informaatio hallitaan erillisessä palvelussa nimeltään SD Apply. Organisaatioilla voi olla yleiset DAC:t ja Politiikat, joita käytetään kaikille samasta organisaatiosta lähetetyille dataseteille. Vain datasettiin liittyvä datan käyttöhakemuslinkki on ainutlaatuinen jokaiselle datasetille. Tämä linkki luodaan, kun datasi submissions on kirjattu FEGA-submissions-portaaliin, ja datasetin ainutlaatuinen tunnus yhdistetään DAC:hen, Politiikoihin ja hakemuslomakkeeseen SD Apply:ssä. Varmistaaksesi, että organisaatiollasi on sopiva DAC ja Politiikat datasetillesi, ota yhteyttä oman organisaatiosi edustajiin tai CSC:n palvelupisteeseen saadaksesi lisäohjeita.
Vaihe 2: Yleisten tietojen antaminen toimituksesta
Suomen Federated EGA -palvelulle tapahtuva lähetyksen aloitus alkaa ottamalla yhteyttä Suomen FEGA-helpdeskiin ja antamalla yleisiä tietoja lähetyksestä. Mieluiten tämä tieto jaetaan ensin organisaation DAC:lle, joka voi sitten lähettää tiedot FEGA-helpdeskiin hyväksyessään lähetyksen.
Lähetysprosessin aloittamiseksi, täytä yleislomake yhteystiedoilla, tietoja lähetyksen tyypistä ja datan rekisterinpitäjästä, tai anna sama tieto sähköpostiviestissä. Lähetä lähetyspyyntö oman organisaatiosi DAC:lle, jolloin he voivat toimittaa tarvittavat tiedot sähköpostitse CSC:n palvelupisteeseen (aihe: Federated EGA).
Vaihe 3: Tunnisteet
Kun oikeudelliset sopimukset datan rekisterinpitäjän ja CSC:n välillä on saatu päätökseen ja organisaation DAC on hyväksynyt lähetyksen, voit rekisteröityä EGA-verkkosivulle luodaksesi keskitetyt EGA-tunnukset. Saat aktivointilinkin sähköpostitse rekisteröintisi hyväksynnän jälkeen keskitetyn EGA:n puolesta. Aktivoi tunnuksesi ja ota yhteyttä CSC:n palvelupisteeseen päästäksesi Suomen FEGA:n lähettäjäksi. Lisäksi anna IP-osoite, josta siirrät tiedot FEGAlle, jotta voit muodostaa yhteyden FEGA-inboxiin.
Huomio
Keskitetyt EGA-tunnukset, mukaan lukien käyttäjätunnus (yleensä sähköpostiosoitteesi) ja salasana, tarvitaan salaukseen ja datan lataamiseen Suomen FEGAan ja metadatan toimittamiseen lähettäjäportaalin kautta.
Vaihe 4: Tiedostomuodot
Ennen kuin lataat tiedot FEGAlle, sinun on valmisteltava datasetit ja varmistettava datan oikeat tiedostomuodot. Alla on lueteltu joitakin hyväksyttyjä formaatteja.
Huomio
Datasetti määritellään yleensä tiedostojoukkona, joka kuuluu samaan kokeeseen ja datatyyppiin. Yksi tutkimus voi sisältää useita datasettejä. Tutkimuksesi voi sisältää sekä herkkää tietoa (esim. ihmisen geneettisiä tai fenotyyppisiä tietoja) että ei-herkkää tietoa (esim. virussequensseja, metaboliitteja). Vain herkkä data voidaan lähettää FEGAlle. Ei-herkät tiedot voidaan julkaista avoimesti asianmukaisissa arkistoissa. Tässä tapauksessa arkistossa generoituja näytteiden tunnusten tulee olla viitattavissa FEGAn toimituksessa.
Herkkä Data:
-
sekvenssitieto: CRAM, BAM, FASTQ, VCF muodot
-
metagenomiikka: EGA on ottanut käyttöön Minimum Information about any (x) Sequence (MIxS) standardit kuvaamaan tämän tyyppistä tietoa.
-
fenotyyppinen tieto: Ei erityistä muotoa. Jos mahdollista, suosittelemme käyttämään Experimental Factor Ontologies. Tarkista oikeat ontologiatermit ja kuvaa fenotyyppiset tietosi Ontology Lookup Service (OLS) joka on kehitetty EMBL-EBI:ssa.
-
linkitystiedostot: Jos saman tutkimuksen ei-herkät datasetit on toimitettu tiettyyn arkistoon, näytteet voidaan linkittää FEGAan toimitettuun herkkään tietoon saman näytteen osalta. Datasetissä tulisi olla erilaiset anonymisoidut näytetunnukset kussakin arkistossa. Asianmukaisessa arkistossa saadut tunnukset voivat sitten olla viittauksia FEGA-lähetyksessä. Esimerkiksi näytteen tunnus voidaan linkittää lisättyyn
.txt
-tiedostoon, joka voidaan lisätä yhteen yllä mainituista herkkistä dataseteistä.
Huomio
FEGA ei tue taulukkodataa. Saat lisää tietoa taulukkomuotoisista toimituksista ja niiden toimittamisesta EGA-verkkosivulla täältä.
Ei-herkkä data:
Ei-herkkä data (tai avoin data) tulee toimittaa asianmukaisiin arkistoihin. Esimerkiksi sekvenssit ENA European Nucleotide Archive, variantit EVA European Variation Archive, taulukkodataa ArrayExpress – functional genomics data, fenotyypit BioSamples ja GWAS-yhteenvetotilastot GWAS Catalog.
Huomio
Katso lisää tietoa datatyypeistä ja formaateista Submission FAQ EGA-sivulla tai ota yhteyttä CSC:n palvelupisteeseen (aihe: Federated EGA).
Vaihe 5: Datan salaus ja lataaminen
Seuraavaksi voit ladata datan Suomen FEGAlle. Jokainen datatiedosto, joka ladataan Suomen FEGAlle, on salattava.
Huomio
Data on salattu työkalujen avulla, jotka on suunniteltu salaamaan ja jakamaan ihmisen geneettistä dataa Global Alliance for Genomics and Health (GA4GH) -standardin mukaisesti.
Voit suorittaa salauksen ja latausvaiheet käyttämällä:
- Vaihtoehto 1 - Fi-FEGA lataussovellus. Fi-FEGA lataussovellusta (graafinen käyttöliittymä, GUI) voidaan käyttää tiedostojen tai kansioiden salaamiseen ja lataamiseen Suomen FEGAlle.
tai
- Vaihtoehto 2 - Komentorivikäyttöliittymä. Datansalaus crypt4gh CLI:llä ja datan lataaminen sftp CLI:llä. Jos haluat käyttää komentorivikäyttöliittymää, löydät tietoa salaus- ja latausvaiheista alla.
Vaihtoehto 1 - Fi-FEGA lataussovellus
-
Voit ladata Fi-FEGA lataussovelluksen, joka on erityisesti suunnattu käyttämällesi käyttöjärjestelmälle GitHub-ist: Linux, Mac tai Windows, valitse sdagui-vaihtoehdoista. Kun lataat ja purat tiedoston, löydät sovelluksen latauskansiostasi. Kun avaat sovelluksen, saatat kohdata virheilmoituksen. Tässä tapauksessa valitse Lisätietoja ja varmista, että julkaisija on CSC-IT Center for Science (suomeksi CSC-Tieteen tietotekniikan keskus Oy) ja valitse Suorita silti.
-
Lataa seuraavaksi Suomen FEGAn julkinen salausavain.
-
Avaa lataussovellus ja klikkaa Lataa vastaanottajan julkinen avain. Tämä avaa tiedostoselaimen, jota voit käyttää valitaksesi Suomen FEGAn julkisen salausavaimen (
fega-pubkey-c4gh.pub
). Klikkaa sitten Avaa. -
Klikkaa Valitse tiedosto ladattavaksi tai Valitse hakemisto ladattavaksi ladataksesi yksittäisen tiedoston tai kokonaisen kansion.
-
Seuraavaksi sinun on täytettävä SFTP (tai turvallinen yhteys) tunnukset, jotka vastaavat keskitettyä EGA-tilitunnustasi. Kirjoita SFTP-käyttäjätunnukseen EGA-käyttäjänimesi (yleensä tämä on sähköpostiosoitteesi). Kirjoita SFTP-palvelimelle seuraava:
admin.sd.csc.fi:50529
. SFTP-avaimen lataamista ei vaadita tietojen lataamiseen FEGAan. -
Klikkaa Salaa ja lataa tiedostot. Työkalu kysyy SFTP-salasanaa, mikä vastaa keskitettyä EGA-tilisalasanasi. Kun klikkaat OK, sovellus aloittaa tiedon salauksen ja lataamisen.
-
Sovelluksessa ei ole edistymispalkkia. Tiedon salaaminen ja lataaminen voi kestää minuutteja tai jopa useita tunteja datasetin koosta riippuen. Datansiirto on onnistuneesti valmis, kun sovelluksen toimintaloki näyttää seuraavan viestin:
Yhdistäminen SFTP:stä. SFTP-yhteys on katkaistu.
Kun prosessi on valmis, voit nähdä tiedostot lähettäjäportaalissa siirtymällä Tiedostot-sivulle oikean yläkulman valikosta.
Vaihtoehto 2 - Komentorivikäyttöliittymä
Datansalaus crypt4gh CLI:llä:
-
Python 3.6+ vaaditaan Crypt4GH-salaustyökalun käyttämiseen. Jos tarvitset apua Pythonin asennuksessa, seuraa näitä ohjeita.
-
Avaa terminaali ja asenna Crypt4GH suoraan pip-työkalun avulla:
-
Salataksesi tiedoston Suomen FEGAn julkisella salausavaimella käytä
crypt4gh encrypt
-komentoa:Missä syntaksi
--recipient_pk
määrittää julkisen avaimen, joka käytetään datan salaukseen. Tässä tapauksessa Suomen FEGAn julkinen avain.example_file.txt
määrittelee syötetiedoston jaexample_file.txt.c4gh
on tulosteena salattu tiedosto.
Datansiirto sftp CLI:llä (oletus Linuxissa ja MacOS:ssa):
-
Avaa terminaali ja avaa SFTP-yhteys seuraavaa syntaksia käyttäen, missä
ega_user
on EGA-tunnuksesi (yleensä tämä on sähköpostiosoitteesi):Salasanana käytä keskitettyä EGA-tiliäsi (salasana).
-
Siirrä salatut tiedostot tai hakemisto put-komennolla, kun olet yhdistettynä sftp:hen.
Tiedonsiirto voi kestää minuutteja tai jopa useita tunteja, datasetin koosta riippuen.
-
Odota prosessin valmistumista ennen yhteyden katkaisemista. Kun prosessi on valmis, sinun pitäisi nähdä tiedostot lähettäjäportaalissa siirtymällä Tiedostot-sivulle oikean yläkulman valikosta. Kun olet varmistanut, että prosessi on valmis, voit katkaista SFTP-yhteyden komennolla
exit
. On tärkeää katkaista yhteys, kun olet valmis siirron.
Vaihe 6: Metadatan toimittaminen
Seuraavaksi voit kuvailla kaikki tiedot, jotka liittyvät tutkimukseesi, eli ei-herkkää julkista metadataa, käyttäen Suomen FEGA:n lähettäjäportaalin. Julkinen metadata julkaistaan EGA-verkkosivustolla, jotta datan löytäminen ja uudelleenkilpailu helpottuisi.
Tulet saamaan esittelyn lähettäjäportaalista alla olevasta videosta tai ottamalla tuen käyttöön portaalissa klikaten keltaista kirjaikonia oikeassa yläkulmassa ollessasi kirjautuneena sisään.
Kirjaudu lähettäjäportaaliin käyttämällä EGA:n tunnuksia (käyttäjänimi: yleensä sähköpostiosoitteesi ja salasana).
Käyttäen lähettäjäportaalia, voit rekisteröidä seuraavat metadataobjektit:
-
Tutkimus. Tietoa sekvenssitutkimuksesta. Otsikon tulisi olla 3–20 sanan mittainen esittely projektista ja kuvauksen pitäisi olla 3–5 lauseen mittainen määritelmä projektista sisältäen taustaa, tavoite ja yksityiskohtia.
-
Näytteet. Tietoa sekvenssinäytteistä kokeessa tai analyysissä. Halutessasi voit tehdä näytteiden erälatauksen.
-
Kokeet. Tietoa sekvensointimenetelmistä, -protokollista ja -laitteista.
-
Ajatukset. Tietoa tiedostoista, jotka sisältävät raakadatan, joka on luotu sekvenssisuorituksen ajossa. Näytteet, kokeet ja tiedostot liitetään toisiinsa ajatusten avulla. Asianmukainen objekti FASTQ ja BAM/CRAM -toimituksille. Halutessasi voit tehdä ajatusten erälatauksen.
-
Analyysi. Viittaa analyysitiedondoihin, jotka voivat sisältää käsiteltyä dataa (VCF), tietyntyyppisiä raakatiedostoja (BAM/BAI tai CRAM/CRAI) tai fenotyyppistä tietoa. Liitettynä näytteisiin ja tutkimukseen. Analyysi on EGA-spesifinen metadataobjekti, joka linkittää Näytteet tiedostoihin. Jos sinulla ei ole analyysitiedostoja, voit edetä ilman Analyysimetadataa.
-
Dataset. Sisältää tiedostokokoelman, joka on organisoitu ajatusten ja/tai analyysien alle ja joihin sovelletaan rajoitettua käyttöoikeutta. Liitettynä Politiikkaan, joka sisältää käyttöoikeuskyselylinkin ja joka luodaan CSC:n helpdeskin kautta. Otsikon tulisi olla 3–20 sanan kattava näkymä datasetin sisällöstä ja kuvauksen pitäisi olla 3–4 lauseen määritelmä datasetin sisällöstä, sisältäen näytetiedot ja yksityiskohdat, tiedostotyypin ja käytetyn teknologian/koemenetelmän.
Kun olet täyttänyt kaiken metadatan, voit viimeistellä toimituksen, jolloin lähetys siirtyy Suomen FEGAn helpdeskille hyväksyttäväksi ja julkaistavaksi. Jokaiselle näistä objekteista annetaan pysyvä tunniste tai ainutlaatuinen yksilöllinen tunnusnumero datan julkaisun jälkeen.
Huomio
-
Metadatatoimittamiseen dataset-kohtaisesti Politiikka-kohde on luotava erikseen CSC:n helpdeskin kautta ennen kuin se voidaan valita lähettäjäportaalissa. Tämä Politiikka-metadataobjekti yhdistää datasetin datankäyttösovellukseen, jonka organisaatiosi luo SD Applyssä (katso {#step-1-legal-agreements-data-access-committee-and-policies}).
-
Tutkimus, Näytteet ja Kokeet -metadata voidaan rekisteröidä ennen tiedostojen lataamista, kun taas Ajatukset ja Analyysi-objekteja ei voida rekisteröidä ennen kuin tiedostot on ladattu Suomen FEGAlle. Voit valita Politiikan lähetykseesi vasta, kun olet rekisteröinyt kaiken muun metadatan, kun rekisteröit Dataset-metadatan.
Vaihe 7: Datan julkaiseminen
Jotta lähetyksesi hyväksyttäisiin ja julkaistaisiin, kirjoita CSC:n palvelupisteeseen vahvistaaksesi, että lähetys voidaan julkaista.
CSC-helpdesk suorittaa julkaisuprosessin. Saat vahvistuksen onnistuneesta lähetyksestä ja soveltuvat tunnukset julkaisua, apurahoja ym. varten CSC-helpdeskiltä.
Huomio
Jos joku haluaa hakea pääsyä datasettiisi, joka on tallennettu Suomen FEGAlle, heidän tulee klikata datasetin hakemuslinkkiä EGA-verkkosivuilla. Linkki ohjaa käyttäjän hakemuslomakkeeseen SD Applyssä. SD Apply on palvelu, joka on tarkoitettu herkkien datasetien käyttöoikeuksien hakemiseen ja hallintaan CSC:lle. Erillinen ohje on saatavilla datankäyttöoikeuksien hakemiseen.