Data-analyysiopas
Tämän oppaan tarkoituksena on auttaa sinua valitsemaan oikeat työkalut ja ympäristön data-analyysiisi. Lisäksi CSC järjestää monipuolisesti koulutuskursseja, joista monet liittyvät data-analytiikkaan ja koneoppimiseen CSC:n laskentaympäristöissä. Lopuksi, CSC:n asiantuntijat auttavat mielellään kaikissa datalähtöisen tutkimuksesi osa-alueissa, ja heihin voi ottaa yhteyttä CSC:n palvelupisteen kautta.
Aloittaminen
Aloittaaksesi sinun tulee:
- olla CSC:n käyttäjätili
- olla CSC-projektin jäsen, joko luomalla uusi projekti tai liittymällä olemassa olevaan projektiin, esimerkiksi pyytämällä projektipäällikköä lisäämään sinut
Lopuksi, projektilla on oltava pääsy käyttämiisi palveluihin. Lisätietoja palveluistamme alla ja milloin niitä voi käyttää.
CSC:n palvelut
Alla on lyhyt sanasto CSC:n palveluista, jotka ovat tärkeimpiä data-analyysille.
Puhti on CSC:n supertietokone, jossa useimmat laskennat tulisi tehdä. Puhtissa on laaja valikoima esiasennettuja sovelluksia, ja se skaalaantuu erittäin raskaisiin laskentatehtäviin, mukaan lukien GPU-pohjainen käsittely.
Allas on CSC:n tietovarastopalvelu. Jos sinulla on suuria tietoaineistoja tai tarvitsee jakaa dataa projektisi ulkopuolisille, kannattaa harkita Allaksen käyttöä.
Pouta on CSC:n pilvipalvelu, jossa voit luoda oman virtuaalisen palvelimesi. Tämä antaa sinulle enemmän hallintaa laskentaympäristöstä, mutta ei välttämättä sovi erittäin raskaisiin laskentatehtäviin. Pouta sopii myös paremmin arkaluonteisen tiedon käsittelyyn, erityisesti ePouta-variantti.
Rahti on CSC:n konttipilvi. Täällä voit helposti luoda virtuaalisia sovelluksia konttikuvien pohjalta.
Noppe on erinomainen palvelu, jos haluat vain suorittaa nopean analyysin suoraan verkkoselaimessasi. Noppe tukee Jupyteria Python-työkalujen kanssa data-analyysiin ja koneoppimiseen sekä myös RStudioa.
Esimerkkitapauksia
Siirtyminen datavetoiseen tutkimukseen
Olet tutkinut Excelin tai SPSS:n avulla, mutta nyt haluat tehokkaampia tapoja käsitellä dataasi.
Mahtava tapa aloittaa data-analytiikka on osallistua kurssille. Voit tarkistaa tulevat kurssit CSC:n koulutussivustolta. Lisäksi CSC:llä on koulutusmateriaaleja, jotka soveltuvat itseopiskeluun, kuten seuraavat johdantokurssit:
Jos työskentelet bioinformatiikan alalla, kannattaa myös tarkistaa Chipster-alusta.
Verkossa on runsaasti data-analytiikan tietoa saatavilla, suosittuja resursseja ovat esimerkiksi Udemy, Coursera ja edX.
Jos et halua pystyttää kehitysympäristöä omalle kannettavallesi, voit helposti käyttää Rahti-palvelua asentaaksesi RStudio-ympäristön valmiilla RStudio-pohjalla mallikatalogista. Lisätietoja RStudio-pohjasta löytyy RStudio-openshift GitHub-repositorysta.
Meillä on myös ohjeet Allas-objektivaraston käytöstä RStudiosta.
Skaalaaminen kannettavasta tietokoneesta (aloittelija)
Olet jo jonkin aikaa suorittanut analyyseja R:llä tai Pythonilla, mutta olet saavuttanut oman kannettavasi tai pöytätietokoneesi rajat. Tarvitset ehkä enemmän muistia tai nopeampaa prosessointia?
Useimmissa tapauksissa seuraava askel olisi siirtyä CSC:n supertietokoneeseen Puhtiin, joka on korkeatehoinen laskentaklusteri (HPC). Tämä tarkoittaa, että se ei ole yksi tietokone, vaan kokoelma monia tietokoneita. Käyttäjät pääsevät Puhtin etupalvelimelle (login node), jossa he voivat lähettää laskentatöitä jonotusjärjestelmään, joka huolehtii niiden jakamisesta klusterin eri tietokoneille (laskentosolmuille). Lue ohjeet Puhtiin pääsemisestä ja how to submit computing jobs to Puhti's queuing system.
Puhtissa on laaja valikoima tieteellisiä laskentasovelluksia esiasennettuna, mukaan lukien R ja RStudio Server sekä Python-kirjastot data-analyysiin. Jos huomaat jotain puuttuvan, älä epäröi ottaa yhteyttä palvelupisteeseemme.
Koska Puhti on jaettu laskentaympäristö, käyttäjiä rajoitetaan siinä, mitä he voivat tehdä, esimerkiksi räätälöidyn ohjelmiston asentamisessa tai arkaluonteisen datan käsittelyssä. Joissakin tapauksissa voi olla järkevää käyttää Poutaa luodaksesi oman virtuaalipalvelimen. Tämä antaa sinulle enemmän hallintaa laskentaympäristön suhteen, mutta ei välttämättä sovellu erittäin raskaisiin laskentatöihin. Toinen vaihtoehto on Rahti, jossa voit luoda virtuaalisia sovelluksia konttikuvien pohjalta. Katso esimerkkejä koneoppimismallien käyttöönotosta Rahtissa.
Raskaammat laskentatarpeet (edistynyt)
Olet jo asiantuntija, mutta olet kasvanut ulos paikallisen laitoksesi resursseista.
Jos tarvitset voimakasta laskennan rinnakkaistamista tai esimerkiksi GPU-kiihdytettyä käsittelyä, Puhti on oikea vastaus (katso ohjeet yllä olevasta osiosta).
GPU-kiihdytettyyn koneoppimiseen tuemme TensorFlow, PyTorch, JAX ja RAPIDS.
Lisätietoja:
Jos käytät R:ää data-analyysiin, tuemme myös rinnakkaisia erätöitä R:ssä. Tarpeistasi riippuen monenlaiset rinnakkaislaskennat ovat mahdollisia R:llä. Useita prosessoreita (ytimiä) ja säikeitä hyödyntävien töiden lisäksi on mahdollista suorittaa sarjatöitä, joissa analyysi jaetaan moniin alitehtäviin. Analyyseihin, jotka vaativat useita solmuja, R tukee myös useita viestinvälitysrajapintaan (MPI) perustuvia töitä.
Kurssiympäristöt (opettajille)
Opetat kurssia, joka tarvitsee monimutkaisia laskentaympäristöjä harjoituksiinsa, mutta et halua käyttää arvokasta kurssiaikaa asennusvirheiden korjaamiseen.
Harkitse käyttäväsi CSC:n Noppe-palvelua, joka tarjoaa helppokäyttöisiä ympäristöjä datan ja ohjelmoinnin parissa työskentelemiseen. Kurssiympäristöt tukevat Jupyteria, Pythonia (mukaan lukien monet koneoppimiskirjastot), R/RStudio Serveriä ja Sparkia.
Jos suunnittelet Noppen käyttöä kurssillasi, muistathan lähettää ilmoituksen kurssisi vaatimuksista käyttämällä tässä verkkolomake.
CSC:n koulutustarkoituksiin luotujen GitHub-repositorien kokoelma voi myös olla arvokas resurssi kurssin suunnitteluun ja opetusaineistojen jakamiseen kurssin osallistujille.