Ajoitetaan Julia-erätöitä CSC-klustereissa
Tämä opetus sisältää esimerkkejä erilaisten Julia-erätöiden ajamisesta Puhti-, Mahti- ja LUMI-klustereissa.
Esimerkkejä
Nämä esimerkit havainnollistavat Julia-ympäristön käyttöä erilaisissa erätöissä.
Ne on mukautettu yleisistä ohjeista töiden ajamisesta Puhtissa ja Mahtissa ja LUMIssa.
Huomaa, että emme käytä srun
-komentoa prosessien käynnistämiseen eräskriptissä. Sen sijaan käytämme Juliaa prosessihallintaan tai kutsumme srun
-komentoa Julia-koodin sisällä.
Ennen esimerkkien ajamista on luotava Julia-projekti kirjautumissolmussa. Sitä varten suorita seuraava komento hakemistossa, jossa Julia-ympäristön Project.toml
-tiedosto sijaitsee.
Voit käyttää useita säikeitä --threads=10
, mikä nopeuttaa esikääntämistä.
Sarjaohjelma
Käytämme seuraavaa hakemistorakennetta ja oletamme sen olevan työskentelyhakemistomme.
Esimerkki script.jl
-koodista.
Esimerkki batch.sh
-eräskriptistä.
Esimerkki batch.sh
-eräskriptistä.
Esimerkki batch.sh
-eräskriptistä.
Usean säikeen käyttö yhdellä solmulla
Käytämme seuraavaa hakemistorakennetta ja oletamme sen olevan työskentelyhakemistomme.
Esimerkki script.jl
-koodista.
# Säikeiden lukumäärä
n = Threads.nthreads()
println(n)
# Täytetään jokaisen säikeen id id:t-taulukkoon.
ids = zeros(Int, n)
Threads.@threads for i in eachindex(ids)
ids[i] = Threads.threadid()
end
println(ids)
# Vaihtoehtoisesti voimme käyttää @spawn-makroa ajamaan tehtävän säikeillä.
ids = zeros(Int, n)
@sync for i in eachindex(ids)
Threads.@spawn ids[i] = Threads.threadid()
end
println(ids)
Esimerkki batch.sh
-eräskriptistä.
Esimerkki batch.sh
-eräskriptistä.
Esimerkki batch.sh
-eräskriptistä.
Usean prosessin käyttö yhdellä solmulla
Käytämme seuraavaa hakemistorakennetta ja oletamme sen olevan työskentelyhakemistomme.
Esimerkki Project.toml
-projektitiedostosta.
Esimerkki script.jl
-koodista.
using Distributed
# Asetamme yhden työntekijäprosessin per ydin.
proc_num = Sys.CPU_THREADS
# Ympäristömuuttujat, jotka välitämme työntekijäprosesseille.
# Asetamme säikeiden lukumäärän yhteen, koska kukin prosessi käyttää yhtä ydintä.
proc_env = [
"JULIA_NUM_THREADS"=>"1",
"JULIA_CPU_THREADS"=>"1",
"OPENBLAS_NUM_THREADS"=>"1",
]
# Lisätään työntekijäprosesseja paikalliselle solmulle LocalManagerin avulla.
addprocs(proc_num; env=proc_env, exeflags="--project=.")
# Käytämme `@everywhere`-makroa sisällyttämään tehtäväfunktiot työntekijäprosesseihin.
# Meidän täytyy kutsua `@everywhere` työntekijäprosessien lisäämisen jälkeen; muuten koodi ei sisälly uusiin prosesseihin.
@everywhere function task()
return (worker=myid(), hostname=gethostname(), pid=getpid())
end
# Suoritamme tehtäväfunktion jokaisessa työntekijäprosessissa.
futures = [@spawnat worker task() for worker in workers()]
# Haemme prosessien tuloksen.
outputs = fetch.(futures)
# Poistetaan prosessit, kun olemme valmiita.
rmprocs.(workers())
# Tulostetaan isäntä- ja työntekijäprosessien tulokset.
println(task())
println.(outputs)
Esimerkki batch.sh
-eräskriptistä.
Esimerkki batch.sh
-eräskriptistä.
Esimerkki batch.sh
-eräskriptistä.
Usean prosessin käyttö useilla solmuilla
Käytämme seuraavaa hakemistorakennetta ja oletamme sen olevan työskentelyhakemistomme.
Esimerkki Project.toml
-projektitiedostosta.
[deps]
ClusterManagers = "34f1f09b-3a8b-5176-ab39-66d58a4d544e"
Distributed = "8ba89e20-285c-5b6f-9357-94700520ee1b"
Esimerkki script.jl
-koodista.
using Distributed
using ClusterManagers
# Asetamme yhden työntekijäprosessin per ydin.
proc_num = parse(Int, ENV["SLURM_NTASKS"])
# Ympäristömuuttujat, jotka välitämme työntekijäprosesseille.
# Asetamme säikeiden lukumäärän yhteen, koska kukin prosessi käyttää yhtä ydintä.
n = Threads.nthreads()
proc_env = [
"JULIA_NUM_THREADS"=>"$n",
"JULIA_CPU_THREADS"=>"$n",
"OPENBLAS_NUM_THREADS"=>"$n",
]
# Lisätään työntekijäprosesseja paikalliselle solmulle SlurmManagerin avulla.
addprocs(SlurmManager(proc_num); env=proc_env, exeflags="--project=.")
# Käytämme `@everywhere`-makroa sisällyttämään tehtäväfunktiot työntekijäprosesseihin.
# Meidän täytyy kutsua `@everywhere` työntekijäprosessien lisäämisen jälkeen; muuten koodi ei sisälly uusiin prosesseihin.
@everywhere function task()
return (worker=myid(), hostname=gethostname(), pid=getpid())
end
# Suoritamme tehtäväfunktion jokaisessa työntekijäprosessissa.
futures = [@spawnat worker task() for worker in workers()]
# Haemme prosessien tuloksen.
outputs = fetch.(futures)
# Poistetaan prosessit, kun olemme valmiita.
rmprocs.(workers())
# Tulostetaan isäntä- ja työntekijäprosessien tulokset.
println(task())
println.(outputs)
Esimerkki batch.sh
-eräskriptistä.
Esimerkki batch.sh
-eräskriptistä.
Esimerkki batch.sh
-eräskriptistä.
MPI-ohjelma
Käynnistämme MPI-ohjelman Julian mpiexec
-käärellefunktiolla.
Käärellefunktio korvaa paikallisten asetusten mukaisen komennon mpirun
-muuttujaan MPI-ohjelman ajamiseksi.
Komento on srun
Puhtissa, Mahtissa ja LUMIssa.
Käärelle mahdollistaa joustavamman koodin kirjoittamisen, kuten MPI- ja ei-MPI-koodin yhdistelyn, ja siirrettävämmän koodin, koska MPI-ohjelmien ajamisen komento voi vaihdella alustasta riippuen.
Huomaamme, että suurimittaisissa Julia MPI-töissä, joissa on tuhansia yksiköitä, depot-hakemisto täytyy jakaa paikalliseen solmutallennukseen tai muistiin ja muokata depot-polkuja vastaavasti.
Muussa tapauksessa pakettien latauksesta tulee erittäin hidasta.
Käytämme seuraavaa hakemistorakennetta ja oletamme sen olevan työskentelyhakemistomme.
.
├── Project.toml # Julia-ympäristö
├── batch.sh # Slurm-eräskripti
├── prog.jl # Julia MPI -ohjelma
└── script.jl # Julia-skripti
Esimerkki Project.toml
-projektitiedostosta.
Esimerkki script.jl
-koodista.
Esimerkki prog.jl
Julia MPI -koodista.
using MPI
MPI.Init()
comm = MPI.COMM_WORLD
rank = MPI.Comm_rank(comm)
size = MPI.Comm_size(comm)
println("Tervehdys yksiköltä $(rank), yhteensä $(size) yksiköltä isännästä $(gethostname()), ja prosessista $(getpid()).")
MPI.Barrier(comm)
Esimerkki batch.sh
-eräskriptistä.
Esimerkki batch.sh
-eräskriptistä.
Esimerkki batch.sh
-eräskriptistä.
Yksi GPU
Käytämme seuraavaa hakemistorakennetta ja oletamme sen olevan työskentelyhakemistomme.
Esimerkki Project.toml
-projektitiedostosta.
Esimerkki script.jl
-koodista.
Esimerkki batch.sh
-eräskriptistä.
Esimerkki Project.toml
-projektitiedostosta.
Esimerkki script.jl
-koodista.
Esimerkki batch.sh
-eräskriptistä.
Esimerkki Project.toml
-projektitiedostosta.
Esimerkki script.jl
-koodista.
Esimerkki batch.sh
-eräskriptistä.
#!/bin/bash
#SBATCH --account=<project>
#SBATCH --partition=small-g
#SBATCH --time=00:15:00
#SBATCH --nodes=1
#SBATCH --gpus-per-node=1
#SBATCH --ntasks-per-node=1
#SBATCH --cpus-per-task=8
#SBATCH --mem-per-cpu=1750
module use /appl/local/csc/modulefiles
module load julia
module load julia-amdgpu
julia --project=. script.jl
Usean GPU:n käyttö MPI:n kanssa
Käytämme seuraavaa hakemistorakennetta ja oletamme sen olevan työskentelyhakemistomme.
.
├── Project.toml # Julia-ympäristö
├── batch.sh # Slurm-eräskripti
├── prog.jl # Julia GPU -tietoisuus MPI -ohjelma
└── script.jl # Julia-skripti
Esimerkki script.jl
-koodista.
Esimerkki Project.toml
-projektitiedostosta.
Esimerkki prog.jl
-koodista. (source)
using MPI
using AMDGPU
MPI.Init()
comm = MPI.COMM_WORLD
rank = MPI.Comm_rank(comm)
# valitse laite
comm_l = MPI.Comm_split_type(comm, MPI.COMM_TYPE_SHARED, rank)
rank_l = MPI.Comm_rank(comm_l)
device = AMDGPU.device_id!(rank_l+1)
gpu_id = AMDGPU.device_id(AMDGPU.device())
# valitse laite
size = MPI.Comm_size(comm)
dst = mod(rank+1, size)
src = mod(rank-1, size)
println("rank=$rank rank_loc=$rank_l (gpu_id=$gpu_id - $device), size=$size, dst=$dst, src=$src")
N = 4
send_mesg = ROCArray{Float64}(undef, N)
recv_mesg = ROCArray{Float64}(undef, N)
fill!(send_mesg, Float64(rank))
AMDGPU.synchronize()
rank==0 && println("alustetaan lähetys...")
MPI.Sendrecv!(send_mesg, dst, 0, recv_mesg, src, 0, comm)
println("recv_mesg yksikölle $rank: $recv_mesg")
rank==0 && println("valmis.")
Esimerkki batch.sh
-eräskriptistä.
#!/bin/bash
#SBATCH --account=<project>
#SBATCH --partition=small-g
#SBATCH --time=00:15:00
#SBATCH --nodes=2
#SBATCH --gpus-per-node=8
#SBATCH --ntasks-per-node=8
#SBATCH --cpus-per-task=8
#SBATCH --mem-per-cpu=0
module use /appl/local/csc/modulefiles
module load julia
module load julia-mpi
module load julia-amdgpu
julia --project=. script.jl
Muistiinpanoja
Usean säikeen käyttö lineaarialgebrassa
Julia käyttää OpenBLAS:ia oletuksena LinearAlgebra
-taustajärjestelmänä.
Ulkoiset lineaarialgebran taustajärjestelmät kuten OpenBLAS käyttävät sisäistä säikeistystä.
Voimme asettaa niiden säikeiden määrän ympäristömuuttujilla.
julia
-moduuli asettaa ne CPU-säikeiden määrän mukaisesti.
Meidän täytyy olla varovaisia, ettemme ylikuormita ytimiä käyttäessämme BLAS-operaatioita Julian säikeiden tai prosessien sisällä.
Voimme muuttaa BLAS-säikeiden määrää ajonaikaisesti käyttämällä BLAS.set_num_threads
-funktiota.
using LinearAlgebra
# Säikeiden lukumäärä
n = Threads.nthreads()
# Määritä matriisi
X = rand(1000, 1000)
# Aseta säikeiden lukumäärä yhteen ennen BLAS-operaatioiden suorittamista monella Julia-säikeellä.
BLAS.set_num_threads(1)
Y = zeros(n)
Threads.@threads for i in 1:n # käyttää n Julia-säiettä
Y[i] = sum(X * X) # käyttää yhtä BLAS-säiettä
end
# Aseta säikeiden lukumäärä takaisin oletukseen suoritettaessa BLAS-operaatio yksittäisellä Julia-säikeellä.
BLAS.set_num_threads(n)
Z = zeros(n)
for i in 1:n # käyttää yhtä Julia-säiettä
Z[i] = sum(X * X) # käyttää n BLAS-säiettä
end
Vaihtoehtoisesti voimme käyttää MKL-taustaa MKL.jl kautta lineaarialgebran taustajärjestelmänä. MKL on usein nopeampi kuin OpenBLAS käytettäessä useita säikeitä Intel-suorittimilla, kuten Puhti-klusterissa olevilla. Voimme asettaa MKL-säikeiden määrän seuraavasti.
Jos käytämme MKL:ää, meidän pitäisi ladata se ennen muita lineaarialgebran kirjastoja.
OpenBLAS:in ja MKL:n käytössä on huomioitavia seikkoja, kun käytetään muita kuin yhtä tai kaikkia ytimiä BLAS-säikeitä.