PROCESSPROGRAMMERING
Föreläsning 6 - 29.10.2010
Innehåll:
Att designa parallella program
- manuell vs. automatisk parallellisering
- Java och ”multi-core” processorer
Hur skall koden parallelliseras?
Manuell vs. automatisk
parallellisering
Att designa parallella program har länge varit en manuell process
Att designa parallell kod är komplext och ger ofta upphov till oväntade fel (trådsäkerhet)
Det finns en mängd olika verktyg för automatisk parallellisering av program (främst för
Fortran och varianter av C)
Parallelliseringsverktyg tillåter ofta två olika typer av automatisering:
Fullt automatisk
Programmeraren ger direktiv för parallellisering för kompilatorn
Manuell vs. automatisk
parallellisering
Ett exempel på en parallelliserings-API är OpenMP, se http://openmp.org/wp/
Det har också utvecklats liknande verktyg för Java, t.ex.
JOMP: http://www2.epcc.ed.ac.uk/computing/research_activities/jomp/index_1.html
Groovy Parallel: http://gpars.codehaus.org/
Ateji: http://www.ateji.com/
Automatisk parallellisering är ofta en bra lösning men det finns också problem:
Felaktiga resultat kan produceras
Mindre flexibelt än manuell parallellisering
Begränsar sej till en viss del av parallelliserbarkod, främst loopar
Manuell vs. automatisk
parallellisering
”Ordentliga” automatiska parallelliseringsverktyg för Java saknas?
Vi kommer tillsvidare att koncentrera oss på manuell parallellisering eftersom detta ger
en bättre förståelse för hur Java program kan parallelliseras och optimeras för Multiprocessor arkitekturer
Java och ”multi-core” processorer
Dagens Java virtualmaskiner klarar av att använda multi-core processorer
Multipla Java trådar klarar av att exekveras parallellt på multipla
processorer om sådana finns.
Concurrent API:n som funnits med sedan JDK5 har (där bl.a. Thread Pools definieras)
bästa stödet för multi-core processorer
Hur parallellisera?
Hur skall vi då parallellisera ett java program på rätt sätt för att få bästa möjliga
prestanda?
T.ex. Om vi har en seriell kod (ickeparallelliserad) måste vi söka fram sådana algoritmer
som är ”tunga” (detta kan göras manuellt men det finns även ”performance analysis”
verktyg som man kan använda för detta ändamål)
Den enklaste typen av parallelliserbar kod är loopar
En lång loop som t.ex. utför en beräkning för varje iterationsvarv och där varje
iterationsvarv är oberoende av varandra kan enkelt splittas upp i två eller flera delar
(Denna typ av parallellisering brukar kallas för ”embarrassingly parallell” eftersom det är
så enkelt, bl.a. ingen kommunikation behövs mellan de olika delarna)
Hur parallellisera?
Det mest optimala är att splitta upp loopen i så många delar som det finns tillgängliga
processorer/processorkärnor
Att splitta upp en loop i flera delar än antalet processorer/processorkärnor gör inte koden
längre effektivare (eftersom processorerna i stället börjar alternera mellan de olika
”överlopps” trådarna)
Antalet lediga processorkärnor kan i ett Java-programm fås fram på följande sätt:
Runtime.getRuntime().availableProcessors();
Hur parallellisera?
När man splittar upp en loop i t.ex. två delar gör man det i praktiken så att vi har en s.k.
”master thread” och två s.k. ”worker threads”
Master thread sköter om att skapa en trådgrupp på två trådar och delegerar sedan
uppgifter åt ”worker” trådarna
Så länge ”worker” trådarna ”arbetar” väntar master tråden (med get())
Hur mycket effektivare program
får vi?
I teorin borde en loop försnabbas med 50% om vi har två processorkärnor och fördelar
”arbetet” jämnt mellan båda kärnorna.
Detta stämmer dock ej i praktiken eftersom:
Att skapa trådar/överföra kod till trådgrupper tar processortid
Båda processorkärnorna är sällan (nästan aldrig) helt och hållet lediga
Amdahl’s lag
Den potentiella effektiveringen av ett program definieras i följande formel:
Speed up
=
1
----------------------------P
+
S
--N
P = Hur stor del av koden som kan parallelliseras (0 = ingen alls, 1 = all kod)
N = Antelet processorer/processoerkärnor
S = Hur stor del av koden som är seriell (0 = ingen alls, 1 = all kod)
I praktiken uppnår vi aldrig speedup=2 (dubbelt snabbare) eftersom 100% av koden
(P=1) kan aldrig i praktiken parallellisera, vi måstju ju bl.a. skapa en trådgrupp, föra över
uppgifter til trådarna osv.
Förstå problemet och programmet
Innan du börjar slösa tid på att parallellisera, kontrollera om ett visst problem kan
parallelliseras eller inte
Exempel på problem som kan parallelliseras:
•
Avläs 1 miljon mätvärden på temperaturer ur en väderstations logg
•
Beräkna medeltemperaturen på basen av alla mätvärden
Exempel på problem som INTE kan parallelliseras:
•
Beräkning av en Fibonacci-serie (en tabell där ett element är summan av de två
föregående elementen)
Förstå problemet och programmet
Hitta ”hotspots” i programmet
•
Var i koden spenderar programmet mest tid?
•
Detta kan göras i Netbeans genom att t.ex. Använda ”Profiler” verktyget
•
Fokusera dej på att parallelisera ”hoptspottarna” och undvik att parallellisera den
delen av koden som inte förbrukar mycket processortid
Identifiera ”flaskhalsar” i programmet
•
Finns det delar av koden som är extremt långsamma eller som förorsakar att
parallelliserbara delar av programmet stannar upp, t.ex. p.g.a I/O
•
Konstruera programmet så att långsamma delar av koden inte förhindrar
parallelliseringen
Partitionering av koden
En av de första stegen vid parallellisering är att bryta upp ett problem i diskreta ”bitar”
som kan exekveras parallellt
Finns två grundläggande sätt att partitionera:
•
Domain decomposition
•
Functional decomposition
”Domain decomposition”
Man delar upp en mängd data i flera delar och utför sedan samma operation på de
olika datadelarna parallellt
Ett exempel på där denna metod kan tillämpas är inläsning av mätdata från
väderdatabasen (se slide nr 12)
”Functional Decomposition”
I detta fall spjälker man upp själva själva operationen som skall utföras på någon
typ av data i flera delar
Problemet delas upp enligt det arbete som ska utföras
Sedan uttförs varje ”deluppgift” parallellt på samma data
”Functional Decomposition”
Exempel på problem där ”Functional Decomposition” kan tillämpas:
Signalprocessering:
Kommunikation mellan ”uppgifter”
Behovet av kommunikation mellan trådarna som utför de olika parallella
uppgifterna beror helt på problemet:

Kommunikation behövs INTE:

Vissa typer av problem kan bli partitionerade och exekverade parallellt utan
att det finns behov för utybe av data mellan trådarna

T.ex. Analysering av mätdata
Kommunikation mellan ”uppgifter”

Kommunikation BEHÖVS:

De flesta typer av problem är inte så lätta att parallellisera som
ovannämnda exempel

Ofta behöver en uppgift uttyba någon typ av data med en annan
process

T.ex. vid parallellisering av en funktion som beräknar värmespridning
Kommunikation mellan ”uppgifter”
Det är viktigt att ta i beaktande vissa saker om kommunikation mellan ”upptifter”
behövs till följd av parallellisering:

Vad är kostnaden?

Behövs synkronisering? => leder till blockering och förlångsammar
parallelliseringen.

Lönar det sej ändå att parallellisera trots att parallellisering förorsakar
”extra” kostnader och problem?