Plan d'expé replay with feedback
- Système observé : modèle de rejeu de workload pour simulation de systèmes distribués
-
Type d'étude : preuve de concept ?
- c'est pas "hypothesis testing",
- on aimerait bien que ce soit une validation de modèle, mais on n'a pas de données réelles pour valider (TODO: regarder si on trouve de la littérature sur "workload prediction based on user behavior")
Quels sont nos input ?
- le comportement de soumission de l'utilisateur :
- sessions (et horaires) de travail,
- réaction au feedback,
- tâches soumises (taille, durée, ...)
- la plateforme de calcul (machines, speed, bandwidth, etc.)
- le scheduler
Output du système :
- après analyse en session
- DAG de session : stats sur répartition des think time (est-ce que ça fait sens d'avoir un think time de 195 jours ?), nombre sessions, nombre de dépendences, ...
- après replay with feedback
- timestamps de soumission par rapport à la trace historique
- métriques de scheduling (waiting time, slowdown, jobs killed, ...)
- throughput
Reproduire Zakay & Feitelson 2015
Ce qu'ils ont fait
- 8 logs de PWA
- 4 user models (conventionnal, adjusted, distribution and fluid)
- 2 schedulers (FCFS et EASY)
- méthode de découpage fixée (arrival t=60)
En tout :
8*4*2 = 64
expes, non randomisées
Ce qu'il me manque pour reproduire ça
- 2 / 4 user models, en plus mon modèle "adjusted" n'est pas exactement comme le leur
- les fichiers de plateforme sur 7 / 8 logs
Plan d'expe temporaire
Comparer replay rigid / think time
Lancer batmen
avec les inputs
- n workload: KTH-SP2, SDSC-SP2, X...[A COMPLETER]
- découpage: arrival t=0 (=> think time on jobs) et t=60
- comportements: ReplayRigid / FeedbackThinkTime
- scheduler FCFS
- infra "originale" / infra * 0.5/ infra* 2(/!\ nb ressources)
- même étude sur la vitesse des machines (/!\ walltime)
6n
expes
Observer :
- job submissions sur une semaine mediane (observer la perte de saisonalité)
- dans le cas infra sur-dimensionné : on devrait avoir rigid = replay feedback
Comparer EASY et FCFS
Lancer batmen
avec les inputs
- n workload: KTH, X, X...[A COMPLETER]
- découpage: arrival t=0 (=> think time on jobs) et t=60
- comportements: FeedbackThinkTime
- scheduler EASY
n * 1 * 1 * 2 = 2n
expes (n
supplémentaires)
Observer :
- le throughput après un temps de chauffe et bien avant la fin de la log
Modèle avec saisonnalité
- remplacer le think time par une probabilité de présence
- think time trop long = nouvel utilisateur
Rejouer EuroPar'22
TODO
Contribution de l'étude
- analyse fine des résultats
- comprendre ce qui est important
- (reproductible et open source)