Skip to content
Snippets Groups Projects

Plan d'expé replay with feedback

  • Système observé : modèle de rejeu de workload pour simulation de systèmes distribués
  • Type d'étude : preuve de concept ?
    • c'est pas "hypothesis testing",
    • on aimerait bien que ce soit une validation de modèle, mais on n'a pas de données réelles pour valider (TODO: regarder si on trouve de la littérature sur "workload prediction based on user behavior")

Quels sont nos input ?

  • le comportement de soumission de l'utilisateur :
    • sessions (et horaires) de travail,
    • réaction au feedback,
    • tâches soumises (taille, durée, ...)
  • la plateforme de calcul (machines, speed, bandwidth, etc.)
  • le scheduler

Output du système :

  • après analyse en session
    • DAG de session : stats sur répartition des think time (est-ce que ça fait sens d'avoir un think time de 195 jours ?), nombre sessions, nombre de dépendences, ...
  • après replay with feedback
    • timestamps de soumission par rapport à la trace historique
    • métriques de scheduling (waiting time, slowdown, jobs killed, ...)
    • throughput

Reproduire Zakay & Feitelson 2015

Ce qu'ils ont fait

  • 8 logs de PWA
  • 4 user models (conventionnal, adjusted, distribution and fluid)
  • 2 schedulers (FCFS et EASY)
  • méthode de découpage fixée (arrival t=60)

En tout :

8*4*2 = 64
expes, non randomisées

Ce qu'il me manque pour reproduire ça

  • 2 / 4 user models, en plus mon modèle "adjusted" n'est pas exactement comme le leur
  • les fichiers de plateforme sur 7 / 8 logs

Plan d'expe temporaire

Comparer replay rigid / think time

Lancer batmen avec les inputs

  • n workload: KTH-SP2, SDSC-SP2, X...[A COMPLETER]
  • découpage: arrival t=0 (=> think time on jobs) et t=60
  • comportements: ReplayRigid / FeedbackThinkTime
  • scheduler FCFS
  • infra "originale" / infra
    * 0.5
    / infra
    * 2
    (/!\ nb ressources)
  • même étude sur la vitesse des machines (/!\ walltime)

6n
expes

Observer :

  • job submissions sur une semaine mediane (observer la perte de saisonalité)
  • dans le cas infra sur-dimensionné : on devrait avoir rigid = replay feedback

Comparer EASY et FCFS

Lancer batmen avec les inputs

  • n workload: KTH, X, X...[A COMPLETER]
  • découpage: arrival t=0 (=> think time on jobs) et t=60
  • comportements: FeedbackThinkTime
  • scheduler EASY

n * 1 * 1 * 2 = 2n
expes (
n
supplémentaires)

Observer :

  • le throughput après un temps de chauffe et bien avant la fin de la log

Modèle avec saisonnalité

  • remplacer le think time par une probabilité de présence
  • think time trop long = nouvel utilisateur

Rejouer EuroPar'22

TODO

Contribution de l'étude

  • analyse fine des résultats
  • comprendre ce qui est important
  • (reproductible et open source)