-
Notifications
You must be signed in to change notification settings - Fork 3
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Harmonize gres across clusters #115
base: master
Are you sure you want to change the base?
Conversation
e2ca33f
to
a199b6b
Compare
C'est pourquoi le filelock? |
a199b6b
to
f853ed6
Compare
C'était dans une tentative de résoudre le problème des tests qui fails de temps en temps. Je me disais qu'avec le multi-process il y avait peut-être un problème avec les ports qui se faisait parfois assigner 2 fois pour deux instances différentes. Mais c'était seulement des tests, il n'y en a plus maintenant dans cette branche |
f853ed6
to
262d37c
Compare
Oups, le ticket mentionnait seulement le problème pour les format gpu:nom:nombre. Il y a aussi un mismatch avec la façon d'afficher les noms entre node_gpu_mapping et les données de prometheus. Voici un exemple des noms qu'on peut trouver dans la dernière année: [
'NVIDIA A100-SXM4-40GB', 'gpu:v100:8', 'Quadro RTX 8000',
'Tesla V100-SXM2-16GB', 'Tesla V100-SXM2-32GB',
'NVIDIA A100-SXM4-80GB', 'Tesla V100-SXM2-32GB-LS', 'gpu:v100l:4',
'gpu:p100:4', 'NVIDIA A100 80GB PCIe', 'gpu:p100l:4', 'gpu:p100:2',
'gpu:t4:4', 'gpu:v100:6', 'a100', 'NVIDIA RTX A6000', '3g.40gb',
'2g.20gb', '4g.40gb'
] Idéallement, on voudrait que Il y a aussi les '3g.40gb', '2g.20gb', '4g.40gb' qui sont problématique car ça ne dit pas le type de GPU sur lequel est la tranche MIG. Ça devrait peut-être être un ticket à part. 🤔 |
Ah je comprends mieux maintenant merci! J'avais regarder la base de donnée de dev mais il n'y avait que des infos sur |
c648c98
to
11dbc63
Compare
cc1118b
to
f4a0030
Compare
f4a0030
to
8d26d49
Compare
The great part of the logic should be good but for the details I think I will need an updated dev db to list the available gpu data we have there. I'll let you decide if this should be merged or not before that |
I have very weird results with the updated sarc-bc dev database. For the mila cluster (I haven't verify the other clusters as there's way too many nodes), there seams to be a the cross-over for the type of gpus assigned with nodes that don't seam to match the cluster architecture :
The aggregation I made was :
Did I made my query wrong or am I missing something? |
10706cb
to
c845106
Compare
74b3392
to
d23d7ab
Compare
No description provided.