Mot de bienvenue par : Lydia Vermeyden Introduction par : Nizar Ladak and Ghilaine Roquet
L’équipe nationale Sciences humaines et sociales accueille celles et ceux qui participent à la deuxième édition de la semaine de formation de la fédération Calcul Canada pour les sciences humaines et sociales. Nous aurons l’occasion d’entendre Nizar Ladak, directeur général de l’Alliance de recherche numérique du Canada ainsi que Ghilaine Roquet, vice-présidente Stratégie et planification.
Nizar Ladak, directeur général de l’Alliance de recherche numérique du Canada
Ghilaine Roquet, vice-présidente Stratégie et planification
Calcul Canada va être remplacé par l'alliance à compter du 1er avril 2022
Mandat du ministre Champagne
- enjeux écologiques
- déclaration des nations unies sur les droits des peuples autochtones (DNUDPA)
- EDIA (équité, diversité, inclusivité, accessibilité)
- groupe de travail sur les politiques numériques
- plan d'action national en matière de cybersécurité
- financement: nouvelles grappes pour augmenter l'infrastructure. IA + stratégies quantiques
- ajout 1000 chaires de recherche au Canada
Tendance vers l'ouverture
- domaine le moins mature dans les activités de l'IRN
- efforts particuliers vont être faits du côté du logiciel ouvert
- cadres de gestion des données interopérables, travail qui se fait particulièrement dans le domaine de la santé pour mettre en place des standards de définition des données. Améliorer les recherches par la mise en commun
- chaînes de bloc: surtout dans le domaine financier mais aussi aspects pour la pérennisation de l'information
Libre-service infonuagique
- pas l'intention que tout aille vers des nuages commerciaux, des cas qui ne correspondent pas (confidentialités, besoins spécifiques)
- utilisation de infonuagique commercial comme une extension. beaucoup de chercheur·se·s l'utilisent déjà. Ce n'est pas de le nier mais le faire avec une meilleure sécurité, capacité d'échange d'information et éviter les risques de pertes de données quand les financements de la recherche se terminent
Diversification des modèles de gestion: le nuage
- allocation dynamique et évolutivité du service
- couches d'outils au-delà de l'infrastructure physique (avantage du commercial avec la panoplie d'outils offerts aux utilisateur·rice·s)
- économie de coût potentielle: oui mais pas vraiment démontré. l'avantage serait surtout la rapidité d'accès (~2ans pour une nouvelle grappe. Le commercial est disponible très rapidement)
- expansion de l'infrastructure de recherche numérique, l'étendre vers le nuage pour faire face à des demandes de pointe et faciliter le retrait et l'échange d'information qui sont des risques avérés dans des environnements infonuagiques commerciaux
Innovation axée sur les objects
- besoin de métriques de l'utilisation des ressources pour assurer que l'approche est inclusive, fait la promotion de l'accessibilité, optimisation de l'utilisation par tous les différents groupes
- soutenir le volet collégial
Intégration omnicanal (hors ligne / en ligne)
- requiert des changements importants au niveau logiciel
- attente d'accès à l'environnement où qu'ils soient à travers le monde
Increasing integrated research
- users of DRI and joint application for research with newer users
Open-trends
- open science: call to collaborate but want to comply with legislation. There are tools that help for that
Question in slack channel
-
Is the commercial/public cloud a good alternative (or an important augmentation) to operating our own cloud hardware? Is it more cost effective? It seems to be implied from your talk as a possible or at least partial solution to our lack of computing capacity, how will it help us increase our computing capacity more cost effectively and if so can we be reasonably confident it will remain cost effective?
- envisionned as a complement to the services
- cloud strategy is evaluating the prices anew
- researchers are creatures of habits: when they already have commercial cloud service they are used to, they want to stay with it
- Amazon, Azure, Google....: business opportunity for them. on behalf of the federation, if they garantee an lower-price with added service (strong cybersecurity)
- advantage because they have not been able to offer quick access (ex: grant time, extend capacity for purposeful opportunities)
Further questions: ask alliance
Une aventure numérique : Technologie et soutien de la fédération Calcul Canada pour l’avancement de la recherche
Présenté par : Lydia Vermeyden et Megan Meredith-Lobay
Learn about the national digital infrastructure that is free to access through the Compute Canada Federation (CCF) for academic researchers in Canada! This workshop will begin with a short overview of the CCF’s digital resources and user supports, including the expanding Humanities and Social Science specific supports. It will continue with a discussion with participants about current applications and use cases for their research areas and explore potential projects. This part of the session will include live demos of applicable technologies, and a database code-along!
Overview of the CCF’s digital resources and user supports, including the expanding Humanities and Social Science specific supports
Compute Canada federation
- not for profit organisation funded by CFI
- privde essential digital infrastructure for industry and researchers in Canda
regional consortia: respond to local needs, target training and support
resources
- high performance, big data and GPU computing
- cloud environment dev space
- terabytes of active data storage with secure backup systems
- large file transfer portals
services
- training
- discipline specific training, national training
- high performance computing carpentry
- summer schools
- centralized software stacks
- nextcloud
- specialized data portals
- FRDR collaboration
- globus file transfer
- database as a service
expertise
- consultation: helping to determine the resources needed
- designing, optimizing and troubleshooting computer code
- customizing tools
- specialized support is available for a range of disciplines (including HSS)
- visualization specialist
- cybersecurity
- resource allocations
- services: CCF Wiki, disciplinary suppot
- expertise: consortia website,...
- HSS Experts in WestGrid and Aceet
- nation HSS team with domain and technical experts located at sites across the country
- support for Digital humanities Summer Institute
HSS National team
-
Félix-Antoine Fortin, U Laval
-
Mohammed Jabir, calculQuébec
- what's not on it, reach out and make a request, will depend on licensing
- users: collaborators must be affiliated to a canadian university
database as a service via ssh connexion
mySQL hosted on the HSS team virtual machine on the cloud
IP | username | password |
---|---|---|
206.12.93.3 | user18 | HSS2022 |
ssh username@ipAddress
mysql -u username
# now shows: `mysql>`
USE movielens;
# Database changed
SELECT * FROM rating WHERE rating=5;
SELECT title, year FROM movie INNER JOIN rating ON movie.id = rating.movie_id WHERE rating.rating = 5 and movie.year=1990;
# remove duplicates
SELECT distinct title, year FROM movie INNER JOIN rating ON movie.id = rating.movie_id WHERE rating.rating = 5 and movie.year = 1990;
In the cloud: website hosted in Arbutus
CCF does not currently offer services for creating virtual machines etc. Requires technical knowledge or funding...
Has been identified as an issue and disproportionately affecting specific disciplines
for more: session #9 on friday
analyse / collecte de données
ex: virtual collaboration space to use
- R
- jupyter lab
- targuette (contenus qualitatifs)
- postman: GUI interaction with API and URL query test
Utiliser les canaux slack pour discuter de nos projets
February 24, 2022, 12:00-2:00pm ET
Presented by: Beth Knazook, Robyn Nicholson, Yvette Rancourt, Victoria Smith, Erin Clay, and Kelly Stathis
Research data management, or RDM, is increasingly recognized as an important part of the research enterprise in all disciplines, including the humanities and social sciences. With the introduction of the Tri-Agency Research Data Management Policy, and the broad recognition of principles such as FAIR, CARE, and OCAP, it’s crucial for researchers to understand and adopt good RDM practices. You’ll be glad you did! This workshop will give you an overview of the essentials of RDM, with tips, resources, and tools that you can begin to incorporate into your work right away. Topics will include:
- What counts as research data
- What a data management plan is, and how it can help you
- What data curation is, and why it’s important
- What to consider when sharing your data with other researchers
- What to consider when preserving your data for the long term
- What data might be considered sensitive, and how to ensure that these data are properly managed
Mireille Léger-Rousseau
Définition des données de recherches
- sources principales à l'appui d'une enquête scientifique
- élément de preuve
- nécessaire pour valider les conclusion
Exemples: données textuelles, fichiers sonores, données tabulaires, questionnaires, entrevues, images, données géospatiales, analyses textuelles
autres typologies:
- données expérimentales, données d'observation, données opérationnelles
- données du secteur public, données de tierces parties, données de surveillance
Qu'est ce que la GDR?
Gestion des données de recherche → cycle de vie des données de recherche:
- guider la collecte
- documentation
- stockage
- partage
- conservation
le projet ne se termine pas avec la publication, devrait se poursuivre en nourrissant de nouvelles questions
Les principes FAIR:
- Facile à trouver
- Accessible
- Interopérable
- Réutilisable
Pourqoi gérer ses données?
- commence à devenir obligatoire
- prévenir les risque (désuetude des données)
- éthique, confidentialité et sécurité
- tendre vers la transparence scientifique
Politique en gestion des données de recherche: publiée le 15 mars 2021
- Institutions: devoir de rédiger une stratégie de GRD (politiques des trois organismes)
- Chercheur·se·s: doivent soumettre un plan de gestion des donées de recherche
Cynthia Lisée, bibliothécaire, UQAM
- outil de gestion, considère la gestion des données AVANT de commencer le projet
- expose clairement les stratégies et les outils employés pour gérer efficacement les données
- document vivant qui sera modifié tout au long du projet pour refléter les changements survenus
Un PDG, ça sert à
- définir des stratégies cohérentes avant le début de la recherche sur la manière dont les données seront gérées tout au long de leur cycle de vie
- identifier les forces et faiblesses des pratiques actuelles et prendre des décisions sur la manière d'ajuster les pratiques
- préparer les données pour la réutilisation future, leur préservation et leur partage
- planifier et réduire le coût global de la recherche par le gain d'efficacité
Quand travailler le PDG?
- dès qu'on formule une proposition et qu'on planifie le projet
- mettre à jour le document lors de la collecte, l'analyse et le partage des données
- à la fin du projet: préservation ou conservation des données
Pourquoi? va probablement devenir obligatoire
- Collecte de données
- Documentation et métadonnées
- Stockage et sauvegarde
- préservation
- partage et réutilisation
- responsabilité et ressource
- conformité éthique et juridique
Directives générales:
- commencer par fournir une description du projet de recherche, son but et ses objectifs
- définir tous les acronymes
- éviter le jargon (doit être clair et compris de tou·te·s)
- éviter de laisser des blancs (quitte à noter: compléter à telle étape)
- longueur: dépend de la complexité, généralement 1-5 page
- réutiliesr le contenu pour les demandes éthiques et de financements de projets similaires
- documents produits par portage (l'alliance)
- assisant PDG: contient des modèles par discipline
- exemples
- to introduce Data Management principles to students (and have a bit of fun!), you might consider this Research Data Management Adventure (https://rdm-games.gitlab.io/rdm-adventure/) or this Data Horror Escape Room! (https://sites.google.com/vu.nl/datahorror/home) - These days it's worth having a bit of fun, even with demanding topics like RDM
- webinaires et vidéos
- personnes ressources par établissement
- CARE Principles for Indigenous Data Governance
Jeff Moon
données sensibles
- protégées contret out accès ou toute divulgation injustifiée
- déparsonnalisé: retrait des identifants directs (nom) mais conserve identifiants indirects (âge, sexe)
Lois, règlements et principes
- fédéral et provincial: protection de la vie privée
Devrions-nous partager des données sensibles? Oui!
- le partage des données sensibles peut rendre la rehcerche plus éthique
- consentement éclairé et autonomie du participant
- les participant·e·s décident du partage des données
Changement de paradigme:
- avant:
- par défaut: détruire
- consentement = étude originale uniquement
- maintenant
- par défaut: préserver et partager
- consentement: utilisation future / générale
- données peuvent être réutilisées si nécessaire
Say no to single-use data
Boîte à outils pour les données sensibles
Boîte à outils pour les données sensibles — destiné aux chercheurs
- glossaire
- Matrice de risque lié aux données de recherche avec des êtres humains
- Langage en matière de gestion de données de recherche pour le consentement éclairé
Nicole DeMichelis
la curation des données:
- gestion active des données de recherche de leur cycle de vie complet
- processus itératif qui augmente la valeur de la recherche en optimisant les ensembles de donées pour leur utilisation actuelle et à venir
- FAIR
- F: identifiant pérenne, métadonnées riches, indexées dans une ressource interrogeable
- A: format ouverts, fichiers s'ouvrent correctement
- I: langage formel, accessible et partagé, références à d'autres (méta)-données
- R:
Activités de curation de données
-
documentation:
- informations contextuelles sur les données
- descripion des conventions de nomenclature des fichiers et de la structure des fichiers (organisation des fichiers: essayer des noms courts mais descriptifs, éviter les hiérarchies complexes ou trop imbriquées: moèle TIER)
- renregistrement des modifications
- gestions des droits: informations liées à la confidentiations et utilisations secondaires + modèle de citation des données.
- attention: libre accès ne veu pas dire libre reproduction ou libre republication
Clara Turp
choix du dépôt:
- spécifique au domaine ou généraliste?
- dépôt institutionnel, national ou international
- selon la taille des données
Options:
- canadiennes
- scholars portal dataverse
- dépôt fédéré des données de recherche
- spécifique: qualitative data repository ou ICPSR
- autres options
- institutionnel (qui acceptent les données en plus des publications)
- site auto-hébergé (attention: maintenance etc.) pensez aussi à déposer les données dans un début (ou s'assurer du moissonnage etc...)
Guides de sélection de dépôts de données
- option de dépôt au Canada: un guide de portage
- métadonnées descriptives permettent la découverte
- éléments communs des métadonnées
- dépôts ont généralement un standard
- important pour
- principes FAIR
- nécessaire pour les systèmes de recherche
- aide à l'organisation des dépôts
éléments de métadonnées clés
- décrire les données, pas l'article
- penser à la recherche et à la réutilisation (Guide: how to write a (good) data description: developing best practice)
- quelqu'un pourrait-il trouver les données?
- y a-t-il assez de contexte pour comprendre?
- mot-clés: regarder le répertoire de vedette-matière
- licence (choosealicence)
- géospatial: lieu concerné
- identifiants pérennes:
- résultats de recherche = DOI
- chercheur·se·s = ORCID ID
Impact du dépôt via le moissonnage et les outils de découverte
Mireille Nappert, archiviste numérique, HEC Montréal
préservation numérique: tout ce qu'on met en œuvr epou qu'une ressource numérique soit réutilisable aussi longtemps que nécessaire
- validation
- contrôle d'intégrité
- reproduction
- migration
- émulation
Résultats
- authenticité
- accès en continu
méthodes 3-2-1
- au moins 3 copies
- à des endroits différents
outil de renommage: reNamerPro
plan de succession pour les données
Le 24 février 2022, de 14 h 30 à 16 h HE
Animée par : Nick Rochlin. Membres de la table ronde : Craig Squires (En), Arun Jacob (En), Felicity Taylor (En, Fr) et Maude Bonenfant (Fr)
Note : Les discussions se tiendront en français et en anglais. Des services d’interprétation simultanée seront disponibles.
Pour discuter de comment se passe la gestion des données de recherche dans la pratique, des membres de notre équipe technique se joignent à des chercheuses et chercheurs dans une table ronde où seront présentés des exemples concrets. On y parlera surtout de situations inattendues qui peuvent se produire et causer des problèmes de toutes sortes, même des histoires d’horreur! La rencontre sera dirigée par Nick Rochlin, spécialiste en gestion des données de recherche au campus Okanagan de l’Université de la Colombie-Britannique. N’hésitez pas à poser des questions sur vos cas particuliers en direct ou en remplissant ce formulaire. Bien sûr, vous pouvez vous joindre à nous si vous n’avez pas de questions!
Maude: lack of control over every step when working with private compagny partnership
Craig: omeka-s lack of metadata, happy ending: RDF
Felicity: trying to set standards for a large partnership with over 20 institutions (oral web), ending up creating a document that "aligned" each institutional standards, but then that file temporarly was lost (personnel left and didn't forward the document link). Also, file name system for such a large data depot.
Arun: complete thesis on USB that gets corrupted, best practices were not there yet
Maude: documenter davantage les données
Arun: best learning experiences have been through hacking, finding space for safe learning and experimentation
Felicity: research being more that that one ending but the whole process and experience
Craig: low-level documents → learning LateX, bibtext, gitlab and version control
Arun: practices issues and the human element, especially in collaboration. We need a better etiquette, how to's/wiki
Felicity: creating common sets of practices
Megan: DH → working with tools that were not designed for HSS, so we had to learn to "break" them and rebuild them for our use
Craig: yet to find a really good tool to work with metadata management. Transparent developping of vocabulary and deployment of standard metadata
Maude: on fait beaucoup de bricolage, importance des procédures. Avantage en anglais par rapport au milieu francophone: arrivée tardive des HN, qui aide beaucoup à développer des outils
Megan: données sociales produites sur le web ou par des communautés → issues de plateformes propriétaires
Craig: tools that enable you to work the end of the research, now there are some about starting the research. Gap "in the middle": during data collection and analysis. Adequate tools that support
Maude: indépendance scientifique et se dégager des outils propriétaires, produire une recherche plus indépendante, efficace et pérenne
Le 25 février 2022, de 14 h 45 à 15 h 45 HE
Pésenté par : Jeff Albert et Félix-Antoine Fortin
Jeff Albert, chef de l’équipe infonuagique de la fédération Calcul Canada, expliquera comment le cloud peut être utilisé puis présentera des cas d’usage et des plateformes pertinentes pour la recherche en sciences humaines et sociales. Il donnera aussi un aperçu du travail de l’équipe nationale en ce qui a trait au développement d’une nouvelle infrastructure et aux plateformes et fonctionnalités qui seront éventuellement mises à la disposition de la communauté de la recherche au Canada. Cette session est l’occasion de discuter des difficultés que pose l’accès à la technologie infonuagique.
- infonuagique commercial : administré dans un but lucratif et rendu disponible à quiconque peut en payer les coûts (Amazon, Google, Microsoft Azure)
- infonuagique privé : administré par une seule organisation, exclusivement pour ses besoins
- infonuagique communautaire: administré par les membres d'une communauté pour leur bénéfice commun
Qui peut demander des ressources info-nuagiques? chercheurs des institutions canadiennes
- doit être éligible à des subventions FCI (car c'est financé par le FCI)
- doit détenir un compte CalculCanada vérifiant l'afiliation avec l'institution
Service d'accès rapide (SAR)
- persistant = charge de travail continue (pas très intensif sur le calcul)
héberger applications etc.
- 25cpu
- 50Go RAM
- 10 instances (10 machines)
- Calcul = charge de travail ponctuelle (partie qui requiert une machine beaucup de puissance de calcul)
- 80cpu
- 300Go RAM
- 20 instances
- 10 To de stockage persistant
- 10To de système de fichier partagé
- 10To de stockage objet compatbile s3 (accessible à partir des instances et d'Internet)
Concours d'allocation de ressources
- accéder à plus de ressources que le SAR
Serveur de calcul vs serveur infonuagique
- calcul: il faut définir la durée d'utilisation
- infonuagique:
- lève la contrainte du temps
- attention: moins performant
- déploie portails / applications / ... qui dessert une potentiellement plus grande communauté que "juste nous"
comment bien estimer / évaluer les besoins?
- service d'accès rapide
- instance redimensionnable à la volée, install sur une série de volumes. Changer l'instance (nombre de cœur et quantité de mémoire, remplacer en cours de route, tant que la config a été faite sur un volume persistant)
How much maintenance/updates/security must we able to do ourselves, and how much will be offered in the community CFF cloud?
- for now: for individual responsability, consultation is available (general advice but no direct responsability)
- platform as a service model: transition under way (defined by the alliance roadmap)
- not running our own systems but centrally manages
- focus on the software (infrastructure taken care of by CFF)
- in the next 2-3 years
- but what platform? will have to be seen
Collaboration platforms
Kubernetes as a service:
- deliver proof of concept this year
Jason Neelis
- open seadragon
- annotorious
- recogito
- READ work bench