Apprentissage du logiciel R
L’EPHE − PSL propose une formation pratique à l’utilisation du logiciel libre R pour la gestion et la manipulation des données avant l’analyse statistique (non traitée dans cette formation).
Le contenu de cette formation vise à obtenir les bons réflexes pour gérer, importer, visualiser et formater ses données, quel que soit le traitement statistique envisagé.
Les données sont centrales à toute approche scientifique, et peuvent représenter véritable un casse-tête à organiser, traiter ou visualiser. Ces tâches peuvent s’avérer très laborieuses à effectuer sur un logiciel type « tableur ». La formation « Apprentissage du logiciel R » permet l'acquisition de compétences pour une approche efficace de la gestion des données grâce à l’utilisation du logiciel R à travers 4 modules de 2 jours allant de l’apprentissage des bases à la maîtrise des différents outils proposés par R pour automatiser les tâches rébarbatives. Chaque module peut être pris indépendamment pour une formation à la carte.
Les plus de la formation ?
Un apprentissage en petits effectifs, sur des projets concrets et personnalisés permettant aux apprenants de gagner en autonomie, efficacité et professionnalisme.
Pourquoi cette formation ?
Le logiciel libre R est un logiciel extrêmement utilisé pour l’analyse statistique des données. Cependant, avant tout type d’analyses statistiques, il est important d’importer correctement les données sous R, en visualiser le contenu et les transformer dans un format adéquat. Ces étapes, souvent peu abordées dans les formations dédiées aux statistiques par manque de temps, sont pourtant cruciales à deux titres. Premièrement, en fonction de la complexité du jeu de données originel, elles peuvent constituer l’essentiel du temps total consacré au traitement des données. La connaissance des bons outils peut transformer un travail laborieux de plusieurs heures en une tâche de quelques dizaines de minutes. Deuxièmement, l’utilisation d’outils « clique-bouton » (type tableur Excel) lors de ces étapes entraîne un fort risque d’introduction d’erreurs humaines et d’une difficulté à reproduire à nouveau le même travail simplement. Les outils que propose le langage R permettent d’optimiser, d’automatiser, de rendre reproductible et facilement communicable toutes ces étapes cruciales, mais ils sont trop peu souvent enseignés.
Pour qui est cette formation ?
La formation est ouverte à toutes les disciplines de la biologie : du domaine de la santé à celui des sciences de l’environnement. Elle s’adresse à toute personne (technicien, ingénieur, gestionnaire, chercheur) voulant monter en compétence sur la manipulation de données, transformant des heures de manipulations « clique-bouton » rébarbatives sur un tableur en quelques secondes d’exécution sur R.
Note importante sur l’analyse statistique
Cette formation se concentre sur le travail de nettoyage, mise en forme, visualisation des données à l’aide du logiciel R et ne porte pas sur leur analyse statistique en soi. Pour une formation sur l’analyse statistique des données, voir le certificat pour l’analyse de données pour l’écologie et la gestion de la biodiversité, ou l’UE d’analyse statistique des données.
Cette formation, ouverte uniquement en formation continue, est composée de 4 modules pouvant être suivis indépendamment.
Inscription
Tout au long de l’année.
Lieu
Paris.
Dates
- Module 1 : 28 et 29 janvier 2025.
- Module 2 : 30 et 31 janvier 2025.
- Module 3 : 3 et 4 février 2025.
- Module 4 : 5 et 6 février 2025.
Tarification
Plein tarif : 300 € TTC le module.
Tarif dégressif : 200 € TTC le module.
En cas de plusieurs inscriptions par un même employeur ou de réinscription d’une même personne dans un délai de 2 années académiques sur un autre module de la formation R ou pour une personne déjà inscrite dans le cadre de la formation continue sur une autre formation de l’EPHE - PSL.
Pour tous nos modules, l’accent est mis sur les projets concrets des apprenants grâce à des effectifs réduits. Une demi-journée à une journée est consacrée à la réalisation de projets concrets mobilisant les contenus des cours dans chacun des modules. Les participants sont invités à venir avec leurs propres projets sur lequel travailler.
Module 1 : familiarisation avec R
Pré-requis : Aucun pré-requis pour ce module. Ce module s’adresse à des apprenants n’ayant jamais utilisé R, ou n’ayant utilisé le logiciel qu’au détour d’une formation sans rentrer suffisamment dans les détails pour l’utiliser de leur propre initiative.
Objectifs : Rendre l’apprenant autonome sous R pour y effectuer des tâches simples (importer les données, sélection de colonnes et lignes, calculs simples), et savoir où trouver les ressources pour progresser à son rythme.
Compétences :
• S’approprier le fonctionnement de R, et de l’interface graphique Rstudio.
• Importer des données depuis un fichier de l’ordinateur dans R.
• Utiliser les fonctions de bases de R pour effectuer des manipulations et opérations simples sur les données.
• Trouver en autonomie des informations complémentaires sur une commande R.
Dates : 28 et 29 janvier 2025.
Module 2 : formatage et nettoyage des données sous R
Pré-requis : Module 1 ou une connaissance de base du fonctionnement de R.
Objectifs : Donner aux apprenants les clés pour transformer et nettoyer un jeu de données chargé sous R, de manière efficace, automatisée et reproductible. Cette étape est souvent la plus intimidante et difficile pour un novice, alors que quelques concepts et fonctions clés permettent d’effectuer des recherches et transformations complexes à effectuer sous un tableur en quelques commandes. Les outils proposés dans ce module (filtres, outils sur les chaînes de caractère, opérations groupées, pivot, mise en relation de plusieurs jeux de données) visent explicitement à remplacer ce travail laborieux sous un tableur par des commandes sous R. Cela évite les erreurs humaines (copier-coller), mais aussi favorise la reproductibilité (la même commande marchera pour une nouvelle version des données) et la communicabilité (le code suffit à décrire précisément les étapes du « nettoyage » à ses pairs). L’accent sera mis sur les bonnes pratiques et comment obtenir des données bien « rangées » pour n’importe quel type d’analyse statistique.
Compétences :
• Nettoyer et filtrer un jeu de données en fonction de critères établis.
• Transformer et formater un jeu de données en vue d’une analyse statistique précise ou pour en produire directement des statistiques résumées.
• Mettre en relation différents jeux de données et en raccorder certaines parties.
• Adopter les bonnes pratiques pour favoriser la reproductibilité et la communicabilité de sa manipulation de données.
Dates : 30 et 31 janvier 2025.
Module 3 : visualisation graphique des données sous R
Pré-requis : module 1 ou une connaissance de base du fonctionnement de R.
Objectifs : Permettre aux apprenants de produire des graphiques de qualité professionnelle en quelques commandes. La visualisation des données est un élément extrêmement important pour leur analyse. Il permet non seulement d’explorer les données pour en saisir les subtilités, mais aussi de transmettre une information quantitative à leur sujet à un public plus large. Choisir le bon type de graphique, les bons éléments à y faire figurer et d’autres éléments esthétiques sont cruciaux pour élaborer de bons graphiques. Ce module utilise ggplot2, une solution graphique sous R permettant de produire rapidement des graphiques complexes et de qualité professionnelle. Les possibilités pour combiner plusieurs graphiques et les types de format numérique pour sauvegarder des graphiques seront abordés.
Compétences :
• Choisir le type de graphique approprié aux données et au message à transmettre.
• Produire un graphique complexe (y compris en combinant plusieurs graphiques) avec le paquet ggplot2.
• Formater un graphique pour une production professionnelle.
• Sauvegarder un graphique en utilisant le bon type de fichier et la bonne résolution.
Dates : 3 et 4 février 2025.
Module 4 : programmation sous R
Pré-requis : module 2 ou familiarité avec l’utilisation basique de R. Ce module s’adresse à des apprenants ayant suivi les autres modules (au moins 1 et 2), ou utilisant déjà R, mais voulant approfondir leurs compétences.
Objectifs : Exploiter R à son plein potentiel en automatisant des tâches plus complexes. Certaines tâches sont en effet plus difficiles à automatiser, notamment lorsque les données doivent être analysées ou transformées de manière complexe, ou lorsqu’on veut simuler de nouvelles données. Il est alors nécessaire de découper l’exercice en un ensemble de tâches plus simples et de faire appel à quelques outils plus avancés de R (boucles, écriture de fonctions, utilisation de listes ou de matrices), y compris en parallélisation ces tâches de manière très simple grâce à future.apply. À l’issue de ce module, les apprenants seront donc capables de s’attaquer à des problèmes insolubles à l’aide d’un tableur classique et posséderont l’autonomie suffisante pour effectuer à peu près n’importe quel traitement de données (hors analyse statistique) sous R.
Compétences :
• Découper un problème complexe en une série de tâches plus simples et implémenter ces tâches sous R à l’aide de courtes fonctions.
• Automatiser des tâches répétitives à l’aide de boucles, ou en appliquant des fonctions à des listes.
• Paralléliser très simplement une tâche répétitive à l’aide du paquet future.apply.
Dates : 5 et 6 février 2025.
Contact et inscriptions
Responsable pédagogique : Pierre de Villemereuil, Maître de conférences
Inscription administrative, conditions et modalités de financement : Direction de la Formation continue