Skip to contents

Introduction

La fonction launch_taxonomic_match_app() fournit une application Shiny interactive pour standardiser les noms taxonomiques contre la base de données taxonomique de référence des plantes d’Afrique centrale. Cette interface visuelle est idéale pour :

  • Explorer et nettoyer les données taxonomiques de manière interactive
  • Comprendre la qualité des correspondances grâce au retour visuel
  • Examiner manuellement les correspondances incertaines
  • Enrichir les données avec des traits au niveau de l’espèce depuis la base de données
  • Vérifier la provenance des noms taxonomiques via l’intégration WCVP

Prérequis

Avec identifiants de base de données (accès complet)

Pour accéder à toutes les fonctionnalités, y compris l’enrichissement par les traits, des identifiants de base de données sont nécessaires (voir setup_db_credentials()). Au lancement, l’application présente un écran de connexion où vous saisissez vos identifiants.

Sans identifiants (mode accès public)

Depuis mars 2026, l’application peut être lancée sans aucun identifiant de base de données. Cliquez sur “Utiliser le mode hors ligne (référence en cache)” sur l’écran de connexion pour entrer en mode hors ligne :

  • La correspondance automatique et les suggestions approximatives fonctionnent via une référence locale en cache
  • La révision manuelle est entièrement fonctionnelle
  • L’onglet Enrichissement par les traits est masqué (nécessite une connexion active)
  • Un badge “Lecture seule” est affiché tout au long de la session

Ce mode est utile pour explorer le processus de correspondance, standardiser des noms sans compte personnel, ou travailler depuis des lieux sans accès réseau à la base de données.

Démarrage Rapide

Lancez l’application avec une seule commande :

Alternativement, pré-chargez vos données ou définissez des options :

# Avec un data.frame R
my_data <- read.csv("inventaire_arbres.csv")
launch_taxonomic_match_app(data = my_data, name_column = "nom_espece")

# Lancer en anglais (le français est la langue par défaut)
launch_taxonomic_match_app(language = "en")

# Ajuster la sensibilité de la correspondance approximative (par défaut 0.7)
launch_taxonomic_match_app(min_similarity = 0.5)  # Correspondance plus permissive

Guide Étape par Étape

Phase 1 : Vue Initiale

Au premier lancement, vous verrez l’écran de connexion. Après vous être authentifié (ou avoir choisi le mode hors ligne), l’interface principale apparaît avec une barre latérale pour la configuration et des onglets pour les différentes phases du flux de travail :

Vue initiale de l’application
Vue initiale de l’application

L’application utilise un flux de travail par onglets qui vous guide à travers chaque phase séquentiellement :

  1. Auto Match — Correspondance automatique
  2. Review — Révision manuelle des noms non appariés
  3. Export — Téléchargement des résultats
  4. Traits Enrichment — Ajout de traits d’espèces (masqué en mode hors ligne)

Phase 2 : Charger Vos Données

La première étape est de fournir vos données. L’application offre deux méthodes d’import :

Import par Fichier (Par Défaut)

  • Charger un fichier Excel en utilisant le navigateur de fichiers (supporte .xlsx, .xls) ; pour les fichiers multi-feuilles, vous pouvez sélectionner la feuille à utiliser
  • Charger un fichier CSV
  • Utiliser des données R pré-chargées (si vous avez passé le paramètre data)
Interface de chargement des données
Interface de chargement des données

L’application affiche un aperçu de vos données chargées pour vérification. Les fichiers Excel sont lus avec guess_max = 30000 pour améliorer la détection des types de colonnes sur les grands fichiers.

Saisie Texte (Copier-Coller)

Pour standardiser rapidement quelques noms, ou lorsque vous avez une liste copiée depuis une autre source, utilisez la méthode Saisie texte :

Interface de saisie texte
Interface de saisie texte
  1. Sélectionnez “Texte (coller/saisir)” dans les boutons radio de méthode d’import
  2. Collez ou tapez vos noms taxonomiques dans la zone de texte
  3. Cliquez sur “Charger les noms” pour traiter la saisie

Séparateurs acceptés : - Un nom par ligne (recommandé) - Séparés par virgule : Lophira alata, Terminalia superba, Aucoumea klaineana - Séparés par point-virgule : Lophira alata; Terminalia superba; Aucoumea klaineana - Séparés par tabulation (utile lors du copier-coller depuis Excel)

L’application supprime automatiquement les lignes vides, les espaces superflus, et les doublons tout en préservant l’ordre. Une colonne unique nommée taxon_name est créée pour l’appariement.

Phase 3 : Sélectionner la/les Colonne(s) de Noms

Une fois les données chargées, vous avez deux options pour sélectionner les noms taxonomiques :

Mode Colonne Unique (Par Défaut)

Sélectionnez une colonne contenant le nom taxonomique complet :

Sélection de colonne - mode unique
Sélection de colonne - mode unique

Le menu déroulant affiche toutes les colonnes disponibles de votre jeu de données. Choisissez celle contenant les noms d’espèces (généralement formatés comme “Genre espèce” ou “Genre espèce Auteur”).

Mode Colonnes Multiples

Si vos données ont des colonnes séparées pour le genre, l’espèce et la famille, activez “Utiliser plusieurs colonnes” :

Sélection de colonnes - mode multiple
Sélection de colonnes - mode multiple

L’application combine ces colonnes de manière hiérarchique : - Genre + espèce disponibles → “Genre espèce” - Genre uniquement → “Genre” - Famille uniquement → “Famille”

Vous pouvez aussi optionnellement inclure une colonne d’auteur.

Phase 4 : Correspondance Automatique

Cliquez sur le bouton “Démarrer la Correspondance” pour commencer le processus de correspondance automatique. L’application utilise une stratégie de correspondance à cinq niveaux :

  1. Correspondance exacte sur l’espèce : Recherche directe du nom complet (genre + espèce)
  2. Correspondance exacte sur le genre : Correspondance au niveau du genre
  3. Correspondance exacte sur la famille : Correspondance au niveau de la famille
  4. Correspondance exacte sur la classe : Correspondance au niveau de la classe (ex. noms se terminant en -opsida, -psida)
  5. Correspondance approximative : Correspondance de chaînes approximative (trigramme-Jaccard via stringdist) pour les noms restants
Correspondance en cours
Correspondance en cours

La barre de progression affiche le statut en temps réel et comptabilise correctement les noms révisés manuellement dans le pourcentage d’avancement. La barre latérale affiche des statistiques en direct :

  • Nombre de correspondances exactes
  • Nombre de correspondances au niveau du genre
  • Nombre de correspondances approximatives
  • Nombre de noms non appariés

Point de reprise / checkpoint : La progression de la correspondance est automatiquement sauvegardée dans un fichier temporaire. Si vous fermez accidentellement l’onglet du navigateur, rouvrir l’application proposera de reprendre là où vous vous étiez arrêté.

Phase 5 : Examiner les Résultats de Correspondance

Après la fin de la correspondance, l’onglet Auto Match affiche un tableau résumé avec tous les noms et leur statut de correspondance :

Résumé des résultats de correspondance
Résumé des résultats de correspondance

Le tableau des résultats inclut :

  • Nom original : Votre nom en entrée
  • matched_name : Nom trouvé dans la référence
  • match_method : Comment il a été apparié (exact_species, exact_genus, exact_family, exact_class, fuzzy, manual)
  • match_score : Score de similarité (0–1, plus élevé est meilleur)
  • idtax_n : ID du taxon dans la base de données
  • is_synonym : Si le nom apparié est un synonyme
  • accepted_name : Nom accepté actuel (si synonyme)

Indicateurs de qualité de correspondance :

  • Correspondance exacte (1.0) : Correspondance parfaite, pas de révision nécessaire
  • Haute similarité (>0.8) : Très probablement correct, révision rapide recommandée
  • Similarité moyenne (0.5–0.8) : Correspondance possible, révision suggérée
  • Basse similarité (<0.5) : Incertain, révision manuelle requise
  • Pas de correspondance : Nécessite une sélection manuelle

Phase 6 : Révision Manuelle

Pour les noms non appariés ou incertains, passez à l’onglet “Review” pour réviser manuellement et sélectionner les correspondances :

Interface de révision manuelle
Interface de révision manuelle

L’interface de révision fournit deux façons de trouver des correspondances :

Panneau de Suggestions Approximatives

Affiche des suggestions automatiques classées par similarité avec des options de filtrage avancées :

Suggestions approximatives avec filtres
Suggestions approximatives avec filtres

Options de filtrage :

  • Nombre de suggestions : Curseur pour afficher 5–30 suggestions
  • Similarité minimale : Ajuster le seuil (0.3–1.0)
  • Filtre de niveau taxonomique : Filtrer par Tous, Espèce, Genre, Famille, Ordre, Classe ou Infraspécifique
  • Trier par : Score de similarité ou ordre alphabétique

Chaque carte de suggestion affiche :

  • Nom avec badge de similarité coloré (vert = élevé, bleu = moyen, jaune = bas)
  • Niveau taxonomique et famille
  • Information de synonymie si applicable
  • Bouton Sélectionner pour acceptation en un clic

Panneau de Recherche Manuelle

Pour les noms sans bonnes suggestions, utilisez la recherche manuelle :

Interface de recherche manuelle
Interface de recherche manuelle
  • Tapez n’importe quel terme de recherche pour interroger la référence taxonomique
  • Filtrez les résultats par niveau taxonomique
  • Consultez les informations détaillées pour chaque correspondance
  • Sélectionnez la bonne correspondance ou marquez comme “non résolu”

Navigation :

  • Utilisez les boutons Précédent/Passer/Suivant pour parcourir les noms non appariés
  • Le compteur de progression affiche les noms révisés vs. restants
  • L’application mémorise vos sélections et met à jour automatiquement les résultats

Phase 7 : Enrichir les Données avec des Traits

Passez à l’onglet “Traits Enrichment” pour ajouter des traits au niveau de l’espèce à vos données appariées (nécessite une connexion à la base de données ; cet onglet est masqué en mode hors ligne) :

Interface d’enrichissement des traits
Interface d’enrichissement des traits

Options :

  • Mode d’agrégation catégorielle :
    • “mode” — Utiliser la valeur la plus fréquente par taxon
    • “concat” — Concaténer toutes les valeurs uniques
  • Sélectionner les colonnes à inclure :
    • Noms d’entrée originaux
    • Noms corrigés
    • IDs taxonomiques
    • Métadonnées de correspondance

Les traits disponibles incluent la forme de croissance, la densité du bois, les traits foliaires et les caractéristiques écologiques.

Les données enrichies combinent vos taxons appariés avec les traits sélectionnés. Deux vues sont disponibles sous forme de sous-onglets : un format large (une ligne par taxon, traits en colonnes) et un format long (une ligne par combinaison taxon × trait) :

Résultats des données enrichies
Résultats des données enrichies

Note : L’export enrichi crée une ligne par taxon unique, pas par ligne d’entrée. Les noms d’entrée sont concaténés avec des séparateurs pipe.

Panneau Sources des Données

Un sous-onglet Sources des données liste toutes les citations de traits utilisées, avec le nombre de mesures par source. Cela vous aide à suivre la provenance des données pour votre analyse et à citer les sources correctement.

Phase 8 : Exporter les Résultats

Passez à l’onglet “Export” pour télécharger votre jeu de données standardisé :

Options d’export
Options d’export

Formats disponibles :

  • Excel (.xlsx) : Idéal pour partager avec des collaborateurs
  • CSV (.csv) : Format tabulaire universel
  • RDS (.rds) : Format natif R préservant les types de données

Colonnes sélectionnables :

  • Données originales (toutes vos colonnes d’entrée)
  • IDs appariés (idtax_n, idtax_good_n)
  • Noms corrigés (corrected_name, matched_name)
  • Métadonnées de correspondance (match_method, match_score, is_synonym, accepted_name)
  • Colonnes WCVP (wcvp_plant_name_id, wcvp_accepted_plant_name_id) — voir la section WCVP ci-dessous

Un tableau de prévisualisation montre les données avant l’export avec des contrôles de pagination.

Comprendre les Colonnes de Sortie

L’application ajoute ces colonnes à vos données :

Colonne Description
idtax_n ID du taxon apparié dans la base de données de référence
idtax_good_n ID du taxon accepté (pour les synonymes)
matched_name Nom trouvé dans la référence
corrected_name Nom standardisé final
name_source Référence utilisée pour l’appariement (interne, WCVP, etc.)
match_method Stratégie utilisée (exact_species, exact_genus, exact_family, exact_class, fuzzy, manual, unresolved)
match_score Score de similarité (0–1)
is_synonym TRUE si le nom apparié est un synonyme
accepted_name Nom accepté actuel (si synonyme)
family Famille taxonomique
genus Genre taxonomique
wcvp_plant_name_id Identifiant WCVP pour le nom apparié (optionnel, voir ci-dessous)
wcvp_accepted_plant_name_id Identifiant WCVP pour le nom accepté (optionnel, voir ci-dessous)

Options Avancées

Sélection de la Langue

L’application supporte l’opération bilingue avec des interfaces en français et en anglais. Le français est la langue par défaut.

Un sélecteur de langue est situé en haut à droite de l’application : - Cliquez sur “FR” pour l’interface en français - Cliquez sur “EN” pour l’interface en anglais

Le changement est instantané et affecte tous les éléments de l’interface. Pour définir la langue initiale par programme :

# Lancer l'application en anglais
launch_taxonomic_match_app(language = "en")

# Lancer l'application en français (par défaut)
launch_taxonomic_match_app(language = "fr")

Intégration WCVP

L’application peut optionnellement enrichir les résultats avec des identifiants World Checklist of Vascular Plants (WCVP). Lorsque la base de données taxa contient des données WCVP, une case à cocher “Utiliser les noms WCVP en sortie” apparaît dans la barre latérale.

L’activer ajoute deux colonnes à l’export :

  • wcvp_plant_name_id — Identifiant WCVP pour le nom apparié
  • wcvp_accepted_plant_name_id — Identifiant WCVP pour le nom accepté

La colonne name_source enregistre quelle référence a été utilisée, vous aidant à documenter la provenance taxonomique de chaque appariement.

Ajuster la Correspondance Approximative

Contrôlez la sensibilité de la correspondance avec le paramètre min_similarity :

# Très strict - uniquement des correspondances de haute qualité
launch_taxonomic_match_app(min_similarity = 0.8)

# Paramètre par défaut
launch_taxonomic_match_app(min_similarity = 0.7)

# Plus permissif - permet des correspondances de moindre qualité
launch_taxonomic_match_app(min_similarity = 0.5)

Des valeurs plus basses ratissent plus large mais peuvent inclure des faux positifs. Des valeurs plus élevées sont plus conservatrices mais peuvent manquer des correspondances valides. La valeur par défaut a été relevée de 0.3 à 0.7 pour réduire les suggestions non pertinentes.

Augmenter les Suggestions

Afficher plus de suggestions de correspondance approximative par nom :

# Afficher les 20 meilleures suggestions au lieu des 10 par défaut
launch_taxonomic_match_app(max_suggestions = 20)

Vous pouvez aussi ajuster ceci de manière interactive dans l’onglet Review en utilisant le curseur.

Mode Hors Ligne

Si vous n’avez pas de connexion à la base de données, cliquez sur “Utiliser le mode hors ligne (référence en cache)” sur l’écran de connexion. L’application :

  • Télécharge et met en cache la référence localement à la première utilisation
  • Effectue la correspondance de chaînes entièrement dans R via stringdist (trigramme-Jaccard)
  • Prend en charge la correspondance automatique, les suggestions approximatives et la recherche manuelle
  • Masque l’onglet Enrichissement par les traits (nécessite une connexion active)
  • Affiche un badge “Lecture seule” tout au long de la session

Paramètres de la Fonction

launch_taxonomic_match_app(
  data            = NULL,          # Optionnel : pré-charger un data.frame
  name_column     = NULL,          # Optionnel : pré-sélectionner une colonne
  language        = c("fr", "en"), # Langue de l'interface (par défaut : "fr")
  min_similarity  = 0.7,           # Seuil de correspondance approximative (0-1)
  max_suggestions = 10,            # Max suggestions par nom non apparié
  mode            = "interactive", # Mode de révision ("interactive" ou "batch")
  launch.browser  = TRUE           # Ouvrir l'application dans le navigateur
)

Dépannage

Problèmes de Connexion

Problème : “Échec de connexion à la base de données”

Solutions :

# Vérifier la connexion
db_diagnostic()

# Réinitialiser les identifiants si nécessaire
remove_db_credentials()
setup_db_credentials()

Alternativement, utilisez le mode hors ligne (cliquez sur “Utiliser le mode hors ligne (référence en cache)” sur l’écran de connexion) pour travailler sans connexion active à la base de données.

Pas de Correspondances Approximatives Trouvées

Problème : Aucune suggestion n’apparaît pour les noms non appariés

Causes possibles : - Seuil min_similarity trop élevé - Les noms taxonomiques contiennent des fautes de frappe ou un formatage non standard - Les noms ne sont pas présents dans la référence taxonomique (ex. taxons non africains)

Solutions : - Diminuer min_similarity : launch_taxonomic_match_app(min_similarity = 0.5) - Utiliser le filtre de niveau taxonomique pour chercher au niveau du genre ou de la famille - Nettoyer les noms en entrée (supprimer les espaces supplémentaires, corriger les fautes évidentes) - Vérifier que les noms sont des taxons africains

Performance de Correspondance Lente

Problème : La correspondance prend très longtemps pour les grands jeux de données

Solutions : - Activer le mode hors ligne : la correspondance s’exécute localement via stringdist, sans allers-retours vers la base de données - Utiliser le traitement par lots à la place : match_taxonomic_names() pour un flux de travail programmatique - Traiter les données en morceaux (diviser les grands jeux de données)

Quand Utiliser l’Application vs. l’Approche Programmatique

Utilisez l’Application Shiny quand :

  • Exploration interactive des données
  • Vous préférez les interfaces visuelles
  • Le jeu de données est de petite à moyenne taille (<5 000 lignes)
  • Besoin de réviser manuellement les correspondances incertaines
  • Apprentissage du processus de correspondance

Utilisez match_taxonomic_names() quand :

  • Traitement de grands jeux de données (>5 000 lignes)
  • Automatisation des flux de travail dans des scripts
  • Intégration avec des pipelines de données
  • La reproductibilité est critique (NE JAMAIS SUPPRIMER LA COLONNE CONTENANT LE NOM ORIGINAL)
  • Traitement par lots de plusieurs fichiers

Exemple d’approche programmatique :

# Charger les données
my_data <- read.csv("inventaire_arbres.csv")

# Apparier les noms
matched <- match_taxonomic_names(
  names = my_data$nom_espece,
  min_similarity = 0.7
)

# Fusionner avec les données originales
result <- cbind(my_data, matched)

# Exporter
write.csv(result, "inventaire_standardise.csv", row.names = FALSE)

Voir Aussi

Conseils pour de Meilleurs Résultats

  1. Nettoyez d’abord vos données : Supprimez les fautes de frappe évidentes, les espaces supplémentaires et les caractères spéciaux
  2. Comprenez vos données : Sachez quels groupes taxonomiques sont dans votre jeu de données
  3. Utilisez le mode multi-colonnes : Si vous avez des colonnes séparées genre/espèce/famille, combinez-les pour une meilleure correspondance
  4. Filtrez par niveau taxonomique : Utilisez le filtre de niveau dans l’onglet Review pour trouver des correspondances au genre ou à la famille
  5. Examinez les scores de correspondance : N’acceptez pas aveuglément les correspondances à faible similarité (<0.6)
  6. Utilisez le point de reprise : L’application sauvegarde automatiquement votre progression — si vous fermez l’onglet, vous pouvez reprendre là où vous vous étiez arrêté
  7. Documentez les paramètres : Notez quelle valeur de min_similarity vous avez utilisée pour la reproductibilité
  8. Citez les sources des données : Consultez le panneau Sources des données dans l’onglet Traits pour les citations à inclure dans vos méthodes

Exemple de Flux de Travail

Voici un flux de travail complet du début à la fin :

# 1. Charger vos données
trees <- read.csv("inventaire_forestier.csv")
# Colonnes : plot_id, tree_number, species_name, dbh, height

# 2. Lancer l'application avec les données
launch_taxonomic_match_app(
  data = trees,
  name_column = "species_name",
  language = "fr",
  min_similarity = 0.7
)

# 3. Dans l'application :
#    - S'authentifier (ou choisir le mode hors ligne)
#    - Revoir les correspondances automatiques dans l'onglet Auto Match
#    - Utiliser l'onglet Review pour résoudre les noms non appariés
#    - Activer optionnellement la sortie WCVP via la case à cocher dans la barre latérale
#    - Enrichir optionnellement avec des traits dans l'onglet Traits Enrichment
#      (consulter le panneau Sources des données pour les citations)
#    - Exporter comme "inventaire_forestier_standardise.xlsx"

# 4. Continuer l'analyse avec les données standardisées
standardized <- readxl::read_excel("inventaire_forestier_standardise.xlsx")

# Vous avez maintenant des IDs taxonomiques propres pour des analyses ultérieures !

Ce flux de travail assure que vos données taxonomiques sont standardisées et prêtes pour des analyses en aval comme les métriques de diversité, les analyses basées sur les traits ou l’intégration dans la base de données.