Aller au contenu principal

Modèles d'extraction

Extraction automatique de données depuis des documents.

Vue d'ensemble

Les modèles d'extraction permettent d'extraire automatiquement des données structurées depuis des documents (PDF, images, emails) pour remplir les champs d'un formulaire.

Technologies

  • OCR : Reconnaissance optique de caractères
  • Pattern matching : Expressions régulières
  • IA/ML : Apprentissage automatique (versions avancées)
  • Zones : Extraction par coordonnées

Types d'extraction

Extraction par zone

Définir des rectangles sur le document :

Zone 1 : x=100, y=200, w=300, h=50 → Numéro de facture
Zone 2 : x=100, y=300, w=300, h=50 → Date
Zone 3 : x=100, y=400, w=300, h=50 → Montant

Extraction par pattern

Utiliser des expressions régulières :

# Numéro de facture
Facture\s*\s*:\s*([A-Z0-9-]+)

# Date
(\d{2})/(\d{2})/(\d{4})

# Montant
(\d+[,.]\d{2})\s*

Extraction par mots-clés

Chercher des valeurs après des mots-clés :

Mot-clé : "Total HT :"
Valeur : Nombre suivant le mot-clé

Configuration

Créer un modèle d'extraction

  1. Ouvrir Extraction dans Process Studio
  2. Nouveau modèle
  3. Charger un document exemple
  4. Définir les zones d'extraction
  5. Associer aux champs du formulaire
  6. Tester et valider

Définir une zone

var extractionZone = new ExtractionZone
{
Name = "Numero_Facture",
X = 100,
Y = 200,
Width = 300,
Height = 50,
FieldName = "NumeroFacture",
Pattern = @"[A-Z0-9-]+"
};

Utilisation

Extraction manuelle

  1. Ouvrir un document
  2. Sélectionner Extraire les données
  3. Choisir le modèle d'extraction
  4. Les champs sont remplis automatiquement
  5. Vérifier et corriger si nécessaire

Extraction automatique

Lors de l'import d'un document :

// Détection automatique du type de document
var documentType = DetectDocumentType(uploadedFile);

// Application du modèle d'extraction
var extractedData = ApplyExtractionModel(documentType, uploadedFile);

// Remplissage du formulaire
FillFormFields(extractedData);

Cas d'usage

Factures

Extraire automatiquement :

  • Numéro de facture
  • Date d'émission
  • Fournisseur
  • Montant HT, TVA, TTC
  • Lignes de facture (tableau)

Cartes de visite

Extraire :

  • Nom, Prénom
  • Société
  • Email
  • Téléphone
  • Adresse

Contrats

Extraire :

  • Parties contractantes
  • Dates de début/fin
  • Montant du contrat
  • Clauses spécifiques

Bonnes pratiques

  • Documents standardisés : Meilleurs résultats
  • Qualité OCR : Documents nets et contrastés
  • Validation : Toujours vérifier les données extraites
  • Apprentissage : Améliorer les modèles avec le temps
  • Fallback : Permettre la saisie manuelle si échec

Références

Documentation associée