Modèles d'extraction
Extraction automatique de données depuis des documents.
Vue d'ensemble
Les modèles d'extraction permettent d'extraire automatiquement des données structurées depuis des documents (PDF, images, emails) pour remplir les champs d'un formulaire.
Technologies
- OCR : Reconnaissance optique de caractères
- Pattern matching : Expressions régulières
- IA/ML : Apprentissage automatique (versions avancées)
- Zones : Extraction par coordonnées
Types d'extraction
Extraction par zone
Définir des rectangles sur le document :
Zone 1 : x=100, y=200, w=300, h=50 → Numéro de facture
Zone 2 : x=100, y=300, w=300, h=50 → Date
Zone 3 : x=100, y=400, w=300, h=50 → Montant
Extraction par pattern
Utiliser des expressions régulières :
# Numéro de facture
Facture\s*N°\s*:\s*([A-Z0-9-]+)
# Date
(\d{2})/(\d{2})/(\d{4})
# Montant
(\d+[,.]\d{2})\s*€
Extraction par mots-clés
Chercher des valeurs après des mots-clés :
Mot-clé : "Total HT :"
Valeur : Nombre suivant le mot-clé
Configuration
Créer un modèle d'extraction
- Ouvrir Extraction dans Process Studio
- Nouveau modèle
- Charger un document exemple
- Définir les zones d'extraction
- Associer aux champs du formulaire
- Tester et valider
Définir une zone
var extractionZone = new ExtractionZone
{
Name = "Numero_Facture",
X = 100,
Y = 200,
Width = 300,
Height = 50,
FieldName = "NumeroFacture",
Pattern = @"[A-Z0-9-]+"
};
Utilisation
Extraction manuelle
- Ouvrir un document
- Sélectionner Extraire les données
- Choisir le modèle d'extraction
- Les champs sont remplis automatiquement
- Vérifier et corriger si nécessaire
Extraction automatique
Lors de l'import d'un document :
// Détection automatique du type de document
var documentType = DetectDocumentType(uploadedFile);
// Application du modèle d'extraction
var extractedData = ApplyExtractionModel(documentType, uploadedFile);
// Remplissage du formulaire
FillFormFields(extractedData);
Cas d'usage
Factures
Extraire automatiquement :
- Numéro de facture
- Date d'émission
- Fournisseur
- Montant HT, TVA, TTC
- Lignes de facture (tableau)
Cartes de visite
Extraire :
- Nom, Prénom
- Société
- Téléphone
- Adresse
Contrats
Extraire :
- Parties contractantes
- Dates de début/fin
- Montant du contrat
- Clauses spécifiques
Bonnes pratiques
- Documents standardisés : Meilleurs résultats
- Qualité OCR : Documents nets et contrastés
- Validation : Toujours vérifier les données extraites
- Apprentissage : Améliorer les modèles avec le temps
- Fallback : Permettre la saisie manuelle si échec