Skip to content
  • Tarifs

Entraînez des modèles IA pour vos documents

Chaque collection de documents historiques possède sa propre écriture. Lorsque les modèles publics ne suffisent pas, Transkribus vous permet d'entraîner un modèle IA sur mesure — adapté à votre écriture, votre langue et votre type de document. Aucune expertise en machine learning requise.

300+Modèles IA publics
2–5%CER atteignable
25–50Pages pour commencer l'entraînement

Comment fonctionne l'entraînement de modèles

L'entraînement d'un modèle personnalisé dans Transkribus suit un workflow itératif éprouvé. Chaque cycle améliore la précision de votre modèle.

01

Téléchargez vos documents

Commencez par télécharger les scans de vos documents manuscrits ou imprimés que vous souhaitez transcrire. Transkribus accepte les formats JPEG, PNG, PDF et TIFF. Organisez vos documents en collections pour une gestion facile.

Conseil : commencez avec 25 à 50 pages représentatives couvrant l'éventail des styles d'écriture de votre collection.

4typesFormats pris en charge

Modèles de reconnaissance de texte

Entraîner un modèle de texte personnalisé avec PyLaia

PyLaia est le moteur de deep learning derrière les modèles de reconnaissance de texte de Transkribus. Il traite le texte manuscrit de n'importe quel siècle, dans n'importe quelle langue et n'importe quelle écriture — des manuscrits latins médiévaux à la Kurrent du XXe siècle. Vous fournissez la Ground Truth ; PyLaia apprend l'écriture.
Fonctionne avec toute écriture : latine, cyrillique, arabe, hébraïque, chinoise et plus
Gère l'impression et l'écriture manuscrite mélangées sur la même page
25 à 50 pages transcrites suffisent pour commencer l'entraînement
Les modèles s'améliorent automatiquement avec davantage de données Ground Truth
Partagez votre modèle avec des collègues ou toute la communauté Transkribus

Entraîner des modèles pour les tableaux structurés

Les documents historiques regorgent de données tabulaires — registres de recensement, registres paroissiaux, manifestes de navires, livres comptables. Les modèles de tableaux détectent les structures de lignes et colonnes et extraient le contenu des cellules en données structurées exportables en Excel, CSV ou XML.

Document with detected table structure
Données de tableau extraites
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

Extraire des champs spécifiques de formulaires

Lorsque vous devez extraire des données spécifiques — noms, dates, adresses, montants — de documents structurés ou semi-structurés, les Field Models localisent et lisent les champs individuels. Idéal pour les formulaires de recensement, les fiches d'inscription et les documents administratifs.

Document with detected fields
Champs extraits

Bientôt disponible

Modèles de Named Entity Recognition (NER)

Bientôt, vous pourrez entraîner des modèles qui identifient et taguent automatiquement les entités nommées dans vos transcriptions — personnes, lieux, dates, organisations et types d'entités personnalisés. Le NER transforme le texte brut en données structurées et consultables sans balisage manuel.
Détection automatique de personnes, lieux, dates et organisations
Définissez des types d'entités personnalisés pour votre domaine de recherche
Entraînez sur vos propres exemples annotés
Reliez les entités entre les documents pour l'analyse de réseaux
Combinez avec la recherche pour créer des bases de données de recherche performantes

Conseils Ground Truth

Comment produire des données d'entraînement efficacement

La qualité et la quantité de votre Ground Truth déterminent directement la précision du modèle. Voici des stratégies éprouvées pour créer des données d'entraînement plus rapidement.

Appliquer d'abord un modèle public

Utilisez Text Titan ou un modèle public spécifique à la langue pour une première transcription. Corriger est 3 à 5 fois plus rapide que transcrire à partir de zéro.

Corriger systématiquement

Parcourez chaque page et corrigez toutes les erreurs. Prêtez une attention particulière aux caractères inhabituels, aux abréviations et aux retours à la ligne.

Choisir des échantillons variés

Incluez des pages de différents scripteurs, périodes et types de documents. La diversité des données d'entraînement conduit à un modèle plus robuste.

Entraîner, évaluer, répéter

Après votre premier modèle, utilisez-le pour pré-transcrire davantage de pages, corrigez-les et réentraînez. Chaque cycle ajoute des données et améliore la précision.

Plus de 300 modèles communautaires — commencez sans entraînement

Avant d'entraîner le vôtre, consultez le catalogue de modèles. Plus de 300 modèles ont été partagés par la communauté, couvrant des centaines de langues et d'écritures.

Entraînez votre premier modèle

Créez un compte gratuit, téléchargez vos documents et entraînez un modèle IA sur mesure — aucune connaissance en machine learning n'est requise.

Gratuit50 crédits chaque mois
Sans codeAucune expertise en ML requise
GPUEntraînement en quelques heures