Entraînez des modèles IA pour vos documents
Chaque collection de documents historiques possède sa propre écriture. Lorsque les modèles publics ne suffisent pas, Transkribus vous permet d'entraîner un modèle IA sur mesure — adapté à votre écriture, votre langue et votre type de document. Aucune expertise en machine learning requise.

Comment fonctionne l'entraînement de modèles
L'entraînement d'un modèle personnalisé dans Transkribus suit un workflow itératif éprouvé. Chaque cycle améliore la précision de votre modèle.
Téléchargez vos documents
Commencez par télécharger les scans de vos documents manuscrits ou imprimés que vous souhaitez transcrire. Transkribus accepte les formats JPEG, PNG, PDF et TIFF. Organisez vos documents en collections pour une gestion facile.
Conseil : commencez avec 25 à 50 pages représentatives couvrant l'éventail des styles d'écriture de votre collection.
Modèles de reconnaissance de texte
Entraîner un modèle de texte personnalisé avec PyLaia

Entraîner des modèles pour les tableaux structurés
Les documents historiques regorgent de données tabulaires — registres de recensement, registres paroissiaux, manifestes de navires, livres comptables. Les modèles de tableaux détectent les structures de lignes et colonnes et extraient le contenu des cellules en données structurées exportables en Excel, CSV ou XML.

| Institution | Town | Amount | Object | Date | Disposition |
|---|---|---|---|---|---|
| Franklin College (6) | New Athen, O. | General | 3/23/16 | ||
| Fargo College (3) | Fargo, N.D. | 100,000 | Endowment | 4/27/16 | Gen 1914, 5/18/16 |
| Franklin Academy (2) | Franklin, Neb. | 5,000 | Library Building | 8/3/16 | Gen 1914, 8/7/16 |
| Fessenden Acad. & Ind. School | Fessenden, Fla. | General | 12/22/16 | ||
| Ferris Institute (2) | Big Rapids, Mich. | 50,000 | Buildings | 2/12/17 | |
| Findlay College (2) | Findlay, O. | 100,000 | Endowment | 5/23/17 | Gen 1914, 5/28/17 |
| Fairmount College | Wichita, Kan. | 200,000 | Endowment | 6/7/17 | 6/14/17 |
| Franklin College | Franklin, Ind. | 50,000 | General | 9/13/17 | Gen 1914, 9/17/17 |
| Fisk University | Nashville, Tenn. | 1,000,000 | Endowment | 6/14/18 | |
| Friends University | Wichita, Kan. | 200,000 | Endowment | 6/20/18 | Gen 1914, 8/8/18 |
Extraire des champs spécifiques de formulaires
Lorsque vous devez extraire des données spécifiques — noms, dates, adresses, montants — de documents structurés ou semi-structurés, les Field Models localisent et lisent les champs individuels. Idéal pour les formulaires de recensement, les fiches d'inscription et les documents administratifs.

Bientôt disponible
Modèles de Named Entity Recognition (NER)

Conseils Ground Truth
Comment produire des données d'entraînement efficacement
La qualité et la quantité de votre Ground Truth déterminent directement la précision du modèle. Voici des stratégies éprouvées pour créer des données d'entraînement plus rapidement.
Appliquer d'abord un modèle public
Utilisez Text Titan ou un modèle public spécifique à la langue pour une première transcription. Corriger est 3 à 5 fois plus rapide que transcrire à partir de zéro.
Corriger systématiquement
Parcourez chaque page et corrigez toutes les erreurs. Prêtez une attention particulière aux caractères inhabituels, aux abréviations et aux retours à la ligne.
Choisir des échantillons variés
Incluez des pages de différents scripteurs, périodes et types de documents. La diversité des données d'entraînement conduit à un modèle plus robuste.
Entraîner, évaluer, répéter
Après votre premier modèle, utilisez-le pour pré-transcrire davantage de pages, corrigez-les et réentraînez. Chaque cycle ajoute des données et améliore la précision.
Plus de 300 modèles communautaires — commencez sans entraînement
Avant d'entraîner le vôtre, consultez le catalogue de modèles. Plus de 300 modèles ont été partagés par la communauté, couvrant des centaines de langues et d'écritures.
Entraînez votre premier modèle
Créez un compte gratuit, téléchargez vos documents et entraînez un modèle IA sur mesure — aucune connaissance en machine learning n'est requise.