Entraînez des modèles IA pour vos documents

Chaque collection de documents historiques possède sa propre écriture. Lorsque les modèles publics ne suffisent pas, Transkribus vous permet d'entraîner un modèle IA sur mesure — adapté à votre écriture, votre langue et votre type de document. Aucune expertise en machine learning requise.

Entraîner gratuitement Parcourir les modèles publics

300+Modèles IA publics

2–5%CER atteignable

25–50Pages pour commencer l'entraînement

Téléchargez vos documents

Commencez par télécharger les scans de vos documents manuscrits ou imprimés que vous souhaitez transcrire. Transkribus accepte les formats JPEG, PNG, PDF et TIFF. Organisez vos documents en collections pour une gestion facile.

Conseil : commencez avec 25 à 50 pages représentatives couvrant l'éventail des styles d'écriture de votre collection.

4typesFormats pris en charge

Modèles de reconnaissance de texte

Entraîner un modèle de texte personnalisé avec PyLaia

PyLaia est le moteur de deep learning derrière les modèles de reconnaissance de texte de Transkribus. Il traite le texte manuscrit de n'importe quel siècle, dans n'importe quelle langue et n'importe quelle écriture — des manuscrits latins médiévaux à la Kurrent du XXe siècle. Vous fournissez la Ground Truth ; PyLaia apprend l'écriture.

Fonctionne avec toute écriture : latine, cyrillique, arabe, hébraïque, chinoise et plus

Gère l'impression et l'écriture manuscrite mélangées sur la même page

25 à 50 pages transcrites suffisent pour commencer l'entraînement

Les modèles s'améliorent automatiquement avec davantage de données Ground Truth

Partagez votre modèle avec des collègues ou toute la communauté Transkribus

Entraîner des modèles pour les tableaux structurés

Les documents historiques regorgent de données tabulaires — registres de recensement, registres paroissiaux, manifestes de navires, livres comptables. Les modèles de tableaux détectent les structures de lignes et colonnes et extraient le contenu des cellules en données structurées exportables en Excel, CSV ou XML.

Données de tableau extraites

Institution	Town	Amount	Object	Date	Disposition
Franklin College (6)	New Athen, O.		General	3/23/16
Fargo College (3)	Fargo, N.D.	100,000	Endowment	4/27/16	Gen 1914, 5/18/16
Franklin Academy (2)	Franklin, Neb.	5,000	Library Building	8/3/16	Gen 1914, 8/7/16
Fessenden Acad. & Ind. School	Fessenden, Fla.		General	12/22/16
Ferris Institute (2)	Big Rapids, Mich.	50,000	Buildings	2/12/17
Findlay College (2)	Findlay, O.	100,000	Endowment	5/23/17	Gen 1914, 5/28/17
Fairmount College	Wichita, Kan.	200,000	Endowment	6/7/17	6/14/17
Franklin College	Franklin, Ind.	50,000	General	9/13/17	Gen 1914, 9/17/17
Fisk University	Nashville, Tenn.	1,000,000	Endowment	6/14/18
Friends University	Wichita, Kan.	200,000	Endowment	6/20/18	Gen 1914, 8/8/18

Extraire des champs spécifiques de formulaires

Lorsque vous devez extraire des données spécifiques — noms, dates, adresses, montants — de documents structurés ou semi-structurés, les Field Models localisent et lisent les champs individuels. Idéal pour les formulaires de recensement, les fiches d'inscription et les documents administratifs.

Champs extraits

Bientôt disponible

Modèles de Named Entity Recognition (NER)

Bientôt, vous pourrez entraîner des modèles qui identifient et taguent automatiquement les entités nommées dans vos transcriptions — personnes, lieux, dates, organisations et types d'entités personnalisés. Le NER transforme le texte brut en données structurées et consultables sans balisage manuel.

Détection automatique de personnes, lieux, dates et organisations

Définissez des types d'entités personnalisés pour votre domaine de recherche

Entraînez sur vos propres exemples annotés

Reliez les entités entre les documents pour l'analyse de réseaux

Combinez avec la recherche pour créer des bases de données de recherche performantes

Conseils Ground Truth

Comment produire des données d'entraînement efficacement

La qualité et la quantité de votre Ground Truth déterminent directement la précision du modèle. Voici des stratégies éprouvées pour créer des données d'entraînement plus rapidement.

Appliquer d'abord un modèle public

Utilisez Text Titan ou un modèle public spécifique à la langue pour une première transcription. Corriger est 3 à 5 fois plus rapide que transcrire à partir de zéro.

Corriger systématiquement

Parcourez chaque page et corrigez toutes les erreurs. Prêtez une attention particulière aux caractères inhabituels, aux abréviations et aux retours à la ligne.

Choisir des échantillons variés

Incluez des pages de différents scripteurs, périodes et types de documents. La diversité des données d'entraînement conduit à un modèle plus robuste.

Entraîner, évaluer, répéter

Après votre premier modèle, utilisez-le pour pré-transcrire davantage de pages, corrigez-les et réentraînez. Chaque cycle ajoute des données et améliore la précision.

Entraînez votre premier modèle

Créez un compte gratuit, téléchargez vos documents et entraînez un modèle IA sur mesure — aucune connaissance en machine learning n'est requise.

Commencer gratuitement Lire le guide d'entraînement

Gratuit50 crédits chaque mois

Sans codeAucune expertise en ML requise

GPUEntraînement en quelques heures

Entraînez des modèles IA pour vos documents

Comment fonctionne l'entraînement de modèles

Téléchargez vos documents

Entraîner un modèle de texte personnalisé avec PyLaia

Entraîner des modèles pour les tableaux structurés

Extraire des champs spécifiques de formulaires

Modèles de Named Entity Recognition (NER)

Comment produire des données d'entraînement efficacement

Appliquer d'abord un modèle public

Corriger systématiquement

Choisir des échantillons variés

Entraîner, évaluer, répéter

Plus de 300 modèles communautaires — commencez sans entraînement

The Text Titan I ter

The Text Titan I (Super Model)

Dutch Dean (Super Model)

Dansk Dokumentalist (Super Model)

Entraînez votre premier modèle