Addestra modelli IA per i tuoi documenti

Ogni collezione di documenti storici ha la propria scrittura unica. Quando i modelli pubblici non bastano, Transkribus ti permette di addestrare un modello IA personalizzato — su misura per la tua scrittura, lingua e tipologia documentale. Nessuna competenza di machine learning richiesta.

Inizia l'addestramento gratis Esplora i modelli pubblici

300+Modelli IA pubblici

2–5%CER raggiungibile

25–50Pagine per iniziare l'addestramento

Carica i tuoi documenti

Inizia caricando le scansioni dei documenti manoscritti o stampati che vuoi trascrivere. Transkribus accetta JPEG, PNG, PDF e TIFF. Organizza i tuoi documenti in collezioni per una gestione semplice.

Consiglio: inizia con 25–50 pagine rappresentative che coprano la gamma di stili di scrittura della tua collezione.

4tipiFormati supportati

Modelli di riconoscimento testo

Addestra un modello di testo personalizzato con PyLaia

PyLaia è il motore di deep learning alla base dei modelli di riconoscimento testo di Transkribus. Gestisce testi manoscritti di qualsiasi secolo, in qualsiasi lingua e qualsiasi scrittura — dai manoscritti latini medievali alla Kurrent del XX secolo. Tu fornisci la Ground Truth; PyLaia impara la scrittura.

Funziona con qualsiasi scrittura: latina, cirillica, araba, ebraica, cinese e altre

Gestisce stampa e scrittura a mano miste sulla stessa pagina

25–50 pagine trascritte sono sufficienti per iniziare l'addestramento

I modelli migliorano automaticamente con più dati di Ground Truth

Condividi il tuo modello con colleghi o con l'intera comunità Transkribus

Addestrare modelli per tabelle strutturate

I documenti storici sono pieni di dati tabulari — registri di censimento, registri parrocchiali, manifesti di bordo, libri contabili. I modelli di tabelle rilevano le strutture di righe e colonne ed estraggono il contenuto delle celle in dati strutturati esportabili in Excel, CSV o XML.

Dati tabella estratti

Institution	Town	Amount	Object	Date	Disposition
Franklin College (6)	New Athen, O.		General	3/23/16
Fargo College (3)	Fargo, N.D.	100,000	Endowment	4/27/16	Gen 1914, 5/18/16
Franklin Academy (2)	Franklin, Neb.	5,000	Library Building	8/3/16	Gen 1914, 8/7/16
Fessenden Acad. & Ind. School	Fessenden, Fla.		General	12/22/16
Ferris Institute (2)	Big Rapids, Mich.	50,000	Buildings	2/12/17
Findlay College (2)	Findlay, O.	100,000	Endowment	5/23/17	Gen 1914, 5/28/17
Fairmount College	Wichita, Kan.	200,000	Endowment	6/7/17	6/14/17
Franklin College	Franklin, Ind.	50,000	General	9/13/17	Gen 1914, 9/17/17
Fisk University	Nashville, Tenn.	1,000,000	Endowment	6/14/18
Friends University	Wichita, Kan.	200,000	Endowment	6/20/18	Gen 1914, 8/8/18

Estrarre campi specifici dai moduli

Quando devi estrarre dati specifici — nomi, date, indirizzi, importi — da documenti strutturati o semi-strutturati, i Field Models localizzano e leggono i singoli campi. Ideale per moduli di censimento, schede di registrazione e documenti amministrativi.

Campi estratti

Prossimamente

Modelli di Named Entity Recognition (NER)

Presto potrai addestrare modelli che identificano e taggano automaticamente le entità nominate nelle tue trascrizioni — persone, luoghi, date, organizzazioni e tipi di entità personalizzati. Il NER trasforma il testo grezzo in dati strutturati e ricercabili senza tagging manuale.

Rilevamento automatico di persone, luoghi, date e organizzazioni

Definisci tipi di entità personalizzati per il tuo ambito di ricerca

Addestra con i tuoi esempi annotati

Collega entità tra documenti per l'analisi di rete

Combina con la ricerca per creare potenti database di ricerca

Consigli Ground Truth

Come produrre dati di addestramento in modo efficiente

La qualità e la quantità della tua Ground Truth determinano direttamente la precisione del modello. Ecco strategie collaudate per creare dati di addestramento più velocemente.

Applicare prima un modello pubblico

Usa Text Titan o un modello pubblico specifico per la lingua per una prima trascrizione. Correggere è 3-5 volte più veloce che trascrivere da zero.

Correggere sistematicamente

Lavora su ogni pagina e correggi tutti gli errori. Presta particolare attenzione a caratteri insoliti, abbreviazioni e interruzioni di riga.

Scegliere campioni diversi

Includi pagine di diversi scrittori, periodi e tipi di documenti. La diversità nei dati di addestramento porta a un modello più robusto.

Addestrare, valutare, ripetere

Dopo il primo modello, usalo per pre-trascrivere altre pagine, correggi quelle e riaddestra. Ogni ciclo aggiunge dati e migliora la precisione.

Addestra il tuo primo modello

Crea un account gratuito, carica i tuoi documenti e addestra un modello IA personalizzato — senza alcuna competenza di machine learning.

Inizia gratis Leggi la guida all'addestramento

Gratuito50 crediti ogni mese

Senza codiceNessuna competenza ML necessaria

GPUAddestramento in ore

Addestra modelli IA per i tuoi documenti

Come funziona l'addestramento dei modelli

Carica i tuoi documenti

Addestra un modello di testo personalizzato con PyLaia

Addestrare modelli per tabelle strutturate

Estrarre campi specifici dai moduli

Modelli di Named Entity Recognition (NER)

Come produrre dati di addestramento in modo efficiente

Applicare prima un modello pubblico

Correggere sistematicamente

Scegliere campioni diversi

Addestrare, valutare, ripetere

Oltre 300 modelli della comunità — inizia senza addestramento

The Text Titan I ter

The Text Titan I (Super Model)

Dutch Dean (Super Model)

Dansk Dokumentalist (Super Model)

Addestra il tuo primo modello