Skip to content
  • Prezzi

Addestra modelli IA per i tuoi documenti

Ogni collezione di documenti storici ha la propria scrittura unica. Quando i modelli pubblici non bastano, Transkribus ti permette di addestrare un modello IA personalizzato — su misura per la tua scrittura, lingua e tipologia documentale. Nessuna competenza di machine learning richiesta.

300+Modelli IA pubblici
2–5%CER raggiungibile
25–50Pagine per iniziare l'addestramento

Come funziona l'addestramento dei modelli

L'addestramento di un modello personalizzato in Transkribus segue un workflow iterativo e collaudato. Ogni ciclo migliora la precisione del tuo modello.

01

Carica i tuoi documenti

Inizia caricando le scansioni dei documenti manoscritti o stampati che vuoi trascrivere. Transkribus accetta JPEG, PNG, PDF e TIFF. Organizza i tuoi documenti in collezioni per una gestione semplice.

Consiglio: inizia con 25–50 pagine rappresentative che coprano la gamma di stili di scrittura della tua collezione.

4tipiFormati supportati

Modelli di riconoscimento testo

Addestra un modello di testo personalizzato con PyLaia

PyLaia è il motore di deep learning alla base dei modelli di riconoscimento testo di Transkribus. Gestisce testi manoscritti di qualsiasi secolo, in qualsiasi lingua e qualsiasi scrittura — dai manoscritti latini medievali alla Kurrent del XX secolo. Tu fornisci la Ground Truth; PyLaia impara la scrittura.
Funziona con qualsiasi scrittura: latina, cirillica, araba, ebraica, cinese e altre
Gestisce stampa e scrittura a mano miste sulla stessa pagina
25–50 pagine trascritte sono sufficienti per iniziare l'addestramento
I modelli migliorano automaticamente con più dati di Ground Truth
Condividi il tuo modello con colleghi o con l'intera comunità Transkribus

Addestrare modelli per tabelle strutturate

I documenti storici sono pieni di dati tabulari — registri di censimento, registri parrocchiali, manifesti di bordo, libri contabili. I modelli di tabelle rilevano le strutture di righe e colonne ed estraggono il contenuto delle celle in dati strutturati esportabili in Excel, CSV o XML.

Document with detected table structure
Dati tabella estratti
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

Estrarre campi specifici dai moduli

Quando devi estrarre dati specifici — nomi, date, indirizzi, importi — da documenti strutturati o semi-strutturati, i Field Models localizzano e leggono i singoli campi. Ideale per moduli di censimento, schede di registrazione e documenti amministrativi.

Document with detected fields
Campi estratti

Prossimamente

Modelli di Named Entity Recognition (NER)

Presto potrai addestrare modelli che identificano e taggano automaticamente le entità nominate nelle tue trascrizioni — persone, luoghi, date, organizzazioni e tipi di entità personalizzati. Il NER trasforma il testo grezzo in dati strutturati e ricercabili senza tagging manuale.
Rilevamento automatico di persone, luoghi, date e organizzazioni
Definisci tipi di entità personalizzati per il tuo ambito di ricerca
Addestra con i tuoi esempi annotati
Collega entità tra documenti per l'analisi di rete
Combina con la ricerca per creare potenti database di ricerca

Consigli Ground Truth

Come produrre dati di addestramento in modo efficiente

La qualità e la quantità della tua Ground Truth determinano direttamente la precisione del modello. Ecco strategie collaudate per creare dati di addestramento più velocemente.

Applicare prima un modello pubblico

Usa Text Titan o un modello pubblico specifico per la lingua per una prima trascrizione. Correggere è 3-5 volte più veloce che trascrivere da zero.

Correggere sistematicamente

Lavora su ogni pagina e correggi tutti gli errori. Presta particolare attenzione a caratteri insoliti, abbreviazioni e interruzioni di riga.

Scegliere campioni diversi

Includi pagine di diversi scrittori, periodi e tipi di documenti. La diversità nei dati di addestramento porta a un modello più robusto.

Addestrare, valutare, ripetere

Dopo il primo modello, usalo per pre-trascrivere altre pagine, correggi quelle e riaddestra. Ogni ciclo aggiunge dati e migliora la precisione.

Oltre 300 modelli della comunità — inizia senza addestramento

Prima di addestrare il tuo, consulta il catalogo dei modelli. Oltre 300 modelli sono stati condivisi dalla comunità, coprendo centinaia di lingue e scritture.

Addestra il tuo primo modello

Crea un account gratuito, carica i tuoi documenti e addestra un modello IA personalizzato — senza alcuna competenza di machine learning.

Gratuito50 crediti ogni mese
Senza codiceNessuna competenza ML necessaria
GPUAddestramento in ore