Train AI-modellen voor jouw documenten

Elke collectie historische documenten heeft zijn eigen unieke handschrift. Wanneer publieke modellen niet volstaan, laat Transkribus je een op maat gemaakt AI-model trainen — afgestemd op jouw specifieke handschrift, taal en documentstijl. Geen machine learning-expertise vereist.

Gratis starten met training Publieke modellen bekijken

300+Publieke AI-modellen

2–5%Haalbare CER

25–50Pagina's om te starten met training

Upload je documenten

Begin met het uploaden van scans van de handgeschreven of gedrukte documenten die je wilt transcriberen. Transkribus accepteert JPEG, PNG, PDF en TIFF. Organiseer je documenten in collecties voor eenvoudig beheer.

Tip: begin met 25–50 representatieve pagina's die het spectrum van handschriftstijlen in je collectie dekken.

4typenOndersteunde formaten

Tekstherkenningsmodellen

Train een op maat gemaakt tekstmodel met PyLaia

PyLaia is de deep learning-engine achter de tekstherkenningsmodellen van Transkribus. Het verwerkt handgeschreven tekst uit elke eeuw, in elke taal en elk schrift — van middeleeuwse Latijnse manuscripten tot 20e-eeuws Kurrent. Jij levert de Ground Truth; PyLaia leert het handschrift.

Werkt met elk schrift: Latijns, Cyrillisch, Arabisch, Hebreeuws, Chinees en meer

Verwerkt gemengde druk en handschrift op dezelfde pagina

25–50 getranscribeerde pagina's zijn voldoende om te beginnen met trainen

Modellen verbeteren automatisch met meer Ground Truth-data

Deel je model met collega's of de hele Transkribus-community

Modellen trainen voor gestructureerde tabellen

Historische documenten zitten vol tabelgegevens — volkstellingsregisters, kerkregisters, scheepsmanifesten, boekhoudregisters. Tabelmodellen detecteren rij- en kolomstructuren en extraheren celinhoud naar gestructureerde data die je kunt exporteren naar Excel, CSV of XML.

Geëxtraheerde tabelgegevens

Institution	Town	Amount	Object	Date	Disposition
Franklin College (6)	New Athen, O.		General	3/23/16
Fargo College (3)	Fargo, N.D.	100,000	Endowment	4/27/16	Gen 1914, 5/18/16
Franklin Academy (2)	Franklin, Neb.	5,000	Library Building	8/3/16	Gen 1914, 8/7/16
Fessenden Acad. & Ind. School	Fessenden, Fla.		General	12/22/16
Ferris Institute (2)	Big Rapids, Mich.	50,000	Buildings	2/12/17
Findlay College (2)	Findlay, O.	100,000	Endowment	5/23/17	Gen 1914, 5/28/17
Fairmount College	Wichita, Kan.	200,000	Endowment	6/7/17	6/14/17
Franklin College	Franklin, Ind.	50,000	General	9/13/17	Gen 1914, 9/17/17
Fisk University	Nashville, Tenn.	1,000,000	Endowment	6/14/18
Friends University	Wichita, Kan.	200,000	Endowment	6/20/18	Gen 1914, 8/8/18

Specifieke velden uit formulieren extraheren

Wanneer je specifieke gegevens moet extraheren — namen, data, adressen, bedragen — uit gestructureerde of semi-gestructureerde documenten, lokaliseren en lezen Field Models individuele velden. Ideaal voor volkstellingsformulieren, registratiekaarten en administratieve documenten.

Geëxtraheerde velden

Binnenkort beschikbaar

Named Entity Recognition (NER) modellen

Binnenkort kun je modellen trainen die automatisch benoemde entiteiten in je transcripties identificeren en taggen — personen, plaatsen, data, organisaties en aangepaste entiteittypen. NER transformeert ruwe tekst in gestructureerde, doorzoekbare data zonder handmatig taggen.

Automatische detectie van personen, plaatsen, data en organisaties

Definieer aangepaste entiteittypen voor je onderzoeksdomein

Train op je eigen geannoteerde voorbeelden

Koppel entiteiten over documenten heen voor netwerkanalyse

Combineer met zoeken om krachtige onderzoeksdatabases te bouwen

Ground Truth Tips

Hoe maak je efficiënt trainingsdata

De kwaliteit en hoeveelheid van je Ground Truth bepalen rechtstreeks de modelnauwkeurigheid. Hier zijn bewezen strategieën om sneller trainingsdata te maken.

Eerst een publiek model toepassen

Gebruik Text Titan of een taalspecifiek publiek model voor een eerste transcriptie. Corrigeren is 3–5x sneller dan helemaal opnieuw transcriberen.

Systematisch corrigeren

Werk elke pagina door en corrigeer alle fouten. Let extra op ongebruikelijke tekens, afkortingen en regelovergangen.

Kies diverse voorbeelden

Neem pagina's op van verschillende schrijvers, perioden en documenttypen. Diversiteit in trainingsdata leidt tot een robuuster model.

Trainen, evalueren, herhalen

Gebruik na je eerste model dit model om meer pagina's voor te transcriberen, corrigeer die en train opnieuw. Elke cyclus voegt data toe en verbetert de nauwkeurigheid.

Train je eerste model

Maak een gratis account aan, upload je documenten en train een op maat gemaakt AI-model — geen machine learning-achtergrond nodig.

Gratis beginnen De trainingsgids lezen

Gratis50 credits elke maand

Geen codeGeen ML-expertise nodig

GPUTraining in uren

Train AI-modellen voor jouw documenten

Hoe modeltraining werkt

Upload je documenten

Train een op maat gemaakt tekstmodel met PyLaia

Modellen trainen voor gestructureerde tabellen

Specifieke velden uit formulieren extraheren

Named Entity Recognition (NER) modellen

Hoe maak je efficiënt trainingsdata

Eerst een publiek model toepassen

Systematisch corrigeren

Kies diverse voorbeelden

Trainen, evalueren, herhalen

300+ community-modellen — begin zonder training

The Text Titan I ter

The Text Titan I (Super Model)

Dutch Dean (Super Model)

Dansk Dokumentalist (Super Model)

Train je eerste model