Skip to content
  • Prijzen

Train AI-modellen voor jouw documenten

Elke collectie historische documenten heeft zijn eigen unieke handschrift. Wanneer publieke modellen niet volstaan, laat Transkribus je een op maat gemaakt AI-model trainen — afgestemd op jouw specifieke handschrift, taal en documentstijl. Geen machine learning-expertise vereist.

300+Publieke AI-modellen
2–5%Haalbare CER
25–50Pagina's om te starten met training

Hoe modeltraining werkt

Het trainen van een op maat gemaakt model in Transkribus volgt een beproefde, iteratieve workflow. Elke cyclus verbetert de nauwkeurigheid van je model.

01

Upload je documenten

Begin met het uploaden van scans van de handgeschreven of gedrukte documenten die je wilt transcriberen. Transkribus accepteert JPEG, PNG, PDF en TIFF. Organiseer je documenten in collecties voor eenvoudig beheer.

Tip: begin met 25–50 representatieve pagina's die het spectrum van handschriftstijlen in je collectie dekken.

4typenOndersteunde formaten

Tekstherkenningsmodellen

Train een op maat gemaakt tekstmodel met PyLaia

PyLaia is de deep learning-engine achter de tekstherkenningsmodellen van Transkribus. Het verwerkt handgeschreven tekst uit elke eeuw, in elke taal en elk schrift — van middeleeuwse Latijnse manuscripten tot 20e-eeuws Kurrent. Jij levert de Ground Truth; PyLaia leert het handschrift.
Werkt met elk schrift: Latijns, Cyrillisch, Arabisch, Hebreeuws, Chinees en meer
Verwerkt gemengde druk en handschrift op dezelfde pagina
25–50 getranscribeerde pagina's zijn voldoende om te beginnen met trainen
Modellen verbeteren automatisch met meer Ground Truth-data
Deel je model met collega's of de hele Transkribus-community

Modellen trainen voor gestructureerde tabellen

Historische documenten zitten vol tabelgegevens — volkstellingsregisters, kerkregisters, scheepsmanifesten, boekhoudregisters. Tabelmodellen detecteren rij- en kolomstructuren en extraheren celinhoud naar gestructureerde data die je kunt exporteren naar Excel, CSV of XML.

Document with detected table structure
Geëxtraheerde tabelgegevens
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

Specifieke velden uit formulieren extraheren

Wanneer je specifieke gegevens moet extraheren — namen, data, adressen, bedragen — uit gestructureerde of semi-gestructureerde documenten, lokaliseren en lezen Field Models individuele velden. Ideaal voor volkstellingsformulieren, registratiekaarten en administratieve documenten.

Document with detected fields
Geëxtraheerde velden

Binnenkort beschikbaar

Named Entity Recognition (NER) modellen

Binnenkort kun je modellen trainen die automatisch benoemde entiteiten in je transcripties identificeren en taggen — personen, plaatsen, data, organisaties en aangepaste entiteittypen. NER transformeert ruwe tekst in gestructureerde, doorzoekbare data zonder handmatig taggen.
Automatische detectie van personen, plaatsen, data en organisaties
Definieer aangepaste entiteittypen voor je onderzoeksdomein
Train op je eigen geannoteerde voorbeelden
Koppel entiteiten over documenten heen voor netwerkanalyse
Combineer met zoeken om krachtige onderzoeksdatabases te bouwen

Ground Truth Tips

Hoe maak je efficiënt trainingsdata

De kwaliteit en hoeveelheid van je Ground Truth bepalen rechtstreeks de modelnauwkeurigheid. Hier zijn bewezen strategieën om sneller trainingsdata te maken.

Eerst een publiek model toepassen

Gebruik Text Titan of een taalspecifiek publiek model voor een eerste transcriptie. Corrigeren is 3–5x sneller dan helemaal opnieuw transcriberen.

Systematisch corrigeren

Werk elke pagina door en corrigeer alle fouten. Let extra op ongebruikelijke tekens, afkortingen en regelovergangen.

Kies diverse voorbeelden

Neem pagina's op van verschillende schrijvers, perioden en documenttypen. Diversiteit in trainingsdata leidt tot een robuuster model.

Trainen, evalueren, herhalen

Gebruik na je eerste model dit model om meer pagina's voor te transcriberen, corrigeer die en train opnieuw. Elke cyclus voegt data toe en verbetert de nauwkeurigheid.

Train je eerste model

Maak een gratis account aan, upload je documenten en train een op maat gemaakt AI-model — geen machine learning-achtergrond nodig.

Gratis50 credits elke maand
Geen codeGeen ML-expertise nodig
GPUTraining in uren