Entrene modelos IA para sus documentos

Cada colección de documentos históricos tiene su propia escritura. Cuando los modelos públicos no son suficientes, Transkribus le permite entrenar un modelo IA personalizado — adaptado a su escritura, idioma y tipo de documento. Sin necesidad de experiencia en machine learning.

Entrenar gratis Explorar modelos públicos

300+Modelos IA públicos

2–5%CER alcanzable

25–50Páginas para empezar a entrenar

Suba sus documentos

Comience subiendo los escaneos de los documentos manuscritos o impresos que desea transcribir. Transkribus acepta JPEG, PNG, PDF y TIFF. Organice sus documentos en colecciones para una gestión sencilla.

Consejo: comience con 25–50 páginas representativas que cubran la variedad de estilos de escritura de su colección.

4tiposFormatos admitidos

Modelos de reconocimiento de texto

Entrene un modelo de texto personalizado con PyLaia

PyLaia es el motor de deep learning detrás de los modelos de reconocimiento de texto de Transkribus. Procesa texto manuscrito de cualquier siglo, en cualquier idioma y cualquier escritura — desde manuscritos latinos medievales hasta la Kurrent del siglo XX. Usted aporta la Ground Truth; PyLaia aprende la escritura.

Funciona con cualquier escritura: latina, cirílica, árabe, hebrea, china y más

Gestiona texto impreso y manuscrito mezclados en la misma página

25–50 páginas transcritas son suficientes para empezar a entrenar

Los modelos mejoran automáticamente con más datos de Ground Truth

Comparta su modelo con colegas o con toda la comunidad Transkribus

Entrenar modelos para tablas estructuradas

Los documentos históricos están llenos de datos tabulares — registros censales, registros parroquiales, manifiestos de embarque, libros de contabilidad. Los modelos de tablas detectan estructuras de filas y columnas y extraen el contenido de las celdas en datos estructurados que puede exportar a Excel, CSV o XML.

Datos de tabla extraídos

Institution	Town	Amount	Object	Date	Disposition
Franklin College (6)	New Athen, O.		General	3/23/16
Fargo College (3)	Fargo, N.D.	100,000	Endowment	4/27/16	Gen 1914, 5/18/16
Franklin Academy (2)	Franklin, Neb.	5,000	Library Building	8/3/16	Gen 1914, 8/7/16
Fessenden Acad. & Ind. School	Fessenden, Fla.		General	12/22/16
Ferris Institute (2)	Big Rapids, Mich.	50,000	Buildings	2/12/17
Findlay College (2)	Findlay, O.	100,000	Endowment	5/23/17	Gen 1914, 5/28/17
Fairmount College	Wichita, Kan.	200,000	Endowment	6/7/17	6/14/17
Franklin College	Franklin, Ind.	50,000	General	9/13/17	Gen 1914, 9/17/17
Fisk University	Nashville, Tenn.	1,000,000	Endowment	6/14/18
Friends University	Wichita, Kan.	200,000	Endowment	6/20/18	Gen 1914, 8/8/18

Extraer campos específicos de formularios

Cuando necesita extraer datos específicos — nombres, fechas, direcciones, importes — de documentos estructurados o semiestructurados, los Field Models localizan y leen campos individuales. Ideal para formularios censales, fichas de registro y documentos administrativos.

Campos extraídos

Próximamente

Modelos de Named Entity Recognition (NER)

Pronto podrá entrenar modelos que identifiquen y etiqueten automáticamente entidades nombradas en sus transcripciones — personas, lugares, fechas, organizaciones y tipos de entidad personalizados. El NER transforma el texto bruto en datos estructurados y consultables sin etiquetado manual.

Detectar automáticamente personas, lugares, fechas y organizaciones

Defina tipos de entidad personalizados para su campo de investigación

Entrene con sus propios ejemplos anotados

Vincule entidades entre documentos para análisis de redes

Combine con la búsqueda para crear bases de datos de investigación potentes

Consejos de Ground Truth

Cómo producir datos de entrenamiento de forma eficiente

La calidad y cantidad de su Ground Truth determinan directamente la precisión del modelo. Estas son estrategias probadas para crear datos de entrenamiento más rápidamente.

Aplicar primero un modelo público

Utilice Text Titan o un modelo público específico del idioma para una primera transcripción. Corregir es de 3 a 5 veces más rápido que transcribir desde cero.

Corregir sistemáticamente

Revise cada página y corrija todos los errores. Preste especial atención a caracteres inusuales, abreviaturas y saltos de línea.

Elegir muestras diversas

Incluya páginas de diferentes escritores, períodos y tipos de documentos. La diversidad en los datos de entrenamiento lleva a un modelo más robusto.

Entrenar, evaluar, repetir

Después de su primer modelo, úselo para pre-transcribir más páginas, corrija esas y reentrene. Cada ciclo añade datos y mejora la precisión.

Entrene su primer modelo

Cree una cuenta gratuita, suba sus documentos y entrene un modelo IA personalizado — sin necesidad de conocimientos en machine learning.

Empezar gratis Leer la guía de entrenamiento

Gratis50 créditos cada mes

Sin códigoSin conocimientos de ML

GPUEntrenamiento en horas

Entrene modelos IA para sus documentos

Cómo funciona el entrenamiento de modelos

Suba sus documentos

Entrene un modelo de texto personalizado con PyLaia

Entrenar modelos para tablas estructuradas

Extraer campos específicos de formularios

Modelos de Named Entity Recognition (NER)

Cómo producir datos de entrenamiento de forma eficiente

Aplicar primero un modelo público

Corregir sistemáticamente

Elegir muestras diversas

Entrenar, evaluar, repetir

Más de 300 modelos comunitarios — empiece sin entrenar

The Text Titan I ter

The Text Titan I (Super Model)

Dutch Dean (Super Model)

Dansk Dokumentalist (Super Model)

Entrene su primer modelo