Skip to content
  • Precios

Entrene modelos IA para sus documentos

Cada colección de documentos históricos tiene su propia escritura. Cuando los modelos públicos no son suficientes, Transkribus le permite entrenar un modelo IA personalizado — adaptado a su escritura, idioma y tipo de documento. Sin necesidad de experiencia en machine learning.

300+Modelos IA públicos
2–5%CER alcanzable
25–50Páginas para empezar a entrenar

Cómo funciona el entrenamiento de modelos

El entrenamiento de un modelo personalizado en Transkribus sigue un flujo de trabajo iterativo y probado. Cada ciclo mejora la precisión de su modelo.

01

Suba sus documentos

Comience subiendo los escaneos de los documentos manuscritos o impresos que desea transcribir. Transkribus acepta JPEG, PNG, PDF y TIFF. Organice sus documentos en colecciones para una gestión sencilla.

Consejo: comience con 25–50 páginas representativas que cubran la variedad de estilos de escritura de su colección.

4tiposFormatos admitidos

Modelos de reconocimiento de texto

Entrene un modelo de texto personalizado con PyLaia

PyLaia es el motor de deep learning detrás de los modelos de reconocimiento de texto de Transkribus. Procesa texto manuscrito de cualquier siglo, en cualquier idioma y cualquier escritura — desde manuscritos latinos medievales hasta la Kurrent del siglo XX. Usted aporta la Ground Truth; PyLaia aprende la escritura.
Funciona con cualquier escritura: latina, cirílica, árabe, hebrea, china y más
Gestiona texto impreso y manuscrito mezclados en la misma página
25–50 páginas transcritas son suficientes para empezar a entrenar
Los modelos mejoran automáticamente con más datos de Ground Truth
Comparta su modelo con colegas o con toda la comunidad Transkribus

Entrenar modelos para tablas estructuradas

Los documentos históricos están llenos de datos tabulares — registros censales, registros parroquiales, manifiestos de embarque, libros de contabilidad. Los modelos de tablas detectan estructuras de filas y columnas y extraen el contenido de las celdas en datos estructurados que puede exportar a Excel, CSV o XML.

Document with detected table structure
Datos de tabla extraídos
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

Extraer campos específicos de formularios

Cuando necesita extraer datos específicos — nombres, fechas, direcciones, importes — de documentos estructurados o semiestructurados, los Field Models localizan y leen campos individuales. Ideal para formularios censales, fichas de registro y documentos administrativos.

Document with detected fields
Campos extraídos

Próximamente

Modelos de Named Entity Recognition (NER)

Pronto podrá entrenar modelos que identifiquen y etiqueten automáticamente entidades nombradas en sus transcripciones — personas, lugares, fechas, organizaciones y tipos de entidad personalizados. El NER transforma el texto bruto en datos estructurados y consultables sin etiquetado manual.
Detectar automáticamente personas, lugares, fechas y organizaciones
Defina tipos de entidad personalizados para su campo de investigación
Entrene con sus propios ejemplos anotados
Vincule entidades entre documentos para análisis de redes
Combine con la búsqueda para crear bases de datos de investigación potentes

Consejos de Ground Truth

Cómo producir datos de entrenamiento de forma eficiente

La calidad y cantidad de su Ground Truth determinan directamente la precisión del modelo. Estas son estrategias probadas para crear datos de entrenamiento más rápidamente.

Aplicar primero un modelo público

Utilice Text Titan o un modelo público específico del idioma para una primera transcripción. Corregir es de 3 a 5 veces más rápido que transcribir desde cero.

Corregir sistemáticamente

Revise cada página y corrija todos los errores. Preste especial atención a caracteres inusuales, abreviaturas y saltos de línea.

Elegir muestras diversas

Incluya páginas de diferentes escritores, períodos y tipos de documentos. La diversidad en los datos de entrenamiento lleva a un modelo más robusto.

Entrenar, evaluar, repetir

Después de su primer modelo, úselo para pre-transcribir más páginas, corrija esas y reentrene. Cada ciclo añade datos y mejora la precisión.

Más de 300 modelos comunitarios — empiece sin entrenar

Antes de entrenar el suyo, consulte el catálogo de modelos. Más de 300 modelos han sido compartidos por la comunidad, cubriendo cientos de idiomas y escrituras.

Entrene su primer modelo

Cree una cuenta gratuita, suba sus documentos y entrene un modelo IA personalizado — sin necesidad de conocimientos en machine learning.

Gratis50 créditos cada mes
Sin códigoSin conocimientos de ML
GPUEntrenamiento en horas