Skip to content
Jan Rychtář edited this page Mar 26, 2026 · 4 revisions

Alto Processing

Vstupem jsou ALTO XML data vytvořená v minulosti nad naskenovanými stránkami knih. Protože původní OCR často zavádělo překlepy, šum a další chyby, nebylo možné tato data jednoduše považovat za hotový text připravený k dalšímu použití.

Samotný převod ALTO do formátovaného digitálního textu navíc není triviální úloha. Historické dokumenty se výrazně liší typografií, kvalitou skenu, rozvržením stránky, velikostí písma, druhem fontu atd. To znamená, že nestačí pouze převzít textová data z ALTO, ale je potřeba znovu rozhodovat, co je nadpis, odstavec, poznámka, zvýraznění nebo pokračování textu.

Kvůli tomu byl vytvořen nový procesor, který analyzuje vlastnosti jednotlivých slov a řádků, zejména jejich velikost, pozici a typografické znaky, a z těchto informací skládá výslednou stránku do formátovaného HTML. Cílem není jen získat text, ale získat text, který co nejlépe odpovídá skutečné struktuře původní stránky.

Pro testování, porovnávání a vizualizaci výsledků vzniklo webové rozhraní, do kterého byly následně přidávány i další experimentální kroky. Dnes tak projekt neslouží jen pro převod ALTO, ale jako širší testovací prostředí pro porovnávání algoritmického zpracování, LLM korekcí, OCR přístupů a dalších postupů, které mohou kvalitu výsledného textu dále zlepšovat.

Obsah

Wiki slouží jako průvodce projektem, jeho webovým rozhraním, API i lokálním spuštěním.

K čemu projekt slouží dnes

Aktuální podoba projektu umožňuje:

  • porovnání starého a nového přístupu k převodu ALTO do formátovaného textu
  • testovat LLM korekce a další navazující textové operace
  • spouštět OCR experimenty přímo nad obrazem stránky
  • vizuálně porovnávat výsledky jednotlivých kroků
  • exportovat výsledný obsah do formátů txt, html, md a epub
  • algoritmické, či LMM zpracování napojení stran
  • custom LMM operace nad extrahovaným textem

Wiki na dalších stránkách popisuje jednotlivé části podrobněji, od práce v uživatelském rozhraní až po komunikaci s nasazenou instancí a lokální běh projektu.

Clone this wiki locally