-
Notifications
You must be signed in to change notification settings - Fork 0
Home
Vstupem jsou ALTO XML data vytvořená v minulosti nad naskenovanými stránkami knih. Protože původní OCR často zavádělo překlepy, šum a další chyby, nebylo možné tato data jednoduše považovat za hotový text připravený k dalšímu použití.
Samotný převod ALTO do formátovaného digitálního textu navíc není triviální úloha. Historické dokumenty se výrazně liší typografií, kvalitou skenu, rozvržením stránky, velikostí písma, druhem fontu atd. To znamená, že nestačí pouze převzít textová data z ALTO, ale je potřeba znovu rozhodovat, co je nadpis, odstavec, poznámka, zvýraznění nebo pokračování textu.
Kvůli tomu byl vytvořen nový procesor, který analyzuje vlastnosti jednotlivých slov a řádků, zejména jejich velikost, pozici a typografické znaky, a z těchto informací skládá výslednou stránku do formátovaného HTML. Cílem není jen získat text, ale získat text, který co nejlépe odpovídá skutečné struktuře původní stránky.
Pro testování, porovnávání a vizualizaci výsledků vzniklo webové rozhraní, do kterého byly následně přidávány i další experimentální kroky. Dnes tak projekt neslouží jen pro převod ALTO, ale jako širší testovací prostředí pro porovnávání algoritmického zpracování, LLM korekcí, OCR přístupů a dalších postupů, které mohou kvalitu výsledného textu dále zlepšovat.
Wiki slouží jako průvodce projektem, jeho webovým rozhraním, API i lokálním spuštěním.
Aktuální podoba projektu umožňuje:
- porovnání starého a nového přístupu k převodu ALTO do formátovaného textu
- testovat LLM korekce a další navazující textové operace
- spouštět OCR experimenty přímo nad obrazem stránky
- vizuálně porovnávat výsledky jednotlivých kroků
- exportovat výsledný obsah do formátů
txt,html,mdaepub - algoritmické, či LMM zpracování napojení stran
- custom LMM operace nad extrahovaným textem
Wiki na dalších stránkách popisuje jednotlivé části podrobněji, od práce v uživatelském rozhraní až po komunikaci s nasazenou instancí a lokální běh projektu.