Home

Alto Processing

Vstupem jsou ALTO XML data vytvořená v minulosti nad naskenovanými stránkami knih. Protože původní OCR často zavádělo překlepy, šum a další chyby, nebylo možné tato data jednoduše považovat za hotový text připravený k dalšímu použití.

Samotný převod ALTO do formátovaného digitálního textu navíc není triviální úloha. Historické dokumenty se výrazně liší typografií, kvalitou skenu, rozvržením stránky, velikostí písma, druhem fontu atd. To znamená, že nestačí pouze převzít textová data z ALTO, ale je potřeba znovu rozhodovat, co je nadpis, odstavec, poznámka, zvýraznění nebo pokračování textu.

Kvůli tomu byl vytvořen nový procesor, který analyzuje vlastnosti jednotlivých slov a řádků, zejména jejich velikost, pozici a typografické znaky, a z těchto informací skládá výslednou stránku do formátovaného HTML. Cílem není jen získat text, ale získat text, který co nejlépe odpovídá skutečné struktuře původní stránky.

Pro testování, porovnávání a vizualizaci výsledků vzniklo webové rozhraní, do kterého byly následně přidávány i další experimentální kroky. Dnes tak projekt neslouží jen pro převod ALTO, ale jako širší testovací prostředí pro porovnávání algoritmického zpracování, LLM korekcí, OCR přístupů a dalších postupů, které mohou kvalitu výsledného textu dále zlepšovat.

Obsah

Wiki slouží jako průvodce projektem, jeho webovým rozhraním, API i lokálním spuštěním.

K čemu projekt slouží dnes

Aktuální podoba projektu umožňuje:

porovnání starého a nového přístupu k převodu ALTO do formátovaného textu
testovat LLM korekce a další navazující textové operace
spouštět OCR experimenty přímo nad obrazem stránky
vizuálně porovnávat výsledky jednotlivých kroků
exportovat výsledný obsah do formátů txt, html, md a epub
algoritmické, či LMM zpracování napojení stran
custom LMM operace nad extrahovaným textem

Wiki na dalších stránkách popisuje jednotlivé části podrobněji, od práce v uživatelském rozhraní až po komunikaci s nasazenou instancí a lokální běh projektu.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Home

Alto Processing

Obsah

K čemu projekt slouží dnes

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally