Jak zajistit strojovou čitelnost ve skenovaných PDF?

V tomto článku najdete postup, jakým lze zajistit strojovou čitelnost u skenovaných souborů PDF za účelem zveřejnění smluv v registru smluv. Skenované dokumenty obvykle nemají textovou vrstvou a proto je třeba ji vytvořit pomocí technologie OCR. K tomu můžete využít například aplikace PDF-XChange Editor 8 / Plus nebo PDF-XChange PRO 8 s modulem Enhanced OCR. Níže najdete postup, jak vytvořit textovou vrstvu pro čtení.

 

Postup

Ad1  Spusťte aplikaci PDF-XChange Editor 8 s modulem Enhanced OCR (součást PDF-XChange PRO 8) a otevřete skenovaný soubor PDF v menu Soubor > Otevřít.

Ad2  Na kartě Konverze vyberte položku OCR.

editor_vytvorenitextovevrstvy

 

Ad3  Následně se otevře dialogové okno OCR stránek (Enhanced) s nastavením funkce OCR. Enhanced znamená, že používáte příplatkový modul pro OCR.

editor_vytvorenitextovevrstvy2  

 

Rozsah stránek

V této sekci vyberete stránky, na kterých chcete pomocí OCR rozpoznat text.

Možnosti rozpoznání

Zde můžete nastavit parametry rozpoznání textu.

  • Jazyky. Výběr jazyka pro rozpoznání textu. K dispozici je čeština a další desítky jazyků. Pro rozpoznání lze vybrat více jazyků najednou.
  • Přesnost. Umožňuje nastavit přesnost rozpoznání textu. Neplatí, že čím vyšší přesnost, tím lepší výsledek. Velmi záleží na kvalitě předlohy, šumech apod.
  • Detekovat zkosení obsahu na stránce.
  • Detekovat chybné natočení stránky.
  • Ignorovat existující text na stránce. 
  • Ignorovat komentáře na stránce. V případě, že toto políčko zaškrtnuté, nebude rozpoznáván text v v komentářích.
  • Ignorovat formulářová pole na stránce.

Možnosti výstupu 

V této části lze nastavit Typ výstupu po provedení funkce OCR. Pokud chcete jen vytvořit strojově čitelnou vrstvu, tak zvolte tuto volbu:

  • Prohledavatelný obrázek. Tato volba zachová původní obsah a pouze nad původním dokumentem vytvoří textovou vrstvu. 

icons8-idea-30 Pokud si přejete vytvořit zcela nový dokument s rozpoznanou textovou vrstvou, pak zaškrtněte políčko Vytvořit nový dokument.

 

Ad4  Po nastavení všech parametrů rozpoznání textu, stiskněte na tlačítko OK. Tím dojde ke spuštění funkce OCR.editor_vytvorenitextovevrstvy3

Ad5  Po provedení funkce OCR, můžete zkusit vyhledat libovolný výraz v PDF pomocí fulltextového vyhledávání. Panel pro vyhledávání najdete v pravém horním rohu pracovní plochy.

editor_vytvorenitextovevrstvy4

Ad6  Pokud došlo k úspěšnému rozpoznání textové vrstvy (pro strojovou čitelnost), tak lze po provedení OCR v dokumentu vyhledat libovolný výraz.

Přihlaste se prosím znovu

Omlouváme se, ale Váš CSRF token pravděpodobně vypršel. Abychom mohli udržet Vaši bezpečnost na co největší úrovni potřebujeme, abyste se znovu přihlásili.

Děkujeme za pochopení.

Přihlášení