Jak zajistit strojovou čitelnost ve skenovaných PDF?

V tomto článku najdete postup, jakým lze zajistit strojovou čitelnost u skenovaných souborů PDF za účelem zveřejnění smluv v registru smluv. Skenované dokumenty obvykle nemají textovou vrstvou a proto je třeba ji vytvořit pomocí technologie OCR. K tomu můžete využít například aplikace PDF-XChange Editor 8 / Plus nebo PDF-XChange PRO 8 s modulem Enhanced OCR. Níže najdete postup, jak vytvořit textovou vrstvu pro čtení.

 

Postup

Ad1  Spusťte aplikaci PDF-XChange Editor 8 s modulem Enhanced OCR (součást PDF-XChange PRO 8) a otevřete skenovaný soubor PDF v menu Soubor > Otevřít.

Ad2  Na kartě Konverze vyberte položku OCR.

editor_vytvorenitextovevrstvy

 

Ad3  Následně se otevře dialogové okno OCR stránek (Enhanced) s nastavením funkce OCR. Enhanced znamená, že používáte příplatkový modul pro OCR.

editor_vytvorenitextovevrstvy2  

 

Rozsah stránek

V této sekci vyberete stránky, na kterých chcete pomocí OCR rozpoznat text.

Možnosti rozpoznání

Zde můžete nastavit parametry rozpoznání textu.

  • Jazyky. Výběr jazyka pro rozpoznání textu. K dispozici je čeština a další desítky jazyků. Pro rozpoznání lze vybrat více jazyků najednou.
  • Přesnost. Umožňuje nastavit přesnost rozpoznání textu. Neplatí, že čím vyšší přesnost, tím lepší výsledek. Velmi záleží na kvalitě předlohy, šumech apod.
  • Detekovat zkosení obsahu na stránce.
  • Detekovat chybné natočení stránky.
  • Ignorovat existující text na stránce. 
  • Ignorovat komentáře na stránce. V případě, že toto políčko zaškrtnuté, nebude rozpoznáván text v v komentářích.
  • Ignorovat formulářová pole na stránce.

Možnosti výstupu 

V této části lze nastavit Typ výstupu po provedení funkce OCR. Pokud chcete jen vytvořit strojově čitelnou vrstvu, tak zvolte tuto volbu:

  • Prohledavatelný obrázek. Tato volba zachová původní obsah a pouze nad původním dokumentem vytvoří textovou vrstvu. 

icons8-idea-30 Pokud si přejete vytvořit zcela nový dokument s rozpoznanou textovou vrstvou, pak zaškrtněte políčko Vytvořit nový dokument.

 

Ad4  Po nastavení všech parametrů rozpoznání textu, stiskněte na tlačítko OK. Tím dojde ke spuštění funkce OCR.editor_vytvorenitextovevrstvy3

Ad5  Po provedení funkce OCR, můžete zkusit vyhledat libovolný výraz v PDF pomocí fulltextového vyhledávání. Panel pro vyhledávání najdete v pravém horním rohu pracovní plochy.

editor_vytvorenitextovevrstvy4

Ad6  Pokud došlo k úspěšnému rozpoznání textové vrstvy (pro strojovou čitelnost), tak lze po provedení OCR v dokumentu vyhledat libovolný výraz.

Zpět do obchodu