OCR Selected Region

  RPA

OCR Selected Regionは、Copy Full Textと同様に、PDFなどのオフィス文書を連続オープンし、テキスト情報を取得してExcelファイルにリスト化する自動プログラムです。その違いは、OCR Selected Regionは、必要な部分だけを取得できる点です。起点となる画像を登録し、その画像を手がかりに、近くの文字情報をOCRで取得します。単純コピーと比べ、文字化けや誤認識が起こる点がデメリットです。誤認識を少しでも軽減するよう、PDFリーダーのデフォルト値を全画面表示、拡大率は幅に合わせる設定をおすすめします。

OCR Selected Regionを起動します。取得したテキスト情報をシートのどの列にペーストするかを指定します。次に文書が保存されているフォルダを指定しますが、同じファイルを処理する限り、何度でも結果を上書きすることができます。例えば、1回目のOCR結果をAbstruct列に貼り付け、2回目は違う場所のOCR結果をTitleに貼り付ける、といったイメージです。これにより、1つのファイルの複数の箇所からOCR結果を取得でき、これをファイルの数だけ繰り返すことができます。

RPAが起動し、文書が保存されているフォルダを指定します。フォルダ内にあるすべてのファイルが対象になりますので、予め不要なファイルは移動しておいてください。Selectを押すと処理がはじまります。

Capture an image to searchが表示されたら、起点となる画像があるページまでスクロールします。起点画像が表示されたらokを押します。

capture an imageが表示されますので、起点となる画像を指定します。左上から右下へ領域指定してください。起点画像は、特徴的でばらつきが少なく、鮮明な画像を登録してください。

次にSelect regionが表示されますので、OCRする領域を指定します。左上から右下へ領域指定してください。ここで、起点画像との相対位置が登録されます。すべてのファイルで、希望する情報が取得できるように、余裕を持って領域指定してください。後で変更できません。

OCRする領域を指定すると、すぐに処理がスタートします。PCから手を離してください。起点画像のサーチ中は自動でスクロールしますが、しばしば見落としがあります。最終ページまでサーチし数分経過した後、次のファイルへ処理が移ります。取得できなかった場合は、Not foundと記録されます。下の例では、同じフォルダについて2回処理を行い、違う箇所のOCR結果をAbstruct列とWeight列に貼り付けています。