Python入門トップページ


目次

  1. データの準備
  2. macOS 編
    1. Tesseract による画像内文字認識
    2. PDF からの文字列抽出
    3. PDFの画像への変換
  3. Windows 編
    1. Tesseract による画像内文字認識
    2. PDF からの文字列抽出
    3. PDFの画像への変換

画像内文字認識と PDF からの文字列抽出

データの準備

次のページ以降では写真や画像の中に含まれる文字列を認識したり,PDF ファイルの中に含まれる文字列を抽出したりします.このページではそれらで利用するサンプルデータのダウンロードについて説明します.

データのダウンロード

サンプルデータは GitHub で公開しています.GitHub にある tesseract_data.zip をダウンロードし,プログラムと同じフォルダに展開してください.

データの説明

en_1.pdf , en_2.pdf , ja_1.pdf
MS-Word で作成した英語,日本語の文書を PDF 形式に変換したファイルです.これらの PDF ファイルには文字列のデータが含まれているので,Adobe Acrobat 等のソフトウェアを使って文字列を取り出すことが可能です.なお,1ページの文書と2ページの文書があります.次のページ以降では pdftotext を使って Python で文字列を取り出してみます.
en_1_img.png , en_2_img1.png , en_2_img2.png , ja_1_img.png
上の PDF ファイルを PNG 形式の画像データに変換したものです.次のページ以降では tesseract を使って Python で文字認識を行います.
en_1_img.pdf, en_2_img.pdf, ja_1_img.pdf
上の PNG 画像ファイルを PDF 形式に変換したものです.PDF の中身は画像であるので,そのままでは Adobe Acrobat 等で文字列を取り出すことができません.次のページ以降ではこれらの PDF ファイルを PNG 画像に変換してみます.

目次に戻る