2006.05.17
PDFファイルからテキストを抽出
PDFファイルからテキストを抽出する方法。
Windows版では有料のものばかりしか見つからず・・・。
Xpdfを使います。
◆インストール
# yum install xpdf
◆文字コードの設定
# vi /etc/xpdfrc
——————-
textEncoding UTF-8 ←自分の環境に合わせてEUC-JP等に変更
◆テキストの抽出
$ pdftotext hoge.pdf hoge.txt
オプションで開始・終了ページの設定
変更する文字コードの設定が出来ます。
Windows版では有料のものばかりしか見つからず・・・。
Xpdfを使います。
◆インストール
# yum install xpdf
◆文字コードの設定
# vi /etc/xpdfrc
——————-
textEncoding UTF-8 ←自分の環境に合わせてEUC-JP等に変更
◆テキストの抽出
$ pdftotext hoge.pdf hoge.txt
オプションで開始・終了ページの設定
変更する文字コードの設定が出来ます。