トップ > 5月 17th, 2006

2006.05.17

PDFファイルからテキストを抽出

PDFファイルからテキストを抽出する方法。
Windows版では有料のものばかりしか見つからず・・・。


Xpdfを使います。

◆インストール
# yum install xpdf

◆文字コードの設定
# vi /etc/xpdfrc
——————-
textEncoding UTF-8 ←自分の環境に合わせてEUC-JP等に変更

◆テキストの抽出
$ pdftotext hoge.pdf hoge.txt


オプションで開始・終了ページの設定
変更する文字コードの設定が出来ます。