« lm_sensorsでCPUの温度を測る | [CentOS4] yumにdagリポジトリを追加する »

2006.05.17

PDFファイルからテキストを抽出

PDFファイルからテキストを抽出する方法。
Windows版では有料のものばかりしか見つからず・・・。


Xpdfを使います。

◆インストール
# yum install xpdf

◆文字コードの設定
# vi /etc/xpdfrc
——————-
textEncoding UTF-8 ←自分の環境に合わせてEUC-JP等に変更

◆テキストの抽出
$ pdftotext hoge.pdf hoge.txt


オプションで開始・終了ページの設定
変更する文字コードの設定が出来ます。

Comment & Trackback

Trackback are closed.

No comments.

Comment





XHTML: You can use these tags:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>