自然豊かな環境で、ハートフルな業務を展開中。
web制作・web運用・更新作業
印刷物のデザイン・CI・販促コンサルタント

13.05.15

macでPDFファイルからテキスト抽出しようとしてみた

暑いんだかちょうどいいんだか微妙な昼下がり。
「こんなページ作ってね。文章はこれで」と文書で手渡されたのはいいけど……かなりの長文。
その昔チャットで鍛えた（つもりの）タイピングを今こそ生かせ！って感じなのだけれど、何せ今日は暑いんだかちょうどいいんだか微妙な空気。
春の風に身をまかせ、時間ないのに悪あがきしてみました。

そうだPDFスキャンしてテキスト抽出しよう！

探ってみたら、このような素晴らしいページが。
そちらの説明によると……

MacでAutomatorを起動する

そんなアプリケーションがあったんだ……！
どれどれ

PDFファイルからテキスト抽出1

アイコンがなんかかわいい。
……で

Automatorでアプリケーションを作成

PDFファイルからテキスト抽出2

『ライブラリ』から『PDF』を選択し、『PDFテキストを取り出す』を右側にドラックする。

PDFファイルからテキスト抽出3

アプリケーションとして保存し、テキストを抽出したいPDFファイルをアプリケーションにドラッグ。

やった！と思いながら、わくわくして作成されたtxtファイルを、私のかわいいmiちゃんで開いてみると。

PDFファイルからテキスト抽出4

こんなはずじゃなかった……。

で、調べてみたら、そもそも最初から間違っていたことが判明。
スキャンする時に、OCR（文字認識処理）しなきゃいけなかったんですね。
最近のスキャナは便利になったな〜、とおばさん臭いことを考えながらリトライ。

PDFファイルからテキスト抽出5

ホッ。

……としたのもつかの間。
ふと思い立って、普通にAcrobat Readerで開いてみたら

PDFファイルからテキスト抽出6

最近のスキャナは便利になったな〜（涙目）
フタを開けてみれば、あんまり脳みそを使ってなかったNの、骨折り損のくたびれもうけでした。

それでもすごく勉強になったので感謝。活用します。
というか、2010年の記事なので、単にNが間抜けだっただけです。
参考先：Macの標準機能で、PDF書籍をテキストファイルに変換する

【ハートブレーン】https://blog.heart-kokoro.net/

PC・スマホ, お知らせ

【ハートブレーン】https://heartbrain.net

最後までご覧いただき、ありがとうございました。
よろしければ、SNSでのシェアやランキングなど、応援よろしくお願いします。

Webサイト・CGIランキング

メールでのお問合せ・お見積りはコチラ