python使ってPDFデーターを読み出す方法

VBAとpython使ってPDFの中身を読み込む処理を考えてみた。

×VBA  アドビacrobatの有料ソフト入れないと難しいらしい
〇python 色々なサイトを漁ったけれどWSL環境だと極論すると以下のコマンドで実行できた。
10年遅れでpython様の素晴らしさに感動
0.$ sudo su –
1.# pip3 install pdfminer
2.# python3 /usr/local/bin/pdf2txt.py hoge.pdf” > `date +%Y%m`.txt
3.# cat YYYYMM.txt
テキストファイルを参照し、PDF内の文字が格納されていることを確認。

参考URL:
https://techacademy.jp/magazine/22374

備忘録:
よくわからないけれど、「camelot-py[cv]」をインストールしたら楽だよ!と、書かれていた方がいた。
内容をよく咀嚼せずに適当にcamelot-pyインストールしたら、pdf2txt.pyでエラー吐いて動かなくなってしまって焦った。
アンインストールして、pdfminer再インストールしたら動くようになったけれど今後のために記載。

積み残し:
有料アクロバットを利用せずに、VBAでPDFの中の値を取得する方法の調査。
→諦めました(2020年11月25日追記)

コメント

タイトルとURLをコピーしました