技術めも

PDF

テキスト取り出し

徹底攻略PDFオープンデータ。PDFMinerで始めるPDFテキスト分析。
https://qiita.com/nezuq/items/75e8366d68c66e56ff53

pdf2txt.py samples/simple1.pdf

PDFからテキストを抽出する方法
http://www.geocities.co.jp/SiliconValley-Bay/1992/tips/pdf2text.html

PDFMiner
https://github.com/euske/pdfminer

PDF Parser
https://www.pdfparser.org/
https://www.pdfparser.org/demo

ImageMagickでPDFを画像に変換する

https://firegoby.jp/archives/613
https://qiita.com/polikeiji/items/cc0929bc0171b6348f33

convert -density 600 -geometry 1000 in.pdf out.jpg