很多pdf文档是扫描版的,也就是图片,无法提取文字,使用很不方便。通过结合以下两个利器可以很方便的把pdf转为文本。

1. 把pdf文档转为多张图片

可以通过XpdfReader工具把pdf文档转为一组图片。 假设要把1.pdf转为一组jpg图片,放到test目录下。可以使用以下命令:

1
pdfimages -j 1.pdf test

下载地址:https://www.xpdfreader.com/download.html

2. 通过OCR识别图片中的文字

使用谷歌的OCR识别工具tesseract把文字提取出来。 把图片1.jpg转为文字保存在1.txt中,可以使用以下命令:

1
tesseract 1.jpg 1.txt -l chi_sim

后面的参数 -l chi_sim表示要转换的文字是中文。

如果想一次转换很多张图片,可以把要转换的图片文件路径写入到一个文本文件中,比如in.txt

1
2
3
4
5
6
1.jpg
2.jpg
3.jpg
4.jpg
5.jpg
6.jpg

使用以下命令一次性全部转换保存到out.txt中:

1
tesseract in.txt out.txt -l chi_sim

下载地址:https://github.com/tesseract-ocr/tesseract

搞定,收工,如有疑问或建议欢迎留言讨论。