如何利用Python將PDF文件轉化爲txt文件?

Jamal123


這個實現起來不難,無非就是兩步,先利用python解析pdf文件,提取出文本內容,再將文本內容寫入到txt文件中,下面我大概介紹一下,如何利用python將pdf文件轉化為txt文件,實驗環境win10+python3.6+pycharm5.0,主要用到pdfminer3k(主要用於解析pdf文件)這個包,主要內容如下:

為了方便演示,我這裡新建了一個test.pdf文件,主要內容如下:

1.安裝pdfminer3k,打開一個cmd窗口,直接輸入命令“pip install pdfminer3k”就行,如下:

2.安裝成功後,我們就可以利pdfminer3k進行解析了,整個過程不難,主要就是創建pdf解釋器,然後利用解析器解析出文本內容就行,主要代碼如下(由於代碼量比較多,所以這裡截取了2張圖片):

運行這個程序,程序結果截圖如下,已經成功解析出pdf文件的文本內容:

3.程序正確運行後,會在當前目錄下會生成一個text.txt文件,打開這個txt文件,內容如下,和pdf文件內容一致,說明已經成功轉化:

至此,我們就完成了利用python將pdf文件轉化為txt文件。就整個過程來看,其實不難,就是兩步,先解析pdf文件內容,再寫入txt文件中就行,只要你有一定的python基礎,熟悉一下操作,很快就能掌握的,網上也有相關教程,感興趣的可以搜索一下,希望以上分享的內容能對你有所幫助吧。


分享到:


相關文章: