今天給大家分享一下使用java處理pdf文件,包括提取pdf文本、提取pdf圖片、pdf轉圖片三種操作。
主要使用到的庫是apache開源的pdfbox,目前最新版本是2.0.x,網上的資料一般是1.8.x或者2.0.x的。如果是要處理pdf,推薦使用。如果是要生成pdf,推薦使用itext,有網友說pdfbox對中文支持不好,我還沒嘗試,只用過itext還是很棒的。
官網對pdfbox的介紹:
接下來介紹如何使用pdfbox。
首先你肯定要創建maven項目,添加pom依賴,這裡一共用到四個依賴:
然後創建工具類,寫方法就可以(以下只粘貼部分代碼,具體內容可查看文章最後給出的分享鏈接)。
提取pdf中的文本
提取pdf中的圖片
pdf轉圖片
將每一頁pdf轉換成一張圖片,這個很實用。
為了頁面更美觀,所以以上代碼都以圖片形式展示,如果需要查看源文件,可以去github地址:
https://github.com/zhouyc/sharecode/blob/master/com/zyc/util/PdfTest.java
下次再給大家分享如何使用itext生成pdf文件。