Excel催化劑-一鍵批量提取pdf文件信息(圖片、表格、文本等)

日常辦公場合中,除了常規的Excel、Word、PPT等文檔外,還有一個不可忽略的文件格式是pdf格式,而對於想從pdf文件中獲取信息時,常規方法將變得非常痛苦和麻煩。此篇給大家送一pdf文件提取信息大集合,幾乎可涵蓋日常pdf文件提取信息的所有場景。

業務場景

在日常工作中,為了保護數據免於被二次利用和為了在文件分發過程中,可以不受其他電腦因為軟件版本不同等原因導致文件不能打開或打開格式版面大變形,將要分發的文件,無論是Excel、Word或PPT,轉為pdf格式,是一個不錯的主意。

在pdf文件中,可以按原樣保留所有的信息和排版,用戶無論什麼版本的OFFICE甚至都不需要安裝OFFICE軟件,只需安裝一個小小的PDF瀏覽器,即可完成文件的瀏覽。

但也正因為其簡單和不可編輯性,導致需要提取裡面的內容時,變得異常複雜。好一點的情形是在轉換後,文件仍然保持文本格式,可以複製其中的文本出來。

但大量的pdf文件,僅靠手工去複製也是變得很不現實和效率低下。就算有專門的轉換軟件,不是需要付費就是隻能轉換一小部分內容或只能一次性轉換一個文件,並且轉換後的格式可能也會大變形。

在Excel催化劑的世界中,所有數據都是有利用的價值,包括純圖片的格式。如何能夠快速、批量化地從非結構化的數據中提取到想要的信息,是十分考驗技術水平的。

而Excel催化劑的初心就是為了將這個技術門檻不斷地降低,最好能夠降至所有普通Excel用戶都能掌握。使用Excel催化劑的輔助,猶如化學反應中添加了催化劑一般,反應速度、性能提升百倍、千倍。

今天很高興告訴大家,在處理pdf文件中,Excel催化劑能幫到大家很多很多。

實現功能

本想著一個個功能製作,並接連地發佈出來,但後來想想,還是要有節制,讓相同、相近的功能聚集一起,閱讀時更有連貫性,同樣也為了紀念第88波這樣一個很有寓意的數字。

功能比較多,實現也比較簡單,不作詳盡展開,後期會做視頻錄製給大家更為直觀和更易學習掌握。


Excel催化劑-一鍵批量提取pdf文件信息(圖片、表格、文本等)


功能入口

功能一:批量PDF轉jpg

只需選定pdf文件的路徑,即可將其批量轉換為jpg格式,此處的轉換是pdf文件中一頁紙轉換一張圖片,多頁轉換多張,最後的圖片有後綴遞增序號來區分。

此場景可以更進一步保護pdf裡的信息,或者用於圖片OCR文本識別時的提取,例如上一波用到的百度AI接口可以識別圖片文本信息,對於格式規範的如增值稅發票、身份證等,提取出來的文本是結構化的文本,即可識別出對應的內容屬於什麼字段下的內容。

一般的人工智能OCR識別都需要先轉換為圖像才能調用接口來識別,沒有現成的直接對pdf文件的識別。


Excel催化劑-一鍵批量提取pdf文件信息(圖片、表格、文本等)


pdf文件轉換後為圖片

功能二:批量提取文本

若pdf文件只是Excel、Word、PPT等文件簡單另存為pdf格式時,pdf文件會保留著可複製文本的特性,若使用人工智能OCR接口識別不理想,可使用此功能進行直接文本的提取。

人工智能OCR接口一般來說是付費的,需聯網的,準確性也沒有那麼傳說和期待地那麼高,如果pdf文件為文本型的,建議首先直接使用此提取文本功能,可離線操作,無次數限制,提取效率和性能也高。


Excel催化劑-一鍵批量提取pdf文件信息(圖片、表格、文本等)


例如這樣一個WORD直接轉換pdf的文件,適合直接提取文本

Excel催化劑-一鍵批量提取pdf文件信息(圖片、表格、文本等)


提取結果,細分到頁碼和頁內行號等信息保留

功能三:批量提取內部圖片

有時可能需要從pdf文件中提取其內部的圖片文件,而非將整個pdf文件的一頁轉換為圖片,此功能在此特別適用,可將pdf內保存的圖片提取出來。


Excel催化劑-一鍵批量提取pdf文件信息(圖片、表格、文本等)


在pdf文檔內有圖片,只想提取圖片

在一個pdf文件中,有多張圖片在內時,使用頁碼數和圖片序號區分。


Excel催化劑-一鍵批量提取pdf文件信息(圖片、表格、文本等)


圖片提取出來後效果

功能四:批量提取內部表格數據

若pdf文檔內含規範的表格數據,而最終僅僅想提取這個表格數據在Excel上進行再處理加工,可嘗試使用提取表格功能。

pdf文件內部沒有表格的概念,它不過是在一張大畫布上按座標位置畫上內容而已,所以有可能提取的準確性有限。

下面以一個測試文件簡單講解下原理。見下圖:


Excel催化劑-一鍵批量提取pdf文件信息(圖片、表格、文本等)


提取的pdf源文件

在一個pdf文件上有多個表格,需要手動選擇哪個表格內容是要提取的。


Excel催化劑-一鍵批量提取pdf文件信息(圖片、表格、文本等)


在一個pdf文件上有多個表格,點上方列表後可瀏覽表格結構

此功能分單個文件的提取和多個文件提取兩組,當使用多個文件提取時,請務必保證pdf文件的結構是一致的,如提取的表格都是從開頭起的第幾個表格。並且表格的字段名和字段位置和數量都是一致的,才能提取成功。


Excel催化劑-一鍵批量提取pdf文件信息(圖片、表格、文本等)


測試過程中,直接複製多個文件,肯定一致的文件表格結構

結語

在Excel催化劑的88波功能中,相信也可以一窺在Excel環境下的數據處理的靈活性和效率性之高。也可以看到,從數據到見解之間,是一條多麼深的鴻溝,需要許多的技術才能填平這個鴻溝,順利從原始數據走到我們需要的數據報表、數據洞察的位置。

很高興,Excel催化劑一直在努力,不斷地為大家輸送高性能、強大威力的數據處理及分析的能力,讓大家走得更輕鬆,更快地到達數據的終點。


分享到:


相關文章: