恍惚面對世界
像一些直接網上下載來的PDF文件,譬如下圖的這個PDF文檔,它的原始格式就是word。
新版的office是支持直接打開並轉換PDF的,不過往往會有這個提示。超出word支持的頁面大小,無法打開。你可以先試試。
word打開不行,那用acrobat的文字識別功能。先識別一下文檔。
基本上這種都能直接識別出文字,識別率還是蠻高(因為文檔文字居多,也沒啥難度)咱們直接複製到記事本去一下格式,再粘貼到word裡面。效果還是蠻不錯。
但就不要識別後直接用acrobat直接另存為word了,這樣沒有效果。
會出現一些識別錯誤的現象,這當然也在所難免的。還是需要對比原文檔來修改更正一下。另外字體原格式和排版肯定是要犧牲了。
我們來將難度提高一下。掃描件PDF。
一樣還是上面的識別文檔再到word。然後是下圖這樣子。
文檔複雜時acrobat便不行了,畢竟OCR文字識別並不是acrobat的強項。
這裡我們可以用ABBYY這個軟件來進行PDF轉換,就目前來說它可算是OCR文字識別界中的佼佼者。
直接拖拽進來讓它自動識別就可以了,有三百多頁,過程有點久。它會直接掃描PDF文檔的圖片識別出文字。並且此工具還較大程度上保留原始格式的樣式和編排。
識別完成後直接將它另存為word文檔下。
效果還是非常的好。
IT小眾
在回答您的問題之前,我們首先要搞清楚一個事情,就是你需要轉換的PDF文件時怎麼來的?
PDF文件的生成其實就是一個轉化的過程,一般工作過程中就由下列三種途徑:
①word文檔自接轉化(導出)生成;
②多個pdf合併成一個pdf文檔;
③圖片(單張或者多張)合併成pdf文檔。
一、直接轉化
常用的思路就是這兩種,希望我的回答能夠幫助到您。