怎樣在服務器上實現PDF的內容搜索

最近配合做工程檔案資料歸檔工作的同事,研究開發建設工程的項目檔案管理系統。同事提出需求,希望能夠在軟件系統內實現紙質資料的掃描、存檔、查詢功能。掃描成PDF格式,能夠直接搜索PDF文件裡面的內容。

我覺得太難,超出了我的能力範圍。開發工具我用的是魔方網表,它也不支持這個功能呀。最主要的是,這個功能有點雞肋。本身我的文件都分門別類了,要查找直接到相應的分類去找就行了。去PDF裡面搜,真的沒有必要。我直接跟同事說,這個功能實現不了。

查看了其他做檔案管理系統的軟件,發現別的公司做的軟件的確有這個功能。那麼我們有沒有可能也實現這個功能呢?

研究了一番,終於覺得可以實現了。利用專業PDF軟件ABBYY FineReader 或者Adobe Acrobat DC掃描成為雙層PDF文檔(文件是圖像,可以100%保留原始版面效果,又可以建立索引數據庫),PDF上傳系統後,用百度硬盤搜索工具建立索引(百度硬盤搜索工具可以搜索PDF文件裡的內容)。然後以綁定網址的形式,將百度硬盤索引開放給使用的人(互聯網使用的話,還需要先將百度硬盤搜索的地址由內網IP映射為公網IP)。這樣就可以實現軟件系統搜索PDF內容的功能了。

想法挺好,實際操作的時候,發現百度硬盤搜索地址是127.0.0.1,怎麼映射成公網IP我不會。找懂行的幫我設置,結果設置不了,必須192.168開頭的IP地址才可以。我想起百度硬盤搜索還有個服務器版。網上千辛萬苦找到下載地址,安裝後,發現默認有127和192兩種IP地址。用192的IP地址設置映射,成功了。百度硬盤搜索服務器版需要登錄,安全更有保障了。


分享到:


相關文章: