怎样在服务器上实现PDF的内容搜索

最近配合做工程档案资料归档工作的同事,研究开发建设工程的项目档案管理系统。同事提出需求,希望能够在软件系统内实现纸质资料的扫描、存档、查询功能。扫描成PDF格式,能够直接搜索PDF文件里面的内容。

我觉得太难,超出了我的能力范围。开发工具我用的是魔方网表,它也不支持这个功能呀。最主要的是,这个功能有点鸡肋。本身我的文件都分门别类了,要查找直接到相应的分类去找就行了。去PDF里面搜,真的没有必要。我直接跟同事说,这个功能实现不了。

查看了其他做档案管理系统的软件,发现别的公司做的软件的确有这个功能。那么我们有没有可能也实现这个功能呢?

研究了一番,终于觉得可以实现了。利用专业PDF软件ABBYY FineReader 或者Adobe Acrobat DC扫描成为双层PDF文档(文件是图像,可以100%保留原始版面效果,又可以建立索引数据库),PDF上传系统后,用百度硬盘搜索工具建立索引(百度硬盘搜索工具可以搜索PDF文件里的内容)。然后以绑定网址的形式,将百度硬盘索引开放给使用的人(互联网使用的话,还需要先将百度硬盘搜索的地址由内网IP映射为公网IP)。这样就可以实现软件系统搜索PDF内容的功能了。

想法挺好,实际操作的时候,发现百度硬盘搜索地址是127.0.0.1,怎么映射成公网IP我不会。找懂行的帮我设置,结果设置不了,必须192.168开头的IP地址才可以。我想起百度硬盘搜索还有个服务器版。网上千辛万苦找到下载地址,安装后,发现默认有127和192两种IP地址。用192的IP地址设置映射,成功了。百度硬盘搜索服务器版需要登录,安全更有保障了。


分享到:


相關文章: