谷姐:我们都是谷歌迷
We are all Google fans

利用轻量服务器搭建pdf在线工具箱(支持OCR!!!支持OCR!!!)-lixiaofei

Rate this post

和昨天发的不一样!!!!今天发的这个支持OCR!!!!!

前两天需要压缩一个pdf文件,由于pdf中涉及到了一些个人信息,不想使用在线的网站的压缩。下载了几个离线的压缩工具,大部分居然都需要收费,虽然后来找到了一个免费的工具搞定了这件事,不过想到后面可能还会碰到这样的事情,因此萌生了自己做一个在线压缩pdf的网站的想法。查阅了相关资料,最后借助ghostscript 实现了我的需求,等于是站在巨人的肩膀上吧。不过有mjj觉得网站功能太单调了,还有mjj想要OCR的功能,我看了一下ghostscript的文档,发现ghostscript是支持OCR的,那还等什么,集成就完事了。如果mjj们觉得有用的话,给我的github仓库https://github.com/lixiaofei123/pdftoolbox点一个star吧。由于新的工具网站不仅仅是只支持pdf压缩,现在也支持OCR,后面可能还会增加别的功能,因此我将原来的pdfcomress仓库换成了pdftoolbox(PDF工具箱)。

下面是新版PDF工具箱的首页

先说安装。首先要安装PDF工具箱,肯定要购买一台服务器,这里我强烈推荐腾讯云的轻量服务器,目前还在秒杀活动,2C4G的配置一年只需要74元。秒杀地址我就不放了,相信mjj们都可以找到

然后选择【地域】和【镜像】,【地域】选择距离自己最近的,【镜像】选择Docker,当然如果自己会安装docker的话,也可以尝试自己安装。我这里为了方便,就直接选择自带的docker镜像了

购买了服务器以后,然后配置密钥之类的,再用ssh终端工具连接上。这些就不讲了,相信mjj们比我熟悉。这里我假设mjj们已经安装好了docker环境。

我把程序打包成了Docker镜像,每次提交都用github action自动构建Docker镜像并自动push到docker仓库里。如果mjj们还不放心的话,可以访问我的github仓库https://github.com/lixiaofei123/pdftoolbox,里面有dockerfile,可以自行构建镜像。

用docker安装,那自然是十分简单,几行命令就搞定了

mkdir -p /data/pdftoolbox/input
mkdir -p /data/pdftoolbox/output
docker run -d --name pdftoolbox --restart=always -p 8082:8082 -v /data/pdftoolbox/input:/opt/pdftoolbox/input-v /data/pdftoolbox/output:/opt/pdftoolbox/outputmrlee326/pdftoolbox

其中/opt/pdftoolbox/input是用来放置用户上传文件的目录,/opt/pdftoolbox/output是用来放转换后的文件的目录,建议将其挂载在宿主机上,这样就方便后面清理文件了。有能力的话,可以自己写一个定时脚本来清理过期的文件。

如果上面执行没有报错的话,那么基本上就已经启动成功了,此时访问ip:8082就可以看到首页了。

先来试用一下pdf压缩功能。在低质量模式下,可以将pdf的体积压缩到原来的1/4大小。

pdf压缩主要针对的是包含图片比较多的pdf,如果原pdf中基本上都是文字的话,那么压缩的效果就不太理想。因为基本上没压缩的空间了。

再来试一下OCR功能,我是从专利网上随便下载了一个pdf进行测试的。这个功能同样是基于ghostscript来实现的。先激活【PDF文字提取】选项,然后根据需要来选择额外支持的语言,目前内部默认支持简体中文和英文,因此基本上不需要选择。点击上传文件,就会自动进行转换,如果机器的性能比较低的话,这一步可能会比较慢,请耐心等待几分钟。等下面的进度条全部走完,并出现【点击下载】按钮,说明转换完毕,这时候点击下载即可。

如果需要配置HTTPS的话,相信这么简单的东西,mjj自己都会配置,我就不班门弄斧了。通过上面的过程,我们就有了一个属于自己的在线pdf压缩网站,这样也不用担心自己的个人信息被别人保存,同时更换电脑的话也不需要重新安装软件。

热议
推荐楼 FreeDog 昨天08:24

离线压缩……adobe不香吗…… 没搞懂

推荐楼 告辞 昨天00:50

大佬是个好人,usage从买服务器开始教,还不放aff

推荐楼 h20 昨天00:28

很遗憾的告诉你,我用QQ来OCR

2楼 马博士 昨天00:26

技术帖顶

3楼 GoogleCloud 昨天00:27

Mark一下

5楼 lixiaofei 昨天00:28

居然可以发链接了,感动

6楼 lixiaofei 昨天00:29

冲啊 让阅读量上1000

7楼 b66667777 昨天00:29

支持一下

8楼 Nnag 昨天00:30

冲啊

9楼 greencloudvps 昨天00:30

支持一下

10楼 lixiaofei 昨天00:30

很遗憾的告诉你,我用QQ来OCR

这么巧,我也是

12楼 我是坏虫 昨天00:32

还不如给雷猴子付费呢

13楼 lskz 昨天00:39

我一般是直接转word了

14楼 lixiaofei 昨天00:40

W4ter 发表于 2021-9-17 00:32
我猜你下一个应该要发webrtc70吧

说起这个,去年编译webrtc编译到吐血。

15楼 告辞 昨天00:50

大佬是个好人,usage从买服务器开始教,还不放aff

16楼 lixiaofei 昨天00:55

大佬是个好人,usage从买服务器开始教,还不放aff

mjj都人手轻量服务器了

17楼 用户 昨天02:08

后排支持

18楼 无时崩溃 昨天07:59

后排支持

19楼 yy520 昨天08:05

晚点搭个来玩玩

20楼 所長 昨天08:15

技术贴mark一下

22楼 qqab 昨天08:25

我是用wps 来ocr

23楼 dollaring 昨天08:32

感谢分享,把成品发出来看看啊

24楼 lixiaofei 昨天08:50

感谢分享,把成品发出来看看啊

在论坛里发自己的地址,怕有大佬教我做人

25楼 littlemjj 昨天08:51

感谢分享,智齿

26楼 lixiaofei 昨天10:15

dd

27楼 lixiaofei 昨天14:57

28楼 含风 昨天16:12

我一般用TIM来OCR

29楼 lixiaofei 昨天17:33

含风 发表于 2021-9-17 16:12
我一般用TIM来OCR

tim可以用来识别pdf吗,没用过,qq好像只能图片。

30楼 小穴儿 昨天19:37

大佬 docker有arm64的码?

32楼 tianzi1981 5小时前

甲骨文ARM新用法?

33楼 lixiaofei 5小时前

tianzi1981 发表于 2021-9-18 10:47
甲骨文ARM新用法?

刚申请的信用卡,到时候我也搞一个arm的免费机器

34楼 小学生 1小时前

不明白评论里为什么这么多阴阳怪气的人,楼主分享自己的东西,你们用得到就用,用不到可以不回复,非要秀一下自己的优越感?这样的人越多,论坛以后大神越少

35楼 yl1677866238 半小时前

OCR当然要用ABBYY

36楼 occ 2分钟前

好东西,支持一下

申明:本文内容由网友收集分享,仅供学习参考使用。如文中内容侵犯到您的利益,请在文章下方留言,本站会第一时间进行处理。

未经谷姐允许不得转载:谷姐靓号网 » 利用轻量服务器搭建pdf在线工具箱(支持OCR!!!支持OCR!!!)-lixiaofei
分享到: 生成海报

热门文章

评论 抢沙发

评论前必须登录!

立即登录   注册

买Google Voice认准【谷姐靓号网】

Google Voice靓号列表Google Voice自助购买
切换注册

登录

忘记密码 ?

切换登录

注册

我们将发送一封验证邮件至你的邮箱, 请正确填写以完成账号注册和激活