虫部落

求一个PDF文字识别的方法(已解决)

查看: 1072|回复: 17
snoopytl 发表于 2021-2-22 17:14:30 |阅读模式
下载的PDF虽然是纯文字版pdf,但复制出来是乱码,谁有方法能快速的提取文字,而不用osr识别
网上搜了很多说是缺少相关字体,可“相关的字体”太多了,一个个安太麻烦,有没有方法通过更换字体,使其变成可以识别的字体
零度空间 发表于 2021-2-22 17:35:55
ABBYYFineReader
 楼主| snoopytl 发表于 2021-2-22 20:41:41

这个还是 ocr,试过了,能解决,但不是理想解决方案
我本闲人 发表于 2021-2-22 23:10:48
另存为word文档是否可行
坏脾气先森i 发表于 2021-2-22 23:19:04
你要是把这个帖子设置为悬赏求助,得到的答案可能会更多更好(比如我现在就有一个
 楼主| snoopytl 发表于 7 天前
我本闲人 发表于 2021-2-22 23:10
另存为word文档是否可行

这个也试过,保存那叫一个乱七八糟
 楼主| snoopytl 发表于 7 天前
坏脾气先森i 发表于 2021-2-22 23:19
你要是把这个帖子设置为悬赏求助,得到的答案可能会更多更好(毕若我现在就有一个) ...

还请大佬不吝赐教!我不太会设置如何悬赏,好东西分享出来,这样才能帮到大家,不是吗?
Latin 发表于 7 天前
文件放出来我试试
 楼主| snoopytl 发表于 7 天前
Latin 发表于 2021-2-23 11:27
文件放出来我试试

请大佬试试,如果成功请告诉我具体方法,不要用ocr
https://www.90pan.com/b2348781
密码:8g3v

月亮是我掰弯的 发表于 7 天前
安装一个Adobe Acrobat XI Pro软件试试直接编辑复制
 楼主| snoopytl 发表于 7 天前
月亮是我掰弯的 发表于 2021-2-23 17:37
安装一个Adobe Acrobat XI Pro软件试试直接编辑复制

早就试过了,编辑复制,然后粘贴乱码
坏脾气先森i 发表于 7 天前
snoopytl 发表于 2021-2-23 17:03
请大佬试试,如果成功请告诉我具体方法,不要用ocr
https://www.90pan.com/b2348781
密码:8g3v

传到百度盘,我下载下来试试。这个 90pan 提示我无法下载。
 楼主| snoopytl 发表于 7 天前
坏脾气先森i 发表于 2021-2-23 20:52
传到百度盘,我下载下来试试。这个 90pan 提示我无法下载。

链接: https://pan.baidu.com/s/1iR3Wlg-DyLPGtla0EEYZuw 提取码: 32up 复制这段内容后打开百度网盘手机App,操作更方便哦
--来自百度网盘超级会员v7的分享

大佬请使出你的大招,搞定后记得教我方法,谢谢啦

坏脾气先森i 发表于 7 天前
snoopytl 发表于 2021-2-23 23:01
链接: https://pan.baidu.com/s/1iR3Wlg-DyLPGtla0EEYZuw 提取码: 32up 复制这段内容后打开百度网盘手机A ...

不会,此贴终结
安德鲁 发表于 6 天前
找一版比较清晰的再试试。

http://www.doc88.com/p-3901680564925.html

高清正版,这个应该是经过后期加工处理的。下载或者截图后OCR识别,应该错字比较少,可以试试看。

G-HiBo 发表于 6 天前
Text Scanner
柚子 发表于 6 天前
可以用白描,在线识别pdf中的文字,识别精度高,速度也很快,关键是还免费。https://web.baimiaoapp.com/
 楼主| snoopytl 发表于 5 天前
看来你们都没有办法,我来公布一下我的方法吧,此方法保证最大的清晰度的同时减小了文件体积,同时也能复制文字,具体方法如下:
1.用PDF 补丁丁软件打开我上面的测试文件
2.使用“将PDF文件的页面转换为图片”功能,将所有的图片转换成黑白tiff格式
3.然后使用adobe acrobat 将这些tiff文件合成为1个pdf
4.最后使用acrobat的ocr识别、保存,示例文件原始大小为823k,处理完成的大小为567k

希望能帮到大家

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表