2022-11-25 20:06:35

如果
pdf是图片转化来的,就不会识别的。你还不如直接把pdf保存成jpg图片,然后用ocr软件直接识别。再一个如果pdf底纹太重的话,也识别不了的。
pdf有一种是word文本直接转成pdf的,这种方法的pdf再软化成word就非常方便。还有一种pdf是photoshop之类的图像软件制作的,这种方式制作的pdf只能再转换成图片,然后再用ocr识别。
方正ocr是一个比较好用的,我的印刷厂经常会排人家拿现成的书,我就让打字员用扫描仪扫描,保存成jpg格式的图片,然后就用方正ocr识别。
另外office 2003及以后的所有版本,只要是安装企业完全版,并且在安装时选择自定义,就都有图像识别成word文档的功能。这个功能在开始-程序-office -office 工具中。
pdf转换word,都成了乱码了,试了很多软件也不行~ 在...

当时我也碰到了这个难题,最后是这么解决的:
1.要用adobe reader打开要转换的pdf文件,选择文件---打印,打开的打印设置窗口中将"打印机"栏中的名称设置为microsoft office document image wiriter.确认后将该pdf文件输入为:tif格式的虚拟打印机.
2如果没找到虚拟打印机microsoft office document image wiriter 是你在安装office时没有安装这个组件.再此使用office安装盘添加一下就行.
3运行microsoft office document image wiriter打开刚保存的tif文件.选择工具将文本发送到word菜单.在弹出窗口中选择---在输出时保持图片版式不变.确认后系统提示--必须在执行此操作之前重新运行ocr....不用管它,确认就行.
好啦,完成了,但是需要说明的是这个转换出来的识别率不完美需要后期进行排版加工.
另外,你要想直接更改pdf的内容,可以用汉王文本pdf的,这个软件可以直接更改pdf~
我的pdf文件转换成word之后都是乱码,这是怎么回事呀...

不知用的是什么软件?
一、pdf原文件格式不清晰、杂点多,可以重新处理原稿,重新扫描生成或找寻其它清晰版本;
二、页面倾斜角度过大,在转换识别软件中一般会有页面倾斜校正一项;
三、转换识别时语言要根据内容时行设置,如英语或简体中文。