2022-12-08 17:09:03

如果
pdf是图片转化来的,就不会识别的。你还不如直接把pdf保存成jpg图片,然后用ocr软件直接识别。再一个如果pdf底纹太重的话,也识别不了的。
pdf有一种是word文本直接转成pdf的,这种方法的pdf再软化成word就非常方便。还有一种pdf是photoshop之类的图像软件制作的,这种方式制作的pdf只能再转换成图片,然后再用ocr识别。
方正ocr是一个比较好用的,我的印刷厂经常会排人家拿现成的书,我就让打字员用扫描仪扫描,保存成jpg格式的图片,然后就用方正ocr识别。
另外office 2003及以后的所有版本,只要是安装企业完全版,并且在安装时选择自定义,就都有图像识别成word文档的功能。这个功能在开始-程序-office -office 工具中。
为什么从pdf上粘贴到word中的文字是乱码

问题是多种多样的:
(1). 和您用的pdf转word的软件的能力有关。但情况难以一概而论。(我曾经试过把一篇下载的文字用不同软件转换成word,一向效果最理想的软件,反而莫名其妙地完全不懂辨认,其他的则反而给出不错的效果。)
(2). pdf的内容如果写有保护(有版权的,如我的sony数码相机的说明书便是),某些软件便可能出现word的结果是乱码的情况,但有些则索性说有版权保护,不能转换成word。
(3). 有时,不乱码,但段落、内容等也可能出现或多或少的问题。
我建议您到“电驴”(verycd.com)去下载多几款软件试试,然后保留结果比较让您满意的一两款。
我的pdf文件转换成word之后都是乱码,这是怎么回事呀...

不知用的是什么软件?
一、pdf原文件格式不清晰、杂点多,可以重新处理原稿,重新扫描生成或找寻其它清晰版本;
二、页面倾斜角度过大,在转换识别软件中一般会有页面倾斜校正一项;
三、转换识别时语言要根据内容时行设置,如英语或简体中文。
pdf转成word 乱码

我也留个邮箱,但既然你都是乱码,我的也可能都是,如果我的也是的话,我就不回你了。 wangweiipp@126.com
你这pdf是因为为了保护版权,里面的字体是特有的,一般的电脑系统里面没有,我用pitstop替换,也没有找到好的字体可以识别的,pitstop这是个adobe acrobat的插件。因为没有字体所以直接复制出来都不行,是乱码,pdf转换软件并没有转错,只是我们的电脑没有那种字体所以显示不出来,要改变字体也很难,反正我没有找到,然后我试了一下orc,结果识别率并不高,有的识别能出来。如果你有耐心的话,建议你orc后自己一个个的改过来。
solid converter pdff转换成word为什么是乱码 - 百...

1。原因:电脑没有相应字体;源pdf字体代码文件比较特别,一般转换软件无法识别其代码;源pdf排版技术较复杂,word无法保证;非word文字软件排版后做成的pdf;
2。出现上述情况,一般人不太好控制,此时可以改换其他转换软件试一试。如果仍有大量乱码,可以使用ocr软件,进行光学字符识别,如尚书七号(要把pdf导出为图片tiff、jpg等格式),汉王pdf ocr,紫光th-ocr,readiris pro等等。
3。ocr也出现乱码是免不了的。具体效果可以调整,参见
http://zhidao.baidu.com/question/200604735.html