扫描件PDF别硬转,先看是不是图片
如果你拖进转换工具的PDF打开就全是图——比如合同扫描件、发票截图、手写笔记PDF,那直接点‘转Word’大概率出来一堆乱码或空白段落。这类文件本质是图片,得先走OCR识别。我们试过一份12页的A4扫描合同(约8.3MB),用普通转换器输出后连标题都识别成‘H1256’,但换用支持中文OCR的工具,选‘保留原文格式’后,表格线对齐了,编号也自动续上了。推荐试试PDF转Word页面里的‘扫描件模式’,它会自动调用图像识别引擎,比默认模式多花10秒,但能避开70%的段落堆叠问题。
多栏排版一转就散,手动切分更稳
学术论文、宣传册、双语对照PDF常分两栏甚至三栏。这类文件转完Word,经常出现左栏文字跳到右栏末尾、项目符号断在半路、图片跑到页眉上。我们对比了5个工具,发现关键在‘页面分割策略’:默认按整页识别,但实际排版时,左右栏是独立文本流。解决办法很简单——先把PDF用Adobe Acrobat或免费在线工具拆成单栏页面(比如把双栏PDF每页切成左右两个A5区域),再分别上传转换。实测一份IEEE会议论文(含公式和参考文献),拆分后再转,参考文献序号没乱,公式编号也保住了。
字体缺失不是bug,是PDF自带的‘哑巴信息’
有些PDF看着正常,转完Word却发现中文字体全变成宋体,英文却成了Calibri,加粗消失、行距变大。这不是转换器抽风,而是原PDF里用了未嵌入的字体(比如设计师用的思源黑体、霞鹜文楷)。我们查过一份企业年报PDF属性,发现它只嵌入了英文字体,中文字体全靠系统临时调用。这种情况下,别指望自动还原。建议转完后立刻按Ctrl+H批量替换:把所有‘宋体’替换成你文档要求的字体;如果标题用了特殊字体且必须保留,不如直接截图插入——毕竟一页里就三四个标题,比折腾字体映射快得多。顺便提醒:转前用PDF压缩工具预处理下,有时能强制触发字体嵌入检查,小概率救回一部分格式。

意见反馈
提交成功