PDFBox中文乱码

zwm512327 2008-04-28
测试出错,赶紧删去,免得误导。惭愧啊
DawsonMa 2008-05-07
ZWM512327
你好!
我所有包都加了,可早读出的数据,没有一个汉字,教是英文和数字
恳请,高手指点哦。。。
zwm512327 2008-05-07
实在惭愧,不是什么高手。只不过当时我也碰到了中文乱码问题,后来解决了,而且我当时所测试的PDF文档全正确了。所以自以为是的以为解决了所以中文乱码问题。最近测试,发现还是有不能转的PDF文档,但我的问题是会抛出异常,是找不到解码直接就不不转,而不是转成乱码。到现在还没找到乱码的PDF文档,晕。找不到解码跟乱码应该还是有区别的。看了些编码的知识。了解的还不到位。不过你的问题我倒很奇怪。能发给我看看吗。
PDFBOX里的PDFStreamEngine类里下面这个方法
public void showString( byte[] string ) throws IOException
此时参数byte[] string 应该是已经把PDF中的图像等其他元素去掉剩下文本了。
把这个字节流能自己分析下,用所以可能的编码去试试应该会有发现。但我实在是看得头痛,找不出一个好的办法来重载这个方法并且测试。不知道有高手能给我提供个意见不?
上面的朋友,你能把你的代码和PDF文档发给我看下吗?

相关讨论