有谁知道怎么提取PDF的文字内容么，不能用第三方包。

铜臂阿铁木 2012-03-30 11:57:36

我苦逼了很久才解析出英文和数字。

但是多字节的还不能成功……蛋疼。

谁有这方面经验么？

主要是提取PDF中的文字，需要能提取中文等多字节文字，当然了英文和数字标点什么的也要能够提取。
不能使用第三方的工具包。只能二进制解析。

有经验的大神，指一条明路吧。

...全文

2875 55 打赏收藏转发到动态举报

写回复

用AI写文章

55 条回复

切换为时间正序

请发表友善的回复…

发表回复

huimark 2012-05-05

打赏
举报

亲，用xpdf 这个第三方包噻，开源滴

铜臂阿铁木 2012-04-09

打赏
举报

你们说风凉话

铜臂阿铁木 2012-04-09

打赏
举报

你们说风凉话

crackdung 2012-04-09

打赏
举报

看你能等多久

lwglucky 2012-04-08

打赏
举报

搞这个东西有啥商业价值？？
这个东西逆向工程是王道

just_swizard 2012-04-06

打赏
举报

1、看有没开源的这方面的软件，然后搞来分析源码
2、找关于pdf结构的文档，根据结构自己解析
3、反编译然后分析代码吧骚年

乱码神马的，无责任猜测或许是经过压缩的字符？总之还是要找文档看这些乱码是咋出来的，然后才好还原~~

dotnet90 2012-04-06

打赏
举报

很好鼓励

赵4老师 2012-04-05

打赏
举报

Google Desktop软件自带pdftotext.exe

铜臂阿铁木 2012-04-05

打赏
举报

[Quote=引用 47 楼的回复:]

不让你用第三方的人是混蛋，喊他来做就行了
[/Quote]

哈哈不能这么说。其实也是有原因的，因为要卖自己的产品嘛，只能这么自己来整了。

Max蚊子 2012-04-05

打赏
举报

不让你用第三方的人是混蛋，喊他来做就行了

铜臂阿铁木 2012-04-05

打赏
举报

[Quote=引用 45 楼的回复:]

引用 42 楼的回复:

Google Desktop软件自带pdftotext.exe

哦？这个license是什么？我刚刚google了一下，没找到license信息。
[/Quote]

晕，GNU的License。。。这个是不能用的。

铜臂阿铁木 2012-04-05

打赏
举报

[Quote=引用 42 楼的回复:]

Google Desktop软件自带pdftotext.exe
[/Quote]

哦？这个license是什么？我刚刚google了一下，没找到license信息。

铜臂阿铁木 2012-04-05

打赏
举报

[Quote=引用 43 楼的回复:]

呵呵，你们公司估计不是做插件应用的就是卖自己产品的。
[/Quote]

卖自己产品的哈哈哈。

不然也不会有这样的需求。

Ninjas_In_Pyjamas 2012-04-05

打赏
举报

呵呵，你们公司估计不是做插件应用的就是卖自己产品的。

铜臂阿铁木 2012-04-03

打赏
举报

感谢楼上这么多人回复了，但是公司上的事儿不是说用第三方就用第三方的了。
我研究下吧，研究完了上个apache license，省的其他人再去研究这个了。其他license太蛋疼了，都是个人免费商业收费的。

我先结贴了，大家等我好消息。

足球中国 2012-04-02

打赏
举报

pdf文件里可以直接设置具体某些文字的编码方式。

如果你只是为了提取文件。了解一下pdf文件结构。不必要花这么久时间去问应该也写的差不多了。
如果要提取pdf图片上的文字。那需要ocr了。

orochiheart 2012-04-02

打赏
举报

为什么不用？不用白不用自己写多累呀

lyyyuna 2012-04-02

打赏
举报

[Quote=引用 7 楼的回复:]

我记得研究生都用过的PDF论文都是用代码写的有一个工具。。你可以去参考那个工具的WIN开头的好像。。
[/Quote]

研究生博士都用的LaTeX，windows下用的是winedt编辑器。

劼哥stone 2012-04-02

打赏
举报

PDFSharp也不能用么，C#完全开源的组件，你自己研究明白了，直接把功能拿出来用总可以了吧。

bcc222 2012-04-02

打赏
举报

用个混淆器，就说这个东西是自己写的不就行了

python 读取pdf文件有3个扩展包 pdfminer3k（python2中为pdfminer）、fitz和pymupdf 1.pdfminer3k 读取并获得pdf文档中的信息： from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManage...

读取word pdf中的文字用第三方组件 pdfbox 和 poi

因为爬虫爬到的字段不是很全，需要去解析PDF来获取一部分字段，于是就有了这篇博客一.环境配置因为之前的工程是在py2的基础上，本次打算使用py3，于是自己先把py3的环境配置好，个人比较喜欢anaconda，因为内置了很多需要的第三方包，在装一些其他包的时候难免会用到一些依赖包，而anaconda中恰好自带了一部分。（win，mac，linux都有，需要的自行下载安装），安装anacond...

在项目中，遇到了一个变态的需求，要我们在后台生成一个pdf文件，格式又很复杂，想了想如果自己手动利用iText绘制一个pdf，不太现实，通过查找资料后，发现了一种方法：利用itextpdf+adobe acrobat+pdf模板生成pdf文件要实现这个功能，我使用了这一个第三方包了：itextpdf.jar 还需要adobe acrobat这个软件，主要用来制作P

110,545

社区成员

642,580

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章