有谁知道怎么提取PDF的文字内容么,不能用第三方包。

铜臂阿铁木 2012-03-30 11:57:36
我苦逼了很久才解析出英文和数字。

但是多字节的还不能成功……蛋疼。

谁有这方面经验么?

主要是提取PDF中的文字,需要能提取中文等多字节文字,当然了英文和数字标点什么的也要能够提取。
不能使用第三方的工具包。只能二进制解析。

有经验的大神,指一条明路吧。
...全文
2875 55 打赏 收藏 转发到动态 举报
写回复
用AI写文章
55 条回复
切换为时间正序
请发表友善的回复…
发表回复
huimark 2012-05-05
  • 打赏
  • 举报
回复
亲,用xpdf 这个第三方包噻,开源滴
铜臂阿铁木 2012-04-09
  • 打赏
  • 举报
回复
你们说风凉话
铜臂阿铁木 2012-04-09
  • 打赏
  • 举报
回复
你们说风凉话
crackdung 2012-04-09
  • 打赏
  • 举报
回复
看你能等多久
lwglucky 2012-04-08
  • 打赏
  • 举报
回复
搞这个东西有啥商业价值??
这个东西逆向工程是王道
just_swizard 2012-04-06
  • 打赏
  • 举报
回复
1、看有没开源的这方面的软件,然后搞来分析源码
2、找关于pdf结构的文档,根据结构自己解析
3、反编译然后分析代码吧骚年

乱码神马的,无责任猜测或许是经过压缩的字符?总之还是要找文档看这些乱码是咋出来的,然后才好还原~~
dotnet90 2012-04-06
  • 打赏
  • 举报
回复
很好 鼓励
赵4老师 2012-04-05
  • 打赏
  • 举报
回复
Google Desktop软件自带pdftotext.exe
铜臂阿铁木 2012-04-05
  • 打赏
  • 举报
回复
[Quote=引用 47 楼 的回复:]

不让你用第三方的人是混蛋,喊他来做就行了
[/Quote]

哈哈 不能这么说。其实也是有原因的,因为要卖自己的产品嘛,只能这么自己来整了。
Max蚊子 2012-04-05
  • 打赏
  • 举报
回复
不让你用第三方的人是混蛋,喊他来做就行了
铜臂阿铁木 2012-04-05
  • 打赏
  • 举报
回复
[Quote=引用 45 楼 的回复:]

引用 42 楼 的回复:

Google Desktop软件自带pdftotext.exe


哦?这个license是什么?我刚刚google了一下,没找到license信息。
[/Quote]

晕,GNU的License。。。这个是不能用的。
铜臂阿铁木 2012-04-05
  • 打赏
  • 举报
回复
[Quote=引用 42 楼 的回复:]

Google Desktop软件自带pdftotext.exe
[/Quote]

哦?这个license是什么?我刚刚google了一下,没找到license信息。
铜臂阿铁木 2012-04-05
  • 打赏
  • 举报
回复
[Quote=引用 43 楼 的回复:]

呵呵,你们公司估计不是做插件应用的就是卖自己产品的。
[/Quote]

卖自己产品的 哈哈哈。

不然也不会有这样的需求。
Ninjas_In_Pyjamas 2012-04-05
  • 打赏
  • 举报
回复
呵呵,你们公司估计不是做插件应用的就是卖自己产品的。
铜臂阿铁木 2012-04-03
  • 打赏
  • 举报
回复
感谢楼上这么多人回复了,但是公司上的事儿不是说用第三方就用第三方的了。
我研究下吧,研究完了上个apache license,省的其他人再去研究这个了。其他license太蛋疼了,都是个人免费商业收费的。

我先结贴了,大家等我好消息。
足球中国 2012-04-02
  • 打赏
  • 举报
回复
pdf文件里可以直接设置具体某些文字的编码方式。

如果你只是为了提取文件。了解一下pdf文件结构。不必要花这么久时间去问应该也写的差不多了。
如果要提取pdf图片上的文字。那需要ocr了。
orochiheart 2012-04-02
  • 打赏
  • 举报
回复
为什么不用? 不用白不用 自己写多累呀
lyyyuna 2012-04-02
  • 打赏
  • 举报
回复
[Quote=引用 7 楼 的回复:]

我记得研究生都用过的PDF论文都是用代码写的 有一个工具。。你可以去参考那个工具的WIN开头的好像。。
[/Quote]

研究生博士都用的LaTeX,windows下用的是winedt编辑器。
劼哥stone 2012-04-02
  • 打赏
  • 举报
回复
PDFSharp也不能用么,C#完全开源的组件,你自己研究明白了,直接把功能拿出来用总可以了吧。
bcc222 2012-04-02
  • 打赏
  • 举报
回复
用个混淆器,就说这个东西是自己写的不就行了
加载更多回复(32)

110,545

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧