社区
C#
帖子详情
有谁知道怎么提取PDF的文字内容么,不能用第三方包。
铜臂阿铁木
2012-03-30 11:57:36
我苦逼了很久才解析出英文和数字。
但是多字节的还不能成功……蛋疼。
谁有这方面经验么?
主要是提取PDF中的文字,需要能提取中文等多字节文字,当然了英文和数字标点什么的也要能够提取。
不能使用第三方的工具包。只能二进制解析。
有经验的大神,指一条明路吧。
...全文
2875
55
打赏
收藏
有谁知道怎么提取PDF的文字内容么,不能用第三方包。
我苦逼了很久才解析出英文和数字。 但是多字节的还不能成功……蛋疼。 谁有这方面经验么? 主要是提取PDF中的文字,需要能提取中文等多字节文字,当然了英文和数字标点什么的也要能够提取。 不能使用第三方的工具包。只能二进制解析。 有经验的大神,指一条明路吧。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
55 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
huimark
2012-05-05
打赏
举报
回复
亲,用xpdf 这个第三方包噻,开源滴
铜臂阿铁木
2012-04-09
打赏
举报
回复
你们说风凉话
铜臂阿铁木
2012-04-09
打赏
举报
回复
你们说风凉话
crackdung
2012-04-09
打赏
举报
回复
看你能等多久
lwglucky
2012-04-08
打赏
举报
回复
搞这个东西有啥商业价值??
这个东西逆向工程是王道
just_swizard
2012-04-06
打赏
举报
回复
1、看有没开源的这方面的软件,然后搞来分析源码
2、找关于pdf结构的文档,根据结构自己解析
3、反编译然后分析代码吧骚年
乱码神马的,无责任猜测或许是经过压缩的字符?总之还是要找文档看这些乱码是咋出来的,然后才好还原~~
dotnet90
2012-04-06
打赏
举报
回复
很好 鼓励
赵4老师
2012-04-05
打赏
举报
回复
Google Desktop软件自带pdftotext.exe
铜臂阿铁木
2012-04-05
打赏
举报
回复
[Quote=引用 47 楼 的回复:]
不让你用第三方的人是混蛋,喊他来做就行了
[/Quote]
哈哈 不能这么说。其实也是有原因的,因为要卖自己的产品嘛,只能这么自己来整了。
Max蚊子
2012-04-05
打赏
举报
回复
不让你用第三方的人是混蛋,喊他来做就行了
铜臂阿铁木
2012-04-05
打赏
举报
回复
[Quote=引用 45 楼 的回复:]
引用 42 楼 的回复:
Google Desktop软件自带pdftotext.exe
哦?这个license是什么?我刚刚google了一下,没找到license信息。
[/Quote]
晕,GNU的License。。。这个是不能用的。
铜臂阿铁木
2012-04-05
打赏
举报
回复
[Quote=引用 42 楼 的回复:]
Google Desktop软件自带pdftotext.exe
[/Quote]
哦?这个license是什么?我刚刚google了一下,没找到license信息。
铜臂阿铁木
2012-04-05
打赏
举报
回复
[Quote=引用 43 楼 的回复:]
呵呵,你们公司估计不是做插件应用的就是卖自己产品的。
[/Quote]
卖自己产品的 哈哈哈。
不然也不会有这样的需求。
Ninjas_In_Pyjamas
2012-04-05
打赏
举报
回复
呵呵,你们公司估计不是做插件应用的就是卖自己产品的。
铜臂阿铁木
2012-04-03
打赏
举报
回复
感谢楼上这么多人回复了,但是公司上的事儿不是说用第三方就用第三方的了。
我研究下吧,研究完了上个apache license,省的其他人再去研究这个了。其他license太蛋疼了,都是个人免费商业收费的。
我先结贴了,大家等我好消息。
足球中国
2012-04-02
打赏
举报
回复
pdf文件里可以直接设置具体某些文字的编码方式。
如果你只是为了提取文件。了解一下pdf文件结构。不必要花这么久时间去问应该也写的差不多了。
如果要提取pdf图片上的文字。那需要ocr了。
orochiheart
2012-04-02
打赏
举报
回复
为什么不用? 不用白不用 自己写多累呀
lyyyuna
2012-04-02
打赏
举报
回复
[Quote=引用 7 楼 的回复:]
我记得研究生都用过的PDF论文都是用代码写的 有一个工具。。你可以去参考那个工具的WIN开头的好像。。
[/Quote]
研究生博士都用的LaTeX,windows下用的是winedt编辑器。
劼哥stone
2012-04-02
打赏
举报
回复
PDFSharp也不能用么,C#完全开源的组件,你自己研究明白了,直接把功能拿出来用总可以了吧。
bcc222
2012-04-02
打赏
举报
回复
用个混淆器,就说这个东西是自己写的不就行了
加载更多回复(32)
python
第三方
包
Chardet,字符编码探测器,可以自动检测文本、网页、xml的编码。 colorama,主要用来给文本添加各种颜色,并且非常简单易用。 Prettytable,主要用于在终端或浏览器端构建格式化的输出。 difflib,Python标准库,计算文本差异 Levenshtein,快速计算字符串相似度。 fuzzywuzzy,字符串模糊匹配。 esmre,正则表达式的加速器。 shor...
python
提取
pdf
文件中的信息
python 读取
pdf
文件有3个扩展
包
pdf
miner3k(python2中为
pdf
miner)、fitz和pymu
pdf
1.
pdf
miner3k 读取并获得
pdf
文档中的信息: from
pdf
miner.
pdf
parser import
PDF
Parser,
PDF
Document from
pdf
miner.
pdf
interp import
PDF
ResourceManage...
读取word
pdf
中的
文字
用
第三方
组件
pdf
box 和 poi
读取word
pdf
中的
文字
用
第三方
组件
pdf
box 和 poi
Python使用
pdf
miner解析
PDF
因为爬虫爬到的字段不是很全,需要去解析
PDF
来获取一部分字段,于是就有了这篇博客 一.环境配置 因为之前的工程是在py2的基础上,本次打算使用py3,于是自己先把py3的环境配置好,个人比较喜欢anaconda,因为内置了很多需要的
第三方
包
,在装一些其他
包
的时候难免会用到一些依赖
包
,而anaconda中恰好自带了一部分。(win,mac,linux都有,需要的自行下载安装),安装anacond...
java使用
pdf
模板生成
pdf
文件
在项目中,遇到了一个变态的需求,要我们在后台生成一个
pdf
文件,格式又很复杂,想了想如果自己手动利用iText绘制一个
pdf
,不太现实,通过查找资料后,发现了一种方法: 利用itext
pdf
+adobe acrobat+
pdf
模板生成
pdf
文件 要实现这个功能,我使用了这一个
第三方
包
了:itext
pdf
.jar 还需要adobe acrobat这个软件,主要用来制作P
C#
110,545
社区成员
642,580
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章