高手进来帮忙
如何用C来实现读取doc或pdf文本文件内的文字信息(英文中文都可以),然后当作一个字符串存入text文本中啊?前提当然是doc未加密。不知是否可以实现啊?并且保留里面的“回车”信息(即段落)。
不知象网上提供的一些论文查询系统(如中国期刊网、万方等)里面的全文查询是什么原理啊?是自动将上传的pdf文件里的字符信息读取出来,还是用手动的方法事先将里面的字符存在另一个text类型中啊?
有这方面的高手能帮忙吗?
问题点数:100、回复次数:18Top
1 楼qrlvls( 空 气 )回复于 2004-12-03 21:25:02 得分 0
呵呵呵,有难度
去找找Linux下有没有开放源码吧Top
2 楼haojiubujian(没的商量)回复于 2004-12-04 19:33:38 得分 0
没有这方面的高手吗?Top
3 楼Flood1984(峰子)回复于 2004-12-04 19:58:53 得分 0
这个我不会,但我估计应该人会做,
因为网上可以下载DOC阅读器啊Top
4 楼jingqiu(金秋)回复于 2004-12-04 22:21:45 得分 0
对于Doc文档,用它的控件来开发是比较方便的。但pdf文件难度是很大的,pdf文档我不清楚,只知有的pdf文件是不能转换的。Top
5 楼haojiubujian(没的商量)回复于 2004-12-05 11:12:56 得分 0
控件?我用纯c没有控件吧!不是VC的开发环境!我是想要源代码!
pdf是那种从doc转换过来的,而不是扫描进去产生的那种!(后者是图像肯定是不行的)Top
6 楼tzk(听钟客)回复于 2004-12-05 11:22:40 得分 0
读取doc文档,还是使用VC提供的库为好。首先,doc格式是非公开的;其次,就算你知道doc格式,自己写代码来分析doc文档也很繁琐;最后,就算写出这种程序,价值也不是太高,因为doc的格式是多变的,而且前后兼容性差,也许得针对不同的doc版本开发不同的分析程序。Top
7 楼haojiubujian(没的商量)回复于 2004-12-07 13:57:39 得分 0
现在主要是必须在linux中开发,必须用纯c写代码然后编译!所以VC用不上啊!
拜托啊!没这方面的高手?失望啊!
那pdf或caj等国内格式呢?难道都不行?郁闷!
有这方面大文章或书推荐一下也是可以的啊!Top
8 楼haojiubujian(没的商量)回复于 2004-12-08 11:33:18 得分 0
顶一下,居然没多少人问津,高手在哪里?Top
9 楼realee(Frankie)回复于 2004-12-08 11:40:24 得分 0
估计没得做,应该找,看看有没有一些提供出来的函数库Top
10 楼pacman2000(pacman)(影子传说)回复于 2004-12-08 11:49:25 得分 0
这个,恐怕得找Acrobat公司,看有没有什么提供的库函数了。Top
11 楼daikaiming(坏人)回复于 2004-12-08 11:55:34 得分 50
http://www.gouhuo.com/study/php4gb/group.php-41.htm
看看这里!!
http://blog.codelphi.com/tinyfool/archive/2004/07/29/18139.aspx
Top
12 楼haojiubujian(没的商量)回复于 2004-12-08 16:14:57 得分 0
daikaiming(坏人)给的地址不错,非常感谢!Top
13 楼dove01(菜菜鸟一只)回复于 2004-12-08 18:41:18 得分 0
DOC我不知道,因为这个东西本身就是不是用ASCII写的
估计是不能读出来的
PDF就我来看,是绝对不可能的
因为PDF本身就不是向量图片或者文本格式
根本没有办法读出来……
如果单是想要用转换成TXT,只能用COPY & PASTE
不过也是有前提的,就是下载PDF的时候有许可Top
14 楼haojiubujian(没的商量)回复于 2004-12-09 13:15:08 得分 0
我已经找到了一些源代码,可以将pdf转换成txt,但是好像都有一个共同缺点:就是把标点符号都丢失了!怪事!而且好像都不支持中文!Top
15 楼fleshboy(信息怪杰)回复于 2004-12-09 22:09:40 得分 0
老兄有代码也分我一份啊,我也正需要Top
16 楼haojiubujian(没的商量)回复于 2004-12-09 22:31:40 得分 0
http://www.foolabs.com/xpdf/
里面有源代码下载,其实pdftotext是Xpdf中的一个功能,以前一直不知道,其实安装后直接在命令行里就可以直接使用了!爽! 大家共同进步!
不过我还想把doc转换成txt,不知是否还有人能帮助啊?高手们!感谢!Top
17 楼haojiubujian(没的商量)回复于 2004-12-13 22:27:49 得分 0
还有人知道吗?doctotxt源代码Top
18 楼doctor2004(假医生)回复于 2004-12-14 22:33:28 得分 50
Xpdf里带的pdftotext对中文支持是有要求的,由于字库有限,所以对某些字体的中文支持,反正宋体应该可以,但其他的可能就要装一些字体包,tlib等.
还有关于丢失标点符号,我用的满好啊~!估计是你pdf文件的问题,大多数应该都是成功的!
doctotext我就不了解了!
Top




