CSDN首页 空间 新闻 论坛 Blog 下载 读书 网摘 搜索 .NET Java 视频 接项目 求职 在线学习 买书 程序员 通知
不看会后悔的Windows XP之经验谈 简单快捷DIY实用家庭影院
CSDN社区
搜索 收藏 打印 关闭
CSDN社区 >  C/C++ >  C语言

高手进来帮忙

楼主haojiubujian(没的商量)2004-12-03 21:19:10 在 C/C++ / C语言 提问

如何用C来实现读取doc或pdf文本文件内的文字信息(英文中文都可以),然后当作一个字符串存入text文本中啊?前提当然是doc未加密。不知是否可以实现啊?并且保留里面的“回车”信息(即段落)。  
          不知象网上提供的一些论文查询系统(如中国期刊网、万方等)里面的全文查询是什么原理啊?是自动将上传的pdf文件里的字符信息读取出来,还是用手动的方法事先将里面的字符存在另一个text类型中啊?  
            有这方面的高手能帮忙吗? 问题点数:100、回复次数:18Top

1 楼qrlvls( 空 气 )回复于 2004-12-03 21:25:02 得分 0

呵呵呵,有难度  
  去找找Linux下有没有开放源码吧Top

2 楼haojiubujian(没的商量)回复于 2004-12-04 19:33:38 得分 0

没有这方面的高手吗?Top

3 楼Flood1984(峰子)回复于 2004-12-04 19:58:53 得分 0

这个我不会,但我估计应该人会做,  
  因为网上可以下载DOC阅读器啊Top

4 楼jingqiu(金秋)回复于 2004-12-04 22:21:45 得分 0

对于Doc文档,用它的控件来开发是比较方便的。但pdf文件难度是很大的,pdf文档我不清楚,只知有的pdf文件是不能转换的。Top

5 楼haojiubujian(没的商量)回复于 2004-12-05 11:12:56 得分 0

控件?我用纯c没有控件吧!不是VC的开发环境!我是想要源代码!  
  pdf是那种从doc转换过来的,而不是扫描进去产生的那种!(后者是图像肯定是不行的)Top

6 楼tzk(听钟客)回复于 2004-12-05 11:22:40 得分 0

读取doc文档,还是使用VC提供的库为好。首先,doc格式是非公开的;其次,就算你知道doc格式,自己写代码来分析doc文档也很繁琐;最后,就算写出这种程序,价值也不是太高,因为doc的格式是多变的,而且前后兼容性差,也许得针对不同的doc版本开发不同的分析程序。Top

7 楼haojiubujian(没的商量)回复于 2004-12-07 13:57:39 得分 0

现在主要是必须在linux中开发,必须用纯c写代码然后编译!所以VC用不上啊!  
  拜托啊!没这方面的高手?失望啊!  
  那pdf或caj等国内格式呢?难道都不行?郁闷!  
  有这方面大文章或书推荐一下也是可以的啊!Top

8 楼haojiubujian(没的商量)回复于 2004-12-08 11:33:18 得分 0

顶一下,居然没多少人问津,高手在哪里?Top

9 楼realee(Frankie)回复于 2004-12-08 11:40:24 得分 0

估计没得做,应该找,看看有没有一些提供出来的函数库Top

10 楼pacman2000(pacman)(影子传说)回复于 2004-12-08 11:49:25 得分 0

这个,恐怕得找Acrobat公司,看有没有什么提供的库函数了。Top

11 楼daikaiming(坏人)回复于 2004-12-08 11:55:34 得分 50

http://www.gouhuo.com/study/php4gb/group.php-41.htm  
   
  看看这里!!  
   
  http://blog.codelphi.com/tinyfool/archive/2004/07/29/18139.aspx  
   
  Top

12 楼haojiubujian(没的商量)回复于 2004-12-08 16:14:57 得分 0

daikaiming(坏人)给的地址不错,非常感谢!Top

13 楼dove01(菜菜鸟一只)回复于 2004-12-08 18:41:18 得分 0

DOC我不知道,因为这个东西本身就是不是用ASCII写的  
  估计是不能读出来的  
  PDF就我来看,是绝对不可能的  
  因为PDF本身就不是向量图片或者文本格式  
  根本没有办法读出来……  
  如果单是想要用转换成TXT,只能用COPY   &   PASTE  
  不过也是有前提的,就是下载PDF的时候有许可Top

14 楼haojiubujian(没的商量)回复于 2004-12-09 13:15:08 得分 0

我已经找到了一些源代码,可以将pdf转换成txt,但是好像都有一个共同缺点:就是把标点符号都丢失了!怪事!而且好像都不支持中文!Top

15 楼fleshboy(信息怪杰)回复于 2004-12-09 22:09:40 得分 0

老兄有代码也分我一份啊,我也正需要Top

16 楼haojiubujian(没的商量)回复于 2004-12-09 22:31:40 得分 0

http://www.foolabs.com/xpdf/  
  里面有源代码下载,其实pdftotext是Xpdf中的一个功能,以前一直不知道,其实安装后直接在命令行里就可以直接使用了!爽!     大家共同进步!  
   
  不过我还想把doc转换成txt,不知是否还有人能帮助啊?高手们!感谢!Top

17 楼haojiubujian(没的商量)回复于 2004-12-13 22:27:49 得分 0

还有人知道吗?doctotxt源代码Top

18 楼doctor2004(假医生)回复于 2004-12-14 22:33:28 得分 50

Xpdf里带的pdftotext对中文支持是有要求的,由于字库有限,所以对某些字体的中文支持,反正宋体应该可以,但其他的可能就要装一些字体包,tlib等.  
  还有关于丢失标点符号,我用的满好啊~!估计是你pdf文件的问题,大多数应该都是成功的!  
  doctotext我就不了解了!  
  Top

相关问题

关键词

  • 转换
  • 文档
  • 源代码
  • 控件
  • 文件
  • 中文
  • 下载
  • vc
  • 信息
  • pdf

得分解答快速导航

  • 帖主:haojiubujian
  • daikaiming
  • doctor2004

相关链接

  • C/C++ Blog
  • C/C++类图书
  • C/C++类源码下载

广告也精彩

反馈

请通过下述方式给我们反馈
反馈
提问
网站简介|广告服务|VIP资费标准|银行汇款帐号|网站地图|帮助|联系方式|诚聘英才|English|问题报告
北京创新乐知广告有限公司 版权所有, 京 ICP 证 070598 号
世纪乐知(北京)网络技术有限公司 提供技术支持
Copyright © 2000-2008, CSDN.NET, All Rights Reserved
GongshangLogo