CSDN首页 空间 新闻 论坛 Blog 下载 读书 网摘 搜索 .NET Java 视频 接项目 求职 在线学习 买书 程序员 通知
可用分押宝游戏火热进行中... 专题改版:Java Web 专题
CSDN社区
搜索 收藏 打印 关闭
CSDN社区 >  .NET技术 >  C#

有没有办法直接拆分一个DataTable 十万火急 在线等

楼主yjlbukn(聪哥)2005-08-02 19:19:37 在 .NET技术 / C# 提问

现在有一个dataset包含表一个   50万行的数据,需要拆分成5个等大的数据表存放在另外一个dataset里面。  
  前提:不能从新从数据库读取!因为这50万行是经过处理过后的具有关系的数据!还有就是数据源是3个类型的以上,所以了没有办法,劳诸位大虾帮忙!  
  已经知道的方式有:  
  逐行浏览,添加到另外一个dataset里面  
  但是效率十分低下,求另外的解决办法!  
  已经知道的有:  
  int   i,j;  
  DataSet   dsSource;  
  DataSet   dsResult;  
  for(i=0;i<5;i++){  
          DataTable   dtTemp=new   DataTable();  
          dtTemp=dsSource.Tables[0].Clone();  
          for(j=0;j<100000;j++){  
                  dtTemp.Rows.Add(dsSource.Tables[0].Rows[j+i*100000].ItemArray);  
          }  
          dsResult.Tables.Add(dtTemp);  
  } 问题点数:100、回复次数:32Top

1 楼panjf(驭风)回复于 2005-08-02 19:49:12 得分 8

不知道这个DataTable里有没有编号,如果有可以用DataTable的Select方法。  
  for   (int   i   =   1;   i   <=   5;   i++)  
  {  
  DataRow[]   rows   =   SourceDataTable.Select(String.Format("ID   >=   '{0}',   ID   <=   '{1}'",   10000*(i-1),   10000*i));  
  foreach(DataRow   dr   in   rows)  
  {  
  dtTemp.IncludeRow(dr);  
  }  
  }  
  没测,大概是这个意思,用Select找出来,循环加入新的DataTableTop

2 楼zhilunchen(他山居士)回复于 2005-08-02 20:04:36 得分 0

强!Top

3 楼KingSeaMountain()回复于 2005-08-02 20:26:49 得分 8

想不出来  
   
  不过你可以试一下改为如下方法:  
  int   i,j;  
  DataSet   dsSource;  
  DataSet   dsResult;  
  for(i=0;i<5;i++){  
          DataTable   dtTemp=new   DataTable();  
          dtTemp=dsSource.Tables[0].Clone();  
          for(j=0;j<100000;j++){  
                  dtTemp.ImportRow(dsSource.Tables[0].Rows[j+i*100000])  
          }  
          dsResult.Tables.Add(dtTemp);  
  }  
   
  你的方法需要额外new   50万个数组,我猜想个可能会快一些,你试一下,最好先在原DataTable上调用一下AcceptChanges  
  Top

4 楼yizhixiaozhu(天啦,手都起茧了)回复于 2005-08-02 20:45:59 得分 0

dddTop

5 楼panjf(驭风)回复于 2005-08-02 20:47:08 得分 16

KingSeaMountain()   的思路不错,只要遍历dsSource一次就行了,不过还是有两个循环,再改一下  
  int   i;  
  DataSet   dsSource;  
  DataSet   dsResult;  
  i   =   0;  
  dsResult   =   new   DataSet();  
  DataTable   dt   =   dsSurce.Tables[0].Clone();  
  foreach   (DataRow   dr   in   dsSurce.Tables[0].Rows)  
  {  
      dt.ImportRow(dr);  
      i++;  
      if   (Int32.Mod(i,   100000)   ==   0)  
      {  
          dsResult.Tables.Add(dt);  
          dt   =   dsSurce.Tables[0].Clone();  
      }  
  }Top

6 楼skyfarwolf(Computer)回复于 2005-08-02 20:54:35 得分 2

顶!Top

7 楼yjlbukn(聪哥)回复于 2005-08-03 08:43:39 得分 0

试过,遍历的方式都十分耗费资源,相当于至少有40000万次的数据循环呀!只这个数就让人头疼的了Top

8 楼yjlbukn(聪哥)回复于 2005-08-03 08:56:06 得分 0

换一个思路来说,  
  在DataSet里面有合并dataset的方法:ds.Merge(dsTemp,false,MissingSchemaAction.Add);  
  但有没有dataset的拆分方法呢?  
  其次  
  在如果存为xml然后可否只读取部分符合要求的数据呢?  
  流程:  
  dsSource.WriteXml("Temp.xml",XmlWriteMode.WriteSchema);  
  dsSource=new   DataSet();  
  //???????设置读取条件  
  dsSource.ReadXml("Temp.Xml",XmlReadMode.ReadSchema);  
  //????????设置读取条件  
  dsSource.WriteXml("dsFirstTable.xml",XmlWriteMode.WriteSchema)  
   
  就是是否可以在读取xml时像数据库那样设置数据行筛选条件????Top

9 楼cfaq(网事随风)回复于 2005-08-03 09:06:21 得分 2

试一下,能过DataTable的select方法对数据进行分块  
  (如用ID限制查询)  
  然后创建DataTable=DataTable.Select(***********);  
  ---  
  原则上是可行的吧,没试过Top

10 楼cfaq(网事随风)回复于 2005-08-03 09:08:18 得分 2

然后直接加到DataSet里面,忘了最后一句,不要再穷举了Top

11 楼yjlbukn(聪哥)回复于 2005-08-03 09:11:58 得分 0

如果有方式直接添加一个datarow[]就好了Top

12 楼yjlbukn(聪哥)回复于 2005-08-03 09:14:55 得分 0

有一个intid编号  
  但不连续  
  不过没有什么,都是排序了的  
  可以用  
  DataTable.Select("intid<"   +   DataTable.Rows[100001]["Intid"]);  
  获取前100000行数据哈Top

13 楼cdo(Everything has a favourable turn)回复于 2005-08-03 09:15:39 得分 2

你转化成dataview,然后做过滤,不知道能不能分成几个dataset出来.没试过.Top

14 楼yjlbukn(聪哥)回复于 2005-08-03 09:16:15 得分 0

关键是使用datatable.Select方法是返回一个datarow[]哈  
  Top

15 楼yjlbukn(聪哥)回复于 2005-08-03 09:17:28 得分 0

DataWiew   也不能直接返回一个datatable  
  Top

16 楼winfisher2002(winfisher)回复于 2005-08-03 09:20:06 得分 2

我觉得在从关系数据库读取数据时就分拆出来是最好的。不要在后期处理想办法了,无论怎么处理都要大量的资源。Top

17 楼yjlbukn(聪哥)回复于 2005-08-03 09:28:31 得分 0

呵呵  
  我也想呀  
  对于遗留系统+新系统的一个中间插件,如果这么简单我就没有必要问了  
  ,这里使用的是来自sqlserver,orcl,xml三种数据源  
  还有就是在线的,数据库服务器的压力本来就大了,还频繁的写数据库,读数据库,老总不把我吃了才怪Top

18 楼panjf(驭风)回复于 2005-08-03 09:29:24 得分 2

好像没有办法把获得的DataRow[]加到DataTable中,因为这些DataRow是属于源DataTable的,必须复制它们,形成新的实例再加到DataTable中。  
  另外不太清楚Select内部是如何处理的,如果也是做遍历的话用这个方法就比较慢了,Select循环一次,Import循环一次,所以还不如遍历一次,根据行号决定加到哪个DataTable中。Top

19 楼panjf(驭风)回复于 2005-08-03 09:32:30 得分 2

还有你说的那个读XML文件的方法,数据都已经在内存里了为什么还要存到硬盘再读到内存里处理呢?Top

20 楼dukejx(丢丢)回复于 2005-08-03 09:59:11 得分 2

你可以把50W的数据分为5个视图存放,然后每个视图对应一个dataset不就行了,需要什么循环呀!  
  视图保存你处理后的数据是没问题的吧!你不要说不行呀!只是将处理关系的代码移到数据库中而已(如果你处理关系的代码在C#中)!  
  如果真的不行,但你先分完视图(也就是说你已经有了5个dataset了),在用C#做处理应该也没问题了吧!  
  或者一个视图保存你处理后的所有数据,然后写5个sql子句,对应5个dataset也行呀  
  使用where子句,where   rowno   between   1   and   10W-1,自己改值就行了Top

21 楼dukejx(丢丢)回复于 2005-08-03 10:03:46 得分 1

噢,三种数据源,那就不行了,算我白说Top

22 楼KingSeaMountain()回复于 2005-08-03 12:15:52 得分 5

如果非要把数据复制到另一个表的话,好象没什么可以以块的方式一次拷贝多条记录的方法。对了,你在创建新表之后,执行一下dtTemp.MinimumnCapacity   =   100000,还会有一些性能优化。  
   
  如果只是使用表中的数据,不需要在物理上将数据分开,直接创建视图就可以了。  
  怎么会有40000万次循环?你的表中有800个字段吗,如果真是这样,慢是必然的Top

23 楼yjlbukn(聪哥)回复于 2005-08-03 19:04:09 得分 0

呵呵  
  抱歉,抱歉  
  是40万次循环  
  因为可以在遍历的时候删除对应的行,所以就只需要有40万次哈Top

24 楼yjlbukn(聪哥)回复于 2005-08-03 19:12:18 得分 0

RE>panjf(panjf)    
  可能你没有弄懂我的意思,我是说:如果xml也可以象数据库那样只装载需要的数据的话  
  我们可以使用xml来从新装载部分数据,  
  也就是说在装载数据之前就筛选一次,不要的数据就不装载,这样我不就可以读取出5个dataset出来?但是好象看来是不可能的。  
  dataset都是全部装载的  
   
  Top

25 楼tiaoci(我挑刺,我快乐)回复于 2005-08-04 10:00:33 得分 3

首先   为什么需要分成5个表,  
   
  既然数据在了,直接使用那个大表就可以了  
   
  如果要分,那么下面的应当是最快速的方法了  
   
  DataTable   []   dts   =   new   DataTable[5];  
  int   i;  
  for(i   =   0;   i   <   5;   i++)  
          dts[i]   =   src.Clone();  
  i   =   0;  
  foreach(DataRow   r   in   src.Rows)  
  {  
          dts[i/   100000].Rows.Add(r);  
          i++;  
  }  
   
  另外转成XML肯定慢,50万条说不定运行半天都装不进来  
   
  Top

26 楼tiaoci(我挑刺,我快乐)回复于 2005-08-04 10:05:44 得分 1

上面这个过程应当可以在瞬间完成,虽然我没试过  
  Top

27 楼yjlbukn(聪哥)回复于 2005-08-04 13:43:17 得分 0

呵呵  
  谢谢,不过还是慢  
  始终有一个遍历  
  还有就是你的程序有一个bug  
  那就是不能直接将dr添加到另外的dtTop

28 楼yjlbukn(聪哥)回复于 2005-08-04 13:48:56 得分 0

dts[i/   100000].Rows.Add(r);  
   
  应该:  
  dts[i/   100000].Rows.Add(r.ItemArry);  
  但是这样会造成一个dr的副本,所以可以这样  
   
  int   i=0;  
  for(i=src.Rows.Count-1;i>-1   ,i--)  
  {  
          dts[i/   100000].Rows.Add(src.Rows[i].ItemArry);  
          src.Rows[i].Remove;  
          src.AcceptChange();  
  }  
  这样就没有副本哈Top

29 楼yjlbukn(聪哥)回复于 2005-08-04 13:53:34 得分 0

看来是没有什么其他的建议了,谢谢诸位的参与,明天下午结帖Top

30 楼liuguihua(Fairy)回复于 2005-08-04 14:04:55 得分 0

顶~!Top

31 楼panjf(驭风)回复于 2005-08-04 16:04:02 得分 42

ReadXml可以接受Stream类型的参数,如果数据源是XML可以把它用流的方式一次100000的读出来,再把流读到DataTable里,不知道这样能不能快些。Top

32 楼yjlbukn(聪哥)回复于 2005-08-05 10:49:32 得分 0

Stream  
  的read方法是否有效还有待证实,因为stream是按照字节的方式,而不是按照xmlnode的方式,所以还要一个检验方法,有大虾可以帮忙写一个么?Top

相关问题

  • 十万火急!!!!!
  • 十万火急!!!!!!!!!!!!!!!!
  • 十万火急!
  • 十万火急!!!!!!!
  • 十万火急!!!!!!!!!!!!!!
  • 十万火急
  • 十万火急!!!!
  • 十万火急!!!
  • 十万火急
  • 十万火急

关键词

  • 数据
  • xml
  • 装载
  • datatable
  • 办法
  • dataset
  • 没有
  • 方法
  • 方式
  • stream

得分解答快速导航

  • 帖主:yjlbukn
  • panjf
  • KingSeaMountain
  • panjf
  • skyfarwolf
  • cfaq
  • cfaq
  • cdo
  • winfisher2002
  • panjf
  • panjf
  • dukejx
  • dukejx
  • KingSeaMountain
  • tiaoci
  • tiaoci
  • panjf

相关链接

  • CSDN .NET频道
  • .NET类图书
  • C#类图书
  • .NET类源码下载

广告也精彩

反馈

请通过下述方式给我们反馈
反馈
提问
网站简介|广告服务|VIP资费标准|银行汇款帐号|网站地图|帮助|联系方式|诚聘英才|English|问题报告
世纪乐知(北京)网络技术有限公司 版权所有, 京 ICP 证 020026 号
北京创新乐知广告有限公司 提供技术支持
Copyright © 2000-2007, CSDN.NET, All Rights Reserved
GongshangLogo