大数据量表关联查询优化问题?在线等!!

wwhile 2005-03-11 11:35:14
现有两个表:表A,表B
表A:SID 自增一
BID
……………………
20个字段
主键:SID,BID
表B:ID 自增一
CID
BID
NOTE
主键:ID
索引:BID,CID
表A的数据量为980万,表B的数据量为6万
现在查询为:select a.* from A a inner join B b on a.Bid=b.Bid where b.Cid=1

查询时间无法忍受,看这两个表还可以怎么优化能使得此查询的时间控制在2分钟之内
急,在线等,谢谢各位!!!!
...全文
884 14 打赏 收藏 转发到动态 举报
写回复
用AI写文章
14 条回复
切换为时间正序
请发表友善的回复…
发表回复
wwhile 2005-03-16
  • 打赏
  • 举报
回复
谢谢各位
wwhile 2005-03-16
  • 打赏
  • 举报
回复
谢谢各位这些天的悉心指教,我准备更改一下表结构来做索引视图了。建议版主开一个索引的专贴好好讨论一下!!!!
lingdian000 2005-03-11
  • 打赏
  • 举报
回复
楼上的楼上真猛
jinjazz 2005-03-11
  • 打赏
  • 举报
回复
楼上真猛
iswear428 2005-03-11
  • 打赏
  • 举报
回复
---- 2.查看执行方案的方法-- 用set showplanon,打开showplan选项,就可以看到连
接顺序、使用何种索引的信息;想看更详细的信息,需用sa角色执行dbcc(3604,310,30
2)。
三、不可优化的where子句
---- 1.例:下列SQL条件语句中的列都建有恰当的索引,但执行速度却非常慢:
select * from record where
substring(card_no,1,4)='5378'(13秒)
select * from record where
amount/30< 1000(11秒)
select * from record where
convert(char(10),date,112)='19991201'(10秒)
---- 分析:
---- where子句中对列的任何操作结果都是在SQL运行时逐列计算得到的,因此它不得不
进行表搜索,而没有使用该列上面的索引;如果这些结果在查询编译时就能得到,那么
就可以被SQL优化器优化,使用索引,避免表搜索,因此将SQL重写成下面这样:
select * from record where card_no like
'5378%'(< 1秒)
select * from record where amount
< 1000*30(< 1秒)
select * from record where date= '1999/12/01'
(< 1秒)
---- 你会发现SQL明显快起来!
---- 2.例:表stuff有200000行,id_no上有非群集索引,请看下面这个SQL:
select count(*) from stuff where id_no in('0','1')
(23秒)
---- 分析:
---- where条件中的'in'在逻辑上相当于'or',所以语法分析器会将in ('0','1')转化
为id_no ='0' or id_no='1'来执行。我们期望它会根据每个or子句分别查找,再将结果
相加,这样可以利用id_no上的索引;但实际上(根据showplan),它却采用了"OR策略"
,即先取出满足每个or子句的行,存入临时数据库的工作表中,再建立唯一索引以去掉
重复行,最后从这个临时表中计算结果。因此,实际过程没有利用id_no上索引,并且完
成时间还要受tempdb数据库性能的影响。
---- 实践证明,表的行数越多,工作表的性能就越差,当stuff有620000行时,执行时
间竟达到220秒!还不如将or子句分开:
select count(*) from stuff where id_no='0'
select count(*) from stuff where id_no='1'
---- 得到两个结果,再作一次加法合算。因为每句都使用了索引,执行时间只有3秒,
在620000行下,时间也只有4秒。或者,用更好的方法,写一个简单的存储过程:
create proc count_stuff as
declare @a int
iswear428 2005-03-11
  • 打赏
  • 举报
回复
(27秒)
select count(*) from record where date >
'19990901' and place in ('BJ', 'SH')(< 1秒)
---- 分析:
---- 这是一个不很合理的组合索引,因为它的前导列是place,第一和第二条SQL没有引
用place,因此也没有利用上索引;第三个SQL使用了place,且引用的所有列都包含在组
合索引中,形成了索引覆盖,所以它的速度是非常快的。
---- 4.在date,place,amount上的组合索引
select count(*) from record where date >
'19991201' and date < '19991214' and amount >
2000(< 1秒)
select date,sum(amount) from record group by date
(11秒)
select count(*) from record where date >
'19990901' and place in ('BJ','SH')(< 1秒)
---- 分析:
---- 这是一个合理的组合索引。它将date作为前导列,使每个SQL都可以利用索引,并
且在第一和第三个SQL中形成了索引覆盖,因而性能达到了最优。
---- 5.总结:
---- 缺省情况下建立的索引是非群集索引,但有时它并不是最佳的;合理的索引设计要
建立在对各种查询的分析和预测上。一般来说:
---- ①.有大量重复值、且经常有范围查询
(between, >,< ,>=,< =)和order by
、group by发生的列,可考虑建立群集索引;
---- ②.经常同时存取多列,且每列都含有重复值可考虑建立组合索引;
---- ③.组合索引要尽量使关键查询形成索引覆盖,其前导列一定是使用最频繁的列。

二、不充份的连接条件:
---- 例:表card有7896行,在card_no上有一个非聚集索引,表account有191122行,在
account_no上有一个非聚集索引,试看在不同的表连接条件下,两个SQL的执行情况:

select sum(a.amount) from account a,
card b where a.card_no = b.card_no(20秒)
---- 将SQL改为:
select sum(a.amount) from account a,
card b where a.card_no = b.card_no and a.
account_no=b.account_no(< 1秒)
---- 分析:
---- 在第一个连接条件下,最佳查询方案是将account作外层表,card作内层表,利用
card上的索引,其I/O次数可由以下公式估算为:
---- 外层表account上的22541页+(外层表account的191122行*内层表card上对应外层
表第一行所要查找的3页)=595907次I/O
---- 在第二个连接条件下,最佳查询方案是将card作外层表,account作内层表,利用
account上的索引,其I/O次数可由以下公式估算为:
---- 外层表card上的1944页+(外层表card的7896行*内层表account上对应外层表每一
行所要查找的4页)= 33528次I/O
---- 可见,只有充份的连接条件,真正的最佳方案才会被执行。
---- 总结:
---- 1.多表操作在被实际执行前,查询优化器会根据连接条件,列出几组可能的连接方
案并从中找出系统开销最小的最佳方案。连接条件要充份考虑带有索引的表、行数多的
表;内外表的选择可由公式:外层表中的匹配行数*内层表中每一次查找的次数确定,乘
积最小为最佳方案。
iswear428 2005-03-11
  • 打赏
  • 举报
回复
如何让你的SQL运行得更快
---- 人们在使用SQL时往往会陷入一个误区,即太关注于所得的结果是否正确,而忽略
了不同的实现方法之间可能存在的性能差异,这种性能差异在大型的或是复杂的数据库
环境中(如联机事务处理OLTP或决策支持系统DSS)中表现得尤为明显。笔者在工作实践
中发现,不良的SQL往往来自于不恰当的索引设计、不充份的连接条件和不可优化的whe
re子句。在对它们进行适当的优化后,其运行速度有了明显地提高!下面我将从这三个
方面分别进行总结:
---- 为了更直观地说明问题,所有实例中的SQL运行时间均经过测试,不超过1秒的均
表示为(< 1秒)。
---- 测试环境--
---- 主机:HP LH II
---- 主频:330MHZ
---- 内存:128兆
---- 操作系统:Operserver5.0.4
----数据库:Sybase11.0.3
一、不合理的索引设计
----例:表record有620000行,试看在不同的索引下,下面几个 SQL的运行情况:
---- 1.在date上建有一非个群集索引
select count(*) from record where date >
'19991201' and date < '19991214'and amount >
2000 (25秒)
select date,sum(amount) from record group by date
(55秒)
select count(*) from record where date >
'19990901' and place in ('BJ','SH') (27秒)
---- 分析:
----date上有大量的重复值,在非群集索引下,数据在物理上随机存放在数据页上,在
范围查找时,必须执行一次表扫描才能找到这一范围内的全部行。
---- 2.在date上的一个群集索引
select count(*) from record where date >
'19991201' and date < '19991214' and amount >
2000 (14秒)
select date,sum(amount) from record group by date
(28秒)
select count(*) from record where date >
'19990901' and place in ('BJ','SH')(14秒)
---- 分析:
---- 在群集索引下,数据在物理上按顺序在数据页上,重复值也排列在一起,因而在范
围查找时,可以先找到这个范围的起末点,且只在这个范围内扫描数据页,避免了大范
围扫描,提高了查询速度。
---- 3.在place,date,amount上的组合索引
select count(*) from record where date >
'19991201' and date < '19991214' and amount >
2000 (26秒)
select date,sum(amount) from record group by date
netcoder 2005-03-11
  • 打赏
  • 举报
回复
风云老兄的意思是在 A.Bid,B.Bid,b.Cid上分别建立单字段索引

A.Bid和B.Bid上使用聚簇索引,b.Cid上使用非聚簇索引,试试看
wwhile 2005-03-11
  • 打赏
  • 举报
回复
此帖再顶一下,希望各位多多讨论一下,是否数据库达到千万级以上,以这样的数据库结构,很难再优化了吗?难道只能依靠提升硬件了吗?

再就是问一下外键的两个列最好是非聚簇索引还是聚簇索引呢?两列都加索引后去掉外键对查询有影响吗??

大家周末讨论一下吧,周一结帖!!!!
wwhile 2005-03-11
  • 打赏
  • 举报
回复
这样建立视图后没有唯一列,a.sid,a.bid已经不唯一了,无法加入聚簇索引,没有聚簇索引,索引视图无法建立。。。。。。。。。
欢迎大家一起讨论一下!!!!!!
Softlee81307 2005-03-11
  • 打赏
  • 举报
回复
----建立一個視圖
Create view kkk
as
select a.* from A a inner join B b on a.Bid=b.Bid where b.Cid=1

--------再在視圖上建索引 ,應該會快一些
wwhile 2005-03-11
  • 打赏
  • 举报
回复
楼上没有看到a.bid是主键吗?b.bid,b.cid都有非聚簇索引马?
pbsql 2005-03-11
  • 打赏
  • 举报
回复
在a.Bid、b.Bid、b.Cid上分别建索引
wwhile 2005-03-11
  • 打赏
  • 举报
回复
谢谢一楼给与的解答。我觉得如果我将表A的BID更改为非聚簇索引就能够适合你在“不充分连接条件”的阐述了,但是我觉得更改后表A仍然要进行全表遍历,970万的数据进行全表遍历,仍然是一个非常大的开销,有没有办法能尽量的减少表A的遍历呢???
还有就是再想问一下有没有办法,尽量将表A的数据尽量驻留在内存呢?这样即使表遍历时间也可以忍受阿

再就是双表进行关联时,外键对应的两个字段是不是都应该为非聚簇索引呢?
⼤数据迁移实践之路 ⼤数据迁移实践之路 随着业务的迅速发展,农业银⾏某系统承担的运⾏压⼒越来越⼤。现阶段, 该系统每天的交易量在2300 万笔以上,峰值达2950 万笔。交易 量的攀升导致了后台数据库数据量的激增,从⽽影响了联机程序响应时间,也增加了系统各类资源开销和后续数据分析的处理时间。为保障 系统稳定运⾏,项⽬组从增加系统资源、优化资源配置、优化重点程序和升级系统数据库等多个维度对系统进⾏了综合优化。下⾯笔者从⼤ 表、热表的数据分析和优化⾓度,阐述对⼤数据量表进⾏的存储优化。   ⼀、⼤表数据分析   ⽬前农业银⾏某系统⼯作流数据量最⼤且访问最频繁的两张核⼼表:   (1)流程实例表,⽤于存储系统发起的所有流程实例,包括基本流程、会签流程、补充资料流程和抄送流程;   (2)任务实例表,⽤于存储每个流程实例的流转记录。   截⾄2013 年4 ⽉1 ⽇, ⼯作流两张⼤表的数据量如表1 所⽰。其中任务实例表为系统中数据量最⼤的⼀张表,达到了1.2 亿。根据 ProDBA 抓取的执⾏次数最多且执⾏时间最长的前30 条SQL 信息中,显⽰流程实例表和任务实例表压⼒⽐较⼤。⼤表中的数据按照结束时 间和状态两个维度可以区分为三类:   (1)正在运⾏的流程数据,即业务正在办理过程中,尚未结束;   (2)已结束流程⼀年内的数据,即业务总体流程已经结束,期限在⼀年内(包含⼀年);   (3)已经结束流程⼀年以上的数据,即业务总体流程已经结束,期限在⼀年以上(如表2 所⽰)。事实上,由于存在业务制度等⽅⾯的规 定,已经结束⼀年以上的数据基本处于静态⽆变化的情况,不会发⽣修改、删除等数据操作,但是占据了⼀定的表空间,同时也影响了对其 他运⾏中数据的访问效率。为降低⼤数据量对系统访问的影响,需制定迁移规则,进⾏数据拆分。   ⼆、拆分规则   根据上述⼤数据表的数据分布特点,建⽴三套表结构:运⾏表、历史表和备份表。运⾏表仅存储正在运⾏的流程数据,流程结束后(正 常完成或者终⽌)将基本流程以及其所属⼦流程相关的所有数据(流程实例、任务实例、流程变量、异常、分⽀等)实时迁移⾄历史表。如业务 需要将已结束的流程恢复,系统⽀持流程从历史表实时迁回到运⾏表继续流转,整个过程对⽤户是完全透明的。   由于已完成和终⽌⼀年以上的流程,需恢复的业务需求很少(系统上线以来未发⽣过类似业务),因此由备份表存放第三类数据,形成三 级存储模式如图1 所⽰。历史表中的数据,每年执⾏⼀次批量拆分操作,拆分⾄备份表。   为保障数据平稳的迁移,应采取分布实施的策略。2012 年12 ⽉8⽇,流程结束数据实时迁移到历史表功能先期投产,因此⽬前⼯作流 运⾏表中存放的数据包含三种情况:正在运⾏的数据;2012 年5 ⽉⾄2012 年12 ⽉结束的流程;2012 年5 ⽉前结束⼀年以上的流程(如图2所 ⽰)。   按照数据三级存储规则,需要对⼤数据表进⾏拆分、剥离及整合,最终实现运⾏表只存储运⾏的数据,降低系统压⼒(如图3 所⽰)。   三、问题分析及拆分策略   1. 数据表重命名   数据迁移前需要对流程实例表和任务表进⾏BCP 数据备份,以确保出现异常情况时,可及时恢复数据。任务实例表(1.2 亿)和流程实例 表(2 千万),备份估计需要2~3个⼩时。数据迁移最终要达到运⾏表中仅存放流程正在运⾏中的数据,因此采取如下策略,节省BCP 备份时 间。   ⾸先,创建任务实例和流程实例中间表,表结构和运⾏表保持完全⼀致;其次,将运⾏表中正在运⾏的数据迁移⾄中间表;再次,对流程 运⾏表和中间表重命名,实现中间表转换为运⾏表,运⾏表转换为备份表。如出现数据迁移异常和验证不通过等情况,由于备份表保存了迁 移当⽇的全量数据,因此,再次执⾏数据表重命名即可解决问题,⽆需再对两张⼤表进⾏BCP 备份。数据表重命名脚本执⾏时间,经测试 在1 分钟内即可完成,⼤⼤减少迁移时间。   2. 数据完整性   ⼀笔完整的流程,包含⼀条流程实例和多条任务实例,任务实例根据流程实例编号和状态等属性,确定所属流程。迁移⽅法⼀:为保障 迁移数据完整,需要根据流程的状态,查询流程和关联任务的记录,⼀次性迁移两张表的记录,如迁移失败同时回滚,因此,需要进⾏任务 实例表和流程实例表关联。考虑到两张表的数据量,此⽅案将会导致迁移效率很低。经测试,迁移5万笔流程(5 万条流程和36 万条任务记 录) 数据约7分钟,循环执⾏迁移,迁移完全部流程数据需要约42 个⼩时。   为提⾼拆分效率,减少对投产时间窗⼝的占⽤,对拆分⽅法进⾏了优化。迁移⽅法⼆:⾸先,流程实例表按照I D 号升序排列,取前50 万条记录存放⾄临时表;其次,将临时表(50 万)和任务表(1.2 亿)进⾏关联,迁移流程所属的所有任务;再次,再迁移50

27,579

社区成员

发帖
与我相关
我的任务
社区描述
MS-SQL Server 应用实例
社区管理员
  • 应用实例社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧