ETL工具探讨

smilegw 2008-10-14 03:15:54
ETL工具探讨


本人用过BO-di和oracle-DI
现在建了个QQ群:21578002
希望交流一下ETL的学习经验和心得.
加入时需标明自已目前正在用或是想了解哪个ETL工具的名称.
希望加入群的人都活跃些,帮助别人或被别人帮助
...全文
10744 153 打赏 收藏 转发到动态 举报
写回复
用AI写文章
153 条回复
切换为时间正序
请发表友善的回复…
发表回复
老王 2012-07-23
  • 打赏
  • 举报
回复
熟练 kettle
lvyingdong 2012-07-13
  • 打赏
  • 举报
回复
[Quote=引用 10 楼 的回复:]
我是用SQL SERVER2005做数据仓库,使用的ETL工具是SSIS,使用起来还可以,性能不错
[/Quote]
你好,我这个正在学习中遇到很多问题,想请教你,我的QQ384344307,希望能得到你的帮助。祝你工作顺利
qqniwo8810101 2012-02-16
  • 打赏
  • 举报
回复
informatic,sp,job,BO 等都是etl工具
bluewind863 2012-02-15
  • 打赏
  • 举报
回复
100楼的朋友,有关于kettle的详细教程参考吗?谢谢。
bluewind863 2012-02-14
  • 打赏
  • 举报
回复
正在用Datastage,感觉很不错。
pyf_ting 2012-01-13
  • 打赏
  • 举报
回复
kettle , odi ,wsii 都用过,但是这些工具本身来讲odi相对强大些。在实际应用过程中主要是数据标准规范比较重要,业务流程复杂度都限定了执行的效果。 实现原理上基本上都是采用触发器和jdbc、odbc等逻辑过程处理。
newmico 2012-01-09
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 mgan 的回复:]
一个大的项目不会给你一个统一的数据源供你使用的~

可能有iformix /oracle/db2 /sql server甚至有的是文本文件!

而且一般数据仓库的数据如果都在T级
想要靠存储过程解决的话就很难

目前国内大的项目使用ETL工具较多的Datastage /informatic了
[/Quote]

撇开项目单独谈这个东西没有意义,这也就是为什么需要架构师和规划师,具体采用那种方案
需要考虑业务本身,源业务系统,以及我们的数据仓库系统本身等情况综合考虑。
一般来讲分ELT和ETL,现在有更多的实时数据抽取功能的软件,比如goldenGate等工具可以实现数据日志Capture的方式获取,也可以理解为EL的过程,那么T的过程就是在目标数据库进行了,那么在目标数据库进行方式也可以用类似存储过程,如果可以你都可以写Triger的方式。
PervasiveSofeware 2012-01-04
  • 打赏
  • 举报
回复
pervasive
lou_java 2011-12-25
  • 打赏
  • 举报
回复
DataStage开发
lordch 2011-12-24
  • 打赏
  • 举报
回复
Informatica
backoffice
ml1508511 2011-12-24
  • 打赏
  • 举报
回复
我来看看先,数据库最好用foxpro
jessezhang1981 2011-12-18
  • 打赏
  • 举报
回复
ETL工具主要用来解决异源异构的数据的同步问题,可以流程化的处理和格式化数据。

我们目前使用的是Kettle
derek_leng 2011-12-12
  • 打赏
  • 举报
回复
学习中,想用下oracle的di,哪位高手指点下,感激不尽!
wzpt1234lxsj 2011-11-24
  • 打赏
  • 举报
回复
[Quote=引用 40 楼 sky_monkey 的回复:]
引用 17 楼 lynx1111 的回复:
www.mydwbi.com
是一个专业数据仓库论坛.

`````
[/Quote]
===
好东西啊。。。
wzpt1234lxsj 2011-11-24
  • 打赏
  • 举报
回复
[Quote=引用 17 楼 lynx1111 的回复:]
www.mydwbi.com
是一个专业数据仓库论坛.
[/Quote]
===
好东西。。。
BreakArrow 2011-11-24
  • 打赏
  • 举报
回复
用kettle还是很方便的,我就在用
压码路 2011-11-10
  • 打赏
  • 举报
回复
用过informatic、owb、ssis、kettle。
对与需要做复杂转换的毫不犹豫是要用存储过程的,ETL设计的再好性能也比不上原生SQL。而管理这些复杂转换流程就莫非ETL工具了,它让整个流程变得更加清晰,便于维护。
DerekHe 2011-11-02
  • 打赏
  • 举报
回复
我们用SSIS,但大部分时候还是用SQL脚本方便
huyou1983218 2011-10-27
  • 打赏
  • 举报
回复
[Quote=引用 7 楼 mstop 的回复:]
无论是什么数据源,
iformix /oracle/db2 /sql server
只要有驱动,都可以用过程去处理。
本质上,ETL是编程,过程也是编程。ETL也是与数据库连接,用过程也是与异构数据库连接。
当然,如果数据不规则的话,过程处理有时是比较麻烦。
[/Quote]
没测试过存储过程的速度,100万条记录抽取数据仓库到oracle数据库用datastage最高6w/秒的速度,这个就说明etl是有存在的必要的!
JS 2011-09-26
  • 打赏
  • 举报
回复
路过学习
加载更多回复(127)
! 有人预言说未来将会是三分技术,七分数据,得数据者得天下。。。 大数据专题全文共25页,当前为第1页。 ! 大数据,是当今公众津津乐道的一个热词,人们纷纷在探讨大数据所带来的科技进步及所蕴含的巨大价值,甚至有人把大数据形容为未来世界的石油,更有人夸张的宣称掌握了大数据的人,就可以像上帝一样来俯瞰整个世界。 Big Data, it's more than what you think 大数据专题全文共25页,当前为第2页。 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 近几年,被热炒的大数据,不只是指资料,也指这些用来分析、处理巨量资料的新兴科技。 2013年马云卸任阿里集团CEO的职位时曾说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。 大数据专题全文共25页,当前为第3页。 你想像不到。。。 到底有多少 这个世界的数据 大数据专题全文共25页,当前为第4页。 近年来,全球数据存储量呈现爆炸式增长,美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,目前世界上90%以上的数据是最近几年才产生的。据中为咨询预测,到2020年,全球数据量将达到35ZB(相当约90亿块4TB硬盘容量)。 根据国际数据公司(IDC)的测算,似乎没有足够的磁盘空间存储。 就传统IT 企业来看,其结构化和非结构化的数据增长也是惊人的。2005年企业存储的结构化数据为4EB,到2015年将增至29EB,年复合增长率逾20%。非结构化数据发展更猛。2005年为22EB,2015年将增至1600EB,年复合增长率约60%,远远快于摩尔定律。 大数据专题全文共25页,当前为第5页。 那么,庞大的数据 到底来自哪里呢????!! 大数据专题全文共25页,当前为第6页。 据统计,国家图书馆的藏书量有2600万册,如果从数据来看的话,一个家庭一年产生的数据相当于半个国家图书馆的数据总量。 而大数据并非现在才出现,比如在古代的人口普查,中国在东汉时期就有几千万人,这显然也是庞大数据。大数据并不是什么崭新的概念,好几十年前 CERN 的科学家就在处理每秒上看 PB (Peta Bytes)巨量资料。那为什么一直到近几年「大数据」这颗塬子弹才爆发呢。 现今要处理的资料量更庞大、资料产生跟处理速度更惊人、资料来源更多样,于是处理、储存大量资料的新技术跟工具快速发展,像是开源软体 Hadoop 跟 NoSQL 资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前的科技作出区别,于是「大数据」一词因应而生。 大数据专题全文共25页,当前为第7页。    大数据的特点 Volume(大量) Velocity(高速) Variety(多样) veracity(真实性) 数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。最后是价值,从大量的低质量、低价值的数据中获取知识,犹如从大海中捞针,获取数据成本很高,但有待挖掘价值大。 大数据的挖掘和处理。 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据进行分布式数据挖掘(SaaS),但它必须依托云计算的分布式处理、分布式数据库(PaaS)和云存储、虚拟化技术(IaaS)。大数据的挖掘和处理必须用到云技术。 大数据专题全文共25页,当前为第8页。 大数据专题全文共25页,当前为第9页。 科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。微博留言产生数据,视频产生数据,手机通话产生数据,商品标签产生数据,快递包裹、物品流通产生数据,移动终端和互联网的普及更是加快产生数据。 越来越多配备了连续测量、报告运行情况的传感器的设备的出现。几年前,跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。    计算机产生的数据可能包含着关于因特网和其他使用者行动和行为的数据,从而提供了对他们的愿望和潜在需求的有用信息。    使用者自身产生的数据信息。人们通过电邮、短信、微博、QQ等产生的文本信息。    至今最大的数据是音频、视频和符号数据。这些数据结构松散,数量巨大,很难从中挖掘有意义的结论和有用的信息。 大数据的采集 大数据专题全文共25页,当前为第10页。 数据采集:ETL工具负责将分布的、异构数据源中

7,388

社区成员

发帖
与我相关
我的任务
社区描述
其他数据库开发 数据仓库
社区管理员
  • 数据仓库
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧