社区
数据仓库
帖子详情
ETL工具探讨
smilegw
2008-10-14 03:15:54
ETL工具探讨
本人用过BO-di和oracle-DI
现在建了个QQ群:21578002
希望交流一下ETL的学习经验和心得.
加入时需标明自已目前正在用或是想了解哪个ETL工具的名称.
希望加入群的人都活跃些,帮助别人或被别人帮助
...全文
10744
153
打赏
收藏
ETL工具探讨
ETL工具探讨 本人用过BO-di和oracle-DI 现在建了个QQ群:21578002 希望交流一下ETL的学习经验和心得. 加入时需标明自已目前正在用或是想了解哪个ETL工具的名称. 希望加入群的人都活跃些,帮助别人或被别人帮助
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
153 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
老王
2012-07-23
打赏
举报
回复
熟练 kettle
lvyingdong
2012-07-13
打赏
举报
回复
[Quote=引用 10 楼 的回复:]
我是用SQL SERVER2005做数据仓库,使用的ETL工具是SSIS,使用起来还可以,性能不错
[/Quote]
你好,我这个正在学习中遇到很多问题,想请教你,我的QQ384344307,希望能得到你的帮助。祝你工作顺利
qqniwo8810101
2012-02-16
打赏
举报
回复
informatic,sp,job,BO 等都是etl工具
bluewind863
2012-02-15
打赏
举报
回复
100楼的朋友,有关于kettle的详细教程参考吗?谢谢。
bluewind863
2012-02-14
打赏
举报
回复
正在用Datastage,感觉很不错。
pyf_ting
2012-01-13
打赏
举报
回复
kettle , odi ,wsii 都用过,但是这些工具本身来讲odi相对强大些。在实际应用过程中主要是数据标准规范比较重要,业务流程复杂度都限定了执行的效果。 实现原理上基本上都是采用触发器和jdbc、odbc等逻辑过程处理。
newmico
2012-01-09
打赏
举报
回复
[Quote=引用 4 楼 mgan 的回复:]
一个大的项目不会给你一个统一的数据源供你使用的~
可能有iformix /oracle/db2 /sql server甚至有的是文本文件!
而且一般数据仓库的数据如果都在T级
想要靠存储过程解决的话就很难
目前国内大的项目使用ETL工具较多的Datastage /informatic了
[/Quote]
撇开项目单独谈这个东西没有意义,这也就是为什么需要架构师和规划师,具体采用那种方案
需要考虑业务本身,源业务系统,以及我们的数据仓库系统本身等情况综合考虑。
一般来讲分ELT和ETL,现在有更多的实时数据抽取功能的软件,比如goldenGate等工具可以实现数据日志Capture的方式获取,也可以理解为EL的过程,那么T的过程就是在目标数据库进行了,那么在目标数据库进行方式也可以用类似存储过程,如果可以你都可以写Triger的方式。
PervasiveSofeware
2012-01-04
打赏
举报
回复
pervasive
lou_java
2011-12-25
打赏
举报
回复
DataStage开发
lordch
2011-12-24
打赏
举报
回复
Informatica
backoffice
ml1508511
2011-12-24
打赏
举报
回复
我来看看先,数据库最好用foxpro
jessezhang1981
2011-12-18
打赏
举报
回复
ETL工具主要用来解决异源异构的数据的同步问题,可以流程化的处理和格式化数据。
我们目前使用的是Kettle
derek_leng
2011-12-12
打赏
举报
回复
学习中,想用下oracle的di,哪位高手指点下,感激不尽!
wzpt1234lxsj
2011-11-24
打赏
举报
回复
[Quote=引用 40 楼 sky_monkey 的回复:]
引用 17 楼 lynx1111 的回复:
www.mydwbi.com
是一个专业数据仓库论坛.
`````
[/Quote]
===
好东西啊。。。
wzpt1234lxsj
2011-11-24
打赏
举报
回复
[Quote=引用 17 楼 lynx1111 的回复:]
www.mydwbi.com
是一个专业数据仓库论坛.
[/Quote]
===
好东西。。。
BreakArrow
2011-11-24
打赏
举报
回复
用kettle还是很方便的,我就在用
压码路
2011-11-10
打赏
举报
回复
用过informatic、owb、ssis、kettle。
对与需要做复杂转换的毫不犹豫是要用存储过程的,ETL设计的再好性能也比不上原生SQL。而管理这些复杂转换流程就莫非ETL工具了,它让整个流程变得更加清晰,便于维护。
DerekHe
2011-11-02
打赏
举报
回复
我们用SSIS,但大部分时候还是用SQL脚本方便
huyou1983218
2011-10-27
打赏
举报
回复
[Quote=引用 7 楼 mstop 的回复:]
无论是什么数据源,
iformix /oracle/db2 /sql server
只要有驱动,都可以用过程去处理。
本质上,ETL是编程,过程也是编程。ETL也是与数据库连接,用过程也是与异构数据库连接。
当然,如果数据不规则的话,过程处理有时是比较麻烦。
[/Quote]
没测试过存储过程的速度,100万条记录抽取数据仓库到oracle数据库用datastage最高6w/秒的速度,这个就说明etl是有存在的必要的!
JS
2011-09-26
打赏
举报
回复
路过学习
加载更多回复(127)
Apache NiFi用户指南 (1.21版本译者 公众号登峰大数据)
Apache NiFi用户指南 (1.21版本译者 公众号登峰大数据) 学习NIFI
ETL
工具
的最佳入门读物就是:阅读官方文档。有了初步的比较全面的了解,可以达到事半功倍的效果!欢迎大家关注我的公众号,一起学习NIFI
工具
,一起
探讨
基于开源
工具
的实时数仓架构!
数字化转型时代的数据仓库.rar
在数字化转型时代的浪潮中,"数据仓库.rar"这一资料包成为企业迈向智能化管理的宝贵财富。它不仅是一个经过精心整理和系统化的数据管理
工具
箱,更是一份指引企业如何有效利用数据资源,提升决策质量与业务效率的实用手册。这份资料涵盖了从数据集成、存储、处理到分析和应用的全过程,提供了一套完整的数据仓库解决方案框架。通过高效的数据抽取、转换和加载(
ETL
)流程设计,以及先进的数据建模技术,帮助企业建立起既符合当前需求又能适应未来发展趋势的数据仓库体系。同时,它还深入
探讨
了大数据技术、云计算服务以及人工智能算法在数据仓库中的应用,为企业揭示数据背后隐藏的价值,促进数据资产的最大化利用。无论是对于正在寻求数字化升级路径的传统企业,还是对于致力于巩固数据核心竞争力的现代企业,"数据仓库.rar"都是一本不可多得的参考资料。它不仅有助于企业构建起强大的数据支撑平台,更能够加速企业数字化转型的步伐,让企业在信息时代的洪流中立于不败之地。重新回答||
构建实时数仓的流批一体
ETL
工具
-Streamsets
本课程来自一线项目(实时数仓建设)。创建实时数仓,是当前很多公司的需求,如何搭建实时数仓的架构?实时数仓需要有实时同步数据的
ETL
工具
。在架构选型时,调研了很多
ETL
工具
,包括Kettle、Azkaban和Streamsets,最终选择了Streamsets。如果您是数仓架构师、大数据开发工程师,本课程对您来说,非常有益。课程全程以实战的方式进行,每节课一到两个例子,并且会将创建实时数仓过程中的经验和教训穿插到例子讲解中,欢迎大家一起讨论实时数仓架构设计!
干净的数据:数据清洗入门与实践.[美]Megan Squire(带详细书签)
数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的
工具
和方法,就可以让数据清洗工作事半功倍。 本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,
探讨
如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。 如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!
大数据专题.pptx
! 有人预言说未来将会是三分技术,七分数据,得数据者得天下。。。 大数据专题全文共25页,当前为第1页。 ! 大数据,是当今公众津津乐道的一个热词,人们纷纷在
探讨
大数据所带来的科技进步及所蕴含的巨大价值,甚至有人把大数据形容为未来世界的石油,更有人夸张的宣称掌握了大数据的人,就可以像上帝一样来俯瞰整个世界。 Big Data, it's more than what you think 大数据专题全文共25页,当前为第2页。 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件
工具
,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 近几年,被热炒的大数据,不只是指资料,也指这些用来分析、处理巨量资料的新兴科技。 2013年马云卸任阿里集团CEO的职位时曾说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。 大数据专题全文共25页,当前为第3页。 你想像不到。。。 到底有多少 这个世界的数据 大数据专题全文共25页,当前为第4页。 近年来,全球数据存储量呈现爆炸式增长,美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,目前世界上90%以上的数据是最近几年才产生的。据中为咨询预测,到2020年,全球数据量将达到35ZB(相当约90亿块4TB硬盘容量)。 根据国际数据公司(IDC)的测算,似乎没有足够的磁盘空间存储。 就传统IT 企业来看,其结构化和非结构化的数据增长也是惊人的。2005年企业存储的结构化数据为4EB,到2015年将增至29EB,年复合增长率逾20%。非结构化数据发展更猛。2005年为22EB,2015年将增至1600EB,年复合增长率约60%,远远快于摩尔定律。 大数据专题全文共25页,当前为第5页。 那么,庞大的数据 到底来自哪里呢????!! 大数据专题全文共25页,当前为第6页。 据统计,国家图书馆的藏书量有2600万册,如果从数据来看的话,一个家庭一年产生的数据相当于半个国家图书馆的数据总量。 而大数据并非现在才出现,比如在古代的人口普查,中国在东汉时期就有几千万人,这显然也是庞大数据。大数据并不是什么崭新的概念,好几十年前 CERN 的科学家就在处理每秒上看 PB (Peta Bytes)巨量资料。那为什么一直到近几年「大数据」这颗塬子弹才爆发呢。 现今要处理的资料量更庞大、资料产生跟处理速度更惊人、资料来源更多样,于是处理、储存大量资料的新技术跟
工具
快速发展,像是开源软体 Hadoop 跟 NoSQL 资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前的科技作出区别,于是「大数据」一词因应而生。 大数据专题全文共25页,当前为第7页。 大数据的特点 Volume(大量) Velocity(高速) Variety(多样) veracity(真实性) 数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。最后是价值,从大量的低质量、低价值的数据中获取知识,犹如从大海中捞针,获取数据成本很高,但有待挖掘价值大。 大数据的挖掘和处理。 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据进行分布式数据挖掘(SaaS),但它必须依托云计算的分布式处理、分布式数据库(PaaS)和云存储、虚拟化技术(IaaS)。大数据的挖掘和处理必须用到云技术。 大数据专题全文共25页,当前为第8页。 大数据专题全文共25页,当前为第9页。 科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。微博留言产生数据,视频产生数据,手机通话产生数据,商品标签产生数据,快递包裹、物品流通产生数据,移动终端和互联网的普及更是加快产生数据。 越来越多配备了连续测量、报告运行情况的传感器的设备的出现。几年前,跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。 计算机产生的数据可能包含着关于因特网和其他使用者行动和行为的数据,从而提供了对他们的愿望和潜在需求的有用信息。 使用者自身产生的数据信息。人们通过电邮、短信、微博、QQ等产生的文本信息。 至今最大的数据是音频、视频和符号数据。这些数据结构松散,数量巨大,很难从中挖掘有意义的结论和有用的信息。 大数据的采集 大数据专题全文共25页,当前为第10页。 数据采集:
ETL
工具
负责将分布的、异构数据源中
数据仓库
7,388
社区成员
6,742
社区内容
发帖
与我相关
我的任务
数据仓库
其他数据库开发 数据仓库
复制链接
扫一扫
分享
社区描述
其他数据库开发 数据仓库
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章