hadoop 课程好用吗(hadoop零基础入门)

小伙伴们,大家好! 欢迎大家来到数据与智能小课堂,今天的课程内容为《Hadoop生态系统》。 本次内容将分为四个部分为大家讲解:Hadoop简介、Hadoop的特点、Hadoop1.0与2.0的区别、Hadoop生态系统的组成。 1.Hadoop简介 说到hadoop不得不提起一个人——DougCutting,他是hadoop之父、ApacheLucene的创始人。 Hadoop是Apache旗下…

小伙伴们,小伙伴们好!

热烈欢迎各位赶到数据信息与智能化小课堂,今日的教学内容为《Hadoop生态系统》。

此次內容将分成四个一部分为我们解读:Hadoop介绍、Hadoop的特性、Hadoop1.0与2.0的区别、Hadoop生态系统的构成。

1. Hadoop介绍

说到hadoop迫不得已提及一个人——Doug Cutting,他是hadoop鼻祖、Apache Lucene的创办人。

Hadoop是Apache集团旗下的开放源码的分布式存储服务平台,它可以运作在电子计算机群集以上,给予靠谱的、可拓展的分布式存储作用。Hadoop的核心内容是分布式文件系统(HDFS)和并行处理程序编程架构MapReduce。

Hadoop与三遍毕业论文紧密联系:

① 2003年,谷歌公布的分布式文件系统GFS的毕业论文,可以用以处理海量信息储存的问题。

② 2004年,谷歌公布了MapReduce的毕业论文,可以用以处理海量信息测算的问题。

③ 2006年,谷歌公布了BigTable的毕业论文,它是以GFS为最底层数据储存的分布式数据库系统软件。

年代 谷歌
2003年 谷歌分布式文件系统GFS的毕业论文
2004年 谷歌MapReduce的论文
2006年 谷歌BigTable的毕业论文

GFS、MapReduce、BigTable便是人们常常说的“三辆马车”。

Hadoop与这三篇毕业论文的相互关系是如此的:

Hadoop中的HDFS是GFS的开源系统完成;Hadoop中的MapReduce是谷歌MapReduce的开源系统完成;Hadoop中的HBase是谷歌BigTable的开源系统完成。

2. hadoop的特性

① 混合开发性:hadoop是根据java语言开发设计的,有不错的混合开发性,可以运作在Linux平台上;

② 可靠性高:hadoop中的HDFS是分布式文件系统,可以将海量信息遍布多余储存在不一样的设备连接点上,即使是某一设备团本上产生常见故障,别的的设备团本也可以正常的运作;

③ 高容错性:HDFS把把文档遍布储存在许多不一样的设备连接点上,能完成全自动储存好几个团本,因而某一连接点上的工作不成功后也可以完成全自动分配;

④ 精确性:hadoop的关键部件HDFS和MapReduce,一个负责分布式系统一个负责分布式解决,可以解决PB级其他数据信息;

⑤ 成本低与高拓展:hadoop在便宜的电子计算机群集上就可以运作,因而成本费非常低,而且可以扩大到好几千个电子计算机连接点上,进行大数据的存放和测算。

3. Hadoop1.0和2.0的区别

Hadoop1.0与2.0的较大区别便是,hadoop2.0在1.0的基本上提升了一个yarn架构。

① Hadoop1.0的构成包括:hdfs、MapReduce和其它部件。

Hdfs负责数据储存,MapReduce负责数据信息测算及其資源生产调度(在开展数据处理方法的过程中是要开展资源配置的,例如用是多少CPU、运行内存、硬盘这些)

「大数据入门」2.Hadoop生态系统

② Hadoop2.0的构成包括:hdfs、MapReduce、yarn和其它部件。

Hdfs负责数据储存,MapReduce负责数据信息测算,yarn负责資源生产调度

「大数据入门」2.Hadoop生态系统

4. Hadoop生态系统的构成

Hadoop除开有两个关键部件HDFS 和MapReduce以外,还包含yarn、hbase、hive、pig、mahout、zookeeper、sqoop、flume、Apache Ambari等作用部件。

「大数据入门」2.Hadoop生态系统

① HDFS:hadoop分布式文件系统,可以运作在中大型的便宜电子计算机群集上,并且以流的方法载入和解决大量文档。HDFS要熟练掌握的基本概念有NameNode、DataNode和Secondary Namenode,后边会出现专业章节目录为我们解读。

② Yarn:資源生产调度和监管架构,在其中包括ResourceManager、ApplicationMaster和NodeManager。ResourceManager负责资源优化配置,ApplicationMaster负责线程同步和监控器,NodeManager 负责执行任务。

③ MapReduce:分布式系统并行处理程序编程架构,核心内容是“分而治之”。MapReduce=Map Reduce。Map函数公式负责分块的工作中,reduce函数负责融合归约。

④ HBase:是谷歌bigtable的开源系统完成。它区别于传统式关系型数据库的一点是:根据列式储存。传统式数据库查询是根据行的储存,而HBase是根据列的储存,具备高效率稳定的解决关系型数据库的工作能力。

⑤ Hive:是根据hadoop的数据库管理专用工具,能对数据开展简易解决,它有着相近SQL語言的数据库架构hive-sql。

⑥ Pig:是一种数据流分析语言表达,给予了相近sql的语言表达pig latin,可以用于查看半非结构化数据集。

⑦ Mahout:是Apache的一个开源软件,给予一些归类、聚类分析、过虑这些人工神经网络行业经典算法。

⑧ Zookeeper:是个高效率的靠谱的分布式系统协调工作系统软件。

⑨ Sqoop:sql-to-hadoop的简称,含意便是在关系型数据库与hadoop中间做数据传输。

⑩ Flume:大量日志搜集、汇聚、传送系统软件。它也可以对数据资料开展简洁的解决。

⑪ Apache Ambari:是一种适用Apache Hadoop群集的安裝、布署、配备和管控的专用工具。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2022年5月11日 上午10:59
下一篇 2022年5月11日 上午11:00

相关推荐

  • seo外链技巧,为什么要做seo外链

    当我们做企业网站优化的时候,每一个SEO外链推广员,都无法脱离建立外链的工作,很长一段时间,SEO人员,非常痴迷到处提交各种外链。 但有的时候,我们做任何事情,往往是欲速则不达,过犹而不及,甚至是适得其反。 因此,有的时候我们在做外链SEO的时候,总是会想说一句:不要迷恋哥,哥只是一个传说。 那么,为什么外链SEO,请你不要再迷恋哥? 根据以往做外链的经验,蝙蝠侠IT,将通过如下内容阐述: 1、忘…

    2022年7月13日
    590
  • 关于thinkpad介绍,thinkpad适合什么人用

    本文由什么值得买用户原创:一只小萌熊 创作立场声明:本文不涉及任何机型的评测,仅仅是谈谈关于X系列的发展现状,欢迎指正文章中的错误,此外,文末有YOGA折叠屏的演示视频。 前段时间,我在值得买上发了篇关于 ThinkPadX390LTE版的文章,其中提到了X系列首次采用13寸屏幕的机型X300以及它的衍生机型 X301,后者曾是轻薄全内置笔记本的代表作之一,本文我们就来看看X系列从IBM时代到Le…

    2022年6月7日
    960
  • 什么是sem,带你了解sem的工作内容

    导语:sem是什么意思呢?因为sem中包含竞价,所以大部分人都认为竞价就是sem,其实sem是搜索引擎营销,通过搜索引擎来做的营销都是包括的,例如我们常说的seo搜索引擎优化,其实也是包含在sem之中的,接下来就和优就业小编详细了解一下sem是什么吧。 首先我们从定义来了解一下,sem全称是Search Engine Marketing,通过用户对搜索引擎的依赖,在用户使用搜索引擎进行检索的同时将…

    2022年7月18日
    580
  • 管理学是什么专业(盘点管理学门类17个专业)

    管理学其实是一个大类,但是家长和学生一看名字,以为学管理学将来出来就是官人的,当然这种肤浅的认知相对是比较少的,但是不乏很多考生会真的分不清楚,特此常老师今天给大家分享一下: 第三个学科门类:管理学。 各专业的信息,搜集自网上,只能给考生和家长提供大致的信息,不一定非常准确。主要课程,同一个专业,不同高校开设的课程可能有所不同,具体高校某个专业的主要课程,考生可到高校官网查看。就业方向,主要是指所…

    2022年10月17日
    620
  • 中国前十大学排名,你们知道是哪几所大学吗

    泰晤士高等教育(简称THE)于最新发布了世界大学排名, 这次上榜世界大学排名50强的有12个国家。美国上榜总排名50强大学数量最多,达24所,其中美国排名第1是斯坦福大学,麻省理工学院在美国排第2,美国排名第3是加州理工学院;英国上榜大学数量排名第二,共7上榜,其中牛津大学在英国排第1,英国排名第2是剑桥大学,英国排名第3是帝国理工学院;上榜数量第三的国家是中国,有4所大学上榜,其中清华大学在中国…

    2022年9月7日
    500
  • 淘宝买东西如何省钱,淘宝购物省钱小技巧

    这里有许多薅羊毛省钱的方法如果想一起来省钱可以私信我

    2022年6月10日
    870
  • 创业股和普通股的区别有哪些,2020年最具潜力的股票

    创业板已经成长为A股的重要组成部分,上市公司数量达到700多家,总市值5.7万亿元。千亿市值公司已经有5家,而百亿市值以上公司达到116家。 资本市场助力实体经济发展,创业板已培育出一批强大的企业,典型的如爱尔眼科,上市以来后复权股价相对发行价暴涨29倍,成为千亿市值公司。当然,有成长就有衰落。有14家创业板公司市值较巅峰回落超过九成,而市值缩水最多的超过千亿元。 5家公司跻身千亿市值,温氏股份2…

    2022年6月30日
    650
  • 小米移动电源高配版拆解说明书(这款产品容量大价格实惠有需要赶快入手)

    1月4日,小米天猫旗舰店预告称,小米移动电源3将在1月11正式开售,售价199元,可充笔记本电脑。 这款新品全名“小米移动电源3高配版”,采用一体成型外壳,经UV喷漆处理后的表面质感细腻,同时顶部和底部采用陶瓷高光工艺,如温玉般光泽。 其拥有20000mAh锂聚合物电芯,支持USB-C双向快充,支持USB-C+双USB-A三口输出。 其中,USB-C单口可提供45WMax的双向快充功能,不但可以为…

    2022年9月12日
    710
  • 网络危机来了怎么办,网络危机产生的原因

    随着互联网的普及和发展,网络营销已经成为了企业必备的生存技能之一,但在网络进行营销的同时企业也会面临来自网络的危机。网络危机同样值得企业重视,如果处理不好,对企业带来的危害也是致命的。下面,小编为大家分享网络危机公关处理技巧。 第一步:堵住信息根源 网络上的信息,不是凭空而来的,每一条信息的背后,一定是有人在操纵。所以,处理负面信息最根本的方法是,从源头入手,先找到信息发布者,把信息源头堵住,再考…

    2022年6月22日
    760
  • 自制幕布的最佳材料是什么,幕布和白墙区别大吗

    买了投影仪要不要买幕布是很多人纠结的问题,幕布和白墙的区别是什么?怎样的幕布性价比最高。要了解这些问题,首先要确定,幕布的优势在哪里? 一投影仪幕布的优势 1画面更平整 投影仪利用的是漫反射的成像原理,虽然这样有利于保护眼睛,但由于墙面的凹凸不平导致反射光线不集中,亮度也会大大削弱。投影仪幕布相对于白墙来说,表面更平整,反射光线聚合度更高,有利于亮度的集中。 2黑色边框有利于集中注意力 就像我们平…

    2022年7月17日
    720

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信