技术分享:大数据知识体系

发表时间:2019-05-11

  j整个大数据处理的体系,按我的理解可以分为两。个部分,一个是分布式存储系统、另一个是分布式计算框架。分布式存储系统主流是:HadoopDFS,其他还有Ceph和Swift。分布式计算框架主流是MapReduce,Storm和Spark。

  首先说分布式存储系统HadoopDFS。它是一种本地文件系统之上的更高的抽象,把跨节点的组成的文件系统看成一个逻辑上的整体。它存储的思路是,把文件分成一个个block,每个block都有一定量的副本存储在不同的节点上,默认数”量是3个,这保证了分布式存储的数据的稳定性。

  HDFS写入文件的时候:客户端通过RPC向NN调用create()方法,NN检查文件是否存在,不存在并且有权限的话就会创建一个新文件,向客户端返回一个FSDataOutputStream,用于写数据。

  HDFS读文件的时候,客户端通过RPC向NN调用open()方法,NN获得每个数据块的位置信息,返回客户端FSDataInputstream,客户端调用其r!ead()方法读取数据块。

  分布式计算框架中最流行的是MapReduce。它把并行计算、容错等细节问题封装到库里,程序员只需要编写map和reduce函数就可以了。这种模型的灵感来自函数式编程中的map和reduce原语。Map函数接受KV值,输出KV值,reduce函数接收KEY和相同key构成的value的集合的迭代器,再输出KV值。

  整个执行过程是:用户提交job给调度系统,每个job包含一系列task,调度系统将这些任务调度到集群中多台可用的机器上。

  开始执行后,数据被分,割成M个数据片段集合,再调用map函数,之后被分区函数将结果分成R个不同分区,之后执行Redu”ce函数。具体就是:

  1、输入文件;分成M个数据片段,每个片段大小是HDFS的block si、ze,程序副本也被创建到集群中。

  2、这些程序的副本有一个master,master负责分配任务给其他空闲的worker。

  3、分配了map,任务的worker“程序读取数据片段,解析成KV对,然后传递给自、定”义的map函数,再解析出中间KV对,缓存。在内存中。

  4、分区函数:把内存中!的KV对分成R个区域,周期性写入文件系统,缓存的KV对在本地磁盘位置传给master,master再把位置传给reduce worker。

  5、reduceworker收到位置信息,通过RPC从map worker所在主机磁盘读取缓存数据。读取后,通过对key排序使得具有相同key的数据聚合在一起,

  6、排序过后,每个key对应的value集合传给自定义reduce函数,处理之后,结果追加到所属分区的输出文件中。

  7、map和reduce任务都完成后,master唤醒用户程序,返回结果。

  一个Spark作业就是对RDD的一系列操作(transformation和一个action)。作业又可以分为多个stage,stage的划分有出现了宽依赖和窄依赖的概念。窄依赖就是父RDD的每个分区最多被一个子RDD的分区所用,宽依赖就是子RDD的每个分区依赖?于父RDD的多个分区或所有分区。当一个作业的lineage过长,可以用到缓存管理,persis或者cache一下,加快整个处理速度。返回搜狐,查看更多

      大赢家彩票,大赢家彩票网址


服务热线:400-664-1388

传真:(0757)88351111

邮件:kamfu@greekrss.com

地址:广东省佛山市南海区桂城深海路17号瀚天科技城A区5号楼三楼4区

版权所有 广东大赢家彩票集团科技股份有限公司鄂ICP备18027811号-3网站建设:大赢家彩票科技

大赢家集团微信公众号

佛山市民之窗微信

网站地图