国产亚洲欧美一区二区,亚洲欧洲国产一区,成人在线视频网,中文精品视频一区二区在线观看

返回頂部
關閉軟件導航
位置:首頁 > 資訊 > 電商資訊>10分鐘零基礎就可搞懂的Hadoop架構原理阿里架構師詳解
10分鐘零基礎就可搞懂的Hadoop架構原理阿里架構師詳解

我今天花了大半個下午的時間,寫了這篇hadoop的架構,全篇都是以大白話的形式,也算是為后面更加具體的每一部分開了個好頭吧,假如喜歡請點轉發和關注,假如有疑問,直接在評論里說出來,大家一起解決,才能進步。

Hadoop誕生于2006年,是一款支持數據密集型分布式應用并以Apache2.0許可協議發布的開源軟件框架。它支持在商品硬件構建的大型集群上運行的應用程序。Hadoop是根據Google公司發表的MapReduce和Google檔案系統的論文自行實作而成。

Hadoop與Google一樣,都是小孩命名的,是一個虛構的名字,沒有尤其的含義。從計算機專業的角度看,Hadoop是一個分布式系統基礎架構,由Apache基金會開發。Hadoop的主要目標是對分布式環境下的“大數據”以一種可靠、高效、可伸縮的方式處理。

Hadoop框架透明地為應用提供可靠性和數據移動。它實現了名為MapReduce的編程范式:應用程序被分割成許多小部分,而每個部分都能在集群中的任意節點上執行或重新執行。

Hadoop還提供了分布式文件系統,用以存儲所有計算節點的數據,這為整個集群帶來了非常高的帶寬。MapReduce和分布式文件系統的設計,使得整個框架能夠自動處理節點故障。它使應用程序與成千上萬的獨立計算的電腦和PB級的數據。

1.Hadoop的核心組件

分析:Hadoop的核心組件分為:HDFS(分布式文件系統)、MapRuduce(分布式運算編程框架)、YARN(運算資源調度系統)

2.HDFS的文件系統

HDFS

1.定義

整個Hadoop的體系結構主要是通過HDFS(Hadoop分布式文件系統)來實現對分布式存儲的底層支持,并通過MR來實現對分布式并行任務處理的程序支持。

HDFS是Hadoop體系中數據存儲治理的基礎。它是一個高度容錯的系統,能檢測和應對硬件故障,用于在低成本的通用硬件上運行。HDFS簡化了文件的一致性模型,通過流式數據訪問,提供高吞吐量應用程序數據訪問功能,適合帶有大型數據集的應用程序。

2.組成

HDFS采用主從(Master/Slave)結構模型,一個HDFS集群是由一個NameNode和若干個DataNode組成的。NameNode作為主服務器,治理文件系統命名空間和客戶端對文件的訪問操作。DataNode治理存儲的數據。HDFS支持文件形式的數據。

從內部來看,文件被分成若干個數據塊,這若干個數據塊存放在一組DataNode上。NameNode執行文件系統的命名空間,如打開、關閉、重命名文件或目錄等,也負責數據塊到具體DataNode的映射。DataNode負責處理文件系統客戶端的文件讀寫,并在NameNode的統一調度下進行數據庫的創建、刪除和復制工作。NameNode是所有HDFS元數據的治理者,用戶數據永遠不會經過NameNode。

分析:NameNode是治理者,DataNode是文件存儲者、Client是需要獲取分布式文件系統的應用程序。

MapReduce

1.定義

HadoopMapReduce是googleMapReduce克隆版。

MapReduce是一種計算模型,用以進行大數據量的計算。其中Map對數據集上的獨立元素進行指定的操作,生成鍵-值對形式中間結果。Reduce則對中間結果中相同“鍵”的所有“值”進行規約,以得到很終結果。MapReduce這樣的功能劃分,非常適合在大量計算機組成的分布式并行環境里進行數據處理。

2.組成

分析:

(1)JobTracker

JobTracker叫作業跟蹤器,運行到主節點(Namenode)上的一個很重要的進程,是MapReduce體系的調度器。用于處理作業(用戶提交的代碼)的后臺程序,決定有哪些文件參與作業的處理,然后把作業切割成為一個個的小task,并把它們分配到所需要的數據所在的子節點。

Hadoop的原則就是就近運行,數據和程序要在同一個物理節點里,數據在哪里,程序就跑去哪里運行。這個工作是JobTracker做的,監控task,還會重啟失敗的task(于不同的節點),每個集群只有優選一個JobTracker,類似單點的NameNode,位于Master節點

(2)TaskTracker

TaskTracker叫任務跟蹤器,MapReduce體系的很后一個后臺進程,位于每個slave節點上,與datanode結合(代碼與數據一起的原則),治理各自節點上的task(由jobtracker分配),

每個節點只有一個tasktracker,但一個tasktracker可以啟動多個JVM,運行MapTask和ReduceTask;并與JobTracker交互,匯報任務狀態,

MapTask:解析每條數據記錄,傳遞給用戶編寫的map(),并執行,將輸出結果寫入本地磁盤(假如為map-only作業,直接寫入HDFS)。

ReducerTask:從MapTask的執行結果中,遠程讀取輸入數據,對數據進行排序,將數據按照分組傳遞給用戶編寫的reduce函數執行。

Hive

1.定義

Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。

Hive是建立在Hadoop上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。

Hive定義了簡單的類SQL查詢語言,稱為HQL,它答應熟悉SQL的用戶查詢數據。同時,這個語言也答應熟悉MapReduce開發者的開發自定義的mapper和reducer來處理內建的mapper和reducer無法完成的復雜的分析工作。

2.組成

分析:Hive架構包括:CLI(CommandLineInterface)、JDBC/ODBC、ThriftServer、WEBGUI、Metastore和Driver(Complier、Optimizer和Executor),這些組件分為兩大類:服務端組件和客戶端組件

3.客戶端與服務端組件

(1)客戶端組件:

CLI:CommandLineInterface,命令行接口。

Thrift客戶端:上面的架構圖里沒有寫上Thrift客戶端,但是Hive架構的許多客戶端接口是建立在Thrift客戶端之上,包括JDBC和ODBC接口。

WEBGUI:Hive客戶端提供了一種通過網頁的方式訪問Hive所提供的服務。這個接口對應Hive的HWI組件(HiveWebInterface),使用前要啟動HWI服務。

(2)服務端組件:

Driver組件:該組件包括Complier、Optimizer和Executor,它的作用是將HiveQL(類SQL)語句進行解析、編譯優化,生成執行計劃,然后調用底層的MapReduce計算框架

Metastore組件:元數據服務組件,這個組件存儲Hive的元數據,Hive的元數據存儲在關系數據庫里,Hive支持的關系數據庫有Derby和Mysql。元數據對于Hive十分重要,因此Hive支持把Metastore服務獨立出來,安裝到遠程的服務器集群里,從而解耦Hive服務和Metastore服務,保證Hive運行的健壯性;

Thrift服務:Thrift是Facebook開發的一個軟件框架,它用來進行可擴展且跨語言的服務的開發,Hive集成了該服務,能讓不同的編程語言調用Hive的接口。

4.Hive與傳統數據庫的異同

(1)查詢語言

由于SQL被廣泛的應用在數據倉庫中,因此專門針對Hive的特性設計了類SQL的查詢語言HQL。熟悉SQL開發的開發者可以很方便的使用Hive進行開發。

(2)數據存儲位置

Hive是建立在Hadoop之上的,所有Hive的數據都是存儲在HDFS中的。而數據庫則可以將數據保存在塊設備或者本地文件系統中。

(3)數據格式

Hive中沒有定義專門的數據格式,數據格式可以由用戶指定,用戶定義數據格式需要指定三個屬性:列分隔符(通常為空格、””、”\\x001′)、行分隔符(”

”)以及讀取文件數據的方法(Hive中默認有三個文件格式TextFile,SequenceFile以及RCFile)。

(4)數據更新

由于Hive是針對數據倉庫應用設計的,而數據倉庫的內容是讀多寫少的。因此,Hive中不支持

對數據的改寫和添加,所有的數據都是在加載的時候中確定好的。而數據庫中的數據通常是需要經常進行修改的,因此可以使用INSERTINTO…VALUES添加數據,使用UPDATE…SET修改數據。

(5)索引

Hive在加載數據的過程中不會對數據進行任何處理,甚至不會對數據進行掃描,因此也沒有對數據中的某些Key建立索引。Hive要訪問數據中滿足條件的特定值時,需要暴力掃描整個數據,因此訪問延遲較高。由于MapReduce的引入,Hive可以并行訪問數據,因此即使沒有索引,對于大數據量的訪問,Hive仍然可以體現出優勢。數據庫中,通常會針對一個或者幾個列建立索引,因此對于少量的特定條件的數據的訪問,數據庫可以有很高的效率,較低的延遲。由于數據的訪問延遲較高,決定了Hive不適合在線數據查詢。

(6)執行

Hive中大多數查詢的執行是通過Hadoop提供的MapReduce來實現的(類似select*fromtbl的查詢不需要MapReduce)。而數據庫通常有自己的執行引擎。

(7)執行延遲

Hive在查詢數據的時候,由于沒有索引,需要掃描整個表,因此延遲較高。另外一個導致Hive執行延遲高的因素是MapReduce框架。由于MapReduce本身具有較高的延遲,因此在利用MapReduce執行Hive查詢時,也會有較高的延遲。相對的,數據庫的執行延遲較低。當然,這個低是有條件的,即數據規模較小,當數據規模大到超過數據庫的處理能力的時候,Hive的并行計算顯然能體現出優勢。

(8)可擴展性

由于Hive是建立在Hadoop之上的,因此Hive的可擴展性是和Hadoop的可擴展性是一致的(世界上很大的Hadoop集群在Yahoo!,2009年的規模在4000臺節點左右)。而數據庫由于ACID語義的嚴格限制,擴展行非常有限。目前很先進的并行數據庫Oracle在理論上的擴展能力也只有100臺左右。

(9)數據規模

由于Hive建立在集群上并可以利用MapReduce進行并行計算,因此可以支持很大規模的數據;對應的,數據庫可以支持的數據規模較小。

Hbase

1.定義

HBase–HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PCServer上搭建起大規模結構化存儲集群。

HBase是GoogleBigtable的開源實現,類似GoogleBigtable利用GFS作為其文件存儲系統,HBase利用HadoopHDFS作為其文件存儲系統;

Google運行MapReduce來處理Bigtable中的海量數據,HBase同樣利用HadoopMapReduce來處理HBase中的海量數據;

GoogleBigtable利用Chubby作為協同服務,HBase利用Zookeeper作為協同服務。

2.組成

10分鐘零基礎就可搞懂的Hadoop架構原理阿里架構師詳解1

分析:從上圖可以看出:Hbase主要由Client、Zookeeper、HMaster和HRegionServer組成,由Hstore作存儲系統。

HBaseClient使用HBase的RPC機制與HMaster和HRegionServer進行通信,對于治理類操作,Client與HMaster進行RPC;對于數據讀寫類操作,Client與HRegionServer進行RPC

ZookeeperQuorum中除了存儲了-ROOT-表的地址和HMaster的地址,HRegionServer也會把自己以Ephemeral方式注冊到Zookeeper中,使得HMaster可以隨時感知到各個HRegionServer的健康狀態。

HMaster沒有單點問題,HBase中可以啟動多個HMaster,通過Zookeeper的MasterElection機制保證總有一個Master運行,HMaster在功能上主要負責Table和Region的治理工作:

HStore存儲是HBase存儲的核心了,其中由兩部分組成,一部分是MemStore,一部分是StoreFiles。

MemStore是SortedMemoryBuffer,用戶寫入的數據首先會放入MemStore,當MemStore滿了以后會Flush成一個StoreFile(底層實現是HFile),當StoreFile文件數量增長到一定閾值,會觸發Compact合并操作,將多個StoreFiles合并成一個StoreFile,合并過程中會進行版本合并和數據刪除。

因此可以看出HBase其實只有增加數據,所有的更新和刪除操作都是在后續的compact過程中進行的,這使得用戶的寫操作只要進入內存中就可以立即返回,保證了HBaseI/O的高性能。

當StoreFilesCompact后,會逐步形成越來越大的StoreFile,當單個StoreFile大小超過一定閾值后,會觸發Split操作,同時把當前RegionSplit成2個Region,父Region會下線,新Split出的2個孩子Region會被HMaster分配到相應的HRegionServer上,使得原先1個Region的壓力得以分流到2個Region上。

1.回顧Hadoop的整體架構

2.Hadoop的應用——流量查詢系統

(1)流量查詢系統總體框架

(2)流量查詢系統總體流程

(3)流量查詢系統數據預處理功能框架

(4)流量查詢系統數據預處理流程

(5)流量查詢NoSQL數據庫功能框架

(6)流量查詢服務功能框架

(7)實時流計算數據處理流程圖

本人才疏學淺,若有錯,請指出,謝謝!假如你有更好的建議,可以留言我們一起討論,共同進步!衷心的感謝您能耐心的讀完本文!

如果您覺得 10分鐘零基礎就可搞懂的Hadoop架構原理阿里架構師詳解 這篇文章對您有用,請分享給您的好友,謝謝
文章地址:http://m.brucezhang.com/article/online/9362.html
解放雙手無盡可能,有問題添加天線貓微信
国产亚洲欧美一区二区,亚洲欧洲国产一区,成人在线视频网,中文精品视频一区二区在线观看
亚洲三级免费电影| 女主播福利一区| 欧美国产日韩二区| 亚洲国产一区在线观看| 国产精品日韩欧美一区二区三区 | 欧美日韩福利在线观看| 亚洲精品美女91| 欧美日韩精品免费看| 久久三级福利| 亚洲日韩视频| 欧美日韩中文字幕在线视频| 美女网站久久| 夜夜嗨av一区二区三区免费区| 欧美视频在线视频| 欧美成年视频| 一区二区三区四区蜜桃| 国产伦精品一区二区三区视频黑人| 欧美韩日亚洲| 亚洲一区二区三区国产| 国产亚洲一区二区三区| 国产精品福利在线| 久久成人18免费观看| 亚洲电影免费在线| 韩国av一区二区三区四区| 免费在线看一区| 一区二区三区国产| 亚洲乱码国产乱码精品精可以看| 国产精品白丝黑袜喷水久久久| 欧美激情亚洲视频| 欧美一级淫片播放口| 亚洲国产日日夜夜| 在线观看成人av| 欧美日韩中文| 欧美日韩免费在线| 久久精品最新地址| 99在线精品视频| 亚洲区第一页| 国产免费亚洲高清| 国产精品揄拍一区二区| 欧美第十八页| 欧美大片免费观看| 性色一区二区三区| 亚洲人成在线观看| 亚洲激情第一页| 国产精品自拍小视频| 国产精品天天摸av网| 免费看的黄色欧美网站| 蜜桃av一区二区| 亚洲欧美成人一区二区三区| 亚洲国产毛片完整版| 亚洲国产裸拍裸体视频在线观看乱了中文 | 亚洲第一精品久久忘忧草社区| 国产一区在线播放| 欧美日韩一区二区三区四区在线观看 | 欧美高清影院| 欧美高清在线一区| 久久精品99国产精品| 一片黄亚洲嫩模| 亚洲婷婷在线| 亚洲人午夜精品| 99国产精品自拍| 在线观看欧美| 亚洲欧洲日产国产综合网| 国产亚洲欧美日韩一区二区| 国产一区二区三区高清| 国产精品扒开腿做爽爽爽软件| 欧美性感一类影片在线播放 | 欧美午夜视频在线| 男女激情久久| 欧美精品一区二区三区蜜桃| 久久久97精品| 欧美成人激情视频| 久久国产免费看| 老鸭窝毛片一区二区三区| 香港久久久电影| 一本久道久久综合狠狠爱| 亚洲一区观看| 99在线视频精品| 亚洲欧美日产图| 久久久久久久久久久久久久一区| 亚洲一品av免费观看| 欧美视频在线观看一区| 亚洲私人影院| 在线国产亚洲欧美| 亚洲黑丝一区二区| 激情一区二区三区| 在线看日韩av| 国产一在线精品一区在线观看| 一区二区在线视频播放| 国产日韩精品入口| 亚洲福利在线观看| 伊人色综合久久天天五月婷| 香蕉久久夜色精品国产| 国产日产精品一区二区三区四区的观看方式 | 最新中文字幕一区二区三区| 狠狠色综合播放一区二区| 91久久精品国产91久久性色tv| 精品999久久久| 夜夜嗨av一区二区三区网页| 亚洲理论电影网| 欧美在线一区二区| 欧美精品v日韩精品v国产精品 | 久久久噜噜噜| 欧美日韩美女一区二区| 欧美日韩 国产精品| 国产欧美日韩精品专区| 国产无一区二区| 亚洲精品自在在线观看| 亚洲精品乱码久久久久久日本蜜臀 | 亚洲欧美在线网| 免费观看在线综合色| 欧美xxx在线观看| 国产亚洲精品久| 在线看国产日韩| 亚洲综合视频1区| 欧美国产视频在线观看| 欧美日韩1区| 在线成人小视频| 亚洲区国产区| 久久久久久久综合狠狠综合| 欧美日韩天天操| 国产精品一区二区三区成人| 日韩视频永久免费观看| 久久久久久一区二区| 蜜臀av在线播放一区二区三区| 国产精品理论片在线观看| 国产欧美日韩综合一区在线观看| 亚洲激情一区二区| 99这里只有精品| 女同性一区二区三区人了人一| 国产日韩一区二区三区在线| 在线精品国产欧美| 欧美一区二区精品| 国产精品久久久久91| 韩国av一区| 欧美一区二区在线免费播放| 欧美体内she精视频| 国产一区二区三区免费观看| 亚洲一二三区视频在线观看| 欧美激情中文字幕乱码免费| 国产精品v片在线观看不卡| 亚洲黄一区二区| 免费观看日韩| 国产精品久久久亚洲一区 | 最近中文字幕日韩精品| 久久一区二区三区av| 欧美片第1页综合| 亚洲国产一区二区在线| 久久久久国内| 欧美精品在线免费观看| 亚洲国产视频直播| 毛片精品免费在线观看| 国产精品草草| 亚洲视频在线观看视频| 欧美噜噜久久久xxx| 国产亚洲成精品久久| 亚洲欧美一区二区激情| 国产精品久久久久毛片软件| 在线观看不卡av| 久久香蕉国产线看观看网| 国产一区二区三区四区五区美女 | 欧美一级在线播放| 国产欧美成人| 亚洲精品一区二区三区福利| 欧美激情导航| 亚洲日本中文字幕区| 欧美激情综合五月色丁香小说| 国产嫩草影院久久久久| 午夜精品视频一区| 国产女优一区| 一本色道婷婷久久欧美| 欧美日韩国产影片| 99精品视频免费观看| 欧美日韩国产丝袜另类| 精品91在线| 欧美福利视频网站| 亚洲精品乱码久久久久久日本蜜臀 | 牛夜精品久久久久久久99黑人| 国产网站欧美日韩免费精品在线观看 | 欧美午夜免费| 狠狠色综合网| 玖玖在线精品| 亚洲第一黄网| 欧美经典一区二区三区| 韩日欧美一区| 欧美成人激情视频| 亚洲精选久久| 国产精品护士白丝一区av| 99精品免费| 国产精品乱码| 久久精品系列| 91久久精品美女| 欧美视频一区二区三区| 亚洲精品一线二线三线无人区| 欧美日韩另类字幕中文| 午夜精品久久久久久99热软件 | 欧美成人午夜77777| 日韩一级黄色大片| 国产精品久久精品日日| 日韩一区二区精品在线观看|