在CGFT中大數(shù)據(jù)課程中,HBase是重要知識點。下文是對HBase的介紹,一起了解一下!
HBase是一個高可靠、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫,是谷歌bigtable的開源實現(xiàn)。主要用來存儲非結構化和半結構化的松散數(shù)據(jù)。
HBase的目標是處理很龐大的表,可以通過水平擴展的方式,利用廉價計算機集群處理由超過10億行數(shù)據(jù)和數(shù)百萬列元素組成的數(shù)據(jù)表。
下圖主要描述了Hadoop生態(tài)系統(tǒng)中HBase與其他部分的關系。HBase利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù),實現(xiàn)高性能計算。
利用zookeeper作為協(xié)同服務,實現(xiàn)穩(wěn)定服務和失敗恢復,利用HDFS作為高可靠的底層存儲,利用廉價集群提供海量數(shù)據(jù)存儲能力。當然,HBase也可以直接使用本地文件系統(tǒng)而不用HDFS作為底層數(shù)據(jù)存儲方式。
不過,為了提高數(shù)據(jù)可靠性和系統(tǒng)的健壯性,發(fā)揮HBase處理大數(shù)據(jù)量等功能,一般都使用HDFS作為HBase的底層數(shù)據(jù)存儲方式。此外,為了方便在HBase上進行數(shù)據(jù)梳理,sqoop為HBase提供了高效、便捷地RDBMS數(shù)據(jù)導入功能,pig和hive為HBase提供了高層語言支持。
HBase是bigtable的開源實現(xiàn),下圖主要給出了HBase和bigtable的底層技術對應關系!



