王牌对王牌第一季综艺,黄视频在线观看网站,世界一级毛片,成人黄色免费看

薈聚奇文、博采眾長(zhǎng)、見(jiàn)賢思齊
當(dāng)前位置:公文素材庫(kù) > 公文素材 > 范文素材 > 淺談大數(shù)據(jù)Hadoop技術(shù)

淺談大數(shù)據(jù)Hadoop技術(shù)

網(wǎng)站:公文素材庫(kù) | 時(shí)間:2019-05-14 10:04:29 | 移動(dòng)端:淺談大數(shù)據(jù)Hadoop技術(shù)

大數(shù)據(jù)是我們現(xiàn)在時(shí)代的重要特征,今天小編帶來(lái)了一篇淺談大數(shù)據(jù)Hadoop技術(shù)的文章,有需要的小伙伴一起來(lái)參考一下吧,希望能給大家?guī)?lái)幫助!

隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、共享經(jīng)濟(jì)的高速發(fā)展,互聯(lián)網(wǎng)每天都會(huì)產(chǎn)生數(shù)以萬(wàn)億的數(shù)據(jù),這些海量數(shù)據(jù)被稱(chēng)作為大數(shù)據(jù)。在這個(gè)大數(shù)據(jù)時(shí)代,數(shù)據(jù)資源對(duì)我們生活產(chǎn)生了巨大影響,對(duì)企業(yè)經(jīng)營(yíng)決策也有著前瞻性指導(dǎo)意義。因此,大數(shù)據(jù)已經(jīng)被視為一種財(cái)富、一種被衡量和計(jì)算價(jià)值的不可或缺的戰(zhàn)略資源。該文從大數(shù)據(jù)Hadoop技術(shù)談起、分別從Hadoop的核心技術(shù)、生態(tài)系統(tǒng)和Hadoop技術(shù)在教學(xué)中的應(yīng)用四個(gè)方面進(jìn)行了闡述。

當(dāng)前,我國(guó)以信息技術(shù)為主導(dǎo)的創(chuàng)新經(jīng)濟(jì)高速發(fā)展,特別是依托于移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的網(wǎng)絡(luò)購(gòu)物、移動(dòng)支付、共享單車(chē)、微信通信交流等等,給人們生活方式帶來(lái)了深刻的變革。整個(gè)互聯(lián)網(wǎng)正在從IT(Information Technology)時(shí)代向DT(Data Technology)時(shí)代D變,在這個(gè)DT時(shí)代,人們從被動(dòng)的數(shù)據(jù)瀏覽者轉(zhuǎn)變?yōu)橹鲃?dòng)的數(shù)據(jù)生產(chǎn)者,人們每天的網(wǎng)絡(luò)購(gòu)物信息、各種電子支付信息、使用共享單車(chē)信息、微信中瀏覽朋友圈的信息等等,都會(huì)產(chǎn)生數(shù)以萬(wàn)億級(jí)的數(shù)據(jù),這樣龐大的數(shù)據(jù)如何存儲(chǔ)、如何傳輸、如何計(jì)算、如何分析、如何保證數(shù)據(jù)的完整性和安全性等等一系列新的技術(shù)挑戰(zhàn)應(yīng)運(yùn)而生。然而,Hadoop技術(shù)代表著最新的大數(shù)據(jù)處理所需的新的技術(shù)和方法,也代表著大數(shù)據(jù)分析和應(yīng)用所帶來(lái)的新發(fā)明、新服務(wù)和新的發(fā)展機(jī)遇。

1 什么是Hadoop

Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的,開(kāi)源的分布式系統(tǒng)基礎(chǔ)架構(gòu)。簡(jiǎn)單地說(shuō)就是一套免費(fèi)的分布式操作系統(tǒng)。我們以前使用的計(jì)算機(jī)系統(tǒng),都是安裝在一臺(tái)獨(dú)立主機(jī)上的單機(jī)版操作系統(tǒng)。例如我們熟知的微軟公司的Windows操作系統(tǒng)和蘋(píng)果公司的Mac OS。而分布式系統(tǒng)則是通過(guò)高速網(wǎng)絡(luò)把大量分布在不同地理位置、不同型號(hào)、不同硬件架構(gòu)、不同容量的服務(wù)器主機(jī)連結(jié)在一起,形成一個(gè)服務(wù)器集群。分布式系統(tǒng)把集群中所有硬件資源(CPU、硬盤(pán)、內(nèi)存和網(wǎng)絡(luò)帶寬)進(jìn)行整合統(tǒng)一管理,形成具有極高運(yùn)算能力,龐大存儲(chǔ)能力和高速的傳輸能力的系統(tǒng)。

Hadoop就是以L(fǎng)inux系統(tǒng)為原型開(kāi)發(fā)的大數(shù)據(jù)分布式系統(tǒng)。Hadoop具有很強(qiáng)的擴(kuò)展性,只要是接通網(wǎng)絡(luò)它就可以不斷加入不同地域、不同型號(hào)、不同性能的服務(wù)器主機(jī),以提升集群的運(yùn)算、存儲(chǔ)和網(wǎng)絡(luò)帶寬,以滿(mǎn)足大數(shù)據(jù)所需要的硬件要求。此外,Hadoop還具有極強(qiáng)的安全性,由于分布式系統(tǒng)數(shù)據(jù)是存儲(chǔ)在不同物理主機(jī)上的,而且Hadoop數(shù)據(jù)一般每個(gè)數(shù)據(jù)存儲(chǔ)三份,而且分布不同物理主機(jī)上,一旦其中一份數(shù)據(jù)損壞,其余正常數(shù)據(jù)會(huì)很快替代它,這樣很好地解決了數(shù)據(jù)完整性和安全性問(wèn)題,為大數(shù)據(jù)提供了安全高速穩(wěn)定的系統(tǒng)平臺(tái)。

2 大數(shù)據(jù)Hadoop兩大核心技術(shù)

Hadoop框架最核心的技術(shù)就是:HDFS和MapReduce。HDFS為大數(shù)據(jù)提供了數(shù)據(jù)存儲(chǔ)文件系統(tǒng);MapReduce則為大數(shù)據(jù)提供了調(diào)度和管理數(shù)據(jù)的算法。

HDFS(Hadoop Distributed File System)它就像是我們Windows系統(tǒng)中使用的FAT、NTFS文件系統(tǒng)一樣,它就是Hadoop的文件格式系統(tǒng)。在單機(jī)版系統(tǒng)中,數(shù)據(jù)是存儲(chǔ)在一塊物理硬盤(pán)上,文件系統(tǒng)把硬盤(pán)按照磁道、扇區(qū)進(jìn)行分區(qū)然后劃分成若干個(gè)存儲(chǔ)盤(pán),為用戶(hù)呈現(xiàn)的就是C盤(pán)、D盤(pán)等。然而,在Hadoop系統(tǒng)中數(shù)據(jù)是存儲(chǔ)在集群不同的物理主機(jī)上,為用戶(hù)呈現(xiàn)的是例如像百度網(wǎng)盤(pán)的網(wǎng)絡(luò)路徑形式。用戶(hù)只要知道網(wǎng)絡(luò)路徑就可以存儲(chǔ)數(shù)據(jù),不用關(guān)心數(shù)據(jù)具體存儲(chǔ)在哪臺(tái)主機(jī)上,HDFS負(fù)責(zé)完成數(shù)據(jù)物理硬盤(pán)的格式化及存儲(chǔ)數(shù)據(jù)分配到哪個(gè)物理主機(jī)上的存儲(chǔ)管理工作。

MapReduce是Hadoop系統(tǒng)數(shù)據(jù)調(diào)度、傳輸和硬件資源管理的算法。MapReduce采用“分而治之”的思想,就是把一個(gè)大任務(wù)化解為若干的小任務(wù),然后在把各個(gè)小任務(wù)分配到集群的不同結(jié)點(diǎn)上,然后在不同結(jié)點(diǎn)上完成各自任務(wù),再把各節(jié)點(diǎn)的中間結(jié)果匯總整合,從而完成最終的大任務(wù)得到最終結(jié)果。簡(jiǎn)單地說(shuō),MapReduce就是“任務(wù)的分解與結(jié)果的匯總”,這樣大大提高了Hadoop系統(tǒng)的運(yùn)行效率。

3 大數(shù)據(jù)Hadoop技術(shù)的生態(tài)系統(tǒng)

Hadoop是一個(gè)開(kāi)源分布式大數(shù)據(jù)系統(tǒng),圍繞它形成一系列分布式軟件集合,來(lái)實(shí)現(xiàn)大數(shù)據(jù)的各項(xiàng)應(yīng)用。就像我們熟知的Windows系統(tǒng),需要Office軟件來(lái)做文字處理工作;用PhotoShop來(lái)做圖像處理工作;用 MS SQL Server來(lái)做數(shù)據(jù)庫(kù)管理工作等。為了對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)挖掘,各大企業(yè)經(jīng)過(guò)長(zhǎng)期探索在實(shí)踐中形成了Hadoop為核心的一系列軟件集合,我們稱(chēng)它為大數(shù)據(jù)Hadoop生態(tài)系統(tǒng)。下面我們就一一介紹:

Hive――Hadoop數(shù)據(jù)倉(cāng)庫(kù)工具。Hive主要是為大數(shù)據(jù)提供數(shù)據(jù)存儲(chǔ),并通過(guò)SQL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)來(lái)實(shí)現(xiàn)數(shù)據(jù)管理工作。

Sqoop――Hadoop數(shù)據(jù)轉(zhuǎn)換工具。Sqoop主要用于在Hive與傳統(tǒng)的數(shù)據(jù)庫(kù)(mysql、postgresql... )間進(jìn)行數(shù)據(jù)的傳遞與轉(zhuǎn)換工作。

Flume――Hadoop文件收集工具。Flume主要用于網(wǎng)絡(luò)上實(shí)時(shí)海量日志的采集、聚合和傳輸工作。

Oozie――Hadoop任務(wù)調(diào)度工具。Oozie主要用于大數(shù)據(jù)任務(wù)調(diào)度管理工作,就像Windows中的任務(wù)管理器一樣。

ZooKeeper――Hadoop 協(xié)調(diào)管理工具。ZooKeeper主要用于協(xié)調(diào)和管理Hadoop生態(tài)系統(tǒng)各軟件的同步與配合的工具,這樣方便統(tǒng)一和簡(jiǎn)化大數(shù)據(jù)軟件管理工作。

Hue――Hadoop大數(shù)據(jù)Web開(kāi)發(fā)管理工作。Hue主要用于大數(shù)據(jù)通過(guò)Web界面進(jìn)行可視化展示、呈現(xiàn)數(shù)據(jù)結(jié)果和管理。 4 大數(shù)據(jù)的應(yīng)用

4.1 Hadoop在企I中的應(yīng)用

隨著大數(shù)據(jù)技術(shù)的發(fā)展方興未艾,國(guó)內(nèi)外各大互聯(lián)網(wǎng)巨頭公司紛紛加入其中,像國(guó)外的Yahoo、亞馬遜、Intel、IBM和Facebook,國(guó)內(nèi)的阿里巴巴、百度和騰訊等都有了自己的Hadoop大數(shù)據(jù)項(xiàng)目。以Hadoop技術(shù)為代表的大數(shù)據(jù)已經(jīng)相對(duì)成熟,因此,各大公司紛紛招聘大量掌握Hadoop技術(shù)的專(zhuān)業(yè)人才。經(jīng)過(guò)市場(chǎng)調(diào)研主要有三個(gè)方向:

Hadoop運(yùn)維工程師:能夠搭建Hadoop生態(tài)系統(tǒng)平臺(tái),掌握Hadoop框架所有系統(tǒng)的部署與調(diào)試工作,并且可以修改配置文件和維護(hù)Hadoop生態(tài)系統(tǒng)平臺(tái)。

Hadoop數(shù)據(jù)工程師:理解Hadoop運(yùn)行原理,可以獨(dú)立編寫(xiě)MapReduce程序,進(jìn)行大數(shù)據(jù)分析和數(shù)據(jù)挖掘工作

Hadoop系統(tǒng)架構(gòu)師:全面掌握Hadoop生態(tài)系統(tǒng)的規(guī)劃、部署、調(diào)試和獨(dú)立編寫(xiě)MapReduce程序,從而對(duì)數(shù)據(jù)進(jìn)行分析和數(shù)據(jù)挖掘,為決策提供支持和數(shù)據(jù)保障。

4.2 Hadoop在高職教學(xué)中的應(yīng)用

高職教育層次的學(xué)生,學(xué)習(xí)大數(shù)據(jù)Hadoop技術(shù),主要是面向Hadoop運(yùn)維工程師崗位,而Hadoop數(shù)據(jù)工程師和系統(tǒng)架構(gòu)師則是面向本科生或是研究生層次的學(xué)生。根據(jù)Hadoop運(yùn)維工程師崗位需求,結(jié)合高職學(xué)生特點(diǎn),可以開(kāi)設(shè)相應(yīng)項(xiàng)目化實(shí)訓(xùn)課程,主要實(shí)訓(xùn)課程需要相應(yīng)實(shí)訓(xùn)環(huán)境,根據(jù)充分調(diào)研,現(xiàn)提出一種實(shí)訓(xùn)方案如下:

大數(shù)據(jù)Hadoop技術(shù)的實(shí)訓(xùn)環(huán)境搭建與部署,是在Linux系統(tǒng)上通過(guò)虛擬化技術(shù)在集群服務(wù)器上進(jìn)行分布式存儲(chǔ)和計(jì)算的一系列應(yīng)用軟件的集合。因此,教學(xué)實(shí)訓(xùn)需要相應(yīng)硬件和軟件作為支撐。本方案是考慮成本和實(shí)訓(xùn)效果,按照一個(gè)大數(shù)據(jù)實(shí)訓(xùn)室來(lái)規(guī)劃,由36臺(tái)學(xué)生機(jī)和1臺(tái)教師機(jī),一個(gè)光線(xiàn)交換機(jī)和一臺(tái)萬(wàn)兆路由器組成的。

硬件方面:Hadoop是分布式系統(tǒng),需要虛擬技術(shù)虛擬出多臺(tái)計(jì)算機(jī)進(jìn)行實(shí)訓(xùn),因此,硬件上需要高性能的計(jì)算機(jī)和高速千兆網(wǎng)絡(luò)為基礎(chǔ)。

軟件方面:Hadoop系統(tǒng)是安裝在Linux系統(tǒng)上的,但是考慮方便教學(xué),因此本方案是在Windows系統(tǒng)上安裝虛擬化軟件(VMware),在VMware上安裝Linux 64位的操作系統(tǒng)(CentOS 6.4)作為教學(xué)和項(xiàng)目實(shí)驗(yàn)的基礎(chǔ)環(huán)境。

實(shí)訓(xùn)課程:根據(jù)Hadoop運(yùn)維工程師崗位對(duì)培養(yǎng)人才的需要,并結(jié)合Hadoop生態(tài)系統(tǒng),本方案開(kāi)設(shè)八個(gè)實(shí)訓(xùn)項(xiàng)目,來(lái)完成大數(shù)據(jù)Hadoop實(shí)訓(xùn)教學(xué)任務(wù),每個(gè)實(shí)訓(xùn)項(xiàng)目都分為項(xiàng)目知識(shí)儲(chǔ)備、項(xiàng)目提出、項(xiàng)目分析、項(xiàng)目準(zhǔn)備和項(xiàng)目實(shí)施五個(gè)部分。具體如下:

5 小結(jié)

發(fā)展大數(shù)據(jù)Hadoop技術(shù)是新時(shí)代的發(fā)展潮流,也是信息化技術(shù)的發(fā)展趨勢(shì),各大企業(yè)也競(jìng)相追逐的熱門(mén)技術(shù)。大數(shù)據(jù)Hadoop技術(shù)前景一片光明。因此,高等職業(yè)學(xué)校開(kāi)設(shè)相應(yīng)課程是適應(yīng)市場(chǎng)需要,提升學(xué)生就業(yè)競(jìng)爭(zhēng)力,以解決大數(shù)據(jù)人才短缺的供需矛盾。

來(lái)源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問(wèn)題,請(qǐng)聯(lián)系我們及時(shí)刪除。


淺談大數(shù)據(jù)Hadoop技術(shù)》由互聯(lián)網(wǎng)用戶(hù)整理提供,轉(zhuǎn)載分享請(qǐng)保留原作者信息,謝謝!
鏈接地址:http://www.taixiivf.com/gongwen/181515.html
相關(guān)文章