大數(shù)據(jù)技術(shù)與應用

-
【作 者】主 編 蔡勁松 李偉
【I S B N 】978-7-5226-1108-2
【責任編輯】趙佳琦
【適用讀者群】高職高專
【出版時間】2023-02-09
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數(shù)】216
【千字數(shù)】296
【印 張】13.5
【定 價】¥42
【叢 書】高等職業(yè)教育大數(shù)據(jù)與人工智能專業(yè)群系列教材
【備注信息】
簡介
本書特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書
本書緊扣Hadoop生態(tài)圈相關(guān)系統(tǒng)對大數(shù)據(jù)處理架構(gòu)進行全方位介紹,重點圍繞大數(shù)據(jù)基本概念、集群搭建、存儲管理、各類數(shù)據(jù)分析計算以及可視化等方面的基本理論、方法和關(guān)鍵技術(shù),通過豐富的應用案例展示了大數(shù)據(jù)的應用場景以及數(shù)據(jù)價值。全書共分10章,分別是認識大數(shù)據(jù)、Hadoop集群搭建、HDFS分布式文件系統(tǒng)、MapReduce分布式計算框架、ZooKeeper分布式協(xié)調(diào)服務、HBase分布式數(shù)據(jù)庫、Hive數(shù)據(jù)倉庫、Sqoop數(shù)據(jù)遷移、Storm流計算和數(shù)據(jù)可視化。
全書遵循“理論夠用、實用第一”的原則選擇內(nèi)容,編排合理,表述深入淺出,所有操作命令全部按序列出,并配有解釋和截圖。本書指導性、實用性強,能使讀者快速、輕松地掌握Hadoop大數(shù)據(jù)平臺運維和分析的基本技術(shù)。
本書可作為高等職業(yè)教育本科、專科院校包括大數(shù)據(jù)技術(shù)與應用專業(yè)在內(nèi)的電子信息類專業(yè)相關(guān)課程教材,也可作為非計算機專業(yè)通識課程教學用書以及大數(shù)據(jù)愛好者的參考讀物。
本書附有配套電子課件、源碼、教案、教學設計等資源,讀者可從中國水利水電出版社網(wǎng)站(www.waterpub.com.cn)或萬水書苑網(wǎng)站(m.hzxbc.cn)免費下載。
體系完整—— 包括大數(shù)據(jù)采集、預處理、存儲管理、挖掘分析以及可視化等處理流程中的基本理論、方法和關(guān)鍵技術(shù),涵蓋大數(shù)據(jù)技術(shù)與應用方向比較完整的理論體系。
結(jié)合實際—— 在各部分知識的講解中,融入了大量入門級的教學案例,做到深入淺出、圖文并茂,幫助讀者對大數(shù)據(jù)知識和技術(shù)進行深入理解,體現(xiàn)專業(yè)認知的引導性。
資源豐富—— 作為校企合作、資源共建的成果,配微課視頻、電子課件、源碼等資源,方便師生的教與學。
前 言
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,構(gòu)建信息內(nèi)容的數(shù)據(jù)量也在急速增加,這類量級巨大、急速增加的數(shù)據(jù)信息被稱為大數(shù)據(jù)。在各種處理大數(shù)據(jù)的系統(tǒng)中,Hadoop生態(tài)圈相關(guān)系統(tǒng)的表現(xiàn)無疑最為突出。本書定位于Hadoop系統(tǒng)的入門教程,主要內(nèi)容包括大數(shù)據(jù)基礎知識、Hadoop安裝與配置管理、HDFS技術(shù)、MapReduce技術(shù)、ZooKeeper技術(shù)、HBase技術(shù)、Hive分布式數(shù)據(jù)倉庫技術(shù)、Sqoop數(shù)據(jù)遷移工具、Storm實時數(shù)據(jù)處理技術(shù)等最為常見與流行的Hadoop大數(shù)據(jù)系統(tǒng)架構(gòu)。
本書內(nèi)容編寫深入淺出,注重實戰(zhàn)。每章均配以實例進行講解,讀者在使用本書時,可以根據(jù)相應的操作過程進行操作,高效地掌握相關(guān)知識點及操作技能。學生通過對與大數(shù)據(jù)相關(guān)的基本知識、典型技術(shù)、具體應用進行全面而直觀的了解,在入門性的學習過程中提高對專業(yè)的認識。本書注重知識結(jié)構(gòu)的基礎性,用案例開闊學生視野,啟發(fā)創(chuàng)新思維。本書在寫作思路和內(nèi)容編排上具有以下幾個方面的特色。
(1)知識體系完整。本書內(nèi)容包括大數(shù)據(jù)采集、預處理、存儲管理、挖掘分析以及可視化等處理流程中的基本理論、方法和關(guān)鍵技術(shù),涵蓋大數(shù)據(jù)技術(shù)與應用方向比較完整的理論體系,脈絡清晰,知識完整。
(2)理論與案例結(jié)合。本書在各部分知識的講解中,融入了大量入門級的教學案例,做到深入淺出、圖文并茂,幫助讀者對大數(shù)據(jù)知識和技術(shù)進行深入理解,體現(xiàn)專業(yè)認知的引導性。
(3)注重實踐應用。本書在各章節(jié)中配置了運用大數(shù)據(jù)工具解決問題的綜合實踐案例,通過對實踐內(nèi)容的細致講解,并輔助視頻資料,能夠幫助讀者完成動手實踐的環(huán)節(jié),加深對專業(yè)知識的理解。
(4)適用范圍廣。本書既可作為高等職業(yè)教育本科和專科電子信息類各專業(yè)相關(guān)課程教材,也可作為非計算機專業(yè)的通識課程教學用書以及大數(shù)據(jù)愛好者的參考讀物。
本書由蔡勁松、李偉任主編,朱瑞玥、張平、宋文宇任副主編,全書統(tǒng)稿和定稿工作由蔡勁松完成。此外,鄒汪平、張成、王鈞、戴永恒等人也參與了資料整理工作。本書是校企合
作、資源共建的成果之一,在編寫過程中得到了合肥課工場教育科技有限公司和北京課工場教育科技有限公司大數(shù)據(jù)開發(fā)教研團隊的大力支持,在此一并表示感謝。
由于編者水平有限,書中難免存在錯誤和不妥之處,懇請讀者批評指正。編者電子郵箱:94364330@qq.com。
編 者
2022年8月
第1章 認識大數(shù)據(jù)
1.1 初識大數(shù)據(jù) 001
1.1.1 大數(shù)據(jù)產(chǎn)生的時代背景 001
1.1.2 大數(shù)據(jù)的發(fā)展歷程 002
1.1.3 大數(shù)據(jù)未來的發(fā)展趨勢 004
1.2 大數(shù)據(jù)基本概念 005
1.2.1 什么是大數(shù)據(jù) 005
1.2.2 大數(shù)據(jù)的特征 006
1.2.3 大數(shù)據(jù)的重要性 007
1.3 大數(shù)據(jù)關(guān)鍵技術(shù)與計算模式 009
1.3.1 大數(shù)據(jù)采集、預處理與存儲管理 010
1.3.2 MapReduce分布式計算框架 012
1.3.3 大數(shù)據(jù)分析 013
1.3.4 大數(shù)據(jù)計算模式 014
1.4 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)和人工智能的
關(guān)系 014
1.4.1 大數(shù)據(jù)與云計算的關(guān)系 014
1.4.2 大數(shù)據(jù)與物聯(lián)網(wǎng)的關(guān)系 015
1.4.3 大數(shù)據(jù)與人工智能的關(guān)系 015
小結(jié) 016
習題 016
第2章 Hadoop集群搭建
2.1 了解Linux操作系統(tǒng) 018
2.1.1 Linux的誕生和發(fā)展 018
2.1.2 Linux的整體架構(gòu) 020
2.1.3 Linux的特點 021
2.1.4 Linux文本編輯器 022
2.1.5 Linux權(quán)限與目錄 024
2.1.6 Linux基本命令 026
2.2 認識Hadoop集群 032
2.2.1 Hadoop生態(tài)圈 032
2.2.2 Hadoop的運行模式 034
2.2.3 Hadoop的優(yōu)勢 034
2.3 Hadoop集群的搭建和配置 035
2.3.1 主機的硬件配置與虛擬化軟件 035
2.3.2 Hadoop集群安裝準備 035
2.3.3 Hadoop集群搭建和配置 050
2.3.4 Hadoop集群測試 054
小結(jié) 056
習題 056
第3章 HDFS分布式文件系統(tǒng)
3.1 認識HDFS 058
3.1.1 HDFS產(chǎn)生的背景 058
3.1.2 HDFS簡介 059
3.1.3 HDFS的優(yōu)缺點 059
3.2 HDFS的基本原理 060
3.2.1 HDFS的體系架構(gòu) 060
3.2.2 HDFS文件讀寫原理 062
3.3 HDFS的Shell命令行操作 063
3.4 HDFS的Java API操作 065
3.4.1 Java API操作環(huán)境搭建 066
3.4.2 HDFS的Java API介紹 071
3.4.3 使用Java API操作HDFS 072
小結(jié) 074
習題 074
第4章 MapReduce分布式計算框架
4.1 認識MapReduce 076
4.1.1 MapReduce概述 076
4.1.2 MapReduce的設計思想 077
4.1.3 MapReduce編程模型 077
4.1.4 MapReduce應用實例—詞頻統(tǒng)計 078
4.2 MapReduce工作流程 086
4.2.1 MapReduce工作過程 086
4.2.2 Map工作過程 086
4.2.3 Reduce工作過程 087
4.2.4 Job工作過程 089
4.2.5 Shuffle工作過程 090
4.2.6 MapReduce的輸入/輸出格式 091
4.2.7 MapReduce的優(yōu)化 093
4.3 YARN的設計思想與工作流程 094
4.3.1 YARN設計思想 094
4.3.2 YARN體系結(jié)構(gòu) 095
4.3.3 YARN工作流程 096
4.4 MapReduce經(jīng)典案例 097
4.4.1 數(shù)據(jù)去重 097
4.4.2 案例實現(xiàn)—數(shù)據(jù)去重 098
4.4.3 倒排索引 100
4.4.4 案例實現(xiàn)—倒排索引 103
小結(jié) 106
習題 106
第5章 ZooKeeper分布式協(xié)調(diào)服務
5.1 ZooKeeper概述 108
5.1.1 ZooKeeper作用 108
5.1.2 ZooKeeper特點 109
5.1.3 ZooKeeper體系結(jié)構(gòu) 109
5.1.4 ZooKeeper數(shù)據(jù)模型 110
5.1.5 ZooKeeper工作原理 111
5.2 ZooKeeper安裝與運行 112
5.2.1 ZooKeeper安裝包的下載安裝 112
5.2.2 ZooKeeper相關(guān)配置 112
5.2.3 ZooKeeper服務的啟動和關(guān)閉 113
5.3 ZooKeeper的Shell操作 115
小結(jié) 118
習題 119
第6章 HBase分布式數(shù)據(jù)庫
6.1 認識NoSQL 120
6.1.1 NoSQL的特點 120
6.1.2 NoSQL的常見類型 121
6.2 HBase概述 122
6.2.1 HBase的特點與其他組件關(guān)系 123
6.2.2 HBase的數(shù)據(jù)模型 124
6.2.3 HBase的體系結(jié)構(gòu) 125
6.3 HBase集群安裝 127
6.4 HBase的Shell操作 129
6.4.1 HBase Shell啟動 130
6.4.2 HBase Shell基本操作 131
小結(jié) 136
習題 137
第7章 Hive數(shù)據(jù)倉庫
7.1 認識Hive 138
7.1.1 什么是Hive 138
7.1.2 Hive架構(gòu)設計 139
7.1.3 Hive數(shù)據(jù)類型 140
7.1.4 Hive服務組成 141
7.2 Hive安裝 142
7.2.1 Hive安裝模式簡介 142
7.2.2 Hive嵌入模式 142
7.2.3 Hive本地和遠程模式 143
7.3 HiveQL表操作 147
7.3.1 Hive數(shù)據(jù)庫操作 147
7.3.2 Hive內(nèi)部表操作 148
7.3.3 Hive外部表操作 150
7.3.4 Hive桶表操作 152
7.4 HiveQL數(shù)據(jù)操作 154
7.4.1 HiveQL基本語法概述 154
7.4.2 HiveQL查詢實例 155
小結(jié) 161
習題 161
第8章 Sqoop數(shù)據(jù)遷移
8.1 Sqoop概述 163
8.1.1 Sqoop簡介 163
8.1.2 Sqoop的優(yōu)勢 163
8.1.3 Sqoop的版本 164
8.1.4 Sqoop的構(gòu)架與工作機制 164
8.2 Sqoop安裝與配置 165
8.2.1 Sqoop安裝 165
8.2.2 Sqoop配置 165
8.2.3 Sqoop配置測試 166
8.3 Sqoop的使用 167
8.3.1 數(shù)據(jù)準備工作 167
8.3.2 MySQL表數(shù)據(jù)導入HDFS 168
8.3.3 增量導入 170
8.3.4 MySQL表數(shù)據(jù)導入Hive 171
8.3.5 Sqoop數(shù)據(jù)導出 172
小結(jié) 173
習題 173
第9章 Storm流計算
9.1 流計算概述 175
9.1.1 流計算的概念 175
9.1.2 流計算的處理流程 176
9.2 Storm流計算框架 177
9.2.1 Storm概述 177
9.2.2 Storm的特點 177
9.2.3 Storm的架構(gòu) 178
9.2.4 Storm工作流 178
9.2.5 Storm數(shù)據(jù)流 179
9.3 Storm集群搭建 180
9.3.1 集群規(guī)劃 180
9.3.2 Storm集群搭建 181
9.4 Storm實戰(zhàn) 183
9.4.1 需求分析 183
9.4.2 數(shù)據(jù)結(jié)構(gòu) 183
9.4.3 項目實現(xiàn) 184
小結(jié) 187
習題 187
第10章 數(shù)據(jù)可視化
10.1 數(shù)據(jù)可視化簡介 189
10.1.1 數(shù)據(jù)可視化的基本概念 189
10.1.2 數(shù)據(jù)可視化的類型 190
10.2 數(shù)據(jù)可視化流程 190
10.3 可視化技術(shù)和工具 192
10.3.1 Excel 192
10.3.2 HTML5 192
10.3.3 Tableau 192
10.3.4 ECharts 193
10.3.5 Python 194
10.3.6 R語言 194
10.4 數(shù)據(jù)可視化實例 194
10.4.1 系統(tǒng)架構(gòu) 194
10.4.2 創(chuàng)建數(shù)據(jù)表 195
10.4.3 平臺環(huán)境搭建 195
10.4.4 基于EChart數(shù)據(jù)可視化的實現(xiàn) 202
10.4.5 功能展示 206
小結(jié) 206
習題 206
- 零基礎玩轉(zhuǎn)國產(chǎn)大模型DeepSeek [徐永冰 張帥 編著]
- 網(wǎng)絡工程師5天修煉(適配第6版考綱) [主編 朱小平 施游]
- 信息系統(tǒng)項目管理師考試32小時通關(guān)(適用第4版考綱) [薛大龍]
- 信息系統(tǒng)管理工程師考試32小時通關(guān)(適配第2版考綱) [薛大龍 劉偉]
- 土木工程材料檢測實訓 [洪曉江 達則曉麗 錢波]
- 科技信息檢索與論文寫作實用教程 [李振華]
- 傳統(tǒng)山水畫論解讀與實踐 [陳鈉 著]
- Python數(shù)據(jù)庫編程 [主編 殷樹友 邢 翀]
- 計算機基礎實訓指導 [主編 袁春萍 朱妮]
- 嵌入式人工智能技術(shù)應用(數(shù)字教材) [主編 胡娜 楊國勇 晏廷榮]
- Vienna整流器技術(shù) [桂存兵 著]
- 變頻器與伺服應用 [陳剛 葉云飛]
- 物聯(lián)網(wǎng)工程設計與實踐 [湯琳 李敏]
- 爐邊夜話——深入淺出話AI [汪建 著]
- 電商運營與管理 [鐘肖英 陳瀟]
- Java面向?qū)ο蟪绦蛟O計 [主編 姜春磊 陳虹潔]
- 信息技術(shù)基礎(Windows 10+WPS Office)(微課版) [主編 石利平 田輝平 謝盛嘉]
- 人工智能應用 [主編 陳 萍 劉培培 陳孟軍]
- 大學生職業(yè)發(fā)展與就業(yè)指導 [主編 劉志堅]
- 高級辦公應用項目教程 [主編 屈晶 趙成麗]
- 微信小程序開發(fā)項目實戰(zhàn)(微課版) [主編 黃龍泉 郭峰 朱倩]
- 企業(yè)檔案工作實戰(zhàn)寶典百問百答 [華俊 盧秀英 邵甜甜 著]
- 計算機網(wǎng)絡原理及應用 [主編 唐繼勇 葉坤 孫夢娜]
- 大學生創(chuàng)業(yè)基礎 [主編 王麗莉 王 楊]
- 船舶輔機 [主編 王連海 于洋 姜淑翠]
- 大學生就業(yè)指導 [主編 王麗莉 董宴廷]
- 系統(tǒng)架構(gòu)設計師章節(jié)習題與考點特訓 [主編 薛大龍 鄒月平]
- 高校學生工作探索與實踐 [郭亮 著]
- 大學生情商管理 [方雄 著]
- 2023年長沙市會展業(yè)發(fā)展報告 [主編 周棟良]