數(shù)據(jù)清洗

-
【作 者】黃源 劉智楊 孫大松
【I S B N 】978-7-5226-0382-7
【責(zé)任編輯】周春元
【適用讀者群】本專通用
【出版時(shí)間】2022-02-15
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁(yè) 數(shù)】192
【千字?jǐn)?shù)】300
【印 張】12
【定 價(jià)】¥38
【叢 書】普通高等教育數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)教材
【備注信息】
簡(jiǎn)介
本書特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書
內(nèi) 容 提 要
本書編寫目的是向讀者介紹大數(shù)據(jù)清洗的基本概念和相應(yīng)的技術(shù)應(yīng)用,共分8章:數(shù)據(jù)清洗簡(jiǎn)介、數(shù)據(jù)清洗中的理論基礎(chǔ)、文件格式及其轉(zhuǎn)換、Excel數(shù)據(jù)清洗、Kettle數(shù)據(jù)清洗、Kettle與數(shù)據(jù)倉(cāng)庫(kù)、Python數(shù)據(jù)清洗、數(shù)據(jù)清洗綜合實(shí)訓(xùn)。
本書將理論與實(shí)踐操作相結(jié)合,通過(guò)大量的案例幫助讀者快速了解和應(yīng)用數(shù)據(jù)清洗相關(guān)技術(shù),并對(duì)重要的核心知識(shí)點(diǎn)加大練習(xí)比例,以達(dá)到熟練應(yīng)用的目的。
本書適用于高校人工智能、大數(shù)據(jù)技術(shù)相關(guān)專業(yè)的學(xué)生,也可供大數(shù)據(jù)技術(shù)愛(ài)好者自學(xué)使用。
內(nèi)容實(shí)用——理論與實(shí)踐結(jié)合,重點(diǎn)突出應(yīng)用
體系完善——構(gòu)建完整的大數(shù)據(jù)專業(yè)解決方案
產(chǎn)教融合——高校企業(yè)共參與,對(duì)標(biāo)行業(yè)標(biāo)準(zhǔn)
資源豐富——微課、課件、教案、源碼、答案
前 言
近年來(lái),隨著數(shù)字經(jīng)濟(jì)的快速發(fā)展,數(shù)據(jù)成為繼土地、勞動(dòng)力、資本、技術(shù)之后的第五大生產(chǎn)要素,在國(guó)家治理、社會(huì)發(fā)展和人民生活中的作用日益突出。而大數(shù)據(jù)是現(xiàn)代社會(huì)高科技發(fā)展的產(chǎn)物,是第四次工業(yè)革命最主要的內(nèi)容之一,也是數(shù)字經(jīng)濟(jì)發(fā)展重要的推動(dòng)力量。
當(dāng)前,發(fā)展大數(shù)據(jù)已經(jīng)成為國(guó)家戰(zhàn)略,大數(shù)據(jù)在引領(lǐng)經(jīng)濟(jì)社會(huì)發(fā)展中的新引擎作用更加明顯。2015年,國(guó)家印發(fā)《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)綱要》,第一次將大數(shù)據(jù)上升到國(guó)家戰(zhàn)略高度,提出了我國(guó)大數(shù)據(jù)的頂層設(shè)計(jì)。此后,隨著大數(shù)據(jù)底層設(shè)施逐漸成熟,大數(shù)據(jù)分析開始結(jié)合具體行業(yè),向下游垂直行業(yè)應(yīng)用延伸。
大數(shù)據(jù)必須經(jīng)過(guò)清洗、分析、建模、可視化才能體現(xiàn)其潛在的價(jià)值。例如政府、銀行和保險(xiǎn)公司等內(nèi)部存在海量的非結(jié)構(gòu)化、不規(guī)則的數(shù)據(jù),而只有將這些數(shù)據(jù)采集并清洗為結(jié)構(gòu)化、規(guī)則的數(shù)據(jù),才能提高公司決策支撐能力和政府決策服務(wù)水平,使之發(fā)揮應(yīng)有的作用。
本書以理論與實(shí)踐操作相結(jié)合的方式深入講解了數(shù)據(jù)清洗的基本知識(shí)和實(shí)現(xiàn)的基本技術(shù),在內(nèi)容設(shè)計(jì)上既有上課時(shí)老師講述的部分(包括詳細(xì)的理論與典型的案例),又有大量的實(shí)訓(xùn)環(huán)節(jié),雙管齊下,極大地激發(fā)了學(xué)生的學(xué)習(xí)積極性和主動(dòng)創(chuàng)造性,讓學(xué)生在課堂上跟上老師的思維,從而學(xué)到更多的知識(shí)和技能。
本書特色如下:
(1)采用“理實(shí)一體化”教學(xué)方式:課堂上既有老師講述的內(nèi)容又有學(xué)生獨(dú)立思考、上機(jī)操作的內(nèi)容。
(2)豐富的教學(xué)案例:包含教學(xué)課件、習(xí)題答案等多種教學(xué)資源。
(3)緊跟時(shí)代潮流,注重技術(shù)變化:書中包含最新的大數(shù)據(jù)分析知識(shí)及一些開源庫(kù)的使用。建議讀者在閱讀本書時(shí)使用3.7以上的Python程序版本,且需要安裝MySQL和Kettle等軟件。
(4)編寫本書的老師都具有多年教學(xué)經(jīng)驗(yàn),做到重難點(diǎn)突出,能夠激發(fā)學(xué)生的學(xué)習(xí)熱情。
(5)配有微課視頻:對(duì)本書中的重難點(diǎn)進(jìn)行細(xì)致講解,方便學(xué)生課后學(xué)習(xí)。
本書可作為大數(shù)據(jù)專業(yè)、人工智能專業(yè)、軟件技術(shù)專業(yè)、云計(jì)算專業(yè)、計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)的教材,也可作為大數(shù)據(jù)愛(ài)好者的參考書。
本書建議學(xué)時(shí)為50學(xué)時(shí),具體分布見下表。
章節(jié) 建議學(xué)時(shí)
數(shù)據(jù)清洗簡(jiǎn)介 4
數(shù)據(jù)清洗中的理論基礎(chǔ) 6
文件格式及其轉(zhuǎn)換 6
Excel數(shù)據(jù)清洗 4
Kettle數(shù)據(jù)清洗 8
Kettle與數(shù)據(jù)倉(cāng)庫(kù) 6
Python數(shù)據(jù)清洗 12
數(shù)據(jù)清洗綜合實(shí)訓(xùn) 4
本書由黃源、劉智楊、孫大松任主編,陳勇、王曙光、劉廣敏任副主編。其中,黃源編寫第1章和第2章并負(fù)責(zé)統(tǒng)稿工作,劉智楊編寫第3章,孫大松編寫第4 章,陳勇編寫第5章和第6章,王曙光編寫第7章,劉廣敏編寫第8章。
在本書編寫過(guò)程中,編者得到了中國(guó)電信金融行業(yè)信息化應(yīng)用重慶基地總經(jīng)理助理?xiàng)铊〉拇罅χС,同時(shí)參閱了大量相關(guān)資料,在此一并表示感謝。
由于編者水平有限,書中難免存在疏漏甚至錯(cuò)誤之處,懇請(qǐng)讀者批評(píng)指正,編者電子郵箱:2103069667@qq.com。
編 者
2021年10月
第1章 數(shù)據(jù)清洗簡(jiǎn)介 1
1.1 數(shù)據(jù)清洗概述 2
1.1.1 什么是數(shù)據(jù)清洗 2
1.1.2 數(shù)據(jù)清洗的原理 2
1.1.3 數(shù)據(jù)清洗的過(guò)程 3
1.2 數(shù)據(jù)質(zhì)量管理 5
1.2.1 數(shù)據(jù)質(zhì)量管理的含義 5
1.2.2 數(shù)據(jù)質(zhì)量的評(píng)估 6
1.2.3 數(shù)據(jù)質(zhì)量管理應(yīng)用 7
1.3 數(shù)據(jù)清洗模型研究 8
1.3.1 數(shù)據(jù)清洗模型描述 8
1.3.2 數(shù)據(jù)清洗模型應(yīng)用 9
1.4 數(shù)據(jù)清洗常用軟件與工具 9
1.4.1 數(shù)據(jù)清洗常用軟件 9
1.4.2 數(shù)據(jù)清洗常用工具 11
1.5 實(shí)訓(xùn) 11
練習(xí)1 13
第2章 數(shù)據(jù)清洗中的理論基礎(chǔ) 14
2.1 微積分 15
2.1.1 微積分概述 15
2.1.2 微積分的作用 15
2.2 線性代數(shù) 15
2.2.1 線性代數(shù)概述 16
2.2.2 線性代數(shù)的定義 16
2.3 概率論與數(shù)理統(tǒng)計(jì) 21
2.3.1 概率論與數(shù)理統(tǒng)計(jì)概述 21
2.3.2 概率論與數(shù)理統(tǒng)計(jì)基本概念 21
2.4 最優(yōu)化理論 26
2.4.1 最優(yōu)化理論定義 26
2.4.2 凸函數(shù) 26
2.5 主成分分析 27
2.5.1 主成分分析概述 27
2.5.2 主成分分析的實(shí)現(xiàn) 27
2.6 數(shù)據(jù)清洗常見算法 28
2.6.1 哈希算法 29
2.6.2 字符串匹配算法 29
2.6.3 聚類算法 31
2.7 實(shí)訓(xùn) 33
練習(xí)2 34
第3章 文件格式及其轉(zhuǎn)換 35
3.1 文件格式概述 36
3.1.1 文件格式簡(jiǎn)介 36
3.1.2 Windows中常見的文件格式介紹 36
3.2 數(shù)據(jù)類型與字符編碼 37
3.2.1 數(shù)據(jù)類型 37
3.2.2 字符編碼 37
3.3 跨平臺(tái)數(shù)據(jù)傳輸格式 38
3.3.1 XML 38
3.3.2 JSON 39
3.4 Kettle中文件格式的運(yùn)行與轉(zhuǎn)換 40
3.4.1 文本文件的轉(zhuǎn)換 41
3.4.2 XML文件的轉(zhuǎn)換 43
3.4.3 JSON文件的轉(zhuǎn)換 46
3.4.4 CSV文件的轉(zhuǎn)換 48
3.5 實(shí)訓(xùn) 50
練習(xí)3 56
第4章 Excel數(shù)據(jù)清洗 57
4.1 認(rèn)識(shí)Excel 58
4.1.1 Excel介紹 58
4.1.2 Excel數(shù)據(jù)清洗的特點(diǎn) 58
4.2 Excel數(shù)據(jù)清洗基本操作 58
4.2.1 Excel數(shù)據(jù)工具的認(rèn)識(shí) 58
4.2.2 Excel數(shù)據(jù)工具的應(yīng)用 59
4.3 使用Excel中的函數(shù)進(jìn)行數(shù)據(jù)清洗 65
4.3.1 Excel中的函數(shù)介紹 65
4.3.2 Excel函數(shù)的具體應(yīng)用 66
4.4 實(shí)訓(xùn) 70
練習(xí)4 71
第5章 Kettle數(shù)據(jù)清洗 72
5.1 Kettle數(shù)據(jù)清洗概述 73
5.1.1 Kettle數(shù)據(jù)清洗簡(jiǎn)介 73
5.1.2 Kettle數(shù)據(jù)清洗的認(rèn)識(shí) 73
5.2 Kettle數(shù)據(jù)清洗基礎(chǔ) 74
5.2.1 Kettle數(shù)據(jù)清洗基本操作 75
5.2.2 Kettle數(shù)據(jù)清洗的實(shí)現(xiàn) 75
5.3 實(shí)訓(xùn) 94
練習(xí)5 105
第6章 Kettle與數(shù)據(jù)倉(cāng)庫(kù) 106
6.1 數(shù)據(jù)倉(cāng)庫(kù)概述 107
6.1.1 什么是數(shù)據(jù)倉(cāng)庫(kù) 107
6.1.2 數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn) 107
6.2 Kettle中的數(shù)據(jù)倉(cāng)庫(kù)相關(guān)技術(shù) 107
6.2.1 Kettle連接數(shù)據(jù)庫(kù) 107
6.2.2 Kettle成功連接數(shù)據(jù)庫(kù)的其他操作 109
6.3 Kettle在數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用 111
6.3.1 Kettle讀取數(shù)據(jù)庫(kù) 111
6.3.2 Kettle遷移數(shù)據(jù)庫(kù) 115
6.4 實(shí)訓(xùn) 117
練習(xí)6 119
第7章 Python數(shù)據(jù)清洗 120
7.1 Python數(shù)據(jù)清洗概述 121
7.1.1 Python數(shù)據(jù)清洗簡(jiǎn)介 121
7.1.2 Python擴(kuò)展庫(kù)的安裝與導(dǎo)入 121
7.2 Python數(shù)據(jù)清洗基礎(chǔ) 122
7.2.1 NumPy庫(kù)的使用 122
7.2.2 Pandas庫(kù)的使用 128
7.3 機(jī)器學(xué)習(xí)中的數(shù)據(jù)清洗 149
7.3.1 Seaborn庫(kù) 149
7.3.2 對(duì)機(jī)器學(xué)習(xí)中的數(shù)據(jù)集進(jìn)行分析清洗 152
7.4 Python中的時(shí)間序列 154
7.4.1 時(shí)間序列基礎(chǔ)datetime 154
7.4.2 Pandas中的日期與時(shí)間工具 156
7.5 實(shí)訓(xùn) 157
練習(xí)7 165
第8章 數(shù)據(jù)清洗綜合實(shí)訓(xùn) 166
8.1 Kettle輸入記錄排序 167
8.2 Kettle數(shù)據(jù)流優(yōu)先級(jí)排序 171
8.3 Kettle生成記錄排序 175
8.4 使用Python清洗數(shù)據(jù) 178
8.5 Python讀取CSV文檔 180
參考文獻(xiàn) 186
- 人工智能應(yīng)用基礎(chǔ) [主編 楊纓 李佳]
- 中華水文化(慕課版)(第二版) [畢雪燕 楊華軻 羅玲誼 等編著]
- 電路與電子技術(shù)Ⅱ——電路分析基礎(chǔ) [主編 陳曉 金哲]
- 人工智能概論(第二版) [主編 任云暉 丁紅 徐迎春 ]
- 信息時(shí)代美育之道 [主編 劉宏宇 黎婭]
- 數(shù)字媒體交互設(shè)計(jì)項(xiàng)目式教程(微課版) [主編 蘇陸]
- Amazing!兒童英語(yǔ)自然拼讀分級(jí)教材(全8冊(cè)) [王玲 編著]
- Spark大數(shù)據(jù)處理技術(shù) [主編 劉仁山 周洪翠 莊新妍]
- 人工智能算法與實(shí)踐 [主編 梁琨 張翼英]
- 計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)項(xiàng)目化教程(微課版) [主編 王艷萍 安華萍]
- 電路設(shè)計(jì)與PCB制作實(shí)操教程 [主編 周永宏]
- 電路與電子技術(shù)Ⅰ—數(shù)字電子技術(shù) [主編 鄭玉珍 王淑琴]
- Java編程基礎(chǔ)案例式教程 [主編 陳艷華 唐春蘭]
- Python語(yǔ)言同步案例習(xí)題精解 [主編 肖朝暉]
- Excel在會(huì)計(jì)工作中的應(yīng)用(第三版) [主 編 趙艷莉 耿聰慧]
- 應(yīng)用數(shù)學(xué) [主編 劉東海 劉麗瑤]
- Web用戶界面設(shè)計(jì)與制作 [主編 趙娟]
- 計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)創(chuàng)新教程(模塊化+課程思政版) [主編 唐繼勇 李旭]
- 計(jì)算機(jī)應(yīng)用技術(shù)基礎(chǔ)案例教程 [主編 周麗娟 王璐]
- Unity應(yīng)用開發(fā)與實(shí)戰(zhàn)(微課版) [主 編 程永恒]
- PHP程序設(shè)計(jì)項(xiàng)目化教程 [主 編 杜海穎]
- 文學(xué)基礎(chǔ)與影視欣賞 [楊華軻 朱偉利 畢雪燕 羅玲誼]
- 路由交換技術(shù)項(xiàng)目化教程 [主編 范國(guó)娟]
- 信息技術(shù)基礎(chǔ)立體化教程 [鄒承俊 周洪林 劉和文 葉煜 ]
- 大學(xué)計(jì)算機(jī)基礎(chǔ)與計(jì)算思維 [主編 閔笛 汪瑩]
- 無(wú)線局域網(wǎng)技術(shù)與實(shí)踐 [主編 唐繼勇 劉思伶]
- 信息技術(shù)基礎(chǔ)項(xiàng)目化教程 [主編 王宏斌 王萬(wàn)麗 王芳]
- 體育與健康 [主編 馬馳 吳雅彬]
- 大學(xué)計(jì)算機(jī)信息素養(yǎng)(第二版) [主編 盧山]
- 全國(guó)計(jì)算機(jī)等級(jí)考試一級(jí)(MS Office)指導(dǎo)手冊(cè) [主編 王宏斌 孫元 禹晨]
- 生活經(jīng)管more>>
- Spark大數(shù)據(jù)處理技術(shù)
- 數(shù)據(jù)清洗
- R語(yǔ)言基礎(chǔ)及應(yīng)用
- 數(shù)據(jù)庫(kù)原理及應(yīng)用(MySQL版)
- 大數(shù)據(jù)導(dǎo)論
- 大數(shù)據(jù)可視化技術(shù)
- Python語(yǔ)言程序設(shè)計(jì)
- Java編程基礎(chǔ)
- Java編程基礎(chǔ)實(shí)踐指導(dǎo)
- 深度學(xué)習(xí)—卷積神經(jīng)網(wǎng)絡(luò)算法原理與應(yīng)用
- Hive編程技術(shù)與應(yīng)用
- HBase分布式存儲(chǔ)系統(tǒng)應(yīng)用
- Hadoop大數(shù)據(jù)開發(fā)
- Python程序設(shè)計(jì)教程