• 作者:
    朝樂門
  • 出版時間:
    2021-01-01
  • 出 版 社 :
    人民郵電出版社
  • 專著簡介:
    本書重點講解數據科學的核心理論與實踐應用。全書共7章,主要介紹數據科學的基礎理論、統計學與模型、機器學習與算法、數據可視化、數據加工、大數據技術、數據產品開發及數據科學中的人文與管理等內容。本書內容通俗易懂,深入淺出,便于讀者理解。 本書可作為數據科學與大數據技術、大數據管理與應用、計算機科學與技術、管理科學與工程、工商管理、數據統計、數據分析、信息管理與信息系統、商業分析等多個專業的教材,也可作為數據科學從業人士的參考用書。
  • 專著目錄:


    第 1章 數據科學的基礎理論 1
    1.1 為什么要學習數據科學 1
    1.2 數據科學的定義 4
    1.3 數據科學的知識體系 6
    1.4 數據科學的基本流程 8
    1.5 數據科學與其他學科的區別 11
    1.5.1 學科定位 11
    1.5.2 研究視角 13
    1.5.3 研究范式 13
    1.6 數據科學的人才類型 16
    1.7 數據科學的常用工具 19
    1.8 數據科學的相關應用 21
    1.9 繼續學習本章知識 23
    習題 26
    第 2章 統計學與模型 29
    2.1 統計學與數據科學 29
    2.1.1 描述統計與推斷統計 30
    2.1.2 基本分析法和元分析法 31
    2.2 統計方法的選擇思路 32
    2.3 數據劃分及準備方法 33
    2.3.1 自變量與因變量 34
    2.3.2 數據抽樣 35
    2.4 參數估計與假設檢驗 37
    2.4.1 參數估計 37
    2.4.2 假設檢驗 38
    2.5 常用統計方法及選擇 39
    2.5.1 相關分析 39
    2.5.2 回歸分析 41
    2.5.3 方差分析 41
    2.5.4 分類分析 42
    2.5.5 聚類分析 43
    2.5.6 時間序列分析 44
    2.5.7 關聯規則分析 44
    2.6 統計學面臨的挑戰 45
    2.7 Python編程實踐 45
    2.8 繼續學習本章知識 53
    習題 55
    第3章 機器學習與算法 57
    3.1 數據科學與機器學習 57
    3.2 機器學習的應用步驟 60
    3.3 數據劃分及準備方法 61
    3.4 算法類型及選擇方法 62
    3.5 模型的評估方法 64
    3.6 機器學習面臨的挑戰 67
    3.7 Python編程實踐 68
    3.8 繼續學習本章知識 77
    習題 79
    第4章 數據可視化 81
    4.1 數據科學與數據可視化 81
    4.2 數據可視化的基本原則 84
    4.3 視覺編碼與數據類型 84
    4.4 可視分析學 87
    4.5 常用統計圖表 89
    4.6 數據可視化的發展趨勢 92
    4.7 Python編程實踐 93
    4.8 繼續學習本章知識 97
    習題 98
    第5章 數據加工 100
    5.1 數據科學與數據加工 100
    5.2 探索性數據分析 101
    5.3 數據大小及標準化 103
    5.4 缺失數據及其處理方法 104
    5.5 噪聲數據及其處理方法 105
    5.5.1 離群點處理 105
    5.5.2 分箱處理 106
    5.6 數據維度及其降維處理方法 108
    5.6.1 特征選擇 109
    5.6.2 主成分分析 110
    5.7 數據脫敏及其處理方法 110
    5.8 數據形態及其規整化方法 112
    5.9 Python編程實踐 115
    5.10 繼續學習本章知識 121
    習題 122
    第6章 大數據技術 124
    6.1 數據科學與大數據技術 124
    6.2 Hadoop生態系統 125
    6.3 大數據計算技術與Spark 128
    6.3.1 大數據計算與Lambda
    架構 128
    6.3.2 Spark的出現及其特點 129
    6.3.3 Spark的計算流程 131
    6.3.4 Spark的關鍵技術 132
    6.4 大數據管理技術與MongoDB 136
    6.4.1 關系數據庫及其優缺點 136
    6.4.2 NoSQL及其數據模型 139
    6.4.3 CAP理論與BASE原則 140
    6.4.4 分片技術與復制技術 141
    6.4.5 MongoDB 144
    6.5 大數據分析技術 150
    6.5.1 Analytics 3.0 150
    6.5.2 Gartner分析學價值扶梯模型 152
    6.5.3 數據分析中的陷阱 152
    6.6 Python編程實踐 154
    6.7 繼續學習本章知識 165
    習題 167
    第7章 數據產品開發及數據科學中的人文與管理 171
    7.1 數據產品開發及數據科學的人文與管理屬性 171
    7.2 數據產品及開發 172
    7.3 數據科學的項目管理 174
    7.3.1 數據科學項目中的主要角色 174
    7.3.2 數據科學項目中的主要活動 175
    7.4 數據能力 176
    7.4.1 關鍵過程域 177
    7.4.2 成熟度等級 179
    7.4.3 成熟度評價 181
    7.5 數據治理 183
    7.5.1 主要內容 183
    7.5.2 基本過程 184
    7.5.3 參考框架 185
    7.6 數據安全 186
    7.6.1 信息系統安全等級保護 186
    7.6.2 P2DR模型 187
    7.7 數據偏見 187
    7.7.1 數據來源選擇偏見 188
    7.7.2 數據加工和準備偏見 189
    7.7.3 算法與模型選擇偏見 189
    7.7.4 分析結果的解讀和呈現上的偏見 189
    7.8 數據倫理與道德 190
    7.9 繼續學習本章知識 191
    習題 191
    術語索引 193
    參考文獻 198