数据科学导论 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
数据科学导论电子书下载地址
内容简介:
本教材介绍数据科学的通识入门知识,可以作为高等院校大数据专业的专业基础课程教材。本教材以“建立知识体系、掌握基本原理、学会初级实践、了解相关技术”为原则,为计算机专业类学生深入学习数据科学和大数据技术奠定基础。本教材将系统讲授数据科学的基本概念和知识体系、数据分析的基本流程和方法(包括数据预处理,回归、聚类、分类等智能分析技术)、大数据分析的基本工具,并以Python语言为例,通过大量实例和练习讲授初级的数据分析技术。
书籍目录:
第1章数据科学概论1
1.1数据和大数据1
1.1.1数据1
1.1.2数据化进程3
1.1.3大数据5
1.2数据科学理论基础8
1.2.1数据科学发展历程8
1.2.2数据科学的概念9
1.2.3数据科学的主要内容9
1.3数据科学应用实践13
1.3.1数据科学家13
1.3.2数据科学工作流程14
1.3.3数据科学实践案例15
1.4小结19
1.4.1本章总结19
1.4.2扩展阅读材料20
1.5习题20
1.6参考资料21
第2章数学基础23
2.1线性代数23
2.1.1向量23
2.1.2矩阵24
2.1.3矩阵导数29
2.1.4实例: 利用SVD进行评分预测31
2.2概率统计32
2.2.1随机事件与概率33
2.2.2条件概率与事件独立性342.2.3随机变量及其数字特征36
2.2.4数理统计41
2.2.5信息论42
2.2.6实例: 利用朴素贝叶斯算法进行文本分类43
2.3优化理论44
2.3.1基本概念45
2.3.2优化问题的一般形式48
2.3.3优化方法54
2.3.4实例: SVM分类器57
2.4图论基础58
2.4.1图的定义58
2.4.2图的概念59
2.4.3图的矩阵表示62
2.4.4拉普拉斯矩阵与谱64
2.4.5实例: 谱聚类算法65
2.5小结67
2.5.1本章总结67
2.5.2扩展阅读材料68
2.6习题68
2.7参考资料69
数据科学导论目录第3章Python语言初步70
3.1Python语言概述70
3.1.1Python语言简介70
3.1.2Python语言环境搭建71
3.2Python的基本用法72
3.2.1列表与元组72
3.2.2字符串77
3.2.3字典79
3.2.4条件与循环语句83
3.2.5函数88
3.2.6文件94
3.2.7综合实例96
3.3重要库的使用方法与案例100
3.3.1NumPy100
3.3.2Pandas108
3.3.3SciPy118
3.3.4Matplotlib122
3.4小结124
3.4.1本章总结124
3.4.2扩展阅读材料125
3.5习题125
3.6参考资料126
第4章数据预处理127
4.1数据预处理概述127
4.1.1数据预处理的意义与目标127
4.1.2背景知识128
4.1.3数据可视化实例130
4.2数据清洗133
4.2.1缺失值处理133
4.2.2噪声平滑136
4.2.3异常值的检测与处理137
4.3数据集成140
4.3.1实体识别问题141
4.3.2检测和解决数据值冲突141
4.3.3冗余数据与相关分析141
4.3.4元组重复143
4.4数据归约144
4.4.1数据归约策略144
4.4.2维归约145
4.4.3数量归约148
4.5数据变换150
4.5.1数据变换策略150
4.5.2规范化150
4.5.3离散化153
4.5.4标称数据的概念分层生成155
4.6数据预处理实践156
4.7小结167
4.7.1本章总结167
4.7.2扩展阅读材料168
4.8习题168
4.9参考资料169
第5章分析方法初步170
5.1机器学习基础170
5.1.1何为机器学习170
5.1.2基本术语171
5.1.3模型评估与性能度量172
5.1.4发展历程177
5.2Sklearn库基本使用178
5.2.1Sklearn库简介178
5.2.2基本使用介绍178
5.3回归184
5.3.1线性回归184
5.3.2Logistic回归187
5.3.3其他回归模型190
5.4分类191
5.4.1决策树191
5.4.2K近邻算法195
5.4.3朴素贝叶斯197
5.4.4支持向量机199
5.5聚类202
5.5.1概述202
5.5.2原型聚类203
5.5.3密度聚类207
5.5.4层次聚类209
5.6神经网络212
5.6.1神经元模型212
5.6.2感知机与多层神经网络213
5.6.3误差逆传播算法215
5.6.4深度学习217
5.7集成学习219
5.7.1概述219
5.7.2序列化方法221
5.7.3并行化方法223
5.8小结224
5.8.1本章总结225
5.8.2扩展阅读材料225
5.9习题226
5.10参考资料226
第6章数据科学实践228
6.1数据分析流程228
6.1.1数据挖掘目标228
6.1.2数据采样228
6.1.3数据预处理229
6.1.4数据探索230
6.1.5数据建模230
6.1.6数据分析工具230
6.2案例1——Kaggle Titanic生存预测231
6.2.1数据挖掘目标231
6.2.2数据导入和预处理231
6.2.3数据探索235
6.2.4模型构建236
6.3案例2——客户价值分析238
6.3.1数据挖掘目标238
6.3.2数据导入和预处理238
6.3.3数据探索242
6.3.4模型构建242
6.4案例3——时间序列预测244
6.4.1数据挖掘目标244
6.4.2数据导入244
6.4.3数据探索245
6.4.4模型构建250
6.5案例4——价格预测挑战253
6.5.1数据挖掘目标253
6.5.2数据导入和预处理253
6.5.3数据探索和模型构建255
6.6小结257
6.6.1本章总结257
6.6.2扩展阅读材料257
6.7习题257
6.8参考资料258
第7章数据科学的重要研究领域259
7.1文本分析259
7.1.1文本分析简介259
7.1.2文本分析的任务与方法261
7.1.3知识图谱266
7.1.4文本分析的应用269
7.2图像视频分析271
7.2.1图像视频分析简介272
7.2.2图像分析的任务与方法273
7.2.3视频分析的任务与方法276
7.2.4图像视频分析的应用278
7.3网络分析281
7.3.1网络结构分析281
7.3.2复杂网络283
7.3.3社交网络分析287
7.3.4异质信息网络分析292
7.4可视化分析295
7.4.1可视化分析简介295
7.4.2可视化分析应用场景296
7.4.3可视化分析工具301
7.5小结306
7.5.1本章总结306
7.5.2扩展阅读材料307
7.6习题307
7.7参考资料308
第8章大数据处理技术简介311
8.1云计算311
8.1.1云计算的概念311
8.1.2云计算的基本特点311
8.1.3云计算的服务类型312
8.1.4云计算的部署方式314
8.1.5云计算与其他计算模式的区别316
8.2云计算平台317
8.2.1虚拟化技术317
8.2.2虚拟化产品及特点319
8.2.3AWS亚马逊云服务321
8.2.4阿里云323
8.3Hadoop及其生态环境327
8.3.1Hadoop简介327
8.3.2HDFS文件系统328
8.3.3YARN资源管理器331
8.3.4MapReduce计算模型334
8.3.5Hadoop生态系统337
8.3.6Hadoop 3.0的新特性340
8.4Spark及其生态环境341
8.4.1Spark简介341
8.4.2RDD以及DAG调度342
8.4.3Spark生态系统344
8.5应用案例346
8.5.1安装虚拟机集群环境346
8.5.2运行案例代码355
8.6小结356
8.6.1本章总结357
8.6.2扩展阅读材料358
8.7习题358
8.8参考资料358
作者介绍:
石川,男,1978年4月生于湖北洪湖。现就职于北京邮电大学计算机学院,教授、博导。长期专注于数据挖掘与机器学习研究,发表高水平论文50余篇。获北京市“师德先锋”称号和“青年英才”计划支持。
出版社信息:
暂无出版社相关信息,正在全力查找中!
书籍摘录:
暂无相关书籍摘录,正在全力查找中!
在线阅读/听书/购买/PDF下载地址:
原文赏析:
暂无原文赏析,正在全力查找中!
其它内容:
编辑推荐
本教材介绍数据科学的通识入门知识,可以作为高等院校大数据专业的专业基础课程教材。本教材以“建立知识体系、掌握基本原理、学会初级实践、了解相关技术”为原则,为计算机专业类学生深入学习数据科学和大数据技术奠定基础。
前言
近些年,各行各业聚集的“大数据”不仅对信息处理技术提出了挑战,而且深刻影响社会经济的各个方面。大数据时代的到来也催生一门新的学科——数据科学。数据科学是基于计算机科学、统计学、数学等学科的一门新兴的交叉学科,主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理。作为一门新兴学科,很多学校开设了相关专业,也急需讲授其核心理论体系和应用实践的教材。本书顺应数据科学兴起的潮流,为数据科学与大数据及相关专业的学生,提供一本入门和导论性质的教材。
作者深入调研了现有的大数据教材和资料,结合十余年数据挖掘和机器学习等领域的科研实践以及“计算机导论”等计算机专业基础课程的教学实践经验,以“建立知识体系、掌握基本原理、学会初级实践、了解前沿技术”为原则,精心设计编写了本书。本书具有如下特色。
(1) 内容全面,重点突出。本书涵盖了数据科学的主要内容,包括基础理论、数学基础、分析方法、应用前沿和处理技术。同时,作者也从数据挖掘的视角着重强调了数据分析的基本方法和技能。
(2) 理论系统,实践丰富。本书比较系统地介绍了与数据科学紧密相关的基本理论和方法,并且配以丰富的实例进行讲解。作者以Python语言为例,配以大量实例详细讲解了数据分析的基本方法。
(3) 模块设计,灵活组合。本书划分为3个模块: 基础理论(第1~2章)、分析方法(第3~6章)、高级主题(第7~8章),3个模块相对独立,模块内部也是由浅入深。选择合适章节内容和讲授深度,可以支撑2~6学分的“数据科学导论”课程设置。
(4) 深入浅出,可读性强。本书尽量介绍数据科学相关的内容和基本的概念,并配以实例介绍本质含义;此外,还介绍了大量要深入学习的扩展阅读材料。本书面向具有基础的计算机相关知识的学生和科技工作者,力争概念通俗易懂,方法便于上手。
全书内容分为3部分,共8章。部分是数据科学的基本理论和数学基础,由第1~2章组成。
第1章是本书统领式的一章。主要介绍数据科学的产生背景、基础知识、基本理论以及数据科学家和数据科学的实践案例。通过串联数据和大数据的概念,阐述了人类社会的数据化进程;通过介绍数据科学的理论基础和应用实践引导读者在学习时应注重理论联系实际,学以致用。
第2章介绍数据科学研究中广泛使用的数学工具。主要介绍数据科学中需要用到的基础数学知识,包括线性代数、概率统计、优化理论和图论基础,并结合实例探讨它们的应用。
本书第二部分介绍数据科学中常用的数据分析方法,由第3~6章组成。
第3章介绍数据科学研究中主流的编程语言。全书的案例也都统一以Python语言讲解。本章涵盖Python的基本用法以及数据科学处理中重要库的使用。
第4章介绍数据科学处理中基本的数据预处理方法。本章是整个数据处理中的前期核心步骤,包括数据清洗、数据集成、数据归约、数据变换等技术,后辅以一个实践案例具体阐述预处理的各个步骤。
第5章介绍数据科学研究中的基本机器学习模型。本章介绍机器学习的基本概念及主流的机器学习库,同时讲解回归、分类、神经网络等监督学习方法及聚类等无监督学习模型,每个模型均配有实例及代码演示。
第6章以实战案例系统总结前面章节的数据处理技术。首先介绍数据分析流程,继而给出4个具体的案例,包括Titanic生存预测、时间序列预测等,每个案例从问题分析开始,阐述数据预处理、机器学习模型使用、结果分析等完整流程。
本书第三部分介绍数据科学的应用前沿和处理技术,由第7~8章组成。
第7章围绕非结构化数据,分别对文本数据、图像视频数据、图结构数据的分析与应用方法展开介绍。此外,还简要介绍了数据可视化分析技术、应用场景、常用的可视化分析工具。
第8章介绍大数据处理的主流工具。主要介绍了云计算的相关概念和特点、核心技术虚拟化和多个商用的云计算平台;讨论了大数据处理工具Hadoop与Spark这两个框架的基本概念、核心算法以及生态环境。本章还提供了一个完整的搭建并使用Hadoop集群进行数据处理的应用案例。
本书可以作为数据科学与大数据及相关专业学生的数据科学和大数据分析等课程的入门教程,也可以作为科技工作者学习大数据分析的参考材料。作为大学教材使用,可以有短学时(2~3学分)和长学时(4~6学分)两种教学计划。针对短学时教学计划,可以选择第1、3~6章讲授,其他章节选讲;针对长学时教学计划,可以讲授全部内容,并且增加上机实践环节。本书还提供了丰富的教学资料供教师教学参考和学生学习使用,包括教学幻灯片和所有实例源代码等资料。这些资料可以从www.shichuan.org下载使用。
石川负责全书框架设计和统稿,并编写了第1章;王啸负责编写第3~6章;胡琳梅负责编写第2、7、8章;王柏对全书进行了校对。本书编写过程中得到了北京邮电大学计算机学院数据科学与服务中心的老师们的大力支持和帮助;也得到了许多研究生的支持,他们收集并整理了大量的资料。没有他们的帮助,本书很难在约定的时间内完成。在此,感谢他们在本书的编写过程中做出的巨大贡献。
编者 2020年6月
书籍介绍
《数据科学导论(面向新工科专业建设计算机系列教材)》主要介绍数据科学的通识入门知识,可以作为高等院校数据科学与大数据专业的专业基础课程教材。该书以“建立知识体系、掌握基本原理、学会初级实践、了解前沿技术”为原则,为数据科学与大数据及相关专业的学生深入学习数据科学和大数据技术奠定基础。该书系统讲授数据科学的基本概念和知识体系、数据分析的基本流程和方法(包括数据预处理、回归、聚类、分类等智能分析技术)、大数据分析的基本T具,并以Python语言为例,通过大量实例和练习讲授初级的数据分析技术。该书通过系统全面的理论介绍与丰富翔实的程序实践相结合,帮助数据科学与大数据及相关专业的学生树立大数据意识,学习数据科学的知识体系,掌握基本的数据处理方法。
《数据科学导论(面向新工科专业建设计算机系列教材)》适合作为数据科学与大数据及相关专业学生的教材,也可作为大数据开发工程师的参考书。
网站评分
书籍多样性:6分
书籍信息完全性:3分
网站更新速度:9分
使用便利性:3分
书籍清晰度:9分
书籍格式兼容性:9分
是否包含广告:8分
加载速度:8分
安全性:7分
稳定性:3分
搜索功能:5分
下载便捷性:6分
下载点评
- 书籍完整(236+)
- 方便(676+)
- epub(229+)
- 中评(516+)
- 已买(251+)
- 赞(619+)
- 不亏(596+)
- 五星好评(412+)
- 四星好评(539+)
- 图书多(340+)
- 推荐购买(303+)
- 服务好(670+)
下载评价
- 网友 隗***杉: ( 2024-12-28 23:54:17 )
挺好的,还好看!支持!快下载吧!
- 网友 林***艳: ( 2024-12-25 08:41:46 )
很好,能找到很多平常找不到的书。
- 网友 车***波: ( 2024-12-29 07:00:57 )
很好,下载出来的内容没有乱码。
- 网友 权***颜: ( 2025-01-15 07:41:21 )
下载地址、格式选择、下载方式都还挺多的
- 网友 詹***萍: ( 2025-01-02 04:48:06 )
好评的,这是自己一直选择的下载书的网站
- 网友 步***青: ( 2025-01-01 02:28:37 )
。。。。。好
- 网友 养***秋: ( 2024-12-29 06:38:26 )
我是新来的考古学家
- 网友 戈***玉: ( 2024-12-25 21:00:54 )
特别棒
- 网友 国***芳: ( 2025-01-07 20:57:17 )
五星好评
- 网友 寇***音: ( 2024-12-25 03:47:34 )
好,真的挺使用的!
- 网友 益***琴: ( 2025-01-01 16:26:59 )
好书都要花钱,如果要学习,建议买实体书;如果只是娱乐,看看这个网站,对你来说,是很好的选择。
- 网友 堵***洁: ( 2025-01-09 13:27:41 )
好用,支持
- 网友 利***巧: ( 2025-01-02 23:25:58 )
差评。这个是收费的
- 南台湾二日游 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 0806新题型大英4级听力全真模拟试题(第2版) 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 声学事件检测理论与方法 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 古朵与米兰 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 旅行简史:科技改变旅行 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 爱因斯坦传记(彩图注音版)/小书虫阅读系列/小学生语文 丛书 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 揭秘地球 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 鬼手神工 上海大学出版社 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 危机后我国金融衍生产品发展路径选择 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 决定你一生健康的七个习惯 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
书籍真实打分
故事情节:7分
人物塑造:9分
主题深度:3分
文字风格:9分
语言运用:4分
文笔流畅:7分
思想传递:4分
知识深度:5分
知识广度:6分
实用性:9分
章节划分:4分
结构布局:9分
新颖与独特:4分
情感共鸣:7分
引人入胜:8分
现实相关:5分
沉浸感:7分
事实准确性:5分
文化贡献:7分