第1章 机器学习简介
1.1机器学习的定义
1.2大数据与机器学习
1.3 机器学习、人工智能及深度学习
1.4 机器学习的基本任务
1.5 如何选择合适算法
1.6 Spark在机器学习方面的优势
1.7 小结
第2章 构建Spark机器学习系统
2.1机器学习系统架构
2.2启动集群
2.3加载数据
2.4探索数据
2.4.1 数据统计信息
2.4.2 数据质量分析
2.4.3 数据特征分析
2.4.3.1 数据特征分析
2.4.3.2 特征分布及相关性分析
2.4.3.3 对比分析
2.4.4 数据的可视化
2.5数据预处理
2.5.1数据清理
2.5.2数据变换
2.5.3数据集成
2.5.4数据归约
2.6构建模型
2.7模型评估
2.8组装
2.9模型选择或调优
2.9.1 交叉验证(CrossValidator)
2.9.2训练-验证切分(TrainValidationSplit)
2.10保存模型
2.11小结
第3章 ML Pipelines
3.1 Pipeline简介
3.2DataFrame
3.3 Pipeline组件
3.4 Pipeline原理
3.5 Pipeline实例
3.5.1使用Estimator, Transformer, and Param实例
3.5.2 ML使用Pipeline实例
3.6 小结
第4章 特征提取、转换和选择
4.1 特征提取
4.1.1 词频-逆向文件频率(TF-IDF)
4.1.2 Word2Vec
4.1.3 计数向量器(Countvectorizer)
4.2 特征转换
4.2.1分词器(Tokenization)
4.2.2 移除停用词(StopWordsRemover)
4.2.3 n-gram
4.2.4 二值化
4.2.5 主成分分析(PCA)
4.2.6 多项式展开(PolynomialExpansion)
4.2.7 离散余弦变换(DCT)
4.2.8 字符串-索引变换(StringIndexer)
4.2.9 索引-字符串变换(IndexToString)
4.2.10 独热编码(OneHotEncoder)
4.2.11 向量-索引变换
4.2.12交互式(Interaction)
4.2.13 正则化(Normalizer)
4.2.14 规范化(StandardScaler)
4.2.15 最大值-最小值缩放(MinMaxScaler)
4.2.16 最大值-绝对值缩放(MaxAbsScaler)
4.2.17 离散化重组(Bucketizer)
4.2.18 元素乘积(ElementwiseProduct)
4.2.19 SQL转换器(SQLTransformer)
4.2.20 向量汇编(VectorAssembler)
4.2.21 分位数离散化(QuantileDiscretizer)
4.3 特征选择
4.3.1 向量机(VectorSlicer)
4.3.2 R公式(RFormula)
4.3.3 卡方特征选择(ChiSqSelector)
4.4 小结
第5章 模型选择和优化
5.1 模型选择
5.2交叉验证(cross-validation)
5.3训练验证拆分法(train validation split)
5.4自定义模型选择
5.5小结
第6章 Spark MLlib简介
6.1 Spark MLlib简介
6.2 Spark MLlib架构
6.3 数据类型
6.4 基础统计
6.4.1摘要统计(summary statistics)
6.4.2相关性(correlations)
6.4.3假设检验(hypothesis testing)
6.4.4随机数据生成(random data generation)
6.5 RDD、Dataframe和Dataset
6.5.1 RDD
6.5.2Dataset/DataFrame
6.5.3相互转换
6.6 小结
第7章 构建Spark ML推荐模型
7.1 推荐模型简介
7.2 数据加载
7.3 数据探索
7.4 训练模型
7.5 组装
7.6 评估模型
7.7 模型优化
7.8小结
第8章构建Spark ML 分类模型
8.1分类模型简介
8.1.1线性模型
8.1.2 决策树模型
8.1.3 朴素贝叶斯模型
8.2数据加载
8.3 数据探索
8.4数据预处理
8.5组装
8.6模型优化
8.7小结
第9章 构建Spark ML回归模型
9.1 回归模型简介
9.2 数据加载
9.3 探索特征分布
9.4 数据预处理
9.4.1 特征选择
9.4.2 特征转换
9.5 组装
9.6 模型优化
9.7 小结
第10章 构建Spark ML聚类模型
10.1 K-means模型简介
10.2 数据加载
10.3 探索特征的相关性
10.4 数据预处理
10.5 组装
10.6 模型优化
10.7 小结
第11章 PySpark 决策树模型
11.1 PySpark 简介
11.2 决策树简介
11.3数据加载
11.3.1 原数据集初探
11.3.2 PySpark 的启动
11.3.3 基本函数
11.4数据探索
11.5数据预处理
11.6创建决策树模型
11.7训练模型进行预测
11.8模型优化
11.8.1特征值的优化
11.8.2交叉验证和网格参数
11.9脚本方式运行
11.9.1 在脚本中添加配置信息
11.9.2运行脚本程序
11.10小结
第12章 Spark R 朴素贝叶斯模型
12.1. Spark R简介
12.2. 获取数据
12.2.1. SparkDataFrame数据结构说明
12.2.2. 创建Spark DataFrame
12.2.3. SparkDataFrame的常用操作
12.3. 朴素贝叶斯分类器
12.3.1数据探查
12.3.2对原始数据集进行转换
12.3.3查看不同船舱的生还率差异
12.3.4转换成Spark DataFrame格式的数据
12.3.4模型概要
12.3.5预测
12.3.6评估模型
12.4 小结
第13章 使用Spark Streaming构建在线学习模型
13.1 Spark Streaming简介
13.1.1Spark Streaming常用术语
13.1.2Spark Streaming处理流程
13.2 Dstream操作
13.2.1 Dstream输入
13.2.2 Dstream转换
13.2.3 Dstream修改
13.2 .4Dstream输出
13.3 Spark Streaming应用实例
13.4 Spark Streaming在线学习实例
13.5小结
第14章 TensorFlowOnSpark简介
14.1TensorFlow简介
14.1.1TensorFlow的安装
14.1.2TensorFlow的发展
14.1.3TensorFlow的特点
14.1.4TensorFlow编程模型
14.1.5TensorFlow常用函数
14.1.6TensorFlow的运行原理
14.1.7TensorFlow系统架构
14.2TensorFlow实现卷积神经网络
14.2.1卷积神经网络简介
14.2.2卷积神经网络的发展历程
14.2.3卷积神经网络的网络结构
14.2.4TensorFlow实现卷积神经网络
14.3TensorFlow实现循环神经网络
14.3.1循环神经网络简介
14.3.2 LSTM循环神经网络简介
14.3.3 LSTM循环神经网络分步说明
14.3.4TensorFlow实现循环神经网络
14.4分布式TensorFlow
14.4.1客户端、主节点和工作节点间的关系
14.4.2分布式模式
14.4.3在Pyspark集群环境运行TensorFlow
14.5TensorFlowOnSpark架构
14.6TensorFlowOnSpark安装
14.7TensorFlowOnSpark实例
14.7.1TensorFlowOnSpark单机模式实例
14.7.2TensorFlowOnSpark集群模式实例
14.8小结