首页  软件  游戏  图书  电影  电视剧

请输入您要查询的图书:

 

图书 大数据预处理技术(数据科学与大数据技术专业系列规划教材)
内容
内容推荐
朱晓姝、许桂秋主编的《大数据预处理技术(数据科学与大数据技术专业系列规划教材)》采用理论与实践相结合的方式,全面介绍了大数据预处理技术,主要内容包括数据预处理概述、Kettle工具的初步使用、基于Kettle的数据导入与导出、数据清理、Kettle作业设计、构建数据仓库、基于Python的数据导入与导出、基于Python的数据整理。
本书可作为高等院校数据科学与大数据技术、计算机、信息管理等相关专业的大数据预处理课程的教材。
目录
第1章 数据预处理概述
1.1 数据预处理的背景与目的
1.1.1 数据预处理的背景:数据质量
1.1.2 数据预处理的目的
1.2 数据预处理的流程
1.2.1 数据清理
1.2.2 数据集成
1.2.3 数据变换
1.2.4 数据归约
1.2.5 数据预处理的注意事项
1.3 数据预处理的工具
第2章 Kettle工具的初步使用
2.1 Kettle的安装
2.1.1 Java的安装
2.1.2 Kettle的下载安装与Spoon的启动
2.2 Kettle的使用
2.2.1 转换的基本概念
2.2.2 第一个转换案例
第3章 基于Kettle的数据导入与导出
3.1 基于文件的数据导入与导出
3.1.1 文本文件的导入与导出
3.1.2 文本文件的导入与导出案例
3.1.3 Excel文件的导入与导出
3.1.4 Excel文件的导入与导出案例
3.1.5 XML文件的导入与导出
3.1.6 XML文件的导入与导出案例
3.1.7 JSON文件的导入与导出
3.1.8 JSON文件的导入与导出案例
3.2 基于数据库的数据导入与导出
3.2.1 关系型数据库的数据导入与导出
3.2.2 MySQL数据库的数据导入与导出案例
3.3 基于Web的数据导入与导出
3.3.1 HTML数据的导入与导出
3.3.2 HTML数据的导入与导出案例
3.3.3 基于HTTP GET请求的导入与导出
3.3.4 基于HTTP GET请求的导入与导出案例
3.4 基于CDC变更数据的导入与导出
3.4.1 基于源数据的CDC
3.4.2 基于源数据的CDC案例
3.4.3 基于触发器的CDC
3.4.4 基于触发器的CDC案例
3.4.5 基于快照的CDC
3.4.6 基于快照的CDC案例
3.4.7 基于日志的CDC
3.4.8 基于日志的CDC案例
第4章 数据清理
4.1 数据清理概述
4.1.1 常用的数据清理步骤
4.1.2 字符串清理
4.1.3 字段清理
4.1.4 使用参照表清理数据
4.1.5 数据校验
4.2 数据排重
4.2.1 如何识别重复数据
4.2.2 去除完全重复数据
4.2.3 去除不完全重复数据
4.3 使用脚本组件进行数据清理
4.3.1 使用JavaScript代码组件清理数据
4.3.2 使用正则表达式组件清理数据
4.3.3 使用其他脚本组件清理数据
第5章 Kettle作业设计
5.1 作业的概念及组成
5.1.1 作业项
5.1.2 跳
5.1.3 注释
5.2 作业的执行方式
5.2.1 回溯
5.2.2 多路径和回溯
5.2.3 并行执行
5.3 作业的创建及常用作业项
5.3.1 创建作业
5.3.2 “START”作业项
5.3.3 “作业”作业项
5.3.4 “转换”作业项
5.4 变量
5.4.1 定义变量
5.4.2 使用变量
5.5 监控
5.5.1 日志
5.5.2 邮件通知
5.6 命令行启动
5.7 作业实验
第6章 构建数据仓库
6.1 构建维度表
6.1.1 管理各种键
6.1.2 维度表的加载
6.1.3 缓慢变化维度
6.2 构建事实表
6.2.1 批量加载
6.2.2 查找维度
6.2.3 事实表的处理
第7章 基于Python的数据导入与导出
7.1 Pandas
7.1.1 Series
7.1.2 DataFrame
7.2 文本文件的导入与导出
7.2.1 导入CSV文件
7.2.2 导出CSV文件
7.2.3 JSON格式数据的导入与导出
7.3 二进制文件的导入与导出
7.4 数据库的导入与导出
7.4.1 关系型数据库的导入与导出
7.4.2 非关系型数据库的导入与导出
第8章 基于Python的数据整理
8.1 合并多个数据集
8.1.1 使用key进行DataFrame合并
8.1.2 使用index进行DataFrame合并
8.1.3 沿着横轴或纵轴串接
8.2 数据重塑
8.2.1 多级索引数据的重塑
8.2.2 应用pivot方法重塑数据
8.3 数据转换
8.3.1 移除重复数据
8.3.2 利用函数或映射进行数据转换
8.3.3 值转换
8.3.4 重命名轴索引
8.3.5 离散化和面元划分
8.3.6 检测或过滤异常值
8.3.7 排列和随机采样
8.3.8 计算指标/哑变量
参考文献
标签
缩略图
书名 大数据预处理技术(数据科学与大数据技术专业系列规划教材)
副书名
原作名
作者 朱晓姝//许桂秋
译者
编者 朱晓姝//许桂秋
绘者
出版社 人民邮电出版社
商品编码(ISBN) 9787115503510
开本 16开
页数 253
版次 1
装订 平装
字数 471
出版时间 2019-04-01
首版时间 2019-04-01
印刷时间 2019-04-01
正文语种
读者对象 本科及以上
适用范围
发行范围 公开发行
发行模式 实体书
首发网站
连载网址
图书大类
图书小类
重量 402
CIP核字 2019030376
中图分类号 TP274
丛书名
印张 16.25
印次 1
出版地 北京
260
186
11
整理
媒质
用纸
是否注音
影印版本
出版商国别 CN
是否套装
著作权合同登记号
版权提供者
定价
印数
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示 适度休息有益身心健康,请勿长期沉迷于阅读小说。
随便看

 

兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。

 

Copyright © 2004-2025 xlantai.com All Rights Reserved
更新时间:2025/5/7 14:44:55