首页  软件  游戏  图书  电影  电视剧

请输入您要查询的图书:

 

图书 精通Spark数据科学
内容
作者简介
安德鲁·摩根是数据战略及其执行方面的专家,在支持技术、系统架构和实现数据科学方面拥有丰富的经验。他在数据行业拥有20多年的经验,曾为一些久负盛名的公司及其优选客户设计系统——通常是大型、复杂和靠前性的项目。2013年,他创办了数据科学和大数据工程咨询公司ByteSumo,目前在与欧洲和美国的客户进行合作。
目录
第1章 数据科学生态系统
1.1 大数据生态系统简介
1.1.1 数据管理
1.1.2 数据管理职责
1.1.3 合适的工具
1.2 数据架构
1.2.1 数据采集
1.2.2 数据湖
1.2.3 数据科学平台
1.2.4 数据访问
1.3 数据处理技术
1.4 配套工具
1.4.1 Apache HDFS
1.4.2 亚马逊S
1.4.3 Apache Kafka
1.4.4 Apache Parquet
1.4.5 Apache Avro
1.4.6 Apache NiFi
1.4.7 Apache YARN
1.4.8 Apache Lucene
1.4.9 Kibana
1.4.10 Elasticsearch
1.4.11 Accumulo
1.5 小结
第2章 数据获取
2.1 数据管道
2.1.1 通用采集框架
2.1.2 GDELT数据集简介
2.2 内容登记
2.2.1 选择和更多选择
2.2.2 随流而行
2.2.3 元数据模型
2.2.4 Kibana仪表盘
2.3 质量保证
2.3.1 案例1——基本质量检查,无争用用户
2.3.2 案例2——进阶质量检查,无争用用户
2.3.3 案例3——基本质量检查,50%使用率争用用户
2.4 小结
第3章 输入格式与模式
3.1 结构化的生活是美好的生活
3.2 GDELT维度建模
3.3 加载数据
3.3.1 模式敏捷性
3.3.2 GKG ELT
3.4 Avro
3.4.1 Spark-Avro方法
3.4.2 教学方法
3.4.3 何时执行Avro转换
3.5 Apache Parquet
3.6 小结
第4章 探索性数据分析
4.1 问题、原则与规划
4.1.1 理解EDA问题
4.1.2 设计原则
4.1.3 探索的总计划
4.2 准备工作
4.2.1 基于掩码的数据剖析简介
4.2.2 字符类掩码简介
4.2.3 构建基于掩码的剖析器
4.3 探索GDELT
4.4 小结
第5章 利用Spark进行地理分析
5.1 GDELT和石油
5.1.1 GDELT事件
5.1.2 GDELT GKG
5.2 制订行动计划
5.3 GeoMesa
5.3.1 安装
5.3.2 GDELT采集
5.3.3 GeoMesa采集
5.3.4 GeoHash
5.3.5 GeoServer
5.4 计量油价
5.4.1 使用GeoMesa查询API
5.4.2 数据准备
5.4.3 机器学习
5.4.4 朴素贝叶斯
5.4.5 结果
5.4.6 分析
5.5 小结
第6章 采集基于链接的外部数据
6.1 构建一个大规模的新闻扫描器
6.1.1 访问Web
导语
用Spark构建商业级数据科学解决方案
内容推荐
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。这是一本专门介绍Spark的图书,旨在教会读者利用Spark构建实用的数据科学解决方案。
本书内容包括14章,由浅入深地介绍了数据科学生态系统、数据获取、输入格式与模式、探索性数据分析、利用Spark进行地理分析、采集基于链接的外部数据、构建社区、构建推荐系统、新闻词典和实时标记系统、故事除重和变迁、情感分析中的异常检测、趋势演算、数据保护和可扩展算法。
本书适合数据科学家以及对数据科学、机器学习感兴趣的读者阅读,需要读者具备数据科学相关的基础知识,并通过阅读本书进一步提升Spark运用能力,从而创建出高效且实用的数据科学解决方案。
标签
缩略图
书名 精通Spark数据科学
副书名
原作名
作者 (美)安德鲁·摩根//(英)安托万·阿门德//大卫·乔治//马修·哈利特
译者 译者:柯晟劼//刘少俊
编者
绘者
出版社 人民邮电出版社
商品编码(ISBN) 9787115541567
开本 16开
页数 430
版次 1
装订 平装
字数 560
出版时间 2020-09-01
首版时间 2020-09-01
印刷时间 2020-09-01
正文语种
读者对象
适用范围
发行范围 公开发行
发行模式 实体书
首发网站
连载网址
图书大类
图书小类
重量 730
CIP核字 2020095991
中图分类号 TP274
丛书名
印张 28.75
印次 1
出版地 北京
整理
媒质
用纸
是否注音
影印版本
出版商国别
是否套装
著作权合同登记号
版权提供者
定价
印数 2000
出品方
作品荣誉
主角
配角
其他角色
一句话简介
立意
作品视角
所属系列
文章进度
内容简介
作者简介
目录
文摘
安全警示 适度休息有益身心健康,请勿长期沉迷于阅读小说。
随便看

 

兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。

 

Copyright © 2004-2025 xlantai.com All Rights Reserved
更新时间:2025/5/7 12:52:41