| 图书 | 大数据采集与预处理技术 |
| 内容 | 内容推荐 本书按照“理论+实战”的形式编写,将企业项目需求分解为单独的任务,全面系统地讲解了大数据采集与预处理的相关知识与技术。全书针对数据采集的不同来源,将知识内容分为五个项目,包括网络数据采集、分布式消息系统Kafka、实时数据库采集工具Canal和Maxwell、ETL日志采集技术栈以及ETL工具一Kettle。本书针对大数据采集与预处理的关键技术及其应用场景,从数据的采集、存储和分析等多个方面介绍了大数据的数据处理流程,通过任务实例为读者展示了如何有效地使用技术或工具。本书可作为大数据相关专业的教学用书,也可作为相关技术人员培训或工作的参考用书。 目录 项目一网络数据采集 任务一认识网络爬虫 一、了解网络爬虫 二、实现爬虫的请求 三、任务实践 任务二解析数据 一、使用正则表达式解析 二、使用BeautifulSoup解析 三、使用Path解析 四、使用PyQuery?解析 五、任务实践 任务三采集动态渲染网页的数据 一、准备Selenium的环境 二、声明浏览器对象 三、访问页面及获取HTML源码 四、查找网页元素 五、操作网页元素 六、获取元素的属性及文本 七、延时等待 \t八、任务实践 \t...... |
| 标签 | |
| 缩略图 | ![]() |
| 书名 | 大数据采集与预处理技术 |
| 副书名 | |
| 原作名 | |
| 作者 | 夏国清,洪洲,陈统 |
| 译者 | |
| 编者 | |
| 绘者 | |
| 出版社 | 上海交通大学出版社 |
| 商品编码(ISBN) | 9787313301697 |
| 开本 | 16开 |
| 页数 | 256 |
| 版次 | 1 |
| 装订 | |
| 字数 | 419000 |
| 出版时间 | 2024-02-01 |
| 首版时间 | |
| 印刷时间 | 2024-02-01 |
| 正文语种 | |
| 读者对象 | |
| 适用范围 | |
| 发行范围 | |
| 发行模式 | 实体书 |
| 首发网站 | |
| 连载网址 | |
| 图书大类 | 教育考试-考试-计算机类 |
| 图书小类 | |
| 重量 | |
| CIP核字 | |
| 中图分类号 | TP274 |
| 丛书名 | |
| 印张 | |
| 印次 | 1 |
| 出版地 | |
| 长 | |
| 宽 | |
| 高 | |
| 整理 | |
| 媒质 | |
| 用纸 | |
| 是否注音 | |
| 影印版本 | |
| 出版商国别 | |
| 是否套装 | |
| 著作权合同登记号 | |
| 版权提供者 | |
| 定价 | |
| 印数 | |
| 出品方 | |
| 作品荣誉 | |
| 主角 | |
| 配角 | |
| 其他角色 | |
| 一句话简介 | |
| 立意 | |
| 作品视角 | |
| 所属系列 | |
| 文章进度 | |
| 内容简介 | |
| 作者简介 | |
| 目录 | |
| 文摘 | |
| 安全警示 | 适度休息有益身心健康,请勿长期沉迷于阅读小说。 |
| 随便看 |
|
兰台网图书档案馆全面收录古今中外各种图书,详细介绍图书的基本信息及目录、摘要等图书资料。