玩转Python网络爬虫

معرفی کتاب «玩转Python网络爬虫» نوشتهٔ 黄永祥، منتشرشده توسط نشر 清华大学出版社 در سال 2018. این کتاب در فرمت pdf، زبان zh ارائه شده است. «玩转Python网络爬虫» در دستهٔ بدون دسته‌بندی قرار دارد.

本书站在初学者的角度,从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,分别是网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网络做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和Beautiful Soup的使用;数据入库分别讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,实现企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件开发与应用、12306抢票程序和微博爬取,所举示例均来自于开发实践,可帮助读者快速提升技能,开发实际项目。框架篇主要讲述Scrapy的基础知识,并通过爬取QQ音乐为实例,让读者深层次了解Scrapy的使用。本书内容丰富,注重实战,适用于从零开始学习网络爬虫的初学者,或者是已经有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员。封面 1 扉页 2 内容简介 3 版权页 3 前言 4 目录 8 第1章理解网络爬虫 14 1.1 爬虫的定义 14 1.2 爬虫的类型 15 1.3 爬虫的原理 16 1.4 爬虫的搜索策略 18 1.5 反爬虫技术及解决方案 19 1.6 本章小结 21 第2章爬虫开发基础 22 2.1 HTTP与HTTPS 22 2.2 请求头 24 2.3 Cookies 26 2.4 HTML 27 2.5 JavaScript 29 2.6 JSON 31 2.7 Ajax 32 2.8 本章小结 33 第3章 Chrome分析网站 34 3.1 Chrome开发工具 34 3.2 Elements标签 35 3.3 Network标签 36 3.4 分析QQ音乐 40 3.5 本章小结 42 第4章 Fiddler抓包工具 43 4.1 Fiddler介绍 43 4.2 Fiddler安装配置 44 4.3 Fiddler抓取手机应用 46 4.4 Toolbar工具栏 49 4.5 Web Session列表 50 4.6 View选项视图 53 4.7 Quickexec命令行 54 4.8 本章小结 55 第5章 Urllib数据抓取 56 5.1 Urllib简介 56 5.2 发送请求 57 5.3 复杂的请求 59 5.4 代理IP 60 5.5 使用Cookies 61 5.6 证书验证 63 5.7 数据处理 64 5.8 本章小结 65 第6章 Requests数据抓取 67 6.1 Requests简介及安装 67 6.2 请求方式 68 6.3 复杂的请求方式 70 6.4 下载与上传 73 6.5 本章小结 76 第7章验证码识别 77 7.1 验证码类型 77 7.2 OCR技术 79 7.3 第三方平台 82 7.4 本章小结 85 第8章数据清洗 87 8.1 字符串操作 87 8.2 正则表达式 91 8.3 Beautiful Soup介绍及安装 97 8.4 Beautiful Soup的使用 99 8.5 本章小结 103 第9章文档数据存储 105 9.1 CSV数据写入和读取 105 9.2 Excel数据写入和读取 107 9.3 Word数据写入和读取 112 9.4 本章小结 114 第10章 ORM框架 117 10.1 SQLAlchemy介绍 117 10.2 安装SQLAlchemy 118 10.3 连接数据库 119 10.4 创建数据表 121 10.5 添加数据 124 10.6 更新数据 125 10.7 查询数据 127 10.8 本章小结 129 第11章 MongoDB数据库操作 131 11.1 MongoDB介绍 131 11.2 安装及使用 133 11.3 连接数据库 136 11.4 添加文档 138 11.5 更新文档 139 11.6 查询文档 140 11.7 本章小结 143 第12章项目实战:爬取淘宝商品信息 144 12.1 分析说明 144 12.2 功能实现 147 12.3 数据存储 149 12.4 本章小结 151 第13章项目实战:分布式爬虫——QQ音乐 152 13.1 分析说明 152 13.2 歌曲下载 153 13.3 歌手和歌曲信息 158 13.4 分类歌手列表 161 13.5 全站歌手列表 163 13.6 数据存储 165 13.7 分布式概念 167 13.8 并发库concurrent.futures 168 13.9 分布式爬虫 170 13.10 本章小结 172 第14章项目实战:爬虫软件——淘宝商品信息 174 14.1 分析说明 174 14.2 GUI库介绍 175 14.3 Py Qt5安装及环境搭建 175 14.4 软件界面开发 178 14.5 MVC——视图 182 14.6 MVC——控制器 184 14.7 MVC——模型 185 14.8 扩展思路 186 14.9 本章小结 187 第15章项目实战:12306抢票 189 15.1 分析说明 189 15.2 验证码验证 190 15.3 用户登录与验证 194 15.4 查询车次 200 15.5 预订车票 206 15.6 提交订单 209 15.7 生成订单 217 15.8 本章小结 222 第16章项目实战:玩转微博 232 16.1 分析说明 232 16.2 用户登录 233 16.3 用户登录(带验证码) 245 16.4 关键字搜索热门微博 253 16.5 发布微博 260 16.6 关注用户 266 16.7 点赞和转发评论 270 16.8 本章小结 276 第17章 Scrapy爬虫框架 278 17.1 爬虫框架 278 17.2 Scrapy的运行机制 280 17.3 安装Scrapy 281 17.4 爬虫开发快速入门 283 17.5 Spiders介绍 290 17.6 Spider的编写 291 17.7 Items的编写 295 17.8 Item Pipeline的编写 297 17.9 Selectors的编写 301 17.10 文件下载 304 17.11 本章小结 309 第18章项目实战:Scrapy爬取QQ音乐 311 18.1 分析说明 311 18.2 创建项目 312 18.3 编写setting 313 18.4 编写Items 314 18.5 编写Item Pipelines 315 18.6 编写Spider 318 18.7 本章小结 323 正文结束 324 Ben shu jiang shu le shi yong Python kai fa wang luo pa chong de he xin ji shu.Quan shu cong luo ji shang ke fen wei ji chu pian,Shi zhan pian he pa chong kuang jia pian san bu fen.Ji chu pian zhu yao jie shao le bian xie wang luo pa chong suo xu de ji chu zhi shi,Fen bie shi wang zhan fen xi,Shu ju zhua qu,Shu ju qing xi he shu ju ru ku.Shi zhan pian shen ru jiang jie le fen bu shi pa chong,Pa chong ruan jian kai fa yu ying yong,12306 qiang piao cheng xu he wei bo pa qu,Suo ju shi li jun lai zi yu kai fa shi jian,Ke bang zhu du zhe kuai su ti sheng ji neng,Kai fa shi ji xiang mu.Kuang jia pian zhu yao jiang shu Scrapy de ji chu zhi shi,Bing tong guo pa qu QQ yin le wei shi li,Rang du zhe shen ceng ci le jie Scrapy de shi yong

دانلود کتاب 玩转Python网络爬虫