وبلاگ بلیان

精通Python网络爬虫:核心技术、框架与项目实战【文字版】

معرفی کتاب «精通Python网络爬虫:核心技术、框架与项目实战【文字版】» نوشتهٔ 韦玮، منتشرشده توسط نشر 机械工业出版社 در سال 2017. این کتاب در فرمت pdf، زبان zh ارائه شده است. «精通Python网络爬虫:核心技术、框架与项目实战【文字版】» در دستهٔ بدون دسته‌بندی قرار دارد.

本书从技术,工具与实战3个维度讲解了python网络爬虫:技术维度:详细讲解了pvthon网络爬虫实现的核心技术,包括网络爬虫的工作原理,如何用urllib库编写网络爬虫,爬虫的异常处理,正则表达式,爬虫中cookie的使用,爬虫的浏览器伪装技术,定向爬取技术,反爬虫技术,以及如何自己动手编写网络爬虫;工具维度:以流行的pvthon网络爬虫框架scrapy为对象,讲解了scrapy的功能使用,高级技巧,架构设计,实现原理,以及如何通过scrapy来更便捷,高效地编写网络爬虫;实战维度:以实战为导向,是本书的主旨,除了完全通过手动编程实现网络爬虫和通过scrapy框架实现网络爬虫的实战案例以外,还有博客爬取,图片爬取,模拟登录等多个综合性的网络爬虫实践案例. 前言 第一篇 理论基础篇 第1章 什么是网络爬虫 1.1 初识网络爬虫 1.2 为什么要学网络爬虫 1.3 网络爬虫的组成 1.4 网络爬虫的类型 1.5 爬虫扩展——聚焦爬虫 1.6 小结 第2章 网络爬虫技能总览 2.1 网络爬虫技能总览图 2.2 搜索引擎核心 2.3 用户爬虫的那些事儿 2.4 小结 第二篇 核心技术篇 第3章 网络爬虫实现原理与实现技术 3.1 网络爬虫实现原理详解 3.2 爬行策略 3.3 网页更新策略 3.4 网页分析算法 3.5 身份识别 3.6 网络爬虫实现技术 3.7 实例——metaseeker 3.8 小结 第4章 Urllib库与URLError异常处理 4.1 什么是Urllib库 4.2 快速使用Urllib爬取网页 4.3 浏览器的模拟——Headers属性 4.4 超时设置 4.5 HTTP协议请求实战 4.6 代理服务器的设置 4.7 DebugLog实战 4.8 异常处理神器——URLError实战 4.9 小结 第5章 正则表达式与Cookie的使用 5.1 什么是正则表达式 5.2 正则表达式基础知识 5.3 正则表达式常见函数 5.4 常见实例解析 5.5 什么是Cookie 5.6 Cookiejar实战精析 5.7 小结 第6章 手写Python爬虫 6.1 图片爬虫实战 6.2 链接爬虫实战 6.3 糗事百科爬虫实战 6.4 微信爬虫实战 6.5 什么是多线程爬虫 6.6 多线程爬虫实战 6.7 小结 第7章 学会使用Fiddler 7.1 什么是Fiddler 7.2 爬虫与Fiddler的关系 7.3 Fiddler的基本原理与基本界面 7.4 Fiddler捕获会话功能 7.5 使用QuickExec命令行 7.6 Fiddler断点功能 7.7 Fiddler会话查找功能 7.8 Fiddler的其他功能 7.9 小结 第8章 爬虫的浏览器伪装技术 8.1 什么是浏览器伪装技术 8.2 浏览器伪装技术准备工作 8.3 爬虫的浏览器伪装技术实战 8.4 小结 第9章 爬虫的定向爬取技术 9.1 什么是爬虫的定向爬取技术 9.2 定向爬取的相关步骤与策略 9.3 定向爬取实战 9.4 小结 第三篇 框架实现篇 第10章 了解Python爬虫框架 10.1 什么是Python爬虫框架 10.2 常见的Python爬虫框架 10.3 认识Scrapy框架 10.4 认识Crawley框架 10.5 认识Portia框架 10.6 认识newspaper框架 10.7 认识Python-goose框架 10.8 小结 第11章 爬虫利器——Scrapy安装与配置 11.1 在Windows7下安装及配置Scrapy实战详解 11.2 在Linux(Centos)下安装及配置Scrapy实战详解 11.3 在MAC下安装及配置Scrapy实战详解 11.4 小结 第12章 开启Scrapy爬虫项目之旅 12.1 认识Scrapy项目的目录结构 12.2 用Scrapy进行爬虫项目管理 12.3 常用工具命令 12.4 实战:Items的编写 12.5 实战:Spider的编写 12.6 XPath基础 12.7 Spider类参数传递 12.8 用XMLFeedSpider来分析XML源 12.9 学会使用CSVFeedSpider 12.10 Scrapy爬虫多开技能 12.11 避免被禁止 12.12 小结 第13章 Scrapy核心架构 13.1 初识Scrapy架构 13.2 常用的Scrapy组件详解 13.3 Scrapy工作流 13.4 小结 第14章 Scrapy中文输出与存储 14.1 Scrapy的中文输出 14.2 Scrapy的中文存储 14.3 输出中文到JSON文件 14.4 小结 第15章 编写自动爬取网页的爬虫 15.1 实战:items的编写 15.2 实战:pipelines的编写 15.3 实战:settings的编写 15.4 自动爬虫编写实战 15.5 调试与运行 15.6 小结 第16章 CrawlSpider 16.1 初识CrawlSpider 16.2 链接提取器 16.3 实战:CrawlSpider实例 16.4 小结 第17章 Scrapy高级应用 17.1 如何在Python3中操作数据库 17.2 爬取内容写进MySQL 17.3 小结 第四篇 项目实战篇 第18章 博客类爬虫项目 18.1 博客类爬虫项目功能分析 18.2 博客类爬虫项目实现思路 18.3 博客类爬虫项目编写实战 18.4 调试与运行 18.5 小结 第19章 图片类爬虫项目 19.1 图片类爬虫项目功能分析 19.2 图片类爬虫项目实现思路 19.3 图片类爬虫项目编写实战 19.4 调试与运行 19.5 小结 第20章 模拟登录爬虫项目 20.1 模拟登录爬虫项目功能分析 20.2 模拟登录爬虫项目实现思路 20.3 模拟登录爬虫项目编写实战 20.4 调试与运行 20.5 小结 本书不仅讲解了如何编写爬虫,而且还讲解了最流行的网络爬虫的使用。全书分为4个部分:第一部分对网络爬虫做了概要性的介绍,主要介绍了网络爬虫的常识和所涉及的技术概览;第二部分是本书的重点之一,详细讲解了网络爬虫的核心技术,包括网络爬虫的实现原理与实现技术、Urllib库和URLError库的异常处理、正则表达式与Cookie的使用、Fiddler的使用、爬虫的浏览器伪装技术、爬虫的定向抓取技术等;第三部分讲解了最流行的爬虫框架Scrapy的使用、架构和高级应用,是目前关于Scrapy最详细的讲解;第四部分是3个实战案例,讲解了博客爬虫、图片爬虫和模拟登陆爬虫的编写方法
دانلود کتاب 精通Python网络爬虫:核心技术、框架与项目实战【文字版】