# python_web_crawler **Repository Path**: personal_items/python_web_crawler ## Basic Information - **Project Name**: python_web_crawler - **Description**: 实战Python网络爬虫 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-11-24 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # python_web_crawler #### 介绍 实战Python网络爬虫 #### 软件架构 Python 3.8 #### 安装教程 #### 目录说明 * Chapter05[`爬虫库Urllib`] * 5.2.py[`发送请求`] * 5.3.py[`复杂的请求`] * 5.4.py[`代理IP`] * 5.2.py[`发送请求`] * 5.3.py[`复杂的请求`] * 5.4.py[`代理IP`] * 5.5.py[`使用Cookies`] * 5.6.py[`证书验证`] * 5.7.py[`数据处理`] * Chapter06[`爬虫库Requests`] * 6.2.py[`请求方式`] * 6.3.py[`复杂的请求方式`] * 6.4.py[`下载与上传`] * 6.4.py[`文件下载`] * Chapter07[`Requests-Cache爬虫缓存`] * 7.2.py[`在Requests中使用缓存`] * requests_cache缓存 * 合理设置请求延时 * 缓存的存储机制 * Chapter08[`爬虫库Requests-HTML`] * 8.1.py * 请求方式 * 数据清洗 * Chapter09[`Selenium网页操控与数据爬取`] * 9.1.py * 验证Selenium是否能自动启动并控制Google Chrome * 9.3.py * 网页元素定位 * 9.4.py * 网页元素操控 * 常用网页元素操控 * 鼠标操作B站登录界面 * 利用键盘的快捷键实现“百度搜索内容的变换” * 9.5.py * 常用功能 * 设置浏览器参数 * 浏览器多窗口切换 * 设置等待时间 * 文件的上传与下载 * Cookies处理 * iframe框架操作 * homework.py * 实战百度答题