# python_web_crawler

**Repository Path**: personal_items/python_web_crawler

## Basic Information

- **Project Name**: python_web_crawler
- **Description**: 实战Python网络爬虫
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-11-24
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# python_web_crawler

#### 介绍
实战Python网络爬虫

#### 软件架构
Python 3.8


#### 安装教程


#### 目录说明
* Chapter05[`爬虫库Urllib`]
  * 5.2.py[`发送请求`]
  * 5.3.py[`复杂的请求`]
  * 5.4.py[`代理IP`] * 5.2.py[`发送请求`]
  * 5.3.py[`复杂的请求`]
  * 5.4.py[`代理IP`]
  * 5.5.py[`使用Cookies`]
  * 5.6.py[`证书验证`]
  * 5.7.py[`数据处理`]
* Chapter06[`爬虫库Requests`]
  * 6.2.py[`请求方式`]
  * 6.3.py[`复杂的请求方式`]
  * 6.4.py[`下载与上传`]
       * 6.4.py[`文件下载`]
* Chapter07[`Requests-Cache爬虫缓存`]
    * 7.2.py[`在Requests中使用缓存`]
        * requests_cache缓存
        * 合理设置请求延时
        * 缓存的存储机制
* Chapter08[`爬虫库Requests-HTML`]
    * 8.1.py
        * 请求方式
        * 数据清洗
* Chapter09[`Selenium网页操控与数据爬取`]
    * 9.1.py
        * 验证Selenium是否能自动启动并控制Google Chrome
    * 9.3.py
        * 网页元素定位
    * 9.4.py
        * 网页元素操控
        * 常用网页元素操控
        * 鼠标操作B站登录界面
        * 利用键盘的快捷键实现“百度搜索内容的变换”
    * 9.5.py
        * 常用功能
            * 设置浏览器参数
            * 浏览器多窗口切换
            * 设置等待时间
            * 文件的上传与下载
            * Cookies处理
            * iframe框架操作
    * homework.py
        * 实战百度答题