前言

工作中,有很多时候,我们可能需要定期从内部的各种管理系统上,导出一些数据出来,然后做到自己的表格里或者PPT里,给领导、给客户或者给同事展示。如果这种类型的工作重复的次数够多,那我们应该考虑用自动化的脚本来提高效率了。

本篇文章主要介绍怎么把数据从网页上抓取下来,至于后面的步骤,比如怎么导入到excel中,将来再做介绍。

依赖

Python中有多种方式能达成抓取网页的目标,本文中介绍一种使用requests模块抓取网页的方法。 这种方法比较主流,并且足够简单。

使用requests模块前,需要用pip安装一下。以python 3.6为例,在命令行窗口里输入以下命令就可以了:

pip3 install requests

抓取网页

真正抓取网页的代码,其实只有几句话。

import requests   # 导入requests模块

# 请求网页,这里以网易财经的新股申购页面为例,你可以换成自己的
req = requests.get("http://quotes.money.163.com/data/ipo/shengou.html") 

# 打印网页内容
print(req.text) 

看看执行后的效果:

下一篇

上面就是抓取网页的最核心也是最基本的方法了。这种方法适用于不需要登录、不需要post、不需要cookie等等的简单网页。

真实的网络世界中,简单的网页占了绝大部分。但在办公环境中,一般来说,如果你要从网页上导出什么数据,往往需要先登录才能看得到数据。下一篇中将会介绍怎么处理网页需要登录的情况。