Python爬虫实战---抓取图书馆借阅信息

发布时间：2017年03月20日作者：文章转自网络，版权归原作者所有，反馈可立刻删除

前段时间在图书馆借了很多书，借得多了就容易忘记每本书的应还日期，老是担心自己会违约，影响日后借书，而自己又懒得总是登录到学校图书馆借阅系统查看，于是就打算写一个爬虫来抓取自己的借阅信息，把每本书的应还日期给爬下来，并写入txt文件，这样每次忘了就可以打开该txt文件查看，每次借阅信息改变了，只要再重新运行一遍该程序，原txt文件就会被新文件覆盖，里面的内容得到更新。

用到的技术：　　

　　Python版本是 2.7 ，同时用到了urllib2、cookielib、re三个模块。urllib2用于创建请求(request)，并抓取网页信息，返回一个类似于文件类型的response对象；cookielib用于储存cookie对象，以实现模拟登录功能；re模块提供对正则表达式的支持，用于对抓取到的页面信息进行匹配，以得到自己想要的信息。

抓取一个页面：　　

　　使用urllib2简单抓取一个网页的过程非常简单：

1 import urllib22 response = urllib2.urlopen("http://www.baidu.com")3 html = response.read()

　　urllib2中的urlopen()方法，看其字面意思就知道是打开一个URL(uniform resource locator)地址，上面例子传入的时百度首页的地址，遵循HTTP协议，除了http协议外，urlopen()方法还可以打开遵循ftp、file协议的地址，如：

1 response = urllib2.urlopen("ftp://example.com")

　　除URL参数外，urlopen()方法还接受data和timeout参数：

1 response = urllib2.urlopen(url ,data ,timeout)

　　其中data是打开一个网页时

分类导航

Python爬虫实战---抓取图书馆借阅信息

网友评论

更多精彩分享