(python爬虫超详细实战攻略)(python监控爬虫教程)

上节课我们讲解了scrapy的基本使用,这节课我们用scrapy爬取数据。

1.爬取数据的主要思路

我们从该网址(https://so.gushiwen.cn/shiwenv_4c5705b99143.aspx)爬取这首诗的标题和诗句,然后保存在我们的文件夹中,

2.scrapy爬虫案例解析

(python中级教程)(python超级基础教程)

第一步,我们先新建一个scrapy框架名为’poems‘的文件夹

(python爬虫超详细实战攻略)(python监控爬虫教程)

(python爬虫超详细实战攻略)(python监控爬虫教程)

第二步,新建一个名为’verse‘的爬虫文件

(python爬虫超详细实战攻略)(python监控爬虫教程)

(python爬虫超详细实战攻略)(python监控爬虫教程)

第三步,对网页发送请求

打开爬虫文件’verse‘,更改需要爬取的网页地址

(python爬虫超详细实战攻略)(python监控爬虫教程)

第四步,解析数据

更改parse解析部分,对获取到的数据(response)进行数据解析,所用到的解析方式为xpath解析,方法与requests发送请求的解析方式大同小异,首先在找到我们需要解析的部分内容,并填写相应的代码(如下图)。我们发现,与requests发送请求的解析方式不同的是,在原有基础上加上extract方法,和join方法才能获取文本信息

(python爬虫超详细实战攻略)(python监控爬虫教程)

(python爬虫超详细实战攻略)(python监控爬虫教程)

第五步,返回数据

我们要保存数据就需要parse模块有返回值,我们先新建一个空列表data,然后我们将title和content放入字典中并添加到列表中

(python爬虫超详细实战攻略)(python监控爬虫教程)

(python 简明教程)(最好的python 教程)

第六步,保存数据

依旧用指令进行保存:scrapy +crawl+爬虫文件名+-o+保存路径,最终结果如下图:

(python爬虫超详细实战攻略)(python监控爬虫教程)

(python爬虫超详细实战攻略)(python监控爬虫教程)

声明:我要去上班所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者所有,原文出处。若您的权利被侵害,请联系删除。

本文标题:(python爬虫超详细实战攻略)(python监控爬虫教程)
本文链接:https://www.51qsb.cn/article/1666.html

(0)
打赏微信扫一扫微信扫一扫QQ扫一扫QQ扫一扫
上一篇2022-09-08
下一篇2022-09-08

你可能还想知道

发表回复

登录后才能评论