(python爬取知乎文章)(python知乎爬取教程)

这里我们利用强大的python爬虫来爬取一篇文章。仅仅做一个示范,更高级的用法还要大家自己实践。

(python爬取知乎文章)(python知乎爬取教程)

好了,这里就不啰嗦了,找到一篇文章的url地址:http://www.duanwenxue.com/article/673911.html

(注意,有一些网站会做一些反爬处理,关于这些网站的爬取会在近期的文章中说明)

这是一篇散文,)

但在解码是要decode(’GB18030‘),

具体说明:http://www.cnblogs.com/jjj-fly/p/6696523.html

下面开始实现代码:

(开发python入门教程)(开发python入门教程)

#coding=GB18030

import urllib.request

from bs4 import BeautifulSoup

import re

url="http://www.duanwenxue.com/article/673911.html"

a=urllib.request.urlopen(url)

htmlstr=a.read().decode('GB18030')

soup=BeautifulSoup(htmlstr,'html.parser')

y=re.compile(r'<p>([\s\S]*?)</p>')

text=y.findall(str(soup)) #第一次正则表达式筛选所有<p></p>中的内容

x=''

print(len(text))

for i in range(0,len(text)):

(python 网格交易)(python网格交易教程)

x=x+text[i]

text1=re.sub("</?\w+[^>]*>",'',x) #去掉html标签

text2=text1.replace("。",'。\n\n\0\0') #让文本更好看

print(text2)

输出结果

(python爬取知乎文章)(python知乎爬取教程)

主编曾经是全栈工程师,有5年的编程开发经验,主修p -ython,目前正转行做p-ython编程老师,想学习爬v虫,数据分析,自动化办公,机器学习,人工智能的小伙伴可以点个关注

(python爬取知乎文章)(python知乎爬取教程)

资料截图如下:

(python爬取知乎文章)(python知乎爬取教程)
(python爬取知乎文章)(python知乎爬取教程)

资料截图如下:

(python爬取知乎文章)(python知乎爬取教程)
(python爬取知乎文章)(python知乎爬取教程)
(python爬取知乎文章)(python知乎爬取教程)

学会python创造价值

(python爬取知乎文章)(python知乎爬取教程)

声明:我要去上班所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者所有,原文出处。若您的权利被侵害,请联系删除。

本文标题:(python爬取知乎文章)(python知乎爬取教程)
本文链接:https://www.51qsb.cn/article/1321.html

(0)
打赏微信扫一扫微信扫一扫QQ扫一扫QQ扫一扫
上一篇2022-09-07
下一篇2022-09-07

你可能还想知道

发表回复

登录后才能评论