(Python 乱码)(python 方向键乱码)

对于爬虫初学者来说,这个乱码摆在自己面前,犹如拦路虎一般难顶。不过别慌,小编在这里给大家整理了三种方法,专门用于针对中文乱码的,希望大家在后面再次遇到中文乱码的问题,在此处可以得到灵感!

一、思路

其实解决问题的关键点就是在于一点,就是将乱码的部分进行处理,而处理的方案主要可以从两个方面进行出发。其一是针对整体网页进行提前编码,其二是针对局部具体中文乱码的部分进行编码处理。 这里例举3种方法,肯定还有其他的方法的,也欢迎大家在评论区谏言。

二、分析

其实关于中文乱码的表现形式有很多,但是常见的两种如下:

1、当出现网页编码为gbk,获取到的内容在控制台打印类似如下情况的时候:

ÃÀÅ® µçÄÔ×À ¼üÅÌ »ú·¿ ¿É°® С½ã½ã4k±ÚÖ½2、 当出现网页编码为gbk,获取到的内容在控制台打印类似 如 下情况的时候:

�װŮ�� ��Ů ˮ СϪ Ψ��虽然看上去控制台输出正常,没有报错:

Process finished with exit code 0但是输出的中文内容,却不是普通人能看得懂的。

(创业小项目)(创业 go python)

这种情况下的话,就可以通过使用本文给出的三种方法进行解决,屡试不爽!

三、具体实现

1)方法一:将requests.get().text改为requests.get().content

我们可以看到通过text()方法获取到的源码,之后进行打印输出的话,确实是会存在乱码的,如下图所示。

(Python 乱码)(python 方向键乱码)

此时可以考虑将请求变为.content,得到的内容就是正常的了。

(Python 乱码)(python 方向键乱码)

2)方法二:手动 指定网页编码

# 手动设定响应数据的编码格式

response.encoding = response.apparent_encoding

(Python 乱码)(python 方向键乱码)

这个方法稍微复杂一些,但是比较好理解,对于初学者来说,还是比较好接受的。

如果觉得上面的方法很难记住,或者你可以尝试直接指定gbk编码也可以进行处理,如下图所示:

(Python 乱码)(python 方向键乱码)

上面介绍的两种方法都是针对网页进行整体编码,效果显著,接下来的第三种方法就是针对中文局部乱码部分使用通用编码方法进行处理。

3)方法三: 使用通用的编码方法

(python爬虫爬取视频)(python爬视频教程)

>(Python 乱码)(python 方向键乱码)

如此一来,中文乱码的问题就迎刃而解了。

四、总结

针对Python网络爬虫过程中的中文乱码问题,给出了3种乱码解决方法,虽然 文中 例举了3种方法,但是小编相信肯定还有其他的方法的,也欢迎大家在评论区谏言。

声明:我要去上班所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者所有,原文出处。若您的权利被侵害,请联系删除。

本文标题:(Python 乱码)(python 方向键乱码)
本文链接:https://www.51qsb.cn/article/8670.html

(0)
打赏微信扫一扫微信扫一扫QQ扫一扫QQ扫一扫
上一篇2022-09-23
下一篇2022-09-23

你可能还想知道

发表回复

登录后才能评论