自学Python爬虫:User-Agent(用户代理)
2024-07-13 00:00:58  阅读数 1256

User-Agent 是什么?

User Agent是用户代理,简称 UA,是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

一些网站常常通过判断 UA 来给不同的操作系统、不同的浏览器发送不同的页面,因此可能造成某些页面无法在某个浏览器中正常显示,但通过伪装 UA 可以绕过检测。

网站通过识别请求头中 User-Agent 信息来判断是否是爬虫访问网站。如果是,网站首先对该 IP 进行预警,对其进行重点监控,当发现该 IP 超过规定时间内的访问次数, 将在一段时间内禁止其再次访问网站。

常见的 User-Agent 请求头,如下图所示:

image

使用上表中的浏览器 UA,我们可以很方便的构建出 User-Agent。通过在线识别工具(https://useragent.buyaocha.com/),可以查看本机的浏览器版本以及 UA 信息。

还可以通过向 HTTP 测试网站(http://httpbin.org/)发送 GET 请求来查看请求头信息,从而获取爬虫程序的 UA。


import urllib.request

#向网站发送get请求

response=urllib.request.urlopen('http://httpbin.org/get')

html = response.read().decode()

print(html)

________________END______________