通过爬虫获取免费IP代理,搭建自己的IP池(https)
文章目录
前言
简介
代码
如何调用结果
总结
前言
常见的反爬虫措施之一,就是查看用户发起请求的IP地址,若很频繁,则封IP。我们可以通过使用动态代理IP池实现反爬虫。百度搜索:爬虫IP池, 就有很多网站,这些网站一般都有提供免费的代理IP。但是这些IP质量不高,需要自己手动复制粘贴,测试后再使用,效率底下。我们可以写个爬虫,批量获取免费IP,自动测试后,再使用。
本篇文章使用的目标网址为:proxy list。本教程中不解析页面,而是直接获取json格式。因为HTTP较少,所以本文章只获取其中HTTPS类型的IP地址。使用的检查IP的网址为:https://icanhazip.com/
读者可以直接复制所有代码,新建py文件后,粘贴运行即可。2021.4.5亲测有效
此教程为获取https的,获取http的教程为:通过爬虫获取免费IP代理,搭建自己的IP池(http)
简介
传入URL地址,返回可用的IP地址list列表
__init __ :设置请求头,请求地址(直接是json格式)
check_ip : 检查IP地址是否可用,返回可用的当前页面上的IP地址list和端口号
run: 程序主代码
代码
import requests
import json
class FreeIP():
def __init__(self):
self.url = "http://proxylist.fatezero.org/proxy.list"
self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}
def check_ip(self, ip_list):
correct_ip = []
for ip in ip_list:
if len(correct_ip) > 10: # 可以根据自己的需求进行更改或者注释掉
break
ip_port = "{}:{}".format(ip["host"],ip["port"])
proxies = {'https': ip_port}
try:
response = requests.get('https://icanhazip.com/', proxies=proxies,
timeout=3).text # 如果请求该网址,返回的IP地址与代理IP一致,则认为代理成功
# 可以更改timeout时间
if response.strip() == ip["host"]:
print("可用的IP地址为:{}".format(ip_port))
correct_ip.append(ip_port)
except:
print("不可用的IP地址为:{}".format(ip_port))
return correct_ip
def run(self):
response = requests.get(url=self.url).content.decode()
ip_list = []
proxies_list = response.split('\n')
for proxy_str in proxies_list:
try:
proxy = {}
proxy_json = json.loads(proxy_str)
if proxy_json["anonymity"] == "high_anonymous" and proxy_json["type"] == "https":
host = proxy_json['host']
port = proxy_json['port']
proxy["host"] = host
proxy["port"] = port
ip_list.append(proxy)
print("{}符合https和高匿条件".format(host))
except:
print(proxy_str)
correct_ip = self.check_ip(ip_list)
print("可用的IP地址有{}个".format(len(correct_ip)))
print(correct_ip)
if __name__ == '__main__':
ip = FreeIP()
ip.run()
如何调用结果
(不推荐)可以将此代码复制到自己的爬虫代码里,每次调用free_ip.get_ip(),获得list。该方法不推荐,因为会使网站并发量大,并且小型爬虫项目不需要这么多代理IP。
(推荐)手动复制控制台里的IP地址信息,粘贴到代码中,作为初始化IP地址,然后每次随机选择一个IP地址请求。
url = 'http://icanhazip.com/'
# 注意,底下的[]内容为复制粘贴上的
ip =['149.28.58.133:8080', '134.209.218.104:8080', '157.245.252.104:8080', '157.230.85.89:8080', '62.151.183.160:3128', '68.183.102.160:8080', '44.192.64.137:80', '134.209.70.67:8080', '169.57.1.84:80', '157.230.208.88:8080', '157.230.227.106:8080']
for i in range(100):
try:
real_ip = random.choice(ip)
proxy = {'http':real_ip}
res_text = requests.get(url=url,proxies=proxy, timeout = 3)
print("成功")
except:
print("{}不可用".format(real_ip))
ip.remove(real_ip)
总结
HTTPS端口号,可以请求http、https网址
有的同学设置请求的时候,发现在设置proxy时,如果为http,而目标url为https,也能请求成功。这是误区,因为如果proxy里的类型和url类型不同时,请求的IP地址并不是代理IP地址,而是本机的IP,具体可以通过IP地址网站实验
关注微信公众号【泓源视野网络安全】 不迷路