Selenium 如何使用代理 IP 进行 Web 爬虫（包括无认证实现、有账号密码认证实现）

2024-07-14 1034阅读

文章目录

版本
无账号密码使用 Selenium 实现 HTTP 代理
万万没想到加上账号密码会难度升级 + N

GPT 提供的带账号密码的 HTTP 代理解决方案

代理 IP

如何获取
Selenium-Chrome-HTTP-Private-Proxy HTTP 代理解决方案

如何实现
总结
总结

个人简介

版本

Python 3.x

无账号密码使用 Selenium 实现 HTTP 代理

最近一个朋友私聊了我一个问题，Selenium 如何使用代理 IP 进行爬虫，我心想这不是很简单，马上让 GPT 帮忙写一个：

完整代码如下：

from selenium import webdriver
from selenium.webdriver.common.proxy import Proxy, ProxyType
# 设置代理IP
proxy_ip = "your_proxy_ip"
proxy_port = "your_proxy_port"
# 设置代理
proxy = Proxy()
proxy.proxy_type = ProxyType.MANUAL
proxy.http_proxy = f"{proxy_ip}:{proxy_port}"
proxy.ssl_proxy = f"{proxy_ip}:{proxy_port}"
# 配置浏览器选项
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=http://{}:{}'.format(proxy_ip, proxy_port))
# 启动浏览器
driver = webdriver.Chrome(executable_path='path/to/chromedriver', options=chrome_options)
# 访问百度官网
driver.get('https://www.baidu.com')
# 在这里执行你的操作，比如查找元素、输入搜索关键词等
# 关闭浏览器
driver.quit()

GPT 提供的代码有时候并不准确，需要简单修改一下，运行成功：

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
# 设置代理IP
proxy_ip = "127.0.0.1"
proxy_port = "1080"
# 配置浏览器选项
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=http://{}:{}'.format(proxy_ip, proxy_port))
# 启动浏览器
chrome_service = Service("./chromedriver.exe")
driver = webdriver.Chrome(service=chrome_service, options=chrome_options)
# 访问百度官网
driver.get('https://www.baidu.com')
# 在这里执行你的操作，比如查找元素、输入搜索关键词等
time.sleep(30)
# 关闭浏览器
driver.quit()

万万没想到加上账号密码会难度升级 + N

代码提供给朋友后，他突然回了一句，我的代理 IP 有账号密码，我心想这不简单，加上账号密码不就行了，然后我又转头把任务交给了 GPT，GPT 又给我提供了一份代码（下面的代码经过微调，还是上面的问题）：

GPT 提供的带账号密码的 HTTP 代理解决方案

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.proxy import Proxy, ProxyType
# 设置代理IP
proxy_ip = "your_proxy_ip"
proxy_port = "your_proxy_port"
proxy_username = "your_proxy_username"
proxy_password = "your_proxy_password"
# 设置代理
proxy = Proxy()
proxy.proxy_type = ProxyType.MANUAL
proxy.http_proxy = f"{proxy_ip}:{proxy_port}"
# 配置代理的认证信息
capabilities = webdriver.DesiredCapabilities.CHROME.copy()
proxy_auth = f"{proxy_username}:{proxy_password}"
capabilities['proxy'] = {
    'httpProxy': proxy.http_proxy,
    'ftpProxy': proxy.http_proxy,
    'sslProxy': proxy.http_proxy,
    'proxyType': 'MANUAL',
    'socksUsername': proxy_username,
    'socksPassword': proxy_password
}
# 配置浏览器选项
chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
chrome_options.add_argument('--proxy-server=http://{}:{}'.format(proxy_ip, proxy_port))
# 启动浏览器
chrome_service = Service("./chromedriver.exe")
driver = webdriver.Chrome(service=chrome_service, options=chrome_options)
# 访问百度官网
driver.get('https://www.baidu.com')
# 在这里执行你的操作，比如查找元素、输入搜索关键词等
time.sleep(30)
# 关闭浏览器
driver.quit()

代理 IP

代码写好后不想改本地正常稳定使用的代理配置，使用了最近常使用的一个免费代理 IP (一连代理)，支持主流的http/https/socks5协议，使用API快速拉取IP达到 50-300ms 响应时间，基本可以保证 99.99% 的IP可用性，有需要的小伙伴可以试试（有付费需求的小伙伴报暗号-Lorin洛林可以打85折）。

如何获取

前往官网进入套餐详情页（https://yilian.top）

按需选择参数，领取4种见面礼

前往【控制台】—【产品管理】提取 IP

我使用的是 API 文档中的 simple 模式获取：

http://api.yilian.top/v2/proxy/proxies?num=1&type=1&token=XUzBRPIdCesGx7DYyaHerdaP2XkuXk2m&format=txt]
{
    "errcode": 0,
    "errmsg": "获取ip地址成功,共1个",
    "data": [
        {
            "real_ip": "182.114.35.123",
            "ip": "182.114.35.123",
            "prov": "河南",
            "city": "三门峡",
            "isp": "联通",
            "proxy_user": "9ER62CtIr",
            "proxy_pass": "fGGVvqedX",
            "proxy_port": 10007,
            "usage": "curl -x 182.114.35.123:10007 -U 9ER62CtIr:fGGVvqedX https://www.baidu.com",
            "expire_time": "2023-12-31 17:49:59",
            "expire_timestamp": 1704016199
        }
    ]
}

申请好代理IP后替换代码中账号密码然后点击运行，发现并没有通过认证：
- 为了排除是代理本身的问题，使用 curl 命令确认代理 IP 是否可以正常访问，说明是使用上的问题，经过15分钟的搜索和验证，最后让我找到了解决方案 - 使用 Selenium-Chrome-HTTP-Private-Proxy。
  
  Selenium-Chrome-HTTP-Private-Proxy HTTP 代理解决方案
  - 默认情况下，Chrome的–proxy-server="http://ip:port"参数不支持设置用户名和密码认证。因此"Selenium + Chrome Driver"无法使用HTTP Basic Authentication的HTTP代理。一种变通的方式就是采用IP地址认证，但在国内网络环境下，大多数用户都采用ADSL形式网络接入，IP是变化的，也无法采用IP地址绑定认证。因此迫切需要找到一种让Chrome自动实现HTTP代理用户名密码认证的方案。
  - Stackoverflow上有人分享了一种利用Chrome插件实现自动代理用户密码认证的方案非常不错，详细地址：http://stackoverflow.com/questions/9888323/how-to-override-basic-authentication-in-selenium2-with-java-using-chrome-driver
  - 鲲之鹏的技术人员在此思路的基础上用Python实现了自动化的Chrome插件创建过程，即根据指定的代理“username:password@ip:port”自动创建一个Chrome代理插件，然后可以在"Selenium + Chrome Driver"中通过安装该插件实现代理配置功能（插件地址：https://github.com/RobinDev/Selenium-Chrome-HTTP-Private-Proxy）
    如何实现
    - 1、访问插件地址下载插件，放在项目目录中供使用
    - 2、编写代码
```
import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
def create_proxyauth_extension(proxy_host, proxy_port,
                               proxy_username, proxy_password,
                               scheme='http', plugin_path=None):
    """Proxy Auth Extension
    args:
        proxy_host (str): domain or ip address, ie proxy.domain.com
        proxy_port (int): port
        proxy_username (str): auth username
        proxy_password (str): auth password
    kwargs:
        scheme (str): proxy scheme, default http
        plugin_path (str): absolute path of the extension
    return str -> plugin_path
    """
    import string
    import zipfile
    if plugin_path is None:
        plugin_path = 'Selenium-Chrome-HTTP-Private-Proxy.zip'
    manifest_json = """
    {
        "version": "1.0.0",
        "manifest_version": 2,
        "name": "Chrome Proxy",
        "permissions": [
            "proxy",
            "tabs",
            "unlimitedStorage",
            "storage",
            "",
            "webRequest",
            "webRequestBlocking"
        ],
        "background": {
            "scripts": ["background.js"]
        },
        "minimum_chrome_version":"22.0.0"
    }
    """
    background_js = string.Template(
        """
        var config = {
                mode: "fixed_servers",
                rules: {
                  singleProxy: {
                    scheme: "${scheme}",
                    host: "${host}",
                    port: parseInt(${port})
                  },
                  bypassList: ["foobar.com"]
                }
              };
        chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});
        function callbackFn(details) {
            return {
                authCredentials: {
                    username: "${username}",
                    password: "${password}"
                }
            };
        }
        chrome.webRequest.onAuthRequired.addListener(
                    callbackFn,
                    {urls: [""]},
                    ['blocking']
        );
        """
    ).substitute(
        host=proxy_host,
        port=proxy_port,
        username=proxy_username,
        password=proxy_password,
        scheme=scheme,
    )
    with zipfile.ZipFile(plugin_path, 'w') as zp:
        zp.writestr("manifest.json", manifest_json)
        zp.writestr("background.js", background_js)
    return plugin_path
def configure_headless_browser(proxy_config):
    chrome_options = Options()
    chrome_options.add_argument("--start-maximized")
    proxyauth_plugin_path = create_proxyauth_extension(
        proxy_host=proxy_config[0],
        proxy_port=proxy_config[1],
        proxy_username=proxy_config[2],
        proxy_password=proxy_config[3]
    )
    chrome_options.add_extension(proxyauth_plugin_path)
    # chrome_options.add_argument('--headless')
    # chrome_options.add_argument(
    #     "user-agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'")
    chrome_service = Service("./chromedriver.exe")
    return webdriver.Chrome(service=chrome_service, options=chrome_options)
# 设置代理IP
proxy_config = ["175.153.142.127""", "10033", "9ER62CtIr", "fGGVvqedX"]
# 启动浏览器
driver = configure_headless_browser(proxy_config)
# 访问百度官网
driver.get('https://www.baidu.com')
# 在这里执行你的操作，比如查找元素、输入搜索关键词等
time.sleep(30)
# 关闭浏览器
driver.quit()
```
      - 点击测试运行，运行成功，并确认正确使用代理IP：
        
        总结
        
        本文介绍了 Selenium 使用无账号和有账号密码进行代理爬虫的方式，无账号密码主要基于浏览器 --proxy-server 参数实现，而有账号密码的方式基于 Selenium-Chrome-HTTP-Private-Proxy 插件实现；同时分享了一种免费获取代理IP的方式（一连代理），感兴趣的朋友可以试试。
        总结
        
        本文介绍了 Selenium 使用无账号和有账号密码进行代理爬虫的方式，无账号密码主要基于浏览器 --proxy-server 参数实现，而有账号密码的方式基于 Selenium-Chrome-HTTP-Private-Proxy 插件实现；同时分享了一种免费获取代理IP的方式（一连代理），感兴趣的朋友可以试试。
        个人简介
        
        👋 你好，我是 Lorin 洛林，一位 Java 后端技术开发者！座右铭：Technology has the power to make the world a better place.
        
        🚀 我对技术的热情是我不断学习和分享的动力。我的博客是一个关于Java生态系统、后端开发和最新技术趋势的地方。
        
        🧠 作为一个 Java 后端技术爱好者，我不仅热衷于探索语言的新特性和技术的深度，还热衷于分享我的见解和最佳实践。我相信知识的分享和社区合作可以帮助我们共同成长。
        
        💡 在我的博客上，你将找到关于Java核心概念、JVM 底层技术、常用框架如Spring和Mybatis 、MySQL等数据库管理、RabbitMQ、Rocketmq等消息中间件、性能优化等内容的深入文章。我也将分享一些编程技巧和解决问题的方法，以帮助你更好地掌握Java编程。
        
        🌐 我鼓励互动和建立社区，因此请留下你的问题、建议或主题请求，让我知道你感兴趣的内容。此外，我将分享最新的互联网和技术资讯，以确保你与技术世界的最新发展保持联系。我期待与你一起在技术之路上前进，一起探讨技术世界的无限可能性。
        
        📖 保持关注我的博客，让我们共同追求技术卓越。

VPS购买请点击我

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

Selenium 如何使用代理 IP 进行 Web 爬虫（包括无认证实现、有账号密码认证实现）

文章目录

版本

无账号密码使用 Selenium 实现 HTTP 代理

万万没想到加上账号密码会难度升级 + N

GPT 提供的带账号密码的 HTTP 代理解决方案

代理 IP

如何获取

Selenium-Chrome-HTTP-Private-Proxy HTTP 代理解决方案

如何实现

总结

总结

个人简介

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]