【Python】Requests 库使用示例
本文使用Python+requests库对微博页面进行数据抓取和简单的数据清洗
(图片来源网络,侵删)
使用Requests库进行网络爬虫
requests是一个Python的HTTP客户端库,用于发送HTTP请求。它简单易用,同时提供了足够的功能来处理各种网络请求。
1. 安装requests库
在Python中安装requests库,可以使用pip,使用国内镜像源,下载速度更快:
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
常用的镜像源可以参考以下文章:Python常用镜像库源
2. 基本用法
2.1 发送GET请求
import requests # 发送GET请求 response = requests.get('https://www.weibo.com/') # 检查响应状态码 if response.status_code == 200: print('成功获取页面内容') else: print('请求失败,状态码:', response.status_code)
2.2 解析响应内容
# 获取响应的文本内容 page_content = response.text # 打印前500个字符 print(page_content[:500])
3. 数据清洗
通常,抓取到的HTML页面需要经过数据清洗,以提取有用的信息。可以使用BeautifulSoup库进行HTML的解析和清洗。
3.1 安装BeautifulSoup库
pip install beautifulsoup4
3.2 使用BeautifulSoup清洗数据
from bs4 import BeautifulSoup # 使用BeautifulSoup解析HTML soup = BeautifulSoup(page_content, 'html.parser') # 假设我们要提取微博用户的昵称 user_nicknames = soup.find_all('nick-name') # 清洗并打印用户昵称 for nickname in user_nicknames: print(nickname.get_text().strip())
4. 完整示例
以下是一个简单的示例,展示了如何抓取微博页面并清洗数据。
import requests from bs4 import BeautifulSoup # 微博页面URL(需登录微博,点击任一内容页面) url = 'https://www.weibo.com/' # 发送GET请求 response = requests.get(url) # 检查响应状态码 if response.status_code == 200: # 解析HTML内容 soup = BeautifulSoup(response.text, 'html.parser') # 假设我们要提取所有微博用户的昵称 user_nicknames = soup.find_all('nick-name') # 清洗并打印用户昵称 for nickname in user_nicknames: print(nickname.get_text().strip()) else: print('请求失败,状态码:', response.status_code)
请注意,实际的微博页面结构可能与此示例不同,在摘取信息的时候需要根据实际情况调整选择器和清洗逻辑。此外,微博可能会采取反爬虫措施,因此在实际应用中可能需要其他技术来绕过这些措施。
这个示例展示了如何使用requests库来获取微博页面的HTML内容,并使用BeautifulSoup库来解析和清洗数据。在实际应用中,您需要根据微博页面的具体结构来调整选择器。
文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。