Python技能树共建之python urllib 模块

2022-05-23 05:16:59 来源 : 软件开发网

一、Python urllib 模块是什么

二、使用方法

上手案例

urlopen() 返回对象的更多方法

urllib.Request() 类

urllib.parse

三、提高场景

error 模块

一、Python urllib 模块是什么

urllib模块是 Python 标准库，其价值在于抓取网络上的 URL 资源，入门爬虫时必学的一个模块。

不过更多的爬虫工程师上手学习的模块已经更换为 requests 了。

在 Python3 中 urllib 模块包括如下内容。

urllib.request：请求模块，用于打开和读取 URL；

urllib.error：异常处理模块，捕获urllib.error抛出异常；

urllib.parse：URL 解析，爬虫程序中用于处理 URL 地址；

urllib.robotparser：解析 robots.txt 文件，判断目标站点哪些内容可爬，哪些不可以爬，但是用的很少。

二、使用方法上手案例

打开一个测试站点，然后返回服务器响应内容。

from urllib.request import urlopenwith urlopen("https://www.example.net") as html: page = html.read()print(page)

上述代码用到了urllib.requests模块，其内部定义了打开 URL 的函数，授权验证的方法，重定向，cookie 操作等方法。

代码中用到的urlopen()函数，就是打开一个 URL，该函数的语法格式如下所示：

urllib.request.urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,            *, cafile=None, capath=None, cadefault=False, context=None)

参数描述如下所示：

url：请求地址；

data：发送到服务器的其他数据对象，默认为 None；

timeout：超时时间；

cafile和capath：cafile 为 CA 证书， capath 为 CA 证书的路径，使用 HTTPS 需要用到；

context：ssl.SSLContext 类型，用来指定 SSL 设置。

调用该对象的read()方法，可以读取到整个网页数据。

其余的函数与文件读取类似，分别是readline()，readlines()。

还可以调用对象的getcode()方法，获取网页状态码。

print(html.getcode()) # 返回 200urlopen() 返回对象的更多方法

使用urlopen()可以得到一个HTTPResposne类型的对象，它包括上文提及的read()方法，getcode()方法，除此之外，还有如下内容可以使用。

getheaders()：获取请求头内容；

getheader(name)：获取指定请求头；

msg：信息属性；

version：版本属性；

status：状态属性。

urllib.Request() 类

URL 请求抽象类，使用它可以扩展更多的请求配置，其构造方法如下所示：

def __init__(self, url, data=None, headers={},                 origin_req_host=None, unverifiable=False,                 method=None)

其参数说明如下所示：

url：请求地址，必选参数；

data：请求参数，必须为bytes类型数据，可以使用urlencode()进行编码；

headers：字典类型，请求头设置；

origin_req_host：请求的主机地址，IP 或域名；

method：请求方法。

测试代码如下所示：

from urllib import request, parseurl = "http://httpbin.org/post"headers = {    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) 你的UA"}dict = {    "name": "xiangpica"}# 转换数据类型data = bytes(parse.urlencode(dict), encoding="utf8")# 实例化对象req = request.Request(url=url, data=data, headers=headers, method="POST")# 添加请求头req.add_header("HOST", "httpbin.org")# 发送数据response = request.urlopen(req)print(response.read().decode("utf-8"))

urllib.parse

该模块主要用于解析 URL，函数原型如下所示：

urllib.parse.urlparse(urlstring, scheme="", allow_fragments=True)

参数说明如下：

urlstring：URL 地址；

scheme：协议类型，可用的包括 file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、 sip、sips、snews、svn、svn+ssh、telnet……；

allow_fragments：是否忽略 URL 中的fragment部分。

标准的 URL 格式如下：

scheme://netloc/path;params?query#fragment

说明如下所示：

scheme：URL 协议；

netloc：域名和端口；

path：路径；

params：最后一个路径元素参数，不常用；

query：查询字符串；

fragment：片段标志。

from urllib.parse import urlparseresult = urlparse("http://www.example.com/index.html;info?id=10086#comment")print(type(result), result)print(result.scheme, result[0])print(result.netloc, result[1])print(result.path, result[2])print(result.params, result[3])print(result.query, result[4])print(result.fragment, result[5])

运行结果如下所示：

ParseResult(scheme="http", netloc="www.example.com", path="/index.html", params="info", query="id=10086", fragment="comment")http httpwww.example.com www.example.com/index.html /index.htmlinfo infoid=10086 id=10086comment comment

urlparse() 返回结果是一个ParseResult类型的对象。

其余内容

urlunparse()方法与上述方法逻辑相反；

urljoin()方法用于拼接链接；

urlencode()：格式化请求参数；

quote()：将内容转换为 URL 编码格式，尤其是转换中文字符；

unquote()：对 URL 进行解码。

三、提高场景error 模块

在urllib中，error模块定义异常，其包含如下类：

URLError：OSError 的一个子类，用于处理程序在遇到问题时会引发此异常；

HTTPError：URLError 的一个子类，用于处理特殊 HTTP 错误例如作为认证请求的时候

到此这篇关于Python技能树共建之python urllib 模块的文章就介绍到这了,更多相关 python urllib 模块内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网！

标签：参数说明使用方法请求参数

建发集团、象屿集团等成立产投新兴科创合伙企业，出资额68亿
2025-12-04
即时：陕西华达：公司给星网和千帆均有配套
2025-12-04
游戏概念股名单（2025/12/4）
2025-12-04
雅居乐集团前11个月预售金额合计81亿元同比下降45%
2025-12-04
火箭121-95国王球员评价：3人优秀，5人良好，谢泼德低迷通讯
2025-12-04
乘联会崔东树：2025年1-10月中国占世界新能源车份额68%、自主海外新能源份额14%-聚看点
2025-12-04
帝奥微、乐聚机器人入股具身智能公司灵心巧手
2025-12-04
江苏扬州：初冬赏银杏-焦点速讯
2025-12-04
12月4日生意社燃料油基准价为5337.50元/吨|焦点速读
2025-12-04
当日无负债结算制度是什么？
2025-12-04
【英超】梅里诺传射，萨卡破门，阿森纳2比0小蜜蜂
2025-12-04
诺奖得主罗伯特·恩格尔：中国新能源汽车令全世界羡慕|时快讯
2025-12-04
12月3日南向资金ETF成交额10.86亿港元
2025-12-04
爱德华兹连续6场砍下30+！追平乐福并列队史第一|要闻速递
2025-12-03
*ST中装：与重整财务投资人签署《重整投资协议》_每日关注
2025-12-03
PriceSeek提醒：青岛天然橡胶市场窄幅整理分析-每日精选
2025-12-03
PriceSeek重点提醒：上游己内酰胺企业减产计划落实
2025-12-03
奥特迅：奥特迅工业园竣工验收
2025-12-03
*ST春天股价两连板控股股东质押超60%持股
2025-12-03
前沿资讯!日本15岁初中生凌晨持刀狂刺上班族
2025-12-03
韩国总统：韩朝处于对话联络完全中断状态_焦点速看
2025-12-03
苹果发布 iPhone Air MagSafe 电池固件更新
2025-12-03
视讯！永创智能拟募资3亿元投向智能包装持续加码研发股价年内涨幅超84%
2025-12-03
谁是算力网络真正龙头（2025/12/3）要闻
2025-12-03
11月物流业景气指数50.9% 需求保持扩张
2025-12-03
每日快播:午评：沪指跌0.09% 煤炭板块冲高
2025-12-03
【时快讯】锐捷网络等在福建成立科技公司
2025-12-03
天天快报!为何它们成为2025年十大流行语？
2025-12-03
每日速读!解锁银川幸福密码：让民生温暖直达人心
2025-12-03
星谦发展完成发行合共3510万股配售股份
2025-12-03
“安大简”最新整理研究发现《楚辞》佚篇
2025-12-03
给房子办张“信托身份证”不动产不止“住”这么简单热资讯
2025-12-03
苹果调整更新策略，iPhone 16等用户首推升级iOS 26.1系统_热消息
2025-12-03
沧州市松岸包装制品有限公司成立注册资本100万人民币热闻
2025-12-03
A股震荡，把握节奏仍有机会
2025-12-02
能否延续？马竞前锋瑟洛特近5次西甲对阵巴萨均有进球
2025-12-02
焦点速讯：PriceSeek重点提醒：年产5000吨智能纺纱项目落地潜山
2025-12-02
PriceSeek提醒：齐鲁石化顺丁橡胶计划减产分析
2025-12-02
深圳一新盘日销130亿元！刷新今年国内新房开盘成交纪录
2025-12-02
刘纪鹏：上市公司不要把精力放在减持上忽视了高质量发展
2025-12-02
一图速览｜ “十五五”时期阿拉善经济社会发展的主要目标
2025-12-02
少年美德说·青春脱口秀③|你以为的“坚韧不拔”，可能是“连滚带爬”的学术表达
2025-12-02
2025年十大流行语公布！你都听过哪些？
2025-12-02
每日热讯!常青股份：累计回购约171万股
2025-12-02
PriceSeek提醒：山东MTBE报价集体上调-速看
2025-12-02
印度卢比测试历史新低贸易协议僵局使90关口面临风险
2025-12-02
最资讯丨主板石油公司(主板石油概念股名单2025)
2025-12-02
狄龙33分东契奇38分9失误太阳胜湖人
2025-12-02
最新：林业排名前十的股票（2025第三季度净利率排行榜）
2025-12-02
每日消息!郑州小妙食品有限公司成立注册资本10万人民币
2025-12-02
贵州双龙航空港经济区投资促进局汽车加气站行政许可公示（《汽车加气站经营许可证》申请20251128）-热讯
2025-12-02
碳排放监测股票有哪些股（上市公司名单）（2025/12/1）
2025-12-02
讯息：一文读懂共3只，热电龙头股（收藏好）（2025/12/1）
2025-12-02
斯诺克英锦赛：赵心童6-1速胜龙泽煌，丁俊晖6-4击败徐思
2025-12-02
动态焦点:解锁“南京味道”！余斌教授开讲镜湖夜话第三讲
2025-12-02
焦作万方：40万吨再生铝项目在焦作万方铝业股份有限公司厂区内实施
2025-12-01
每日速读!美迪凯：拟定增募资不超过7亿元用于MEMS器件光学系统制造项目等
2025-12-01
大风蓝色预警！2日白天北京最高气温将跌破0℃ 每日聚焦
2025-12-01
超大现代(00682.HK)拟折价15.09%配售最多3295万股净筹719万港元
2025-12-01
SINCEREWATCH HK(00444.HK)：截至2025年11月30日止月份之股份发行人的证券变动月报表内容摘要
2025-12-01