python怎样抓取网页中的文字和数字数据

发布网友 发布时间:2022-04-22 12:12

我来回答

2个回答

热心网友 时间:2022-04-18 03:26

以下代码在 py2 下运行通过:

import urllib2

req = urllib2.Request('https://www.baidu.com/')  # 创建一个 Requset 对象
response = urllib2.urlopen(req)  # 调用 urlopen
the_page = response.read()  # 返回一个 response 对象 在 response 中调用 read()
print the_page


运行效果:

热心网友 时间:2022-04-18 04:44

通过xpath路径来定位到要提取的元素,在路径后面加上/text()可以提取该元素的文本,如果是要提取属性值,在路径后面加上/@属性名就可以。如果要只采集数字或者文字,可以使用正则来实现。比如数字的正字表达式:[0-9]+。希望可以帮到题主

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com