网页数据解析三种方式

发表于2024-03-27|更新于2024-04-02|爬虫

|阅读量:

网页数据解析三种方式

正则表达式

import re
import requests

resp = requests.get(url=url, headers=headers)
pattern = re.compile(r'正则表达式')
data = pattern.findall(resp.text)

bs4

import bs4
import requests

resp = requests.get(url=url, headers=headers)
# 创建BeautifulSoup对象
soup = bs4.BeautifulSoup(resp.text, 'lxml')
# 通过CSS选择器从页面中提取标签
data = soup.select("css选择器")

xpath

import requests
from lxml import etree

resp = requests.get(url=url, headers=headers)
tree = etree.HTML(resp.text)

data = tree.xpath("xpath路径")

文章作者: lswtn

文章链接: https://lswtn.github.io/2024/03/27/ways_parse_web_data/

爬虫 Python 数据解析