avatar
文章
35
标签
29
分类
3

首页
时间轴
标签
分类
清单
  • 照片
  • 视频
链接
lswtn
首页
时间轴
标签
分类
清单
  • 照片
  • 视频
链接
线程池&进程池
发表于2024-06-12|爬虫|爬虫•多进程•多线程
线程池&进程池1234567891011from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutordef fn(x): for i in range(10): print(x * i)#10个线程的线程池#可换为ProcessPoolExecutorwith ThreadPoolExecutor(10) as p: for i in range(10): p.submit(fn, i)
爬取视频-星辰影院视频案例
发表于2024-06-12|爬虫|爬虫•异步
爬取视频-星辰影院视频案例爬取视频基础爬取流程 爬取m3u8 通过m3u8下载视频 合并视频 m3u8样例 12345678910111213#EXTM3U#EXT-X-VERSION:3#EXT-X-TARGETDURATION:2#EXT-X-MEDIA-SEQUENCE:0#EXT-X-PLAYLIST-TYPE:VOD#EXT-X-KEY:METHOD=AES-128,URI="key.key"#EXTINF:2.000000,https://v11.ltdmq.com/sdv11/ts/1.ts#EXT-X-DISCONTINUITY#EXTINF:2.000000,https://v11.ltdmq.com/sdv11/ts/2.ts#EXTINF:2.000000,https://v11.ltdmq.com/sdv11/ts/3.ts 如果有#EXT-X-KEY,说明视频被加密,需要将下载的视频按METHOD的方法解密,密钥通过请求URI获取 通过请求下载所有.ts结尾的文件(并解密),从上往下合并所有ts视频 #EXTINF:2.000000 表 ...
js逆向-网易云音乐评论爬虫
发表于2024-06-08|爬虫|爬虫•js逆向
js逆向-网易云音乐爬虫声明:本文仅供学习交流,请勿暴力爬取数据,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 记录一次完整的js逆向爬虫过程js混淆后每次请求函数名变量名可能都不同随便打开一首歌 查看页面源代码,没有评论信息,评论是动态获取的F12 -> 网络 -> Fetch/XHR刷新抓包。Ctrl+F查询某个评论,评论在 get?csrf_token= 请求中获取 (后面表示为目标url) 无需登录,去掉csrf_token参数请求 URL: https://music.163.com/weapi/comment/resource/comments/get请求方法: POST查看负载,post中包含两个参数params, encSecKey观察可知参数被加密了 目标:通过js逆向找到未加密的参数,在python中模拟网页的js程序加密,再post请求 确定参数加密位置查看请求的请求发起程序调用堆栈点击栈顶程序进入源代码 点击后自动定位到向目标url发送请求的那一行加入断点,刷新网页查看作用域,url不是目标url恢复脚本执行 ...
Session处理Cookie
发表于2024-06-04|爬虫|爬虫
Session处理Cookie12345678910import requestsdata = {"account":"???", "password":"???"}# session对象自动保存cookiesession = requests.session()#获取cookieresp = session.post(url="", data=data, headers={})resp.encoding = resp.apparent_encoding#携带cookie请求resp = session.get(url="", headers={})
ST表(静态区间最大值/最小值)
发表于2024-06-03|算法|算法
ST表(静态区间最大值/最小值)题目理论 用于静态查询区间最大值/最小值,时间复杂度O(nlogn), 查询O(1) f[i][j]:从i开始,长度是2^j的区间中最大值,即区间[i, i + (1 << j) - 1] 状态转移:分为前半段和后半段求值f[i][j] = max/min(f[i][j - 1], f[i + (1 << (j - 1))][j - 1]) 查询:分为左段和右段max/min(f[l][k], f[r - (1 << k) + 1][k]);(k = log2(区间长度)下取整) 模板12345678910111213141516171819202122232425262728293031323334353637383940414243444546#include <iostream>#include <cmath>using namespace std;const int N = 200010, M = 18;//f[i][j]:从i开始,长度是2^j的区间中最 ...
迭代加深
发表于2024-05-28|算法|算法•搜索
迭代加深理论适用于搜索树中某些分支很深,而答案在比较浅的节点从小到大限制搜索的深度会重复搜上面的节点,但时间复杂度可以忽略不计 模板1234567891011121314//u:当前层数 k:深度bool dfs(int u, int k){ if (u > k) return true; //...}int main(){ int k = 1; while (!dfs(1, k)) k ++ ; return 0;}
lol英雄, 皮肤, 符文, 装备及赛事官网比赛数据爬取
发表于2024-05-20|爬虫|爬虫•mysql
lol英雄,皮肤,符文,装备及比赛数据爬取爬取官网装备数据网址 1234567891011121314151617181920212223242526272829303132import pymysqlimport requestsimport requestsfrom lxml import etree#连接数据库conn = pymysql.connect(host="localhost", port=3306, user="root", password="123456", database="lol")#通过抓包获取json文件url = "https://game.gtimg.cn/images/lol/act/img/js/items/items.js"#UA伪装headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/ ...
有理数取余模板
发表于2024-05-02|算法|算法•数论
有理数取余模板模板 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748#include <iostream>#include <cstdio>using namespace std;typedef long long ll;const ll p = 19260817;//用于求 b * x1 ≡ 1 (mod p)ll exgcd(ll a, ll b, ll &x, ll &y){ if (!b) { x = 1, y = 0; return a; } ll d = exgcd(b, a % b, y, x); y -= a / b * x; return d;}ll getres(ll a, ll b){ ll x,y; exgcd(b,p,x,y); ll x1 = (x+p)%p; ...
高精度*高精度FFT优化算法模板
发表于2024-04-27|算法|算法•FFT•高精度
高精度*高精度FFT优化算法模板模板 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131#include <iostream>#include <cstdio>#include <algorithm>#include <cstring>#include <cmath>#include <map>#include <queue>#include <set>#include <v ...
Scrapy基本使用
发表于2024-04-05|爬虫|爬虫•Python•Scrapy•Mysql•Selenium
Scrapy基本使用环境准备pip install scrapy 项目操作在当前目录创建scrapy项目scrapy startproject [project_name]scrapy startproject test_scrapy 进入项目目录,生成爬虫文件scrapy genspider [name] [url]scrapy genspider first www.xxx.com 运行项目scrapy crawl [name]scrapy crawl first 配置文件123456789101112USER_AGENT设置UAROBOTSTXT_OBEY是否遵从robot协议#只输出ERROR级别的logLOG_LEVEL = "ERROR" #300为优先级,优先级越小越先执行#可通过增加管道类实现多平台存储ITEM_PIPELINES = { "test_scrapy.pipelines.TestScrapyPipeline": 300,} 数据解析获取定位到的首个标签response.xpath().ge ...
1234
avatar
lswtn
文章
35
标签
29
分类
3
Follow Me
公告
无公告
最新文章
LeetCode 146. LRU 缓存2025-01-19
LeetCode 146. LRU 缓存2024-10-26
js逆向-某省公共资源交易平台(头部加密)2024-09-13
js逆向-产业政策大数据平台(调试保护,进制流参数加密, webpack)2024-09-11
绕过网站调试保护限制2024-09-10
分类
  • 杂2
  • 爬虫19
  • 算法14
标签
算法 高精度 Python cpu 多线程 数据解析 多进程 LeetCode 数论 js逆向 mysql 自动化 数据结构 MongoDB Scrapy 二分 Markdown 动态规划 异步 C++ 搜索 Mysql Selenium 爬虫 贪心 显卡 FFT Pyppeteer 数学
归档
  • 一月 20251
  • 十月 20241
  • 九月 20243
  • 七月 20242
  • 六月 20248
  • 五月 20243
  • 四月 20244
  • 三月 202413
网站资讯
文章数目 :
35
已运行时间 :
本站访客数 :
本站总访问量 :
最后更新时间 :
©2024 - 2025 By lswtn
框架 Hexo|主题 Butterfly