一个自适应的网页爬取框架,能够处理从单一请求到全面爬行 d4vinci/Scrapling
Scrapling(d4vinci/Scrapling)项目详解
一句话:一体化智能Python爬虫库,主打【自适应防改版+内置反爬+JS渲染三合一】,替代 requests+bs4+playwright+反爬工具组合。
一、项目是做什么的
核心定位
原生整合请求、反爬绕过、JS渲染、DOM解析、自适应选择器、分布式爬虫全套能力,不用手动拼装多类第三方库,解决两大爬虫痛点:
- 网站改版选择器失效:独有自适应算法,首次抓取记录元素特征,后续页面改class/HTML结构,开启
adaptive=True自动重新定位数据,不用改爬虫代码; - Cloudflare、人机验证、指纹封禁:内置三层请求引擎,开箱绕过主流反爬,不用额外配置代理指纹、无头浏览器隐藏特征。
三层抓取引擎(按需切换)
| 引擎 | 底层 | 能力 | 适用场景 |
|---|---|---|---|
| Fetcher | curl_cffi | TLS指纹伪装、普通http | 静态页面、无反爬站点(最快) |
| StealthyFetcher | Camoufox魔改火狐 | 原生过Cloudflare Turnstile、浏览器指纹 | 带CF防护、轻量动态页面 |
| DynamicFetcher | Playwright-Chromium | 完整JS渲染、SPA异步加载 | 前端渲染、大量AJAX网站 |
附加能力
- 解析兼容:同时支持CSS/XPath/bs4语法,写法贴近BeautifulSoup、Scrapy Parsel,迁移成本极低;解析速度约bs4的800倍,对标lxml/Scrapy性能;
- 类Scrapy爬虫骨架:Spider爬虫类、异步并发、断点续爬、自动代理轮换、分页调度,可快速做全站爬虫;
- CLI命令行:不用写Python代码,终端直接
scrapling extract 网址 输出.md导出数据;自带scrapling shell交互式调试; - MCP协议接入AI:可对接Cursor/Claude等AI Agent,和你前面看的
agency-agents-zh智能体项目联动,AI自动调用爬虫抓网页数据。
二、使用门槛(分3档,新手友好度高)
环境底线:Python≥3.10,Windows/Mac/Linux全平台可用
1、零代码/命令行使用(门槛★☆☆☆☆,零基础)
只用终端命令,不用写Python:
# 最简安装
pip install scrapling
# 全功能安装(含浏览器、反爬全套)
pip install "scrapling[all]"
# 自动下载依赖浏览器
scrapling install
# 终端直接爬取导出
scrapling extract https://xxx.com save.md适合:非开发,临时抓页面内容、导出表格。
2、单行代码简易爬虫(门槛★★☆☆☆,会基础Python即可)
几行代码完成带反爬+自适应抓取,兼容老bs4写法:
from scrapling.fetchers import StealthyFetcher
# 开启自适应,网站改版自动找元素
page = StealthyFetcher.fetch("目标网址",adaptive=True)
# css选择器提取,就算页面改样式也能抓到
titles = page.css(".title",auto_save=True)适合:爬虫新手、日常零散数据抓取,替代requests+bs4。
3、大型全站爬虫/二次开发(门槛★★★☆☆,有爬虫基础)
用内置Spider写批量并发爬虫、配置代理池、自定义自适应规则、对接私有代理服务,需要懂异步、爬虫调度,对标Scrapy学习成本,但配置更简单。
三、优缺点&适用人群
优点
- 不用折腾环境:一键装好浏览器与反爬依赖,告别Playwright驱动、cf-bypass环境配置难题;
- 维护成本极低:自适应选择器大幅减少因前端改版反复改代码;
全场景通吃:静态/动态/高反爬网站一套库搞定。
缺点
- 全量安装会自动下载Chromium/Firefox二进制包,国内网络偶尔下载缓慢;
- 内存开销:DynamicFetcher启动真实浏览器,批量爬取占用高于纯http库。
适用人群
- 爬虫新手:不想折腾多库组合,一套代码抓各类网站;
- 数据运营:用CLI快速抓取电商、资讯数据;
- AI开发者:搭配agency-agents智能体,让AI自动联网爬取实时网页;
- 爬虫工程师:替换老旧requests+selenium项目,降低维护成本。
补充:和你上一个项目联动
agency-agents-zh里的爬虫工程师Agent可以直接调用Scrapling,AI自动生成爬虫代码、执行网页抓取,是当下AI+爬虫主流搭配方案。
版权属于:Joyber
本文链接:https://blog.qqvbc.com/default/1475.html
转载时须注明出处及本声明