本文是【大模型API中转站】系列篇。本系列致力于用最低的成本、最清晰的方法,帮你打通多模型 API 的任督二脉。建议先收藏,随用随查。
这期不聊单个接口,聊一套"组合拳"。Claude Code 本身是个很能干的 Agent,但真要让它去扒全网数据,光靠自己不够——得给它配几把趁手的兵器。我把最近在用的五个 Skill 整理了一下,从最轻的社媒抓取到最重的浏览器接管,基本覆盖了"想从网上搞数据"的所有场景。
核心原则就一句:从轻到重,够用就停,能不开浏览器就别开。浏览器是最重的方案,能用 API 解决的别动它。
驱动这套组合的大脑是 Claude,我用的是 https://4sapi.com 这个中转站接入的 Claude API——国内直连、一个 Key 走完,省去了官方注册和网络的麻烦。下面把五个 Skill 和搭配思路讲清楚。
1. 开篇:为什么需要"分层"而不是一把梭
很多人一上来就甩个浏览器自动化,结果杀鸡用牛刀——速度慢、容易崩、还吃资源。真实的网络抓取场景其实是分层的:
- 有的数据,平台本身就有 API 或半公开接口,一次请求就拿到。
- 有的要批量抓、还得破反爬,得上专门的抓取框架。
- 有的藏在登录后面,得让 AI 自己操作页面。
- 有的认证特别复杂,你还想盯着它一步步来。
- 有的干脆要全自动联网、接管你日常的浏览器。
本文目标:给你一套从轻到重的五层工具箱,配上 Claude Code,让你的 Agent 按需选型——能轻就不重,能不开浏览器就别开。
2. 原理速览:五层工具,从轻到重
先把整套思路摆出来,请求的"重量"从上到下递增:
轻 ┌─ ① 扒社媒 → Agent-reach
│ ② 批量抓/破反爬 → Scrapling
│ ③ 扒登录后页面 → Browser-use
│ ④ 盯着它操作 → Claude in Chrome
重 └─ ⑤ 全自动联网 → Web-access
选型逻辑很直接:从①往下走,哪一层够用就停在哪一层。社媒数据能用 Agent-reach 拿到,就别动 Scrapling;静态抓取能搞定,就别开浏览器。越往下越重、越慢、越容易出问题。
3. 五个 Skill 详解
① 扒社媒 → Agent-reach(最轻)
一个开源的 AI 脚手架,支持小红书 / X / 抖音 / YouTube / 公众号 / Reddit 等多个平台通过 API 访问。通过安装 CLI 工具、配置搜索引擎,帮 AI Agent 实现对各平台的访问。
- 适用:社媒平台的公开内容抓取。
- 项目地址:github.com/Panniantong/agent-reach
② 批量抓数据 / 破反爬 → Scrapling
一个开源的自适应网页抓取框架,支持从单次请求到全量爬取。内置静态、JS 渲染、反爬隐身三种抓取器,能高速提取结构化数据、绕过 Cloudflare 等反爬。最香的一点:网页改版后它能自动重新定位元素,不容易失效。
- 适用:大规模结构化抓取、需要破反爬的站点。
- 项目地址:github.com/D4Vinci/Scrapling
③ 扒登录后的页面 / 让 AI 自己操作 → Browser-use
一个开源的浏览器自动化框架,让 AI 像人一样操作网页。由 LLM 驱动(需配一个模型——这里就接 4sapi 的 Claude),能自主完成填表、点击、操作后台等多步任务,还能复用你 Chrome 里已登录的状态。
- 适用:登录后才能访问的内容、需要多步操作的任务。
- 项目地址:github.com/browser-use/browser-use
④ 要盯着它操作 / 复杂认证 → Claude in Chrome
Anthropic 官方的浏览器扩展。把 Claude 装进你真实的 Chrome,你能亲眼看着它在页面里点击、填写、操作。适合那些需要盯着、或者认证特别复杂的页面。
- 适用:高风险操作、复杂认证、想全程可见的场景。
- 官网:claude.ai/chrome
⑤ 要全自动联网 / 接管日常 Chrome → Web-access(最重)
一个开源的 Agent 联网 Skill,覆盖从公开搜索到登录后操作的全场景。它会在 WebSearch / WebFetch / curl / CDP 之间自动择优,并用 CDP 接管你日常的 Chrome(天然带登录态),还能检索本地浏览器的书签与历史。
- 适用:全自动联网任务、需要接管日常浏览器登录态的场景。
- 项目地址:github.com/eze-is/web-access
4. 接入 Claude:用 4sapi 给这套组合配大脑
上面几个 Skill 里,Browser-use、Web-access 都需要一个 LLM 来驱动决策,Claude Code 本身也要接模型。这里统一用 https://4sapi.com 接 Claude,走 OpenAI 兼容格式,一个 Key 全搞定。
环境准备:
pip install openai
export ANTHROPIC_BASE_URL=https://4sapi.com # Claude Code / Browser-use 等读取
export API_KEY=你的密钥 # 千万别写死在代码或提交到仓库
Python 调用示例:
from openai import OpenAI
client = OpenAI(
api_key="你的中转Key", # 从 4sapi 后台获取
base_url="https://4sapi.com/v1", # 统一中转入口
)
resp = client.chat.completions.create(
model="claude-3-5-sonnet-20241022",
messages=[{"role": "user", "content": "帮我把这页内容提取成结构化 JSON。"}],
)
print(resp.choices[0].message.content)
给 Browser-use 这类框架配模型时,把 base_url 指向 4sapi 入口、Key 用环境变量传进去即可,决策和操作都由 Claude 来跑。
5. 实战:用这套组合扒一个课程网站
讲个真实的例子。前几天我用这套组合扒了一个课程网站,整个流程跑下来非常丝滑:
- 登录态:课程在后台、要登录,于是用 Browser-use 复用已登录的 Chrome 状态进去。
- 扒内容:把后台的文档和视频全流程下载下来。
- 加工:文档自动翻译,视频自动加字幕。
- 归档:全部整理好存进 Obsidian。
整套链路的"大脑"就是经 4sapi 接入的 Claude,从判断点哪里、抓什么,到翻译和整理,都是它在调度。关键还是那条原则:这个站要登录,所以上了浏览器层(Browser-use);如果是公开课程,能用 Scrapling 静态抓就不必开浏览器了。
想偷懒的话:直接把这篇文章扔给你的 Agent,让它按"从轻到重、够用就停、能不开浏览器就别开"的原则自己挑工具、自己配,基本就能即插即用。
6. 成本与风险提示
- 费用构成:中转服务费 + Claude 官方按 token 计费。浏览器自动化跑多步任务时 token 消耗会上去,能用轻量层解决就别开浏览器,既省钱又省时间。
- 数据隐私:接管日常 Chrome、复用登录态意味着 Agent 能碰到你的账号数据,敏感账号建议用独立的浏览器 profile,别直接挂主号。
- 合规提醒:抓取要遵守目标站点的 robots 和服务条款,别抓隐私数据、别拿来做违规用途。本文只讨论正常的数据获取与自动化,破反爬指的是工程层面的稳定抓取,不鼓励任何恶意爆破或绕过付费墙。
- 生产环境:自动化链路要做好失败重试和限速,别把单一渠道或单一登录态当唯一依赖。
7. 总结与系列导航
一句话总结:Claude Code 配上这五个 Skill,从社媒到登录后页面基本能扒全网——记住从轻到重、够用就停、能不开浏览器就别开。给这套组合配大脑,用 https://4sapi.com 接 Claude API 是最省心的接法,一个 Key 走完全程。
你要是有更顺手的抓取工具或更省 token 的配置,欢迎在评论区甩出来一起讨论。