Claude Code 配 5 个 Skill 几乎扒全网 | 从轻到重的爬虫组合拳

本文是【大模型API中转站】系列篇。本系列致力于用最低的成本、最清晰的方法，帮你打通多模型 API 的任督二脉。建议先收藏，随用随查。

这期不聊单个接口，聊一套"组合拳"。Claude Code 本身是个很能干的 Agent，但真要让它去扒全网数据，光靠自己不够——得给它配几把趁手的兵器。我把最近在用的五个 Skill 整理了一下，从最轻的社媒抓取到最重的浏览器接管，基本覆盖了"想从网上搞数据"的所有场景。

核心原则就一句：从轻到重，够用就停，能不开浏览器就别开。浏览器是最重的方案，能用 API 解决的别动它。

驱动这套组合的大脑是 Claude，我用的是 https://4sapi.com 这个中转站接入的 Claude API——国内直连、一个 Key 走完，省去了官方注册和网络的麻烦。下面把五个 Skill 和搭配思路讲清楚。

1. 开篇：为什么需要"分层"而不是一把梭

很多人一上来就甩个浏览器自动化，结果杀鸡用牛刀——速度慢、容易崩、还吃资源。真实的网络抓取场景其实是分层的：

有的数据，平台本身就有 API 或半公开接口，一次请求就拿到。
有的要批量抓、还得破反爬，得上专门的抓取框架。
有的藏在登录后面，得让 AI 自己操作页面。
有的认证特别复杂，你还想盯着它一步步来。
有的干脆要全自动联网、接管你日常的浏览器。

本文目标：给你一套从轻到重的五层工具箱，配上 Claude Code，让你的 Agent 按需选型——能轻就不重，能不开浏览器就别开。

2. 原理速览：五层工具，从轻到重

先把整套思路摆出来，请求的"重量"从上到下递增：

轻 ┌─ ① 扒社媒        → Agent-reach
   │  ② 批量抓/破反爬  → Scrapling
   │  ③ 扒登录后页面   → Browser-use
   │  ④ 盯着它操作     → Claude in Chrome
重 └─ ⑤ 全自动联网     → Web-access

选型逻辑很直接：从①往下走，哪一层够用就停在哪一层。社媒数据能用 Agent-reach 拿到，就别动 Scrapling；静态抓取能搞定，就别开浏览器。越往下越重、越慢、越容易出问题。

3. 五个 Skill 详解

① 扒社媒 → Agent-reach（最轻）

一个开源的 AI 脚手架，支持小红书 / X / 抖音 / YouTube / 公众号 / Reddit 等多个平台通过 API 访问。通过安装 CLI 工具、配置搜索引擎，帮 AI Agent 实现对各平台的访问。

适用：社媒平台的公开内容抓取。
项目地址：github.com/Panniantong/agent-reach

② 批量抓数据 / 破反爬 → Scrapling

一个开源的自适应网页抓取框架，支持从单次请求到全量爬取。内置静态、JS 渲染、反爬隐身三种抓取器，能高速提取结构化数据、绕过 Cloudflare 等反爬。最香的一点：网页改版后它能自动重新定位元素，不容易失效。

适用：大规模结构化抓取、需要破反爬的站点。
项目地址：github.com/D4Vinci/Scrapling

③ 扒登录后的页面 / 让 AI 自己操作 → Browser-use

一个开源的浏览器自动化框架，让 AI 像人一样操作网页。由 LLM 驱动（需配一个模型——这里就接 4sapi 的 Claude），能自主完成填表、点击、操作后台等多步任务，还能复用你 Chrome 里已登录的状态。

适用：登录后才能访问的内容、需要多步操作的任务。
项目地址：github.com/browser-use/browser-use

④ 要盯着它操作 / 复杂认证 → Claude in Chrome

Anthropic 官方的浏览器扩展。把 Claude 装进你真实的 Chrome，你能亲眼看着它在页面里点击、填写、操作。适合那些需要盯着、或者认证特别复杂的页面。

适用：高风险操作、复杂认证、想全程可见的场景。
官网：claude.ai/chrome

⑤ 要全自动联网 / 接管日常 Chrome → Web-access（最重）

一个开源的 Agent 联网 Skill，覆盖从公开搜索到登录后操作的全场景。它会在 WebSearch / WebFetch / curl / CDP 之间自动择优，并用 CDP 接管你日常的 Chrome（天然带登录态），还能检索本地浏览器的书签与历史。

适用：全自动联网任务、需要接管日常浏览器登录态的场景。
项目地址：github.com/eze-is/web-access

4. 接入 Claude：用 4sapi 给这套组合配大脑

上面几个 Skill 里，Browser-use、Web-access 都需要一个 LLM 来驱动决策，Claude Code 本身也要接模型。这里统一用 https://4sapi.com 接 Claude，走 OpenAI 兼容格式，一个 Key 全搞定。

环境准备：

pip install openai
export ANTHROPIC_BASE_URL=https://4sapi.com   # Claude Code / Browser-use 等读取
export API_KEY=你的密钥                         # 千万别写死在代码或提交到仓库

Python 调用示例：

from openai import OpenAI

client = OpenAI(
    api_key="你的中转Key",            # 从 4sapi 后台获取
    base_url="https://4sapi.com/v1",  # 统一中转入口
)

resp = client.chat.completions.create(
    model="claude-3-5-sonnet-20241022",
    messages=[{"role": "user", "content": "帮我把这页内容提取成结构化 JSON。"}],
)
print(resp.choices[0].message.content)

给 Browser-use 这类框架配模型时，把 base_url 指向 4sapi 入口、Key 用环境变量传进去即可，决策和操作都由 Claude 来跑。

5. 实战：用这套组合扒一个课程网站

讲个真实的例子。前几天我用这套组合扒了一个课程网站，整个流程跑下来非常丝滑：

登录态：课程在后台、要登录，于是用 Browser-use 复用已登录的 Chrome 状态进去。
扒内容：把后台的文档和视频全流程下载下来。
加工：文档自动翻译，视频自动加字幕。
归档：全部整理好存进 Obsidian。

整套链路的"大脑"就是经 4sapi 接入的 Claude，从判断点哪里、抓什么，到翻译和整理，都是它在调度。关键还是那条原则：这个站要登录，所以上了浏览器层（Browser-use）；如果是公开课程，能用 Scrapling 静态抓就不必开浏览器了。

想偷懒的话：直接把这篇文章扔给你的 Agent，让它按"从轻到重、够用就停、能不开浏览器就别开"的原则自己挑工具、自己配，基本就能即插即用。

6. 成本与风险提示

费用构成：中转服务费 + Claude 官方按 token 计费。浏览器自动化跑多步任务时 token 消耗会上去，能用轻量层解决就别开浏览器，既省钱又省时间。
数据隐私：接管日常 Chrome、复用登录态意味着 Agent 能碰到你的账号数据，敏感账号建议用独立的浏览器 profile，别直接挂主号。
合规提醒：抓取要遵守目标站点的 robots 和服务条款，别抓隐私数据、别拿来做违规用途。本文只讨论正常的数据获取与自动化，破反爬指的是工程层面的稳定抓取，不鼓励任何恶意爆破或绕过付费墙。
生产环境：自动化链路要做好失败重试和限速，别把单一渠道或单一登录态当唯一依赖。

7. 总结与系列导航

一句话总结：Claude Code 配上这五个 Skill，从社媒到登录后页面基本能扒全网——记住从轻到重、够用就停、能不开浏览器就别开。给这套组合配大脑，用 https://4sapi.com 接 Claude API 是最省心的接法，一个 Key 走完全程。

你要是有更顺手的抓取工具或更省 token 的配置，欢迎在评论区甩出来一起讨论。