批量抓取
Documentation Index
Fetch the complete documentation index at: https://student-213fb9fc.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
注意:此 API 的 v2 版本 现已推出,具备更高的批处理性能和可靠性。
授权
Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
请求体
要爬取的 URL
Webhook 规范对象。
最大并发抓取数量。此参数用于为本次批量抓取设置并发上限。若未指定,则本次批量抓取将遵循你的团队并发限制。
如果在 urls 数组中指定了无效 URL,这些 URL 会被忽略。它们不会导致整个请求失败,而是会基于剩余的有效 URL 创建一个批量抓取任务,并在响应的 invalidURLs 字段中返回这些无效 URL。
仅返回页面的主体内容,不包括页眉、导航、页脚等。
需要包含在输出中的标签。
在输出结果中要排除的标签。
如果页面的缓存版本的生成时间距现在小于此值(毫秒),则返回该缓存版本;如果缓存版本早于此值,则会重新抓取页面。如果你不需要极其实时的数据,启用此选项可以将抓取速度最多提升 5 倍。默认值为 0,表示禁用缓存。
随请求发送的请求头。可用于携带 cookies、user-agent 等信息。
设置在获取内容前的延迟时间(毫秒),以便页面有足够时间加载完成。
若要模拟移动端抓取,请将其设置为 true。适用于测试响应式页面并获取移动端截图。
在发送请求时跳过 TLS 证书校验
请求超时时间(毫秒)
控制在爬取过程中如何处理 PDF 文件。为 true 时,会提取 PDF 内容并转换为 Markdown 格式,按页数计费(每页 1 个积分)。为 false 时,会返回以 base64 编码的 PDF 文件,统一按 1 个积分计费。
JSON 配置对象
在抓取页面内容前需要执行的 actions
- Wait
- Screenshot
- Click
- Write text
- Press a key
- Scroll
- Scrape
- Execute JavaScript
- Generate PDF
请求的地理位置设置。指定后,如果可用,将使用合适的代理服务器,并模拟相应的语言和时区设置。如果未指定,默认值为“US”。
从输出中移除所有 Base64 图片,以避免内容过于冗长。图片的替代文本(alt 文本)会保留在输出中,但其 URL 会被占位符替换。
启用广告拦截和 Cookie 弹窗屏蔽。
指定要使用的代理类型。
- basic:适用于抓取没有或仅有基础防爬机制网站的代理。速度快,通常足够好用。
- enhanced:适用于抓取具有高级防爬机制网站的增强型代理。速度较慢,但在某些网站上更可靠。每次请求最多消耗 5 个积分。
- auto:当使用 basic 代理抓取失败时,Firecrawl 会自动使用 enhanced 代理重试。如果使用 enhanced 重试成功,该次抓取将收取 5 个积分;如果首次使用 basic 即抓取成功,则只收取常规费用。
如果未指定代理类型,Firecrawl 将默认使用 basic。
basic, enhanced, auto 如果为 true,该页面将被存储到 Firecrawl 的索引和缓存中。若你的抓取活动可能涉及数据保护方面的问题,将其设置为 false 会更合适。使用某些与敏感抓取相关的参数(如 actions、headers)时,该参数会被强制设为 false。
输出中要包含的formats。
markdown, html, rawHtml, links, screenshot, screenshot@fullPage, json, changeTracking 用于 changeTracking 的选项(Beta)。仅当在 formats 中包含 'changeTracking' 时才适用。使用 changeTracking 时,还必须同时指定 'markdown' 格式。
若为 true,则此次批量抓取任务将不保留任何数据。要启用此功能,请联系 help@firecrawl.dev
