批量抓取 - AJ STUDIOZ Cloud Infra

授权

Authorization

string

header

必填

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

请求体

application/json

urls

string<uri>[]

必填

要爬取的 URL

webhook

object

Webhook 规范对象。

Show child attributes

maxConcurrency

integer

最大并发抓取数量。此参数用于为本次批量抓取设置并发上限。若未指定，则本次批量抓取将遵循你的团队并发限制。

ignoreInvalidURLs

boolean

默认值:false

如果在 urls 数组中指定了无效 URL，这些 URL 会被忽略。它们不会导致整个请求失败，而是会基于剩余的有效 URL 创建一个批量抓取任务，并在响应的 invalidURLs 字段中返回这些无效 URL。

onlyMainContent

boolean

默认值:true

仅返回页面的主体内容，不包括页眉、导航、页脚等。

includeTags

string[]

需要包含在输出中的标签。

excludeTags

string[]

在输出结果中要排除的标签。

maxAge

integer

默认值:0

如果页面的缓存版本的生成时间距现在小于此值（毫秒），则返回该缓存版本；如果缓存版本早于此值，则会重新抓取页面。如果你不需要极其实时的数据，启用此选项可以将抓取速度最多提升 5 倍。默认值为 0，表示禁用缓存。

headers

object

随请求发送的请求头。可用于携带 cookies、user-agent 等信息。

waitFor

integer

默认值:0

设置在获取内容前的延迟时间（毫秒），以便页面有足够时间加载完成。

mobile

boolean

默认值:false

若要模拟移动端抓取，请将其设置为 true。适用于测试响应式页面并获取移动端截图。

skipTlsVerification

boolean

默认值:false

在发送请求时跳过 TLS 证书校验

timeout

integer

默认值:30000

请求超时时间（毫秒）

parsePDF

boolean

默认值:true

控制在爬取过程中如何处理 PDF 文件。为 true 时，会提取 PDF 内容并转换为 Markdown 格式，按页数计费（每页 1 个积分）。为 false 时，会返回以 base64 编码的 PDF 文件，统一按 1 个积分计费。

jsonOptions

object

JSON 配置对象

Show child attributes

actions

在抓取页面内容前需要执行的 actions

Show child attributes

location

object

请求的地理位置设置。指定后，如果可用，将使用合适的代理服务器，并模拟相应的语言和时区设置。如果未指定，默认值为“US”。

Show child attributes

removeBase64Images

boolean

默认值:true

从输出中移除所有 Base64 图片，以避免内容过于冗长。图片的替代文本（alt 文本）会保留在输出中，但其 URL 会被占位符替换。

blockAds

boolean

默认值:true

启用广告拦截和 Cookie 弹窗屏蔽。

proxy

enum<string>

指定要使用的代理类型。

basic：适用于抓取没有或仅有基础防爬机制网站的代理。速度快，通常足够好用。
enhanced：适用于抓取具有高级防爬机制网站的增强型代理。速度较慢，但在某些网站上更可靠。每次请求最多消耗 5 个积分。
auto：当使用 basic 代理抓取失败时，Firecrawl 会自动使用 enhanced 代理重试。如果使用 enhanced 重试成功，该次抓取将收取 5 个积分；如果首次使用 basic 即抓取成功，则只收取常规费用。

如果未指定代理类型，Firecrawl 将默认使用 basic。

可用选项:

basic,

enhanced,

auto

storeInCache

boolean

默认值:true

如果为 true，该页面将被存储到 Firecrawl 的索引和缓存中。若你的抓取活动可能涉及数据保护方面的问题，将其设置为 false 会更合适。使用某些与敏感抓取相关的参数（如 actions、headers）时，该参数会被强制设为 false。

formats

enum<string>[]

输出中要包含的formats。

可用选项:

markdown,

html,

rawHtml,

links,

screenshot,

screenshot@fullPage,

json,

changeTracking

changeTrackingOptions

object

用于 changeTracking 的选项（Beta）。仅当在 formats 中包含 'changeTracking' 时才适用。使用 changeTracking 时，还必须同时指定 'markdown' 格式。

Show child attributes

zeroDataRetention

boolean

默认值:false

若为 true，则此次批量抓取任务将不保留任何数据。要启用此功能，请联系 help@firecrawl.dev

响应

成功响应

success

boolean

string

url

string<uri>

invalidURLs

string[] | null

如果 ignoreInvalidURLs 为 true，则该字段是一个数组，包含请求中指定的无效 URL。若没有无效 URL，则该数组为空。若 ignoreInvalidURLs 为 false，则该字段为 undefined。

Documentation Index

授权

请求体

响应