スクレイプ
Documentation Index
Fetch the complete documentation index at: https://student-213fb9fc.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
ブラウザアクション
actions パラメータを使用すると、スクレイピングの前にブラウザ上でのアクションを実行できます。これにより、次のことが可能になります:
- 要素が読み込まれるまで待機する
- ボタンやリンクをクリックする
- フォームフィールドに入力する
- キーを押下する
- ページをスクロールする
- スクリーンショットを取得する
- カスタム JavaScript を実行する
- PDF を生成する
wait、click、write、press、scroll、screenshot、scrape、executeJavascript、pdf があります。詳細なドキュメントとサンプルについては、高度なスクレイピングガイドを参照してください。承認
Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
ボディ
スクレイピング対象のURL
レスポンスに含める出力フォーマットを指定します。1つ以上のフォーマットを、文字列(例: 'markdown')または追加オプションを含むオブジェクト(例: { type: 'json', schema: {...} })として指定できます。一部のフォーマットでは、特定のオプションの設定が必須です。例: ['markdown', { type: 'json', schema: {...} }]。
- Markdown
- Summary
- HTML
- Raw HTML
- Links
- Images
- Screenshot
- JSON
- Change Tracking
- Branding
ヘッダーやナビゲーション、フッターなどを除外し、ページのメインコンテンツのみを返します。
出力に含めるタグ。
出力結果から除外するタグ。
ページのキャッシュが、この値(ミリ秒)で指定した有効期間より新しい場合は、そのキャッシュ版を返します。キャッシュがこの値より古い場合は、新たにページのスクレイピングを行います。極めて最新のデータが不要であれば、これを有効にすることでスクレイピングを最大500%高速化できます。デフォルトは2日です。
リクエストに含めるヘッダー。Cookie や User-Agent などを送信するために使用できます。
コンテンツを取得する前に待機する時間をミリ秒単位で指定します。ページが十分に読み込まれるまでの時間を確保するための遅延です。この待機時間は、Firecrawl のスマート待機機能に加えて発生します。
モバイル端末からのスクレイピングをエミュレートしたい場合は、true に設定します。レスポンシブページのテストやモバイル向けスクリーンショットの取得に便利です。
リクエストを送信する際に TLS 証明書の検証を行わないようにします。
リクエストのタイムアウト(ミリ秒単位)。デフォルトは 30000 ミリ秒(30 秒)、上限は 300000 ミリ秒(300 秒)です。
x <= 300000スクレイピング時のファイルの処理方法を制御します。"pdf" が含まれている場合(デフォルト)、PDF の内容が抽出されて markdown 形式に変換され、課金はページ数に基づきます(1ページあたり1クレジット)。空の配列を渡した場合、PDF ファイルは base64 エンコード形式で返され、PDF 全体で一律1クレジットが請求されます。
コンテンツを取得する前にページに対して実行するアクション
- Wait by Duration
- Wait for Element
- Screenshot
- Click
- Write text
- Press a key
- Scroll
- Scrape
- Execute JavaScript
- Generate PDF
リクエストのロケーション設定です。指定すると、利用可能な場合は適切なプロキシが使用され、対応する言語およびタイムゾーン設定がエミュレートされます。指定されていない場合は、デフォルトで「US」が使用されます。
出力からすべての Base64 画像を削除します。これらは非常に長くなる場合があります。画像の alt テキストは出力内に残りますが、URL はプレースホルダーに置き換えられます。
広告およびCookie同意ポップアップのブロックを有効化します。
使用するプロキシの種類を指定します。
- basic: ボット対策がない、または基本的なボット対策のみを行っているサイト向けのプロキシです。高速で、多くのケースではこれで十分です。
- enhanced: 高度なボット対策を行っているサイト向けの強化プロキシです。basic よりは遅くなりますが、一部のサイトではより高い成功率が期待できます。1 リクエストあたり最大 5 クレジット消費します。
- auto: basic プロキシでのスクレイピングに失敗した場合、Firecrawl が自動的に enhanced プロキシで再試行します。enhanced での再試行が成功した場合、そのスクレイプには 5 クレジットが課金されます。最初の basic で成功した場合は、通常のコストのみが課金されます。
basic, enhanced, auto true の場合、そのページは Firecrawl のインデックスおよびキャッシュに保存されます。スクレイピング活動でデータ保護上の懸念が生じる可能性がある場合は、これを false に設定すると有用です。機密性の高いスクレイピングに関連する一部のパラメータ(例: actions、headers)を使用すると、このパラメータは強制的に false になります。
true の場合、このスクレイプではデータ保持が一切行われません。この機能を有効にするには、help@firecrawl.dev までご連絡ください。
