PEGASUS v0.3.0 の新機能チュートリアル

ウェブ開発

こんにちは!PEGASUSの新バージョン、v0.3.0がリリースされました。このバージョンでは、 検索スクレイピング機能再帰スクレイピング機能 が大幅に改善され、より使いやすくなっています。

初心者の方でも簡単に使えるように、このチュートリアルでは新機能の使い方を丁寧に解説していきます。一緒に見ていきましょう!

検索スクレイピング機能 🔍

検索スクレイピング機能では、特定のキーワードに関連するWebページを自動で収集することができます。例えば、 "お好み焼き レシピ" というキーワードでWebページを検索したい場合、以下のようなコマンドを使います。

# "お好み焼き レシピ" に関連するWebページを検索してスクレイピング
pegasus search --search-query "お好み焼き レシピ"

このコマンドの意味を詳しく見ていきましょう。

  • pegasus search: 検索スクレイピングモードを実行するためのコマンドです。
  • --search-query "お好み焼き レシピ": 検索したいキーワードを指定します。ここでは "お好み焼き レシピ" を指定しています。

このコマンドを実行すると、PEGASUSは自動的にDuckDuckGo検索エンジンを使って "お好み焼き レシピ" に関連するWebページを検索し、そのページの情報を収集(スクレイピング)します。

再帰スクレイピング機能 🔄

再帰スクレイピングとは、指定したURLから始まり、そのページにリンクされている別のページも順番にスクレイピングしていく機能です。これにより、関連するページを幅広く収集することができます。

以下は、再帰スクレイピングを実行するコマンドの例です。

pegasus recursive --url-file urls.txt  --output_dir output/okonomi --exclude-selectors header footer nav aside .sidebar .header .footer .navigation .breadcrumbs --exclude-keywords login --output-extension .txt --max-depth 1

それでは、このコマンドの各部分の意味を詳しく見ていきましょう。

  • pegasus recursive: 再帰スクレイピングモードを実行するためのコマンドです。

  • --url-file urls.txt: スクレイピングを開始するURLが記載されたテキストファイルを指定します。ここでは、urls.txtというファイルが指定されています。

    urls.txtの中身は、以下のようにURL1行ごとに記載されているとします。

    https://www.example.com/products/
    
    https://www.example.com/services/
    https://www.example.com/about/
  • --output_dir output/okonomi: スクレイピングした結果を保存するディレクトリを指定します。ここでは、output/okonomiというディレクトリが指定されています。

  • --exclude-selectors header footer nav aside .sidebar .header .footer .navigation .breadcrumbs: スクレイピング時に除外したいHTML要素を指定します。ここでは、ヘッダー、フッター、ナビゲーション、サイドバー、パンくずリストなどの要素を除外しています。

    これらの要素を除外することで、ページの主要なコンテンツのみをスクレイピングすることができます。

  • --exclude-keywords login: スクレイピング対象から除外したいキーワードを指定します。ここでは、URLに "login" を含むページを除外しています。

    これにより、ログインページなどの不要なページをスクレイピングの対象から外すことができます。

  • --output-extension .txt: 出力ファイルの拡張子を指定します。ここでは、.txtファイルとして保存します。

  • --max-depth 1: 再帰スクレイピングの深さを指定します。ここでは、深さを1に設定しています。

    深さ1では、指定したURLのページとそのページ内のリンク先のページのみをスクレイピングします。深さを2以上に設定すると、リンク先のページ内のリンク先も順番にスクレイピングしていきます。

このコマンドを実行すると、PEGASUSはurls.txtに記載されたURLから始まり、そのページ内のリンクをたどって関連するページを再帰的にスクレイピングします。スクレイピングした結果は、output/okonomiディレクトリ内に.txtファイルとして保存されます。

再帰スクレイピングを使うことで、目的のWebページを効率的に収集することができます。ぜひ活用してみてください!

まとめ

PEGASUS v0.3.0の新機能である検索スクレイピングと再帰スクレイピングについて解説しました。

  • 検索スクレイピング: 特定のキーワードに関連するWebページを自動で収集
  • 再帰スクレイピング: 指定したURLから始まり、関連するページを順番にスクレイピング

これらの機能を使うことで、目的のWebページを効率的に収集することができます。ぜひ活用してみてください!

コマンドの詳細な意味がわからない場合は、PEGASUSの公式ドキュメントを参照するか、コミュニティで質問してみましょう。プログラミングに慣れていない方でも、このチュートリアルを参考にすればPEGASUSを使いこなせるはずです。

ご不明な点があれば、遠慮なく質問してくださいね。Happy scraping!

コメント

タイトルとURLをコピーしました