PEGASUS v0.3.0 の新機能チュートリアル

こんにちは！PEGASUSの新バージョン、v0.3.0がリリースされました。このバージョンでは、 検索スクレイピング機能 と 再帰スクレイピング機能 が大幅に改善され、より使いやすくなっています。

初心者の方でも簡単に使えるように、このチュートリアルでは新機能の使い方を丁寧に解説していきます。一緒に見ていきましょう！

検索スクレイピング機能 🔍
再帰スクレイピング機能 🔄
まとめ
- 関連

検索スクレイピング機能 🔍

検索スクレイピング機能では、特定のキーワードに関連するWebページを自動で収集することができます。例えば、 "お好み焼きレシピ" というキーワードでWebページを検索したい場合、以下のようなコマンドを使います。

# "お好み焼き レシピ" に関連するWebページを検索してスクレイピング
pegasus search --search-query "お好み焼き レシピ"

このコマンドの意味を詳しく見ていきましょう。

pegasus search: 検索スクレイピングモードを実行するためのコマンドです。
--search-query "お好み焼きレシピ": 検索したいキーワードを指定します。ここでは "お好み焼きレシピ" を指定しています。

このコマンドを実行すると、PEGASUSは自動的にDuckDuckGo検索エンジンを使って "お好み焼きレシピ" に関連するWebページを検索し、そのページの情報を収集（スクレイピング）します。

再帰スクレイピング機能 🔄

再帰スクレイピングとは、指定したURLから始まり、そのページにリンクされている別のページも順番にスクレイピングしていく機能です。これにより、関連するページを幅広く収集することができます。

以下は、再帰スクレイピングを実行するコマンドの例です。

pegasus recursive --url-file urls.txt  --output_dir output/okonomi --exclude-selectors header footer nav aside .sidebar .header .footer .navigation .breadcrumbs --exclude-keywords login --output-extension .txt --max-depth 1

それでは、このコマンドの各部分の意味を詳しく見ていきましょう。

pegasus recursive: 再帰スクレイピングモードを実行するためのコマンドです。
--url-file urls.txt: スクレイピングを開始するURLが記載されたテキストファイルを指定します。ここでは、urls.txtというファイルが指定されています。

urls.txtの中身は、以下のようにURL1行ごとに記載されているとします。
```
https://www.example.com/products/

Example Domain
www.example.com

Example Domain
www.example.com
```
--output_dir output/okonomi: スクレイピングした結果を保存するディレクトリを指定します。ここでは、output/okonomiというディレクトリが指定されています。
--exclude-selectors header footer nav aside .sidebar .header .footer .navigation .breadcrumbs: スクレイピング時に除外したいHTML要素を指定します。ここでは、ヘッダー、フッター、ナビゲーション、サイドバー、パンくずリストなどの要素を除外しています。

これらの要素を除外することで、ページの主要なコンテンツのみをスクレイピングすることができます。
--exclude-keywords login: スクレイピング対象から除外したいキーワードを指定します。ここでは、URLに "login" を含むページを除外しています。

これにより、ログインページなどの不要なページをスクレイピングの対象から外すことができます。
--output-extension .txt: 出力ファイルの拡張子を指定します。ここでは、.txtファイルとして保存します。
--max-depth 1: 再帰スクレイピングの深さを指定します。ここでは、深さを1に設定しています。

深さ1では、指定したURLのページとそのページ内のリンク先のページのみをスクレイピングします。深さを2以上に設定すると、リンク先のページ内のリンク先も順番にスクレイピングしていきます。