データ収集

LLM

数行でできる!LangChainを使用してYouTube字幕を取得する方法

このノートブックでは、LangChainを使用してYouTube動画から字幕を取得する方法を説明します。LangChainのYouTubeLoaderを使用することで、簡単に字幕データを取得することができます。Youtubeの字幕取得もla...
ウェブ開発

PEGASUS v0.3.0 の新機能チュートリアル

こんにちは!PEGASUSの新バージョン、v0.3.0がリリースされました。このバージョンでは、 検索スクレイピング機能 と 再帰スクレイピング機能 が大幅に改善され、より使いやすくなっています。初心者の方でも簡単に使えるように、このチュー...
AI・機械学習

日本語版:OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text~高品質な数学関連のウェブテキストを集めたオープンデータセット~

はじめに (Introduction)近年、大規模言語モデル(large language models)の発展により、数学的推論能力の向上が注目を集めています。特に、arXivやウェブ上の数十億トークンの数学文書を用いて事前学習を行ったM...