はじめに
機械学習の世界で共有されるデータセットは、研究や開発において不可欠なリソースです。この記事では、独自のデータセット(東方のトカマクラブ近辺の情報を使用)をHugging Face上で作成し、公開するためのプロセスを紹介します。
下記の記事もおすすめ。
トカマクラブで学ぶGeminiAPIのEmbeddingに関する解説記事
概要本記事では、Gemini APIを活用したドキュメント検索の手法を紹介します。ここではPythonクライアントライブラリを使用し、検索文字列とドキュメントの内容を比較できる埋め込みを作成するプロセスを学びます。特に、東方M1グランプリの...
データの作成
独自のデータセットを作成する前に、目的、対象となるデータの種類、どのようにデータを収集・整理するかを計画します。データセットが解決しようとしている問題や、どのように役立つかを明確にしましょう。
データの準備
- データを収集し、適切な形式(例:CSV、JSON)に整形します。
- データのクリーニングと前処理を行い、品質を確保します。
- トレーニング、検証、テスト用のサブセットに分割します。
QAデータベースの自動生成
今回は下記のサイトのデータを使用します。
トカマクラブで学ぶGemini APIを用いたQAデータベースの自動生成
はじめにGemini APIを使用して、東方のWikiからQAペアを自動生成し、それらをCSVファイルに保存する方法を説明します。こちらの記事もおすすめ手順の概要環境のセットアップ : 必要なライブラリのインストールとAPIキーの設定。 Q...
リポジトリの作成
Hugging Faceには、データセットを格納するための専用のリポジトリが必要です。
Hugging Face – The AI community building the future.
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
リポジトリの初期設定
- Hugging Faceのアカウントにログインします。
- [New Dataset] ボタンをクリックして、新しいリポジトリを作成します。
- データセットに名前をつけ、プライベートまたはパブリックの設定を選択します。
ファイルのアップロード
リポジトリが作成されたら、データファイルをアップロードします。
ファイルのアップロード手順
- リポジトリページの[Files] タブを開きます。
- [Add file] ボタンを使用して、データファイルをアップロードします。
- 大きなファイルの場合は、git LFSを使用することを検討します。
READMEの作成
データセットには、使用方法、データ構造、ライセンス、謝辞などを含むREADMEファイルが必要です。
まとめ
このガイドは、Hugging Faceにデータセットを公開する際の基本的なフローを説明するものです。これらのステップに従えば、自身のデータセットを世界中の研究者や開発者と共有することができます。
リポジトリ
MakiAi/Tokama_Club_QA · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
コメント