はじめに
このノートブックでは、KaggleのKonwinski Prize コンペティションのデータ分析と基本的な理解を目指します。
コンペティションの概要
- GitHubの新規Issueの90%を解決できるAIの開発が目標
- 賞金総額: $1,225,000
- オープンソースコードとオープンウェイトモデルのみが対象
- 評価期間: 2024年12月11日 - 2025年3月12日
# 必要なライブラリのインポート
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.io as pio
import plotly.graph_objs as go
import plotly.offline as py
import plotly.express as px
import warnings
warnings.filterwarnings('ignore')
データの読み込みと確認
まずは提供されているデータを読み込み、その構造を確認します。
# ZIPファイルの展開とデータの読み込み
!unzip -n ../input/konwinski-prize/data.a_zip
import zipfile
konwinski = zipfile.ZipFile('../input/konwinski-prize/data.a_zip')
konwinski.extractall()
train_data = pd.read_parquet("data/data.parquet")
# データの基本情報を表示
print("データセットの基本情報:")
print(train_data.info())
データの構造
提供されているデータには以下の主要な列が含まれています:
- instance_id: Issue固有の識別子
- repo: 対象のGitHubリポジトリ
- problem_statement: 問題の説明
- patch: 解決用パッチ(トレーニングセットのみ)
- test_patch: テスト用パッチ(トレーニングセットのみ)
# リポジトリの分布を可視化
repo = train_data['repo'].value_counts()
plt.figure(figsize=(10, 6))
plt.pie(repo.values,
labels=repo.index,
autopct='%1.1f%%')
plt.title('Distribution of GitHub repositories')
plt.show()
評価指標の説明
スコアは以下の式で計算されます:
score = (a - b) / (a + b + c)
ここで:
- a: 正しく解決されたIssueの数
- b: 失敗したIssueの数
- c: スキップされたIssueの数
SWE-benchデータセットの分析
SWE-benchは、GitHubの実際のソフトウェア課題に対する大規模言語モデルの評価ベンチマークです。
12の人気Pythonリポジトリから集められた2,294のソフトウェアエンジニアリング問題で構成されています。
# SWE-benchデータセットの読み込み
from datasets import load_dataset
swebench = load_dataset('princeton-nlp/SWE-bench', split='test')
問題文(Problem Statement)の分析
各Issueの問題文にどのような特徴があるのか、テキスト分析を行います。
# ワードクラウドの作成
from wordcloud import WordCloud, STOPWORDS
def plot_wordcloud(text, title=""):
stopwords = set(STOPWORDS)
more_stopwords = {'one', 'br', 'Po', 'th', 'sayi', 'fo', 'Unknown'}
stopwords = stopwords.union(more_stopwords)
wordcloud = WordCloud(
background_color='white',
stopwords=stopwords,
max_words=200,
max_font_size=100,
width=800,
height=400
).generate(str(text))
plt.figure(figsize=(24.0, 16.0))
plt.imshow(wordcloud)
plt.title(title, fontsize=40)
plt.axis('off')
plt.tight_layout()
# 問題文のワードクラウドを表示
plot_wordcloud(train_data["problem_statement"], "Frequently occurring words included in issue sentences")
Fail to Pass テストの分析
SWE-benchでは、各サンプルに対して2種類のテストが実行されます:
- FAIL_TO_PASS: 解決前は失敗し、解決後に成功するべきテスト
- PASS_TO_PASS: 解決前後とも成功するべきテスト
これらのテストは、提案された修正が:
- 問題を実際に解決しているか
- 他の機能を壊していないか
を確認するために使用されます。
# Fail to Passテストの単語分析
from collections import defaultdict
def generate_ngrams(text, n_gram=1):
"""テキストからn-gramを生成する関数"""
text = str(text)
token = [token for token in text.lower().split(" ")
if token != "" and token not in STOPWORDS]
ngrams = zip(*[token[i:] for i in range(n_gram)])
return [" ".join(ngram) for ngram in ngrams]
# 単語の頻度カウント
freq_dict = defaultdict(int)
for sent in train_data["FAIL_TO_PASS"]:
for word in generate_ngrams(sent):
freq_dict[word] += 1
# 頻度順にソート
fd_sorted = pd.DataFrame(sorted(freq_dict.items(), key=lambda x: x[1])[::-1])
fd_sorted.columns = ["word", "wordcount"]
# 上位20単語を表示
plt.figure(figsize=(12, 6))
sns.barplot(data=fd_sorted.head(20), x='wordcount', y='word')
plt.title('Top 20 most frequent words in the FAIL_TO_PASS test')
plt.show()
コンペティションの特徴と戦略
主要なポイント
-
オープンソース要件
- 使用するコードとモデルはオープンソースである必要があります
- 商用モデルは使用できません
-
評価の特徴
- 悪いパッチを提出するよりもスキップする方が良い評価となります
- 90%のスコアで100万ドルの賞金が設定されています
-
実行環境
- L4x4マシン(96GB GPU メモリ)が利用可能
- インターネットアクセスは無効化する必要があります
- 実行時間は最大9時間(予測フェーズでは24時間)
まとめと今後の方向性
-
データの特徴
- 多様なGitHubリポジトリからの実際の問題が含まれています
- テスト駆動の評価システムが採用されています
-
取り組むべき課題
- オープンソースモデルの選定と最適化
- 効率的なテスト実行の仕組みの構築
- 問題の自動分類とスキップ戦略の確立
-
次のステップ
- ベースラインモデルの構築
- テストケースの詳細分析
- 効率的な問題解決パイプラインの開発
謝辞
- SRK氏のノートブック(https://www.kaggle.com/code/sudalairajkumar/simple-exploration-notebook-qiqc)を参考にさせていただきました
- Prata, Marília のノートブック(https://www.kaggle.com/code/makimakiai/konwinski-metadata-zip-files/)を参考にさせていただきました
- SWE-benchのデータセットを提供していただいたPrinceton NLPチームに感謝いたします
📒ノートブック
Konwinski Prize コンペティション分析ノート
Explore and run machine learning code with Kaggle Notebooks | Using data from Konwinski Prize
コメント