AGI OSWorld: オープンエンドなタスクのためのマルチモーダルエージェントのベンチマーク はじめにOSWorldは、実際のコンピュータ環境でオープンエンドなタスクを実行するマルチモーダルエージェントのベンチマークです。このリポジトリでは、環境、ベンチマーク、プロジェクトページが提供されています。主な特徴は以下の通りです:実際のデ... 2024.04.13 AGI
AI実況 FastAPIを使ってWebカメラ映像をストリーミング配信するAPI はじめに近年、IoTデバイスの普及に伴い、リアルタイムでのビデオストリーミングが様々な用途で利用されるようになりました。本記事では、Python製のWebフレームワークであるFastAPIを使って、Webカメラからの映像を複数の端末にブロー... 2024.03.13 AI実況
AI実況 Deepgramでマイクからリアルタイム文字起こしをしてみた Deepgramは、最先端の音声認識技術を提供するプラットフォームです。この記事では、Deepgramを使ってマイクからの音声をリアルタイムで文字に変換する方法を、初心者にも分かるように解説します。Pythonを使ったシンプルなスクリプトを... 2024.03.02 AI実況
Ika-Action Python初心者でも分かる!行動認識のためのLabelStudioを使った動画トラッキングアノテーションの可視化プログラム PythonとLabelStudioの概要Pythonの基本Pythonは、プログラミング言語の一種で、初心者でも習得しやすい特徴があります。そのため、多くの分野で使われています。この記事では、Pythonを使って動画トラッキングアノテーシ... 2023.05.06 Ika-Action