ai - Sun wood AI labs.2

SourceSage: プロジェクトの構造と内容をAIに理解しやすい形式で提示するツール

初心者の皆さん、こんにちは！今回は、プロジェクトのソースコードとファイル構成を単一のマークダウンファイルに変換するPythonスクリプト「SourceSage」について解説します。SourceSageを使えば、大規模言語モデル（AI）がプロ...

2024.03.30

LLM

論文は難しそうで読むのが億劫だと感じたことはありませんか？でもそんな人でも、「ろんJ」を使えば論文の内容が面白おかしく理解できるかもしれません。「ろんJ」は、アップロードした論文の内容を、あの有名な２ちゃんねるの「なんでも実況J」（通称：な...

2024.03.28

AGI

はじめに近年、ChatGPTに代表される大規模言語モデル（LLM: Large Language Model）を利用したサービスが大きな注目を集めています。LLMを使えば自然言語での対話を通じて、プログラミングやデータ分析などの複雑なタスク...

2024.03.27

AGI

はじめにAnyGPTは、音声、テキスト、画像、音楽など様々なモダリティを統一的に処理できるマルチモーダル言語モデルです。この記事では、Dockerを使ってAnyGPTを簡単に実行する方法を初心者向けに解説します。AnyGPTとはAnyGPT...

2024.03.27

LLM

はじめに近年、大規模言語モデル(LLM)を用いた知的エージェントの開発が盛んになってきました。しかし、LLMとエージェントを効率的に統合・運用するには様々な課題があります。この論文では、LLMをオペレーティングシステム(OS)に組み込んだ「...

2024.03.27

AGI

はじめにHarinaはDiscordで動作するレシート解析Botです。ユーザーがチャットにレシートの画像を送信すると、最新のClaude 3 Haikuモデルを使って高速かつ高精度にレシートの情報を抽出します。抽出されたデータはGoogle...

2024.03.27

AI

要旨（Abstract）この論文では、MusicHiFiという新しい高速かつ高品質なステレオボーコーディング手法を提案しています。MusicHiFiは、低解像度の音声表現（メルスペクトログラムなど）から音声を生成し、位相再構成モデルやボーコ...

2024.03.18

AI

Android端末で高性能なAIアシスタントを使いたいと思ったことはありませんか？Open Interpreterを使えば、ChatGPTのようなAIとAndroid端末上で直接対話することができます。この記事では、Android端末へのO...

2024.03.18

AI

はじめにOwlWhisperは、高速な音声認識ライブラリ「Faster Whisper」と、高品質な音声合成ライブラリ「Style-Bert-VITS2」を組み合わせたプロジェクトです。初心者でも簡単に音声認識と音声合成を体験できるように設...

2024.03.18

AI実況

概要最先端の大規模マルチモーダルモデル（LMMs）は、視覚言語タスクで優れた能力を示してきました。しかし、高度な機能にもかかわらず、複数レベルの視覚情報を用いた複雑な推論が必要とされる難しいシナリオでは、LMMsのパフォーマンスはまだ限られ...

2024.03.16

LLM