LLM AnyGPTをDockerで簡単に実行する方法 はじめにAnyGPTは、音声、テキスト、画像、音楽など様々なモダリティを統一的に処理できるマルチモーダル言語モデルです。この記事では、Dockerを使ってAnyGPTを簡単に実行する方法を初心者向けに解説します。AnyGPTとはAnyGPT... 2024.03.27 LLM
AI 【日本語版】MusicHiFi: Fast High-Fidelity Stereo Vocoding 要旨(Abstract)この論文では、MusicHiFiという新しい高速かつ高品質なステレオボーコーディング手法を提案しています。MusicHiFiは、低解像度の音声表現(メルスペクトログラムなど)から音声を生成し、位相再構成モデルやボーコ... 2024.03.18 AI
AI実況 WSL+DockerでPulseAudioを使用して音を出す方法 Windows Subsystem for Linux (WSL)とDockerを使用して、Linux環境で音声アプリケーションを動作させる方法を紹介します。この記事では、PulseAudioを利用して音を出す手順について、初心者にも分かり... 2024.03.04 AI実況
AI実況 WSLでPulseAudioを使用して音を出す方法 Windows Subsystem for Linux (WSL)は、Windows上でLinuxのバイナリ実行ファイルを直接実行できる強力な機能です。しかし、WSLでは音声の再生が直接サポートされていないため、外部ソフトウェアを使用してこ... 2024.03.04 AI実況
Gemini LangchainとGeminiを使ってみた(GoogleColab付) Langchainは、言語モデルを活用したアプリケーション開発のためのフレームワークです。この記事では、Langchainを使ってGoogleのGenerative AIモデルを効果的に使用する方法を、初心者にも分かりやすく解説します。La... 2024.03.03 Gemini
AI実況 Deepgramでマイクからリアルタイム文字起こしをしてみた Deepgramは、最先端の音声認識技術を提供するプラットフォームです。この記事では、Deepgramを使ってマイクからの音声をリアルタイムで文字に変換する方法を、初心者にも分かるように解説します。Pythonを使ったシンプルなスクリプトを... 2024.03.02 AI実況
LLM Style-Bert-VITS2でずんだもんの声を学習させてみた(GoogleColabのノート付き) 近年、AI技術の進化は目覚ましく、その一環として音声合成技術も大きく前進しています。特に、話者の声質や話し方を模倣する技術は、エンターテイメントから教育まで幅広い分野での応用が期待されています。この記事では、Style-Bert-VITS2... 2024.02.29 LLM
LLM Local RAGをWindowsのOllama for Windows (Preview)で動かしてみた 最近、Windowsで動作するOllama for Windows (Preview)を使って、Local RAG(Retrieval Augmented Generation)を体験してみました。この記事では、そのプロセスと私の体験をステ... 2024.02.29 LLM
AGI OpenCodeInterpreterのデモを触ってみた OpenCodeInterpreterは、開発者やプログラミング愛好家の間で注目を集めています。その公式デモを体験し、その機能と制約について深堀りしてみました。この記事では、m-a-p/OpenCodeInterpreter-DS-6.7B... 2024.02.29 AGI
AGI 【日本語訳】OpenCodeInterpreter: コード生成、実行、および改善の統合 OpenCodeInterpreter: コード生成、実行、および改善の統合 | こちらの記事もおすすめ🌟 近日中の新機能💡 OpenCodeInterpreter-SC2シリーズモデル(StarCoder2ベース)のオープンソ... 2024.02.29 AGI