GPU

claude

【claude3】YlvaVisionAPI(Webカメラからリアルタイムの画像を取得+ブロードキャストするためのAPI)

こちらの記事もおすすめYlvaVisionAPIYlvaVisionAPIは、Webカメラからリアルタイムの画像を取得し、ブロードキャストするためのAPIです。このREADMEでは、APIの機能、セットアップ方法、使用方法について説明します...
AI

claude.aiで動画を生成する方法

デモ動画Claude 3で動画を生成するヤツやってみた!!これはめっちゃ面白い!! pic.twitter.com/qN8BvH2XA9— Maki@Sunwood AI Labs. (@hAru_mAki_ch) March 10, 2...
AI実況

Style-Bert-VITS2をDockerでワンパン構築してみた

Style-Bert-VITS2は、音声合成モデルの一つで、カクテルストア音声に似た自然な音声を生成できるモデルです。この記事では、Dockerを使ってStyle-Bert-VITS2を構築する方法を丁寧に解説します。こちらの記事もおすすめ...
AI実況

Deepgramでマイクからリアルタイム文字起こしをしてみた

Deepgramは、最先端の音声認識技術を提供するプラットフォームです。この記事では、Deepgramを使ってマイクからの音声をリアルタイムで文字に変換する方法を、初心者にも分かるように解説します。Pythonを使ったシンプルなスクリプトを...
AI実況

Faster WhisperをDockerでワンパン起動させてみた (CUDA12)

Faster Whisperを使用して、手早くかつ効率的に音声認識を行う方法について、Dockerを使った手順を初心者にもわかりやすく解説します。Dockerを用いることで、環境依存を減らし、どのようなマシンでも同じ条件でFaster Wh...
AI

VS Code Continue と Geminiを使った 無料AIエディタ~使ってみた編①~

導入(Introduction)Continue(コンティニュー)とは? Continueは、VS Code(VSコード)とJetBrains(ジェットブレインズ)向けのオープンソースの自動操縦機能(autopilot)です。これは、任意の...
LLM

PCを初期化してからLLMのリモート開発環境(LLaMA-Factory)を構築するまで

PCの初期化から始まり、LLM(大規模言語モデル)の開発環境を構築する過程は、初心者にとっても分かりやすいように段階を追って説明します。このプロセスには、必要なソフトウェアのインストールからSSH環境のリモート開発構築、そしてセキュリティ対...
AI

高解像度のAI画像を0.5秒で生成する「PixArt-δ」の登場

はじめに最新技術の進化は日々驚きをもたらしますが、特に注目を集めているのが、AIによる高解像度画像生成の分野です。この記事では、その最先端を行く「PixArt-δ(ピクサート・デルタ)」について、その驚異的な性能と特徴を詳しく見ていきましょ...
LLM

Google Colab上でQLoRAを作成してGGUFに変換してみた

はじめにこのコードは、Google Colab(無料版でOK)上でQLoRA (Quantized Low-Rank Adaptation)を使用して大規模言語モデルを訓練し、その後GGUF形式に変換するためのものです。それぞれの部分につい...