GPU

【claude3】YlvaVisionAPI(Webカメラからリアルタイムの画像を取得+ブロードキャストするためのAPI)

こちらの記事もおすすめYlvaVisionAPIYlvaVisionAPIは、Webカメラからリアルタイムの画像を取得し、ブロードキャストするためのAPIです。このREADMEでは、APIの機能、セットアップ方法、使用方法について説明します...

2024.03.11

claude

デモ動画Claude 3で動画を生成するヤツやってみた！！これはめっちゃ面白い！！ pic.twitter.com/qN8BvH2XA9— Maki@Sunwood AI Labs. (@hAru_mAki_ch) March 10, 2...

2024.03.10

AI

Style-Bert-VITS2は、音声合成モデルの一つで、カクテルストア音声に似た自然な音声を生成できるモデルです。この記事では、Dockerを使ってStyle-Bert-VITS2を構築する方法を丁寧に解説します。こちらの記事もおすすめ...

2024.03.09

AI実況

Deepgramは、最先端の音声認識技術を提供するプラットフォームです。この記事では、Deepgramを使ってマイクからの音声をリアルタイムで文字に変換する方法を、初心者にも分かるように解説します。Pythonを使ったシンプルなスクリプトを...

2024.03.02

AI実況

Faster Whisperを使用して、手早くかつ効率的に音声認識を行う方法について、Dockerを使った手順を初心者にもわかりやすく解説します。Dockerを用いることで、環境依存を減らし、どのようなマシンでも同じ条件でFaster Wh...

2024.02.28

AI実況

導入（Introduction）Continue（コンティニュー）とは？ Continueは、VS Code（VSコード）とJetBrains（ジェットブレインズ）向けのオープンソースの自動操縦機能（autopilot）です。これは、任意の...

2024.02.21

AI

PCの初期化から始まり、LLM(大規模言語モデル)の開発環境を構築する過程は、初心者にとっても分かりやすいように段階を追って説明します。このプロセスには、必要なソフトウェアのインストールからSSH環境のリモート開発構築、そしてセキュリティ対...

2024.02.19

LLM

はじめに最新技術の進化は日々驚きをもたらしますが、特に注目を集めているのが、AIによる高解像度画像生成の分野です。この記事では、その最先端を行く「PixArt-δ（ピクサート・デルタ）」について、その驚異的な性能と特徴を詳しく見ていきましょ...

2024.01.30

AI

はじめにこのコードは、Google Colab（無料版でOK）上でQLoRA (Quantized Low-Rank Adaptation)を使用して大規模言語モデルを訓練し、その後GGUF形式に変換するためのものです。それぞれの部分につい...

2024.01.13

LLM