LLM 大規模マルチモーダルモデル(Large Multi-Modal Models、以下LMMs)における視覚言語調整を促進するための足場座標(Scaffolding Coordinates) 概要最先端の大規模マルチモーダルモデル(LMMs)は、視覚言語タスクで優れた能力を示してきました。しかし、高度な機能にもかかわらず、複数レベルの視覚情報を用いた複雑な推論が必要とされる難しいシナリオでは、LMMsのパフォーマンスはまだ限られ... 2024.03.16 LLM
claude Manim-Examples-Docker この記事では、Dockerを使用してManimでアニメーションを作成するための例と手順について説明します。こちらの記事もおすすめManimとはPythonベースPythonの知識があれば比較的簡単にアニメーションを作成できます。Python... 2024.03.13 claude
claude 【GoogleColabノートブック付】claude3を使用してスライドムービー作ってみた こちらの記事もおすすめ内容の要約プロンプト下記リポジトリを初心者でも分かるように解説して出力このリポジトリは「Petals」というプロジェクトのソースコードが含まれています。Petalsは、大規模な言語モデル(LLM)を複数のコンピュータで... 2024.03.12 claude
claude 【claude3】YlvaVisionAPI(Webカメラからリアルタイムの画像を取得+ブロードキャストするためのAPI) こちらの記事もおすすめYlvaVisionAPIYlvaVisionAPIは、Webカメラからリアルタイムの画像を取得し、ブロードキャストするためのAPIです。このREADMEでは、APIの機能、セットアップ方法、使用方法について説明します... 2024.03.11 claude
AI claude.aiで動画を生成する方法 デモ動画Claude 3で動画を生成するヤツやってみた!!これはめっちゃ面白い!! pic.twitter.com/qN8BvH2XA9— Maki@Sunwood AI Labs. (@hAru_mAki_ch) March 10, 2... 2024.03.10 AI
Gemini LangchainとGeminiを使ってみた(GoogleColab付) Langchainは、言語モデルを活用したアプリケーション開発のためのフレームワークです。この記事では、Langchainを使ってGoogleのGenerative AIモデルを効果的に使用する方法を、初心者にも分かりやすく解説します。La... 2024.03.03 Gemini
LLM BitNetのリポジトリ日本語化 BitNetは、大規模言語モデルのための1ビットトランスフォーマーを拡張する新しい取り組みです。この記事では、BitNetの基本から最新の進展まで、初心者でも理解しやすいように解説します。論文「BitNet: Scaling 1-bit T... 2024.03.03 LLM
AI実況 Deepgramでマイクからリアルタイム文字起こしをしてみた Deepgramは、最先端の音声認識技術を提供するプラットフォームです。この記事では、Deepgramを使ってマイクからの音声をリアルタイムで文字に変換する方法を、初心者にも分かるように解説します。Pythonを使ったシンプルなスクリプトを... 2024.03.02 AI実況
LLM Local RAGをWindowsのOllama for Windows (Preview)で動かしてみた 最近、Windowsで動作するOllama for Windows (Preview)を使って、Local RAG(Retrieval Augmented Generation)を体験してみました。この記事では、そのプロセスと私の体験をステ... 2024.02.29 LLM
AGI OpenCodeInterpreterのデモを触ってみた OpenCodeInterpreterは、開発者やプログラミング愛好家の間で注目を集めています。その公式デモを体験し、その機能と制約について深堀りしてみました。この記事では、m-a-p/OpenCodeInterpreter-DS-6.7B... 2024.02.29 AGI