LLM 大規模マルチモーダルモデル(Large Multi-Modal Models、以下LMMs)における視覚言語調整を促進するための足場座標(Scaffolding Coordinates) 概要最先端の大規模マルチモーダルモデル(LMMs)は、視覚言語タスクで優れた能力を示してきました。しかし、高度な機能にもかかわらず、複数レベルの視覚情報を用いた複雑な推論が必要とされる難しいシナリオでは、LMMsのパフォーマンスはまだ限られ... 2024.03.16 LLM
claude Manim-Examples-Docker この記事では、Dockerを使用してManimでアニメーションを作成するための例と手順について説明します。こちらの記事もおすすめManimとはPythonベースPythonの知識があれば比較的簡単にアニメーションを作成できます。Python... 2024.03.13 claude
claude 【GoogleColabノートブック付】claude3を使用してスライドムービー作ってみた こちらの記事もおすすめ内容の要約プロンプト下記リポジトリを初心者でも分かるように解説して出力このリポジトリは「Petals」というプロジェクトのソースコードが含まれています。Petalsは、大規模な言語モデル(LLM)を複数のコンピュータで... 2024.03.12 claude
Gemini Gemini 1.5登場: Googleの革新的AIが拓く100万トークンの未来 2024年2月15日この文書では、大幅に向上したパフォーマンスと、モダリティを超えた長文理解における革新的な進歩を提供する新しい世代のモデル「Gemini 1.5」について紹介します。サンダー・ピチャイとデミス・ハサビスからのメッセージサン... 2024.02.16 Gemini
LLM 【RTX3060】Multimodal Large Language Models(MLLM)のSPHINX-TinyをDockerで動かしてみる AI技術の進化は日々加速しており、その中でもMultimodal Large Language Models(MLLM)の一角を担うSPHINXは特に注目に値します。この記事では、Windows11とRTX3060を使用し、Docker環境... 2024.01.23 LLM