AI・機械学習

AI・機械学習

AnyGPTをDockerで簡単に実行する方法

はじめにAnyGPTは、音声、テキスト、画像、音楽など様々なモダリティを統一的に処理できるマルチモーダル言語モデルです。この記事では、Dockerを使ってAnyGPTを簡単に実行する方法を初心者向けに解説します。AnyGPTとはAnyGPT...
AI・機械学習

LiteLLMのDockerセットアップ

LiteLLMは、OpenAI形式を使用してすべてのLLM APIを呼び出すことができるツールです。このガイドでは、初心者でも理解できるように、LiteLLMをDockerを使用してセットアップする方法を丁寧に説明します。こちらの記事もおす...
AI・機械学習

大規模マルチモーダルモデル(Large Multi-Modal Models、以下LMMs)における視覚言語調整を促進するための足場座標(Scaffolding Coordinates)

概要最先端の大規模マルチモーダルモデル(LMMs)は、視覚言語タスクで優れた能力を示してきました。しかし、高度な機能にもかかわらず、複数レベルの視覚情報を用いた複雑な推論が必要とされる難しいシナリオでは、LMMsのパフォーマンスはまだ限られ...
自然言語処理

Anthropicとは

AI 安全性研究のフロンティアAnthropic は、AI 技術の発展と社会実装において重要な役割を担う、サンフランシスコに本拠を置く AI 安全性と研究開発の会社です。同社は、AI がもたらす可能性を最大限に引き出しつつ、その安全性と信頼...
AI・機械学習

Gorilla OpenFunctions: 大規模言語モデルとAPIを繋ぐ画期的なオープンソース・プロジェクト

Gorilla OpenFunctionsとはGorilla OpenFunctionsは、大規模言語モデル(Large Language Model, LLM)のチャット補完機能を拡張し、自然言語の指示とAPIの文脈から実行可能なAPI呼...
AI・機械学習

LangchainとGeminiを使ってみた(GoogleColab付)

Langchainは、言語モデルを活用したアプリケーション開発のためのフレームワークです。この記事では、Langchainを使ってGoogleのGenerative AIモデルを効果的に使用する方法を、初心者にも分かりやすく解説します。La...
AI・機械学習

BitNetのリポジトリ日本語化

BitNetは、大規模言語モデルのための1ビットトランスフォーマーを拡張する新しい取り組みです。この記事では、BitNetの基本から最新の進展まで、初心者でも理解しやすいように解説します。論文「BitNet: Scaling 1-bit T...
AI・機械学習

Local RAGをWindowsのOllama for Windows (Preview)で動かしてみた

最近、Windowsで動作するOllama for Windows (Preview)を使って、Local RAG(Retrieval Augmented Generation)を体験してみました。この記事では、そのプロセスと私の体験をステ...
AI・機械学習

Gemini 1.5登場: Googleの革新的AIが拓く100万トークンの未来

2024年2月15日この文書では、大幅に向上したパフォーマンスと、モダリティを超えた長文理解における革新的な進歩を提供する新しい世代のモデル「Gemini 1.5」について紹介します。サンダー・ピチャイとデミス・ハサビスからのメッセージサン...
AI・機械学習

ローカル画像でGemini Pro APIをOpenAI APIフォーマットで試してみた【Gemini-OpenAI-Proxy】

今回は、Gemini-OpenAI-Proxy を使用して、ローカルに保存された画像を Gemini Pro API に OpenAI API フォーマットで送信し、画像認識のデモを行います。このプロセスは、初心者でも理解しやすいように、ス...