maki

AI開発

OpenAI APIの構造化出力機能:実践編(📒GoogleColabノートブック付):

OpenAI APIの構造化出力機能:実践編(📒GoogleColabノートブック付):はじめにこんにちは!今回は、OpenAI APIの新機能である「構造化出力」について、初心者の方にも分かりやすく解説していきます。この機能を使うことで、...
AI・機械学習

YOLOv8とUltralyticsを使用したオブジェクトカウンティング(📒Google Colabノートブック付)

はじめにUltralyticsとはUltralyticsは、最先端の深層学習モデルと革新的なコンピュータビジョンソリューションを提供する企業です。彼らが開発したYOLOv8は、リアルタイムの物体検出と画像セグメンテーションにおいて、高速性と...
AI API

OpenAI:APIにおける構造化出力の導入

はじめにOpenAIは、APIに構造化出力(Structured Outputs)を導入しました。これにより、モデルの出力が開発者が提供したJSONスキーマに確実に準拠するようになりました。背景従来の課題非構造化入力からの構造化データ生成は...
AI画像生成

FLUXをComfyUIのAPIからPythonで使用する方法

はじめにComfyUIは強力な画像生成ツールであり、FLUXモデルはその中でも特に注目される新しいモデルです。この記事では、Pythonスクリプトを使用してComfyUI FLUXモデルをAPIで呼び出し、画像を生成する方法を解説します。P...
AI・機械学習

Whisper Medusaを試してみた:高速で正確な音声認識モデル

音声認識技術の進歩は目覚ましく、最近では精度と速度の両面で大きな改善が見られています。今回は、OpenAIのWhisperモデルをベースに、さらなる高速化を実現した「Whisper Medusa」を実際に試してみました。「Whisper-M...
エラー解決

Windows版GPUStack完全トラブルシューティングガイド:500エラーとllama-box問題の解決法

GPUStackをWindowsで使用する際に遭遇する可能性のある主要な問題とその解決策を紹介します。基本的な起動方法はこちらダッシュボードの500エラー問題以前のバージョンのGPUStackでは、ダッシュボードUIにアクセスすると500エ...
AI・機械学習

Gemma 2 2B 日本語ファインチューニング & TPUv3-8 + Kaggle Hub公開

このノートブックでは、Googleが新たにリリースした軽量ながらも高性能な言語モデル Gemma 2 2B を、日本語データセット databricks-dolly-15k-ja でファインチューニングする方法を紹介します。さらに、Kagg...
ソフトウェア開発

IRISの進化した自動リリースノート生成機能:SourceSageとの統合で更なる効率化を実現

はじめにソフトウェア開発プロジェクトにおいて、リリースノートは変更点を明確に伝え、プロジェクトの進捗を可視化する重要な役割を果たします。しかし、その作成プロセスは時間がかかり、人的ミスのリスクも伴います。IRISの自動リリースノート生成機能...
ソフトウェア開発ツール

LiteLLM x Parallel Function Calling: GeminiとGPT-4o-miniで複数ファイル一括変更(GoogleColab付)

gemini/gemini-1.5-proで複数の差分ファイルの一覧を作成してそれを元にgpt-4o-miniのParallel Function Callingでgitのパッチを実行することでマルチファイルのファイル変更を実現します。 無...
AI・機械学習

LiteLLMで無料Gemini+gpt-4o-mini+Haiku+sonnet3.5のParallel Function Callingを試す

はじめにこんにちは!今回は、LiteLLMライブラリを使って、GoogleのGemini Pro、OpenAIのgpt-4-o-mini、AnthropicのClaude 3.5 sonnet、Claude 3 haikuといった複数のモデ...