AI

音声処理

ClearVoice: AI音声処理ツールキットを試してみた

はじめに音声処理技術の発展により、ノイズ除去や音声分離などの高度な処理がより身近になってきました。今回は、オープンソースのAI音声処理ツールキット「ClearVoice」をGoogle Colabで実際に試してみたので、その手順と感想をまと...
AI

📄 PDF内の画像も読み取れるAI文書処理アプリの使い方

AWS BedrockとClaude Sonnet 4を使った「bedrock_pdf_app」の使い方をご紹介します。従来のPDF処理ツールとの大きな違いは、テキストだけでなく画像・図表も理解できる点です。🔧 セットアップ方法Bedroc...
AI画像生成

Google ColabでGPT Image Input fidelityを使った画像の生成と編集

このGoogle Colabクックブックでは、画像生成機能を持つ新しい大規模言語モデルであるGPT Imageの使い方を学びます。このノートブックはGoogle Colab環境で動作し、ブラウザ上で直接実行できます。このモデルは世界に関する...
AIツール

UNOを使った最先端の画像生成:単一から複数の被写体へのカスタマイズ(ノートブック付)

今回は、ByteDanceの研究チームが開発した「UNO」と呼ばれる画期的な画像生成フレームワークについて紹介します。このColabノートを使って、UNOの機能を実際に試してみましょう。セットアップ手順まずはGitHubからリポジトリをクロ...
エンターテイメント

3.5次元アイドル:AIエージェントが拓く新たなアイドル像

こちらの記事は筆者のアイデアをもとに、OpenAI Gpt4.5のdeep researchで記事を執筆しています3.5次元アイドルの概念とは「3.5次元アイドル」とは、現実世界(3次元)のアイドルをベースとしながら、AI技術(生成AI・L...
3Dモデリング

Roblox/cube3d-v0.1を試す: テキストから3Dモデルを生成しよう(📒ノートブック付)

このノートブックでは、Robloxが開発した3Dモデル生成AIである「Cube3D」を使って、テキストプロンプトから3Dモデルを生成する方法を学びます。Cube3Dは、テキスト記述から詳細な3Dオブジェクトを生成できる強力なAIモデルです。...
ソフトウェア開発

エージェント依存化ライン ― AIツール依存がもたらすエンジニアリングの二極化現象

はじめに近年、AI技術の進歩により、ソフトウェア開発の現場でも自動補完やコード生成など、さまざまなタスクでAIツールが利用されるようになりました。しかし、その一方で、ジュニアエンジニアや基礎力が十分に身についていない技術者が、AIエージェン...
AI API

Claude Citations APIとは?

Claude Citations APIとは?はじめに2025年1月24日、Anthropic社は自社のAPIおよびGoogle CloudのVertex AI向けに、新機能「Citations」を正式にリリースしました。Citations...
Web開発

DeepSeek R1 × Roo-cline: Hugging Face Spacesギャラリーの実装 🚀

はじめに今回は、DeepSeek R1とRoo-clineを組み合わせて、Hugging Face Spacesのギャラリーページを作成してみました。DeepSeek R1の優れた推論能力とRoo-clineの自動化機能を活用することで、効...
プログラミング

「CAD as a Language」:コードと生成AIが拓く新たな設計アプローチ

はじめに本記事は「CAD as a Language」という新しいコンセプトを、はじめて定義・提示するものです。従来のCAD(Computer Aided Design)は、主にGUIを用いた直感的な操作でモデルを構築する手法が一般的でした...