UFO²は、Microsoftの次世代デスクトップエージェントOSであり、自然言語リクエストをWindows上の自動的で信頼性の高いマルチアプリケーションワークフローに変換し、UI自動化、ネイティブAPI統合、およびマルチエージェント連携を組み合わせます。
https://github.com/microsoft/UFO?ref=aipure&utm_source=aipure
UFO²

製品情報

更新日:2025年05月16日

UFO²とは

UFO²(デスクトップエージェントOS)は、Microsoftによって開発されたオープンソースプロジェクトであり、オリジナルのUFOフレームワークからの大きな進化を表しています。これは、自然言語コマンドを通じてWindows操作を自動化するように設計された包括的なマルチエージェントシステムとして機能します。2025年4月にリリースされたUFO²は、Windows OS(バージョン10以降)と統合され、Python 3.10以降が必要です。このフレームワークは、公式のWindows機能ではなく、大規模言語モデル、コンピュータービジョン、およびシステム統合の組み合わせを通じて高度な自動化機能を示す実験的なプラットフォームです。

UFO²の主な機能

UFO² (Desktop AgentOS) は、自然言語のリクエストを自動化されたワークフローに変換する、Windows OS 向けの高度な UI 重視のマルチエージェントフレームワークです。深い OS 統合、ハイブリッド GUI および API アクション、継続的な知識システムを組み合わせることで、複数のアプリケーションにわたる複雑なタスクを実行します。このシステムは、ピクチャーインピクチャーのデスクトップ分離、投機的なマルチアクション実行、UI オートメーションと視覚認識の両方による高度なコントロール検出を特徴としています。
深い OS 統合: Windows UIA、Win32、WinCOM を組み合わせて包括的なシステム制御を実現し、GUI オートメーションと直接 API コマンドの両方を可能にします
ピクチャーインピクチャーデスクトップ: 分離された仮想デスクトップ環境で自動化タスクを実行し、ユーザーが干渉なしにメイン画面での作業を継続できるようにします
マルチエージェント連携: HostAgent を使用してタスク計画を管理し、複数の AppAgent を使用してアプリケーション固有の操作を処理し、複雑なクロスアプリケーションワークフローを可能にします
知識基盤システム: オフラインドキュメント、オンライン検索、ユーザーデモンストレーション、RAG テクノロジーによる実行トレースなど、複数の知識ソースを統合します

UFO²のユースケース

オフィスオートメーション: データ入力、ドキュメントの書式設定、メール管理など、Microsoft Office アプリケーション全体のルーチンタスクを自動化します
システム管理: 自然言語コマンドを通じて、複雑な Windows システムの操作と構成を処理します
クロスアプリケーションワークフロー: Web ページからデータを収集してスプレッドシートレポートを作成するなど、複数のアプリケーションにまたがるタスクを実行します
カスタムアプリケーションコントロール: デモンストレーション学習とドキュメントを通じて、特殊なアプリケーションやニッチなアプリケーションを操作するようにトレーニングできます

メリット

従来の自動化ツールと比較して、成功率が高いです
GUI ベースのアクションと API ベースのアクションを柔軟に組み合わせることができます
さまざまな知識ソースを通じて継続的な学習が可能です
仮想デスクトップ分離による非侵入的な操作

デメリット

現在、Windows OS 環境に限定されています
API キーと構成設定が必要です
機密情報を扱う場合、プライバシーに関する懸念がある可能性があります

UFO²の使い方

前提条件のインストール: システムにPython >= 3.10とWindows OS >= 10がインストールされていることを確認してください。オプションで、'conda create -n ufo python=3.10'を使用してconda環境を作成します。
UFOのクローンとインストール: 'git clone https://github.com/microsoft/UFO.git'でリポジトリをクローンし、UFOディレクトリに移動して、'pip install -r requirements.txt'を実行します。
LLM設定の構成: ufo/config/config.yaml.templateをufo/config/config.yamlにコピーし、HostAgentとAppAgentの両方のAPIキーとエンドポイントを含むLLM設定(OpenAIまたはAzure OpenAI)を構成します。
RAGの設定(オプション): config.yamlでオプションのRetrieval Augmented Generation(RAG)機能を構成します。オフラインヘルプドキュメント、Bing検索、自己体験、またはユーザーデモンストレーションを含めることができます。
UFOの起動: インタラクティブモードの場合は'python -m ufo --task <your_task_name>'を実行し、直接実行の場合は'python -m ufo --task <your_task_name> -r \"<your_request>\"'を実行してUFOを起動します。
実行の監視: ./ufo/logs/<your_task_name>/ディレクトリで実行のスクリーンショットとリクエスト/レスポンスログを確認して、エージェントのアクションを監視またはデバッグします。
サポート: ヘルプについては、microsoft.github.io/UFO/でドキュメントを確認するか、GitHub issueを作成するか、その他の連絡については[email protected]に連絡してください。

UFO²のよくある質問

UFO²はデスクトップAgentOSであり、WindowsデスクトップOS上で動作する新世代のエージェントフレームワークです。自然言語のリクエストを、UI中心の機能を超えて、Windows上での自動的で信頼性の高い、複数アプリケーションのワークフローに変換するように設計されています。

UFO²に類似した最新のAIツール

Athena AI
Athena AI
Athena AIは、ドキュメント分析、クイズ生成、フラッシュカード、インタラクティブチャット機能などを通じて、個別化された学習支援、ビジネスソリューション、ライフコーチングを提供する多用途のAI駆動プラットフォームです
Aguru AI
Aguru AI
Aguru AIは、行動追跡、異常検出、パフォーマンス最適化などの機能を備えたLLMベースのアプリケーションの包括的な監視、セキュリティ、および最適化ツールを提供するオンプレミスソフトウェアソリューションです。
GOAT AI
GOAT AI
GOAT AIは、ニュース記事、研究論文、動画などのさまざまなコンテンツタイプに対してワンクリック要約機能を提供するAI駆動のプラットフォームであり、ドメイン特有のタスクのための高度なAIエージェントオーケストレーションも提供しています。
GiGOS
GiGOS
GiGOSは、Gemini、GPT-4、Claude、Grokなどの複数の高度な言語モデルにアクセスできるAIプラットフォームで、ユーザーが異なるAIモデルと対話し、比較するための直感的なインターフェースを提供します