InternVL3-78Bの主な機能は何ですか？

主な機能には、可変視覚位置エンコーディング（V2PE）、ネイティブマルチモーダル事前トレーニング、混合プリファレンス最適化、およびマルチモーダルテスト時スケーリングが含まれます。

InternVL3は、以前のバージョンと比較してどのような新しい機能を提供しますか？

InternVL3は、マルチモーダルな知覚と推論の能力が向上しており、ツールの使用、GUIエージェント、産業用画像分析、および3Dビジョン知覚を含むように機能が拡張されています。

InternVL3をデプロイするにはどうすればよいですか？

InternVL3は、マルチモーダルVision-Languageモデル用の使いやすいパイプラインを提供するLMDeployを使用してデプロイできます。APIサーバーのデプロイと、モデルの量子化オプションを使用した直接パイプラインの使用の両方をサポートしています。

VisualPRMとは何ですか？また、InternVLをどのように強化しますか？

VisualPRMは、InternVL2.5-8BおよびInternVL2.5-78Bの推論パフォーマンスをそれぞれ8.4ポイントおよび5.9ポイント向上させる、8Bパラメーターを備えた高度なマルチモーダルプロセス報酬モデルです。

InternVL3

WebsiteContact for PricingMulti-purpose Tools Large Language Models (LLMs)

InternVL3は、マルチモーダル認識、推論、およびツール使用、GUIエージェント、産業用画像分析、3Dビジョン認識などの拡張機能において優れたパフォーマンスを発揮する、高度なマルチモーダル大規模言語モデル（MLLM）シリーズです。

ウェブサイトを訪問

このツールを宣伝する

https://internvl.opengvlab.com/?ref=aipure&utm_source=aipure

概要
分析
代替案

製品情報

更新日:2025年07月16日

InternVL3 の月間トラフィック傾向

InternVL3は先月2.7kのアクセスを記録し、-54.9%の大幅な減少を示しました。分析によると、このトレンドはAIツール分野の一般的な市場動向と一致しています。

過去のトラフィックを表示

InternVL3とは

InternVL3は、InternVLファミリーの最新のイテレーションであり、マルチモーダルAIテクノロジーの大きな進歩を表しています。InternVL 2.5の後継として、画像、ビデオ、テキストを含む複数のタイプの入力を処理および理解する機能が強化されています。このモデルには、1Bから78Bのパラメーターまでのさまざまなサイズがあり、高いパフォーマンス基準を維持しながら、さまざまなデプロイメントシナリオに適応できます。

InternVL3の主な機能

InternVL3は、以前のInternVL 2.5と比較して全体的な性能が向上した、高度なマルチモーダル大規模言語モデル（MLLM）シリーズです。マルチモーダルな知覚と推論の能力が強化されており、モデルのパラメータ数は10億から780億まであります。このモデルには、可変視覚位置エンコーディング、ネイティブマルチモーダル事前学習、混合選好最適化、マルチモーダルテスト時スケーリングなどの主要な設計が組み込まれています。

高度なマルチモーダルアーキテクチャ: SDPAやFA2を含むさまざまな注意実装を通じて、インターリーブされた画像、ビデオ、テキスト入力を効率的にバッチ推論でサポートします

スケーラブルなモデルサイズ: さまざまな展開ニーズと計算リソースに合わせて、10億から780億のパラメータを持つ複数のモデルバリアントを提供します

ネイティブマルチモーダル事前学習: より良い特徴アライメントとパフォーマンスのために、従来のMLPウォームアップをネイティブマルチモーダル事前学習に置き換えます

拡張されたコンテキストウィンドウ: 改善された処理能力で、長いテキスト、複数の画像、およびビデオの処理をサポートします

InternVL3のユースケース

産業用画像解析: 品質管理とプロセス最適化のために、産業用画像の詳細な分析と解釈を可能にします

GUIエージェントアプリケーション: 自動テストとユーザーエクスペリエンス分析のために、グラフィカルユーザーインターフェースとのインタラクションを促進します

3Dビジョン知覚: ロボティクス、自律システム、仮想環境でのアプリケーション向けに、高度な3Dビジョンタスクをサポートします

ツール使用統合: 機能強化と自動化のために、さまざまなツールやシステムとの統合を可能にします

メリット

優れたマルチモーダル知覚と推論の能力

さまざまな展開シナリオに対応する柔軟なモデルサイズオプション

複数の入力タイプ（テキスト、画像、ビデオ）に対する包括的なサポート

デメリット

大規模なモデルは、かなりの計算リソースを必要とします

最適なパフォーマンスを得るには、特定のハードウェア構成が必要になる場合があります（例：780億モデルの場合は複数のGPU）

InternVL3の使い方

必要なパッケージのインストール: pipを使用してlmdeploy>=0.7.3およびtransformers>=4.37.2をインストールします: 'pip install lmdeploy>=0.7.3 transformers>=4.37.2'

必要なライブラリのインポート: 必要なライブラリをインポートします: 'from lmdeploy import pipeline, TurbomindEngineConfig, ChatTemplateConfig' および 'from lmdeploy.vl import load_image'

モデルサイズの選択: 利用可能なInternVL3モデルサイズ（1B、2B、8B、9B、38B、または78B）から選択します。例: model = 'OpenGVLab/InternVL3-8B'

画像のロード: load_image関数を使用して画像をロードします: 'image = load_image(your_image_path)'

パイプラインの作成: 適切な構成でパイプラインを初期化します: 'pipe = pipeline(model, backend_config=TurbomindEngineConfig(session_len=16384, tp=1), chat_template_config=ChatTemplateConfig(model_name='internvl2_5'))'

応答の生成: 画像とプロンプトを渡してモデルの応答を取得します: 'response = pipe(('この画像について説明してください', image))'

出力の印刷: モデルの応答を表示します: 'print(response.text)'

オプション: APIサーバーとしてデプロイ: APIサーバーとしてデプロイするには: 'lmdeploy serve api_server OpenGVLab/InternVL3-[SIZE] --chat-template internvl2_5 --server-port 23333 --tp 1'