Ollama v0.7

Ollama v0.7

Ollama v0.7 introduit un nouveau moteur pour la prise en charge de l'IA multimodale de première classe, permettant l'exécution locale de modèles de vision avancés tels que Llama 4, Gemma 3, Qwen 2.5 VL et Mistral Small 3.1 avec une fiabilité et une gestion de la mémoire améliorées.
https://ollama.com/blog/multimodal-models?ref=aipure&utm_source=aipure
Ollama v0.7

Informations sur le produit

Mis à jour:Jun 9, 2025

Tendances du trafic mensuel de Ollama v0.7

Ollama v0.7 a connu une baisse de 5,5% du trafic, avec 298 679 visites en moins. Malgré la refonte du support de la vision et l'introduction de Qwen 2.5 VL avec des capacités OCR améliorées, cette baisse pourrait être attribuée à des corrections de bugs et des problèmes d'expérience utilisateur liés à la gestion des URL, qui ont été résolus en téléchargeant les images localement.

Voir l'historique du trafic

Qu'est-ce que Ollama v0.7

Ollama v0.7 représente une évolution significative dans le déploiement local de grands modèles de langage, allant au-delà de sa dépendance précédente à llama.cpp pour introduire un nouveau moteur dédié aux capacités d'IA multimodale. Cette version se concentre sur la transformation des modèles multimodaux en citoyens de première classe, permettant aux utilisateurs d'exécuter des modèles vision-langage sophistiqués localement sans nécessiter de services cloud. Le système prend en charge différentes tailles de modèles, de 7B paramètres adaptés aux machines de 8 Go de RAM jusqu'aux modèles 33B plus volumineux nécessitant 32 Go de RAM, rendant l'IA avancée accessible pour différentes configurations matérielles.

Caractéristiques principales de Ollama v0.7

Ollama v0.7 introduit un nouveau moteur révolutionnaire qui offre une prise en charge de premier ordre pour les modèles d'IA multimodaux, permettant l'exécution locale de modèles avancés de vision-langage tels que Meta Llama 4, Google Gemma 3, Qwen 2.5 VL et Mistral Small 3.1. La mise à jour comprend une gestion améliorée de la mémoire, une modularité des modèles et une précision accrue pour le traitement des images et du texte ensemble, tout en conservant la facilité d'utilisation caractéristique d'Ollama pour l'exécution locale de grands modèles de langage.
Nouveau moteur multimodal: Architecture de modèle autonome qui permet à chaque modèle de mettre en œuvre sa propre couche de projection et de gérer les entrées multimodales indépendamment, améliorant ainsi la fiabilité et la simplification de l'intégration du modèle
Gestion avancée de la mémoire: Système de mise en cache intelligent des images et cache KV optimisé avec des configurations spécifiques au matériel pour maximiser l'efficacité de la mémoire et les performances
Traitement de la précision améliorée: Amélioration de la gestion des grandes images et des jetons avec une gestion appropriée des métadonnées et des mécanismes d'attention spécifiques à l'architecture de formation de chaque modèle
Prise en charge de plusieurs modèles: Intégration de divers modèles de vision-langage, notamment Llama 4, Gemma 3, Qwen 2.5 VL et Mistral Small 3.1, chacun ayant ses propres capacités spécialisées

Cas d'utilisation de Ollama v0.7

Analyse de documents: Traitement et extraction d'informations à partir de documents, y compris la reconnaissance de caractères et la traduction de texte multilingue dans les images
Questions-réponses visuelles: Permettre des interactions en langage naturel sur les images, y compris des descriptions détaillées et répondre à des questions spécifiques sur le contenu visuel
Analyse basée sur la localisation: Analyser et fournir des informations sur les lieux, les points de repère et les caractéristiques géographiques dans les images, y compris les calculs de distance et les recommandations de voyage
Comparaison de plusieurs images: Analyser les relations et les modèles à travers plusieurs images simultanément, en identifiant les éléments communs et les différences

Avantages

Exécution locale de modèles multimodaux avancés sans dépendance au cloud
Fiabilité et précision améliorées dans le traitement des modèles
Prise en charge flexible de plusieurs architectures de modèles
Gestion efficace de la mémoire et optimisation du matériel

Inconvénients

Nécessite des ressources matérielles importantes pour les modèles plus grands
Prise en charge limitée de Windows (nécessite WSL2)
Certaines fonctionnalités sont encore en phase expérimentale

Comment utiliser Ollama v0.7

Installer Ollama: Installez Ollama sur votre système (prend en charge MacOS, Linux et Windows via WSL2). Assurez-vous d'avoir suffisamment de RAM - au moins 8 Go pour les modèles 7B, 16 Go pour les modèles 13B et 32 Go pour les modèles 33B.
Démarrer le service Ollama: Exécutez la commande 'ollama serve' pour démarrer le service Ollama. Pour des téléchargements plus rapides, vous pouvez éventuellement utiliser : OLLAMA_EXPERIMENT=client2 ollama serve
Extraire le modèle: Téléchargez le modèle multimodal souhaité à l'aide de 'ollama pull <model_name>'. Les modèles disponibles incluent llama4:scout, gemma3, qwen2.5vl, mistral-small3.1, llava, bakllava et d'autres modèles de vision.
Exécuter le modèle: Démarrez le modèle à l'aide de 'ollama run <model_name>'. Par exemple : 'ollama run llama4:scout' ou 'ollama run gemma3'
Images d'entrée: Vous pouvez saisir des images en fournissant le chemin d'accès au fichier image après votre invite de texte. Plusieurs images peuvent être ajoutées dans une seule invite ou via des questions de suivi. Prend en charge le format d'image WebP.
Interagir avec le modèle: Posez des questions sur les images, demandez une analyse ou ayez des conversations de suivi. Le modèle traitera à la fois le texte et les images pour fournir des réponses pertinentes.
Facultatif : utiliser l'API/les bibliothèques: Vous pouvez également interagir avec Ollama via son API ou ses bibliothèques Python/JavaScript officielles pour un accès programmatique. Les capacités multimodales fonctionnent sur CLI et les bibliothèques.
Facultatif : utiliser l'interface utilisateur Web: Pour une interface plus conviviale, vous pouvez utiliser diverses interfaces utilisateur Web et clients créés par la communauté qui prennent en charge les fonctionnalités multimodales d'Ollama.

FAQ de Ollama v0.7

Ollama prend désormais en charge les modèles multimodaux grâce à un nouveau moteur capable de gérer les capacités de vision. Il prend en charge des modèles tels que Meta Llama 4, Google Gemma 3, Qwen 2.5 VL et Mistral Small 3.1. La mise à jour comprend des fonctionnalités telles que l'analyse d'images, la gestion de plusieurs images, la numérisation de documents et la reconnaissance de caractères.

Analyses du site web de Ollama v0.7

Trafic et classements de Ollama v0.7
5.1M
Visites mensuelles
#10016
Classement mondial
#247
Classement par catégorie
Tendances du trafic : Mar 2025-May 2025
Aperçu des utilisateurs de Ollama v0.7
00:04:16
Durée moyenne de visite
4.93
Pages par visite
33.47%
Taux de rebond des utilisateurs
Principales régions de Ollama v0.7
  1. CN: 32.76%

  2. US: 14.47%

  3. IN: 5.4%

  4. RU: 3.52%

  5. DE: 3.3%

  6. Others: 40.55%

Derniers outils d'IA similaires à Ollama v0.7

Athena AI
Athena AI
Athena AI est une plateforme polyvalente alimentée par IA offrant une assistance d'étude personnalisée, des solutions commerciales et du coaching de vie grâce à des fonctionnalités telles que l'analyse de documents, la génération de quiz, des cartes mémoire et des capacités de chat interactif.
Aguru AI
Aguru AI
Aguru AI est une solution logicielle sur site qui fournit des outils complets de surveillance, de sécurité et d'optimisation pour les applications basées sur LLM avec des fonctionnalités telles que le suivi du comportement, la détection d'anomalies et l'optimisation des performances.
GOAT AI
GOAT AI
GOAT AI est une plateforme alimentée par l'IA qui fournit des capacités de résumé en un clic pour divers types de contenu, y compris des articles de presse, des documents de recherche et des vidéos, tout en offrant également une orchestration avancée d'agents IA pour des tâches spécifiques au domaine.
GiGOS
GiGOS
GiGOS est une plateforme d'IA qui fournit un accès à plusieurs modèles de langage avancés comme Gemini, GPT-4, Claude et Grok avec une interface intuitive pour que les utilisateurs interagissent et comparent différents modèles d'IA.