← Catalogue
🧠 Modèle IAai_modelCN
Yi-VL (Vision-Language)
Modèle multimodal de 01.AI combinant le LLM Yi avec des capacités de compréhension visuelle.
À propos
Yi-VL est un modèle vision-langage (VLM) qui étend les capacités du LLM Yi de 01.AI en lui permettant de comprendre et d'interagir avec des images. Il intègre un encodeur visuel performant avec le grand modèle de langage pour gérer des tâches multimodales telles que la description d'images, la question-réponse visuelle, et le raisonnement visuel. Il a été entraîné pour une compréhension profonde du contenu visuel et textuel simultanément.
Fonctionnalités clés
- Question-Réponse Visuelle (VQA)
- Description d'images multilingue
- Raisonnement visuel
- Intégration LLM
Tarification
Gratuit (open-source)
Avantages
- Compréhension profonde image-texte
- Basé sur le LLM Yi performant
- Open-source
Inconvénients
- Nécessite des ressources importantes
- Moins connu que les géants américains
Alternatives
LLaVAOpenFlamingo