Modèles IA
247 résultats sur 247
AlphaFold 3
ai_model
Modèle de DeepMind et Isomorphic Labs pour la prédiction de structures macromoléculaires biologiques.
GPT-4
ai_model
Modèle de langage large multimodal d'OpenAI, capable d'une compréhension et génération de texte et d'images sophistiquée.
DeepMind AlphaFold 2
ai_model
Modèle de DeepMind ayant résolu le problème du repliement des protéines.
AlphaFold
ai_model
Modèle révolutionnaire de DeepMind pour la prédiction de la structure 3D des protéines à partir de leur séquence d'acides aminés.
Google Gemini Ultra
ai_model
Le modèle multimodal le plus puissant de la suite Gemini de Google.
Claude 4
ai
Modèle d'Anthropic axé sécurité et raisonnement long.
Claude 3 Opus
ai_model
Le modèle le plus performant de la famille Claude 3 d'Anthropic, excellant en raisonnement et compréhension.
GPT-5
ai
Modèle multimodal phare d'OpenAI.
Gemini Ultra
ai_model
Le modèle le plus avancé de Google DeepMind, conçu pour des tâches complexes et multimodalité supérieure.
Whisper v3
ai_model
La dernière itération du modèle de reconnaissance vocale multilingue de haute qualité d'OpenAI.
Hugging Face Transformers Library
ai_model
Bibliothèque open-source offrant des milliers de modèles pré-entraînés pour le NLP et la vision par ordinateur.
Mixtral 8x7B instruct
ai_model
Un modèle de langage open-source de Mixtral AI, grand et efficace, basé sur l'architecture Mixture-of-Experts.
Hugging Face Hub (Models)
ai_model
Plateforme centralisée pour la distribution de milliers de modèles d'IA open-source pré-entraînés.
Claude 3 (Opus/Sonnet/Haiku)
ai_model
Famille de modèles d'Anthropic, réputés pour leur sécurité et leur haute performance.
ElevenLabs Voice AI
ai_model
Plateforme avancée de synthèse et de clonage de voix offrant des voix réalistes et expressives.
Whisper (OpenAI)
ai_model
Un modèle de reconnaissance vocale polyvalent capable de comprendre plusieurs langues.
Llama 3
ai_model
Famille de grands modèles de langage open-source de Meta AI, conçue pour la recherche et le développement.
Meta NLLB-200
ai_model
Modèle de traduction neuronale couvrant 200 langues sans passer par l'anglais.
Hugging Face Transformers
ai_model
Bibliothèque open-source de modèles pré-entraînés pour le traitement du langage naturel, la vision par ordinateur et plus.
CLIP
ai_model
Modèle d'OpenAI qui apprend des représentations visuelles à partir du texte, permettant des requêtes zéro-shot.
DALL-E 3
ai_model
Modèle de génération d'images d'OpenAI avec une intégration profonde à ChatGPT, produisant des images de haute qualité.
Whisper (OpenAI)
ai_model
Modèle de reconnaissance vocale multi-langue de haute qualité d'OpenAI.
Google Med-PaLM 2
ai_model
Un LLM spécialisé pour les applications médicales et de santé, développé par Google.
ControlNet
ai_model
Architecture de réseau neuronal pour contrôler les grands modèles de diffusion d'images avec des conditions supplémentaires.
Gemini 2.5 Pro
ai
Modèle multimodal de Google avec contexte massif.
Meta DINOv2
ai_model
Modèle d'apprentissage auto-supervisé de Meta pour la vision par ordinateur, sans étiquetage.
DeepMind AlphaCode 2
ai_model
Le modèle de DeepMind surpassant des compétiteurs humains en programmation algorithmique.
Meta Segment Anything
ai_model
Modèle de segmentation universelle d'images de Meta AI.
ImageBind
ai_model
Modèle de Meta qui lie différents modes sensoriels en un espace d'embeddings commun.
Segment Anything Model (SAM)
ai_model
Modèle de segmentation d'images de Meta capable de 'découper' n'importe quel objet d'une image.
ElevenLabs Voice AI
ai_model
Plateforme d'IA vocale pour la synthèse et le clonage de voix réalistes et expressives.
VALL-E
ai_model
Modèle TTS de Microsoft capable de générer de la parole avec la voix d'un locuteur après seulement 3 secondes d'audio.
Google Imagen
ai_model
Un modèle texte-vers-image photoréaliste de Google.
Wav2Vec 2.0
ai_model
Framework de représentation d'apprentissage auto-supervisé pour l'audio, spécialisé dans la reconnaissance vocale.
Google Chirp (Universal Speech Model)
ai_model
Le modèle de reconnaissance automatique de la parole de Google supportant plus de 300 langues.
Whisper (OpenAI)
ai_model
Modèle de reconnaissance automatique de la parole (ASR) capable de transcrire l'audio en texte dans de nombreuses langues.
Segment Anything Model (SAM)
ai_model
Modèle de Meta AI capable de segmenter n'importe quel objet dans une image avec un seul clic.
Microsoft Florence-2
ai_model
Modèle multimodal puissant de Microsoft, capable de comprendre et de générer du texte et des images.
Midjourney
ai_model
Système de génération d'images basé sur Discord, réputé pour son esthétique artistique unique.
DeepMind AlphaCode
ai_model
Système d'IA de DeepMind capable de participer à des compétitions de programmation.
NeRF (Neural Radiance Fields)
ai_model
Technique de rendu de scènes 3D à partir de plusieurs images 2D, créant des vues photoréalistes.
ElevenLabs (Text-to-Speech)
ai_model
Plateforme avancée de synthèse vocale et de clonage de voix, avec des voix très réalistes.
OpenAI Multimodal Embeddings
ai_model
Embeddings unifiés par OpenAI pour représenter le texte et l'image dans un espace commun.
Stable Diffusion (Original)
ai_model
Modèle open-source phare de génération d'images basé sur la diffusion.
Google Med-PaLM M
ai_model
Modèle multimodal de Google spécialisé dans les informations médicales et les données.
Google Lumiere
ai_model
Un modèle de génération vidéo unifié et réaliste de Google Research.
Falcon 180B
ai_model
Un grand modèle de langage open-source développé par le Technology Innovation Institute (TII) d'Abu Dhabi, avec 180 milliards de paramètres.
NVIDIA Neuralangelo
ai_model
Modèle de NVIDIA pour la reconstruction 3D photoréaliste d'objets ou de scènes à partir de vidéos 2D.
OpenAI GPT-3.5 Turbo
ai_model
Modèle de langage le plus populaire d'OpenAI, puissant et polyvalent pour diverses tâches textuelles.
YOLOv8
ai_model
Dernière version d'un modèle de détection d'objets en temps réel, connue pour sa vitesse et sa précision.
Stable Diffusion XL
ai_model
Modèle de texte-vers-image open-source pour la génération d'images haute résolution.
Mistral Large
ai_model
Grand modèle de langage propriétaire de Mistral AI, performant sur diverses tâches.
Google BERT
ai_model
Modèle de Google qui a révolutionné la compréhension du langage naturel.
Anthropic Claude 3.5 Sonnet
Large Language Model
Modèle d'IA de nouvelle génération offrant des performances améliorées en raisonnement, encodage et génération de contenu.
Stable Video Diffusion
ai_model
Modèle de génération vidéo open-source de Stability AI, créant des vidéos à partir d'images ou de texte.
Stable Diffusion XL Turbo
ai_model
Génération d'images en temps réel avec des performances accrues.
Perplexity AI Online Search
ai_model
Un moteur de recherche conversationnel basé sur l'IA fournissant des réponses sourcées.
Google Gemini API
IA / LLM
API officielle pour les modèles Gemini multimodaux.
WhisperX
ai_model
Extension de Whisper qui ajoute l'horodatage précis des mots et la diarization des locuteurs.
StyleGAN3
ai_model
Modèle de réseau génératif antagoniste de pointe (GAN) pour la génération d'images ultra-réalistes, avec une meilleure invariance de translation.
Stable Diffusion XL
ai_model
Modèle de génération d'images open-source de Stability AI, produisant des visuels haute qualité à partir de texte.
Databricks DBRX
ai_model
Un modèle MoE de Databricks, conçu pour la performance et le coût-efficacité.
Google Chirp
ai_model
Modèle de reconnaissance vocale de Google, supportant plus de 300 langues avec une précision élevée.
DeepMind Flamingo
ai_model
Un modèle multimodal de DeepMind qui intègre la vision et le langage.
SeamlessM4T
ai_model
Modèle multimodal de Meta AI pour la traduction vocale et textuelle transparente et multilingue.
Mistral 7B
ai_model
Modèle de langage open-source compact mais performant de Mistral AI.
OpenPose
ai_model
Détection en temps réel des poses humaines (corps, visage, mains) à partir d'images/vidéos.
Stability AI Clipdrop
ai_model
Suite d'outils basés sur l'IA pour l'édition et la génération d'images, incluant des fonctionnalités uniques.
Google Gemini Pro
ai_model
Version de Gemini optimisée pour les développeurs et les applications courantes, avec des capacités multimodales.
Mixtral 8x7B
ai_model
Modèle de langage sparse open-source de Mistral AI, offrant des performances élevées avec une efficacité accrue.
RunwayML Gen-3 Alpha
ai_model
Modèle de génération vidéo avancé de RunwayML, visant le réalisme et le contrôle.
Meta Segment Anything Model (SAM)
ai_model
Modèle de segmentation d'images universelle, capable d'identifier tous les objets dans une image.
DeepMind Gato
ai_model
Un agent multimodal de DeepMind capable de performancer sur une multitude de tâches.
Coqui XTTS-v2
ai_model
Modèle de synthèse vocale text-to-speech multilingue, zero-shot et multilocuteur, pour le clonage de voix.
DreamMachine
ai_model
Un modèle puissant pour la génération de vidéos à partir de texte ou d'images.
Google Imagen 2
ai_model
Modèle de génération d'images de Google qui excelle dans le photoréalisme.
Meta SeamlessM4T
ai_model
Modèle multimodal de Meta pour la traduction et la transcription speech-to-speech et speech-to-text dans de nombreuses langues.
Microsoft VALL-E
ai_model
Modèle de synthèse vocale de Microsoft capable de cloner des voix à partir de courts échantillons.
Whisper (fine-tuned)
ai_model
Des versions fine-tunées du modèle Whisper d'OpenAI pour des domaines spécifiques ou des langues.
StyleGAN3
ai_model
La troisième génération des architectures StyleGAN de NVIDIA pour une synthèse d'images haute résolution sans artefacts.
InstructPix2Pix
ai_model
Modèle d'édition d'image par instruction, modifiant des images à l'aide de commandes textuelles.
XLSR-53
ai_model
Modèle de reconnaissance vocale interlingue basé sur Wav2Vec 2.0, entraîné sur 53 langues.
CoDi
ai_model
Modèle multimodal qui génère des sorties cohérentes à partir de diverses entrées : texte, audio, image, vidéo.
Google Gemini Pro Vision
ai_model
Version multimodale de Gemini Pro, capable d'analyser des images et du texte.
Mistral AI Codestral
Code Generation AI
Modèle de langage spécialisé dans la génération et la complétion de code, supportant plus de 80 langages de programmation.
Common Voice
ai_model
Un projet open source de Mozilla pour la collecte de données vocales multilingues.
NVIDIA NeMo Framework
ai_model
Cadre open-source de NVIDIA pour la construction, l'entraînement et le déploiement de LLMs.
StyleGAN-XL
ai_model
Génération d'images haute résolution et haute fidélité avec contrôle sémantique accru.
VALL-E
ai_model
Un modèle de synthèse vocale de Microsoft capable de générer de la parole personnalisée avec seulement quelques secondes d'échantillon.
Replicate
ai_model
Plateforme qui permet aux développeurs de faire tourner plus de 100 000 modèles d'IA pré-entraînés via une API simple ou de partager les siens.
CLIP (OpenAI)
ai_model
Modèle multimodal d'OpenAI qui relie texte et images.
NVIDIA NeMo
ai_model
Boîte à outils de développement pour la parole, le texte et les modèles multimodaux de NVIDIA.
Whisper
ai_model
Système de reconnaissance vocale polyvalent d'OpenAI, entraîné sur un large ensemble de données audio multilingues.
PaLM 2
ai_model
Grand modèle linguistique de Google pour une large gamme de tâches conversationnelles et textuelles.
Meta Llama 3.1
Large Language Model
Nouvelle itération des modèles open-source Llama de Meta, offrant des performances améliorées et de nouvelles tailles.
Anthropic Claude 3 Haiku
ai_model
Modèle LLM rapide et rentable d'Anthropic, axé sur la sûreté et la performance.
Open-interpreter
ai_model
Interpréteur de langage AI open-source qui exécute du code, accède à des fichiers et utilise des API.
PaLM 2
ai_model
Modèle de langage large de Google, successeur de LaMDA et PaLM, optimisé pour le multilingue et le raisonnement.
DreamMachine
ai_model
Modèle de génération de vidéos text-to-video rapide et cohérent.
Common Voice
ai_model
Dataset vocal multilingue et open-source de Mozilla pour l'entraînement de la reconnaissance vocale.
Meta Voicebox
ai_model
Modèle de génération vocale polyvalent de Meta, capable de synthèse, d'édition et de stylisation vocale.
Llama 2
ai_model
Suite de grands modèles de langage open-source de Meta AI, optimisés pour le dialogue.
Bark
ai_model
Modèle de génération de parole par Suno AI, capable de produire du discours réaliste et non-linguistique.
VoyageEmbeddings
ai_model
Modèles d'embeddings de Voyage AI optimisés pour la recherche sémantique et le RAG.
ImageBind
ai_model
Modèle de Meta AI qui apprend un espace d'intégration unifié entre six modalités différentes.
Google Gemini (Nano/Pro/Advanced)
ai_model
Famille de modèles multimodaux de Google, allant de très légers à très performants.
InstructBLIP
ai_model
Modèle de vision-langage multimodal basé sur BLIP-2, capable de suivre des instructions pour des tâches visuelles.
Llama 3 (8B/70B)
ai_model
Famille de grands modèles de langage open-source de Meta, offrant diverses tailles de paramètres.
Cohere Embed
ai_model
Génère des représentations vectorielles de texte pour une variété de tâches NLP.
Falcon 180B
ai_model
Grand modèle de langage open-source des Émirats arabes unis, compétitif face aux modèles propriétaires.
XGBoost
ai_model
Implémentation optimisée d'arbres de décision boostés par gradient, largement utilisée en data science.
Code Llama
ai_model
Version de Llama de Meta AI optimisée pour la génération et la complétion de code.
Mistral Medium
ai_model
Modèle de langage puissant de Mistral AI, avec de fortes capacités de raisonnement.
Stable Diffusion 2.1
ai_model
Version améliorée d'un modèle de génération d'images open-source populaire, avec des capacités accrues.
SeamlessM4T Plus (Meta)
ai_model
Système multimodal de traduction et de reconnaissance vocale prenant en charge de nombreuses langues.
Llama 3.3
ai
Modèle open weights de Meta.
StyleGAN3
ai_model
Modèle GAN de NVIDIA pour la génération d'images ultra-réalistes, particulièrement des visages humains.
WaveNet
ai_model
Modèle de DeepMind pour la génération de parole ultra-réaliste.
DreamMachine
ai_model
Modèle d'IA de Luma Labs pour la génération de vidéos hyper-réalistes en temps réel.
Qwen (Tongyi Qianwen)
ai_model
Modèles de langage (LLM) et multimodaux développés par Alibaba Cloud, avec des versions open source disponibles.
InstructPix2Pix
ai_model
Modèle d'édition d'images qui utilise des instructions textuelles pour modifier des images existantes.
Mistral Large
ai
Modèle phare français de Mistral AI.
InternLM2
ai_model
Modèle de langage de pointe développé par Shanghai AI Laboratory, avec des capacités multilingues.
Qwen (Tongyi Qianwen)
ai_model
Famille de grands modèles de langage open-source d'Alibaba Cloud, avec un focus sur la langue chinoise.
Cohere Command R+
ai_model
Modèle de langage large optimisé pour le RAG (Retrieval-Augmented Generation) et les entreprises.
RunwayML Gen-2
ai_model
Modèle de génération de vidéo de RunwayML, capable de créer des vidéos à partir de texte, d'images ou d'autres vidéos.
Vision Transformer (ViT)
ai_model
Modèle d'apprentissage profond qui applique l'architecture Transformer aux tâches de vision par ordinateur.
MusicGen
ai_model
Modèle de génération de musique de Meta, produisant des morceaux à partir de descriptions textuelles ou mélodiques.
LaMDA
ai_model
Modèle conversationnel de Google conçu pour des dialogues ouverts et naturels.
MUSE
ai_model
Modèle de Google de génération d'images texte-vers-image basé sur des transformeurs masqués, rapide et de haute qualité.
Orca 2
ai_model
Modèles de langage de petite taille de Microsoft, optimisés pour le raisonnement.
Meta AnyMAL
ai_model
Modèle multimodal de Meta AI capable de comprendre le langage, l'audio et la vision.
InstructBLIP
ai_model
Modèle multimodal qui connecte les LLM avec la compréhension visuelle pour des instructions complexes.
CodeLlama
ai_model
Famille de grands modèles de langage de Meta AI spécialisés dans le code.
Deepgram Nova
ai_model
API de transcription vocale avancée avec reconnaissance contextuelle et personnalisable.
Google MusicLM
ai_model
Génération de musique conditionnée par des descriptions textuelles.
MegaPose
ai_model
Estimations de pose 6D d'objets multiples en temps réel.
Megatron-LM
ai_model
Un framework de NVIDIA pour l'entraînement à grande échelle de modèles Transformer.
InstructBLIP
ai_model
Un grand modèle de langage et de vision (LVLMs) qui suit les instructions pour diverses tâches multimodales.
Magic3D
ai_model
Un modèle de NVIDIA pour la synthèse de maillages 3D de haute qualité à partir de descriptions textuelles.
Meta Emu
ai_model
Famille de modèles multimodaux de Meta AI pour la génération rapide d'images et l'édition guidée par texte.
Pika Labs
ai_model
Une plateforme de génération vidéo IA basée sur le texte ou l'image, axée sur la créativité et la facilité d'utilisation.
Nvidia Riva
ai_model
Framework de NVIDIA pour la construction de services vocaux conversationnels par IA haute performance.
Meta LLaMA-2-70B-Chat
ai_model
La plus grande variante de LLaMA 2, fine-tunée pour les dialogues et les interactions conversationnelles.
BLIP-2
ai_model
Modèle multimodal performant combinant des modèles de vision et de langage pour l'alignement image-texte, avec des LLM zero-shot.
Google PaLM 2
ai_model
Grande famille de modèles de langage de Google, excelle en raisonnement et multilingue.
YOLOv8
ai_model
La dernière itération de la famille de modèles 'You Only Look Once' pour la détection d'objets en temps réel.
Riva (NVIDIA)
ai_model
SDK d'IA conversationnelle pour le déploiement de services de voix et de texte en temps réel sur GPU.
Runway Gen-2
ai_model
Modèle phare de RunwayML pour la génération de vidéos à partir de texte, d'images ou d'autres vidéos.
Megapose
ai_model
Un modèle open-source pour l'estimation de pose 6D d'objets, utilisé en robotique et AR.
Stable Cascade
ai_model
Modèle de génération d'images basé sur des réseaux de diffusion en cascade, offrant un contrôle fin et une haute qualité.
Google PaLM
ai_model
Modèle de langage Pathway à grande échelle de Google AI.
Hugging Face Zero-Shot Image Classification
ai_model
Modèle permettant de classer des images sans exemples préalables pour une nouvelle catégorie.
AudioLM
ai_model
Modèle de génération audio de Google DeepMind capable de synthétiser des séquences de parole et de musique.
SoundStorm
ai_model
Modèle de Google AI pour la synthèse audio haute fidélité à partir de texte.
AudioCraft (Meta)
ai_model
Cadre de Meta pour la génération de musique et d'audio à partir de texte.
Bard (Google)
ai_model
Agent conversationnel IA de Google, alimenté par la famille PaLM 2 et Gemini Pro.
Coqui XTTS
ai_model
Un modèle de synthèse vocale multi-locuteurs et multilingue à faible latence, avec clonage de voix.
Whisper Tiny
ai_model
Une version légère et rapide du modèle Whisper d'OpenAI.
CoPilot (GitHub)
ai_model
Assistant de programmation basé sur l'IA qui suggère du code en temps réel.
Sun-o
ai_model
Modèle d'IA générative de musique à partir de texte, capable de créer des chansons complètes.
Nvidia Picasso
ai_model
Service cloud de Nvidia pour la création de contenu 3D génératif et d'images.
Megatron-LM
ai_model
Un projet de recherche collaboratif pour entraîner des LLM massifs avec des centaines de milliards de paramètres.
RVC (Retrieval-based Voice Conversion)
ai_model
Framework open-source de conversion de voix basé sur la récupération, pour le clonage et le transfert de voix.
AudioGen
ai_model
Modèle de génération audio conditionnelle, créant des sons et du bruit à partir de texte.
WaveNet
ai_model
Modèle génératif de DeepMind pour la synthèse vocale très réaliste utilisant des réseaux convolutifs.
Meta AudioCraft
ai_model
Suite de modèles de Meta pour générer de l'audio et de la musique à partir de texte.
WhisperX
ai_model
Extension de Whisper pour une transcription audio plus précise avec alignement temporel.
Make-A-Video (Meta)
ai_model
Modèle de Meta AI pour la génération de vidéos à partir de texte, démontrant la puissance de la diffusion textuelle.
Coqui XTTS
ai_model
Génération de voix multilingue de haute qualité avec clonage et contrôle émotionnel.
Coqui XTTS
ai_model
Un modèle de synthèse vocale multi-locuteurs et multilingue à faible latence, avec clonage de voix.
Audiogen
ai_model
Modèle de Meta AI pour la génération de musique basée sur des descriptions textuelles.
Magic3D
ai_model
Modèle de NVIDIA pour générer des modèles 3D haute qualité à partir de texte.
Chinchilla
ai_model
Un modèle de langage de petite taille optimisé pour l'efficacité avec plus de données.
DeepFace
ai_model
Système de reconnaissance faciale de Facebook (Meta AI).
T5 (Text-to-Text Transfer Transformer)
ai_model
Modèle de Google qui formule toutes les tâches NLP comme des tâches texte-à-texte.
MPT-7B
ai_model
Un puissant modèle de langage développé par MosaicML, optimisé pour l'entraînement et l'inférence.
Stable Audio
ai_model
Modèle de Stable AI pour la génération audio réaliste à partir de texte.
Nvidia GauGAN2
ai_model
Modèle de Nvidia pour la création d'images à partir de croquis ou de descriptions textuelles.
Deformable DETR
ai_model
Extension de DETR qui améliore la convergence et les performances pour la détection d'objets avec des Transformeurs.
Yi-34B
ai_model
Grand modèle de langage open-source développé par 01.AI, offrant des performances compétitives sur un large éventail de tâches.
Nomic AI Atlas
ai_model
Plateforme pour la cartographie, l'organisation et la visualisation de vastes collections d'embeddings de données textuelles ou d'images.
Coqui TTS
ai_model
Bibliothèque de synthèse vocale open-source avec de nombreux modèles pré-entraînés.
Character.AI
ai_model
Application et modèle permettant de créer et d'interagir avec des personnages IA.
DeepMotion Animate 3D
ai_model
Transforme des vidéos 2D en animations de personnages 3D réalistes.
SpeechBrain
ai_model
Boîte à outils tout-en-un pour le traitement de la parole.
OpenCLIP
ai_model
Implémentation open-source de CLIP, un modèle capable de comprendre des images et du texte en tandem.
DeepFill V2
ai_model
Un modèle de Google Brain pour la complétion d'images (inpainting) avec des résultats réalistes.
You.com Smart Search
ai_model
Intègre un LLM pour des réponses directes et des résumés lors de la recherche sur le web.
InternLM2
ai_model
Une suite de grands modèles de langage développée par le Shanghai AI Laboratory, avec des performances compétitives sur diverses tâches.
Perceiver IO
ai_model
Modèle multimodal de DeepMind capable de traiter divers types de données d'entrée flexibles.
DeepFace
ai_model
Un framework open-source pour la reconnaissance faciale basé sur le deep learning.
Perceiver AR
ai_model
Extensions du modèle Perceiver pour la génération autonome et multimodale.
SpeechBrain
ai_model
Plateforme unifiée et open-source pour développer des systèmes de traitement de la parole.
Stability AI DeepFloyd IF
ai_model
Modèle de génération d'images text-to-image de Stability AI, axé sur la cohérence visuelle et le photoréalisme.
Stable Video Diffusion (SVD)
ai_model
Modèle open-source de Stability AI pour générer des vidéos à partir de texte ou d'images.
InternLM
ai_model
Série de LLMs open-source de Shanghai AI Laboratory, axés sur la performance et l'efficacité.
Visual Question Answering (VQA)
ai_model
Cadre général d'IA qui répond à des questions sur le contenu d'une image en langage naturel.
Yi-VL (Vision-Language)
ai_model
Modèle multimodal de 01.AI combinant le LLM Yi avec des capacités de compréhension visuelle.
InstructPix2Pix
ai_model
Modèle qui édite des images à partir d'instructions textuelles, permettant des modifications précises.
BLOOM
ai_model
Grand modèle linguistique multilingue et open-source développé collectivement par la communauté BigScience.
Kandinsky 3.0
ai_model
Modèle de génération d'images texte-vers-image développé par SberAI, rivalisant avec les leaders.
Luma AI Dream Machine
ai_model
Modèle de Luma AI pour la génération de vidéos et la reconstruction 3D à partir d'images.
DeepFill v2
ai_model
Inpainting d'images avancé pour la suppression d'objets ou la complétion.
OpenAssistant Pythia
ai_model
Une famille de modèles de langage de grande taille entraînés sur des conversations d'assistants humains.
Jukebox
ai_model
Modèle génératif de OpenAI pour la musique avec des paroles cohérentes, dans divers styles et genres.
Tongyi Qianwen
ai_model
Modèle de langage large développé par Alibaba Cloud, offrant des capacités multilingues pour diverses tâches.
Microsoft Phi-3-mini
ai_model
Petit modèle de langage de Microsoft, optimisé pour les appareils et les performances.
FastChat (Vicuna)
ai_model
Plateforme open-source pour entraîner, déployer et évaluer des LLM, incluant le modèle Vicuna.
Jukebox (OpenAI)
ai_model
Modèle d'OpenAI générant de la musique avec paroles et styles variés.
Runway Gen-1
ai_model
Transforme des vidéos existantes avec des styles et des éléments de référence.
Pika Labs
ai_model
Plateforme de génération de vidéos à partir de texte et d'images, pour la création d'animations.
RVC (Retrieval-based Voice Conversion)
ai_model
Modèle de conversion de voix basé sur la récupération, permettant le changement de voix avec conservation de l'intonation.
OpenCLIP
ai_model
Réimplémentation open-source du modèle CLIP d'OpenAI, entraîné sur des données publiques pour l'alignement image-texte.
Orca 2
ai_model
Suite de modèles de Microsoft conçue pour le raisonnement et l'apprentissage de petits modèles avec des données synthétiques.
xAI Grok
ai_model
Modèle de langage de xAI (Elon Musk), avec un accès en temps réel à l'information via X.
AudioGen
ai_model
Modèle capable de générer de l'audio à partir de descriptions textuelles ou de compléter des audios existants.
DeepMotion Animate 3D
ai_model
Plateforme basée sur l'IA pour la capture de mouvement à partir de vidéos 2D.
OpenVINO
ai_model
Toolkit open-source d'Intel pour optimiser et déployer des modèles d'inférence d'IA sur le matériel Intel.
Gemma (2B/7B)
ai_model
Famille de modèles de langage légers et open-source de Google DeepMind, inspirés de Gemini.
Coqui XTTS-v2
ai_model
Modèle de synthèse vocale open-source de Coqui AI, spécialisé dans le zéro-shot clonage de voix multilingue.
Nomic AI GPT4All
ai_model
Collection de modèles LLM open-source exécutables localement sur des CPU à faible puissance.
Make-A-Video
ai_model
Modèle de Meta AI pour la génération de courtes vidéos à partir de prompts textuels.
DeepMotion
ai_model
Outil d'animation par IA qui convertit des vidéos 2D en animations 3D réalistes.
Whisper Tiny
ai_model
La plus petite version du modèle Whisper d'OpenAI, compacte et optimisée pour l'inférence locale.
Xception
ai_model
Architecture de réseau neuronal profond de Google utilisant des convolutions séparables en profondeur.
Meta Emu
ai_model
Génération et édition d'images et de vidéos par Meta.
Point·E
ai_model
Modèle d'OpenAI pour générer des nuages de points 3D à partir de descriptions textuelles.
Phi-3 Mini
ai_model
Petit modèle de langage de Microsoft, optimisé pour les déploiements locaux et edge devices.
Open Assistant
ai_model
Un assistant conversationnel open-source, basé sur le prompt engineering.
SAM (Semantic-aware Motion)
ai_model
Modèle pour la compréhension du mouvement sémantique et la prédiction dans les vidéos.
XGen-7B
ai_model
Modèle de langage de grande taille avec une fenêtre contextuelle étendue, optimisé pour la compréhension et la génération de code.
XGen Large Language Model
ai_model
Une famille de LLM open-source efficaces pour le Cloud AI.
Open Assistant
ai_model
Assistant conversationnel open-source, entraîné sur des données générées par la foule, visant à concurrencer les modèles propriétaires.
NeMo Guardrails (NVIDIA)
ai_model
Boîte à outils open-source pour ajouter des garde-fous aux applications LLM.
DeepMotion Animate 3D
ai_model
Outil basé sur l'IA pour la conversion automatique de vidéos 2D en animations 3D (motion capture).
OpenAI Jukebox
ai_model
Modèle de génération musicale de OpenAI, capable de créer de la musique avec paroles et instrumentation dans divers genres.
Jurassic-1 Jumbo
ai_model
Un grand modèle linguistique développé par AI21 Labs, compétitif avec d'autres LLM majeurs.
Perceiver
ai_model
Modèle unifié pour le traitement de données multimodales (texte, image, son) en réduisant la complexité.
Meta Llama (Original)
ai_model
Famille de modèles de langage open-source de Meta, conçus pour la recherche.
DeepFill V2
ai_model
Algorithme de deep learning pour l'inpainting d'images robuste, capable de combler des régions manquantes de manière cohérente.
Nomic AI Atlas
ai_model
Plateforme et modèle pour la cartographie, l'indexation et la visualisation de vastes ensembles de données d'embeddings.
FaceFormer
ai_model
Modèle pour animer des visages 3D en utilisant l'audio, permettant une synchronisation labiale réaliste.
Llama-X
ai_model
Dérivations expérimentales et affinées de Llama.
CogVideo
ai_model
Modèle de génération de vidéos text-to-video à partir de descriptions textuelles en chinois.
WarpDiff
ai_model
Modèle expérimental pour la génération de vidéos stylisées et cohérentes.
CogVideo
ai_model
Modèle de génération de vidéos text-to-video, développé par Zhipu AI.
Tu ne trouves pas ? Demande à l'IA