Modèles IA

Modèle IAPropriétaire (mais accès via Google Cloud et partenariats)

AlphaFold 3

ai_model

Modèle de DeepMind et Isomorphic Labs pour la prédiction de structures macromoléculaires biologiques.

Modèle IAAPI payante (basé sur l'utilisation)

GPT-4

ai_model

Modèle de langage large multimodal d'OpenAI, capable d'une compréhension et génération de texte et d'images sophistiquée.

Modèle IAGratuit (open-source pour la base de données)

DeepMind AlphaFold 2

ai_model

Modèle de DeepMind ayant résolu le problème du repliement des protéines.

5.0

Modèle IAGratuit (logiciel pour recherche, base de données librement accessible)

AlphaFold

ai_model

Modèle révolutionnaire de DeepMind pour la prédiction de la structure 3D des protéines à partir de leur séquence d'acides aminés.

Modèle IAPropriétaire (via API et Google Cloud)

Google Gemini Ultra

ai_model

Le modèle multimodal le plus puissant de la suite Gemini de Google.

Claude 4

★ Top

Modèle d'Anthropic axé sécurité et raisonnement long.

Modèle IAAPI payante (basé sur l'utilisation)

Claude 3 Opus

ai_model

Le modèle le plus performant de la famille Claude 3 d'Anthropic, excellant en raisonnement et compréhension.

GPT-5

★ Top

Modèle multimodal phare d'OpenAI.

Modèle IAAPI payante (via Google Cloud), Abonnement Google One AI Premium

Gemini Ultra

ai_model

Le modèle le plus avancé de Google DeepMind, conçu pour des tâches complexes et multimodalité supérieure.

Whisper v3

ai_model

La dernière itération du modèle de reconnaissance vocale multilingue de haute qualité d'OpenAI.

Hugging Face Transformers Library

ai_model

Bibliothèque open-source offrant des milliers de modèles pré-entraînés pour le NLP et la vision par ordinateur.

Mixtral 8x7B instruct

ai_model

Un modèle de langage open-source de Mixtral AI, grand et efficace, basé sur l'architecture Mixture-of-Experts.

Modèle IAGratuit (pour les modèles open-source), Services Pro/Enterprise

Hugging Face Hub (Models)

ai_model

Plateforme centralisée pour la distribution de milliers de modèles d'IA open-source pré-entraînés.

Modèle IAAPI payante, Abonnement

Claude 3 (Opus/Sonnet/Haiku)

ai_model

Famille de modèles d'Anthropic, réputés pour leur sécurité et leur haute performance.

ElevenLabs Voice AI

ai_model

Plateforme avancée de synthèse et de clonage de voix offrant des voix réalistes et expressives.

Whisper (OpenAI)

ai_model

Un modèle de reconnaissance vocale polyvalent capable de comprendre plusieurs langues.

Llama 3

ai_model

Famille de grands modèles de langage open-source de Meta AI, conçue pour la recherche et le développement.

Meta NLLB-200

ai_model

Modèle de traduction neuronale couvrant 200 langues sans passer par l'anglais.

Modèle IAGratuit (bibliothèque open-source), services cloud payants via Hugging Face Hub pour l'hébergement de modèles.

Hugging Face Transformers

ai_model

Bibliothèque open-source de modèles pré-entraînés pour le traitement du langage naturel, la vision par ordinateur et plus.

CLIP

ai_model

Modèle d'OpenAI qui apprend des représentations visuelles à partir du texte, permettant des requêtes zéro-shot.

Modèle IAInclus avec ChatGPT Plus/Enterprise

DALL-E 3

ai_model

Modèle de génération d'images d'OpenAI avec une intégration profonde à ChatGPT, produisant des images de haute qualité.

Whisper (OpenAI)

ai_model

Modèle de reconnaissance vocale multi-langue de haute qualité d'OpenAI.

Modèle IAPropriétaire (accès contrôlé)

Google Med-PaLM 2

ai_model

Un LLM spécialisé pour les applications médicales et de santé, développé par Google.

ControlNet

ai_model

Architecture de réseau neuronal pour contrôler les grands modèles de diffusion d'images avec des conditions supplémentaires.

Gemini 2.5 Pro

★ Top

Modèle multimodal de Google avec contexte massif.

Meta DINOv2

ai_model

Modèle d'apprentissage auto-supervisé de Meta pour la vision par ordinateur, sans étiquetage.

DeepMind AlphaCode 2

ai_model

Le modèle de DeepMind surpassant des compétiteurs humains en programmation algorithmique.

Meta Segment Anything

ai_model

Modèle de segmentation universelle d'images de Meta AI.

ImageBind

ai_model

Modèle de Meta qui lie différents modes sensoriels en un espace d'embeddings commun.

Segment Anything Model (SAM)

ai_model

Modèle de segmentation d'images de Meta capable de 'découper' n'importe quel objet d'une image.

Modèle IAFreemium (payant pour usage avancé)

ElevenLabs Voice AI

ai_model

Plateforme d'IA vocale pour la synthèse et le clonage de voix réalistes et expressives.

VALL-E

ai_model

Modèle TTS de Microsoft capable de générer de la parole avec la voix d'un locuteur après seulement 3 secondes d'audio.

Google Imagen

ai_model

Un modèle texte-vers-image photoréaliste de Google.

Modèle IAAPI-based

Wav2Vec 2.0

ai_model

Framework de représentation d'apprentissage auto-supervisé pour l'audio, spécialisé dans la reconnaissance vocale.

Modèle IAPropriétaire (via Google Cloud)

Google Chirp (Universal Speech Model)

ai_model

Le modèle de reconnaissance automatique de la parole de Google supportant plus de 300 langues.

Modèle IAGratuit (open-source), API payante

Whisper (OpenAI)

ai_model

Modèle de reconnaissance automatique de la parole (ASR) capable de transcrire l'audio en texte dans de nombreuses langues.

Segment Anything Model (SAM)

ai_model

Modèle de Meta AI capable de segmenter n'importe quel objet dans une image avec un seul clic.

Modèle IANon disponible publiquement (recherche)

Microsoft Florence-2

ai_model

Modèle multimodal puissant de Microsoft, capable de comprendre et de générer du texte et des images.

Midjourney

ai_model

Système de génération d'images basé sur Discord, réputé pour son esthétique artistique unique.

Modèle IAAbonnement

DeepMind AlphaCode

ai_model

Système d'IA de DeepMind capable de participer à des compétitions de programmation.

Modèle IAGratuit (open-source, implémentations)

NeRF (Neural Radiance Fields)

ai_model

Technique de rendu de scènes 3D à partir de plusieurs images 2D, créant des vues photoréalistes.

ElevenLabs (Text-to-Speech)

ai_model

Plateforme avancée de synthèse vocale et de clonage de voix, avec des voix très réalistes.

Modèle IAPayant (via API)

OpenAI Multimodal Embeddings

ai_model

Embeddings unifiés par OpenAI pour représenter le texte et l'image dans un espace commun.

Stable Diffusion (Original)

ai_model

Modèle open-source phare de génération d'images basé sur la diffusion.

Modèle IAAccès via des partenariats (Google Health)

Google Med-PaLM M

ai_model

Modèle multimodal de Google spécialisé dans les informations médicales et les données.

Google Lumiere

ai_model

Un modèle de génération vidéo unifié et réaliste de Google Research.

Falcon 180B

ai_model

Un grand modèle de langage open-source développé par le Technology Innovation Institute (TII) d'Abu Dhabi, avec 180 milliards de paramètres.

Modèle IANon public (recherche/SDK)

NVIDIA Neuralangelo

ai_model

Modèle de NVIDIA pour la reconstruction 3D photoréaliste d'objets ou de scènes à partir de vidéos 2D.

Modèle IAPay-as-you-go (API)

OpenAI GPT-3.5 Turbo

ai_model

Modèle de langage le plus populaire d'OpenAI, puissant et polyvalent pour diverses tâches textuelles.

YOLOv8

ai_model

Dernière version d'un modèle de détection d'objets en temps réel, connue pour sa vitesse et sa précision.

Stable Diffusion XL

ai_model

Modèle de texte-vers-image open-source pour la génération d'images haute résolution.

Mistral Large

ai_model

Grand modèle de langage propriétaire de Mistral AI, performant sur diverses tâches.

Google BERT

ai_model

Modèle de Google qui a révolutionné la compréhension du langage naturel.

Anthropic Claude 3.5 Sonnet

Large Language Model

Modèle d'IA de nouvelle génération offrant des performances améliorées en raisonnement, encodage et génération de contenu.

Modèle IAPaid

0.0

Stable Video Diffusion

ai_model

Modèle de génération vidéo open-source de Stability AI, créant des vidéos à partir d'images ou de texte.

Modèle IAAPI Pay as you go

Stable Diffusion XL Turbo

ai_model

Génération d'images en temps réel avec des performances accrues.

Perplexity AI Online Search

ai_model

Un moteur de recherche conversationnel basé sur l'IA fournissant des réponses sourcées.

Google Gemini API

IA / LLM

API officielle pour les modèles Gemini multimodaux.

WhisperX

ai_model

Extension de Whisper qui ajoute l'horodatage précis des mots et la diarization des locuteurs.

StyleGAN3

ai_model

Modèle de réseau génératif antagoniste de pointe (GAN) pour la génération d'images ultra-réalistes, avec une meilleure invariance de translation.

Modèle IAGratuit (open-source), versions cloud payantes

Stable Diffusion XL

ai_model

Modèle de génération d'images open-source de Stability AI, produisant des visuels haute qualité à partir de texte.

Databricks DBRX

ai_model

Un modèle MoE de Databricks, conçu pour la performance et le coût-efficacité.

Google Chirp

ai_model

Modèle de reconnaissance vocale de Google, supportant plus de 300 langues avec une précision élevée.

DeepMind Flamingo

ai_model

Un modèle multimodal de DeepMind qui intègre la vision et le langage.

SeamlessM4T

ai_model

Modèle multimodal de Meta AI pour la traduction vocale et textuelle transparente et multilingue.

Mistral 7B

ai_model

Modèle de langage open-source compact mais performant de Mistral AI.

OpenPose

ai_model

Détection en temps réel des poses humaines (corps, visage, mains) à partir d'images/vidéos.

Stability AI Clipdrop

ai_model

Suite d'outils basés sur l'IA pour l'édition et la génération d'images, incluant des fonctionnalités uniques.

Google Gemini Pro

ai_model

Version de Gemini optimisée pour les développeurs et les applications courantes, avec des capacités multimodales.

Modèle IAGratuit (open-source), services cloud payants

Mixtral 8x7B

ai_model

Modèle de langage sparse open-source de Mistral AI, offrant des performances élevées avec une efficacité accrue.

Modèle IABeta privée, futur abonnement

RunwayML Gen-3 Alpha

ai_model

Modèle de génération vidéo avancé de RunwayML, visant le réalisme et le contrôle.

Meta Segment Anything Model (SAM)

ai_model

Modèle de segmentation d'images universelle, capable d'identifier tous les objets dans une image.

DeepMind Gato

ai_model

Un agent multimodal de DeepMind capable de performancer sur une multitude de tâches.

Coqui XTTS-v2

ai_model

Modèle de synthèse vocale text-to-speech multilingue, zero-shot et multilocuteur, pour le clonage de voix.

DreamMachine

ai_model

Un modèle puissant pour la génération de vidéos à partir de texte ou d'images.

Modèle IAPay-as-you-go (Google Cloud API)

Google Imagen 2

ai_model

Modèle de génération d'images de Google qui excelle dans le photoréalisme.

Meta SeamlessM4T

ai_model

Modèle multimodal de Meta pour la traduction et la transcription speech-to-speech et speech-to-text dans de nombreuses langues.

Modèle IARecherche uniquement (pas d'API publique)

Microsoft VALL-E

ai_model

Modèle de synthèse vocale de Microsoft capable de cloner des voix à partir de courts échantillons.

Modèle IAOpen-source (base) + Services tiers

Whisper (fine-tuned)

ai_model

Des versions fine-tunées du modèle Whisper d'OpenAI pour des domaines spécifiques ou des langues.

StyleGAN3

ai_model

La troisième génération des architectures StyleGAN de NVIDIA pour une synthèse d'images haute résolution sans artefacts.

InstructPix2Pix

ai_model

Modèle d'édition d'image par instruction, modifiant des images à l'aide de commandes textuelles.

XLSR-53

ai_model

Modèle de reconnaissance vocale interlingue basé sur Wav2Vec 2.0, entraîné sur 53 langues.

CoDi

ai_model

Modèle multimodal qui génère des sorties cohérentes à partir de diverses entrées : texte, audio, image, vidéo.

Modèle IAPay-as-you-go (Google Cloud API)

Google Gemini Pro Vision

ai_model

Version multimodale de Gemini Pro, capable d'analyser des images et du texte.

Mistral AI Codestral

Code Generation AI

Modèle de langage spécialisé dans la génération et la complétion de code, supportant plus de 80 langages de programmation.

0.0

Modèle IAGratuit (données et logiciel)

Common Voice

ai_model

Un projet open source de Mozilla pour la collecte de données vocales multilingues.

NVIDIA NeMo Framework

ai_model

Cadre open-source de NVIDIA pour la construction, l'entraînement et le déploiement de LLMs.

StyleGAN-XL

ai_model

Génération d'images haute résolution et haute fidélité avec contrôle sémantique accru.

VALL-E

ai_model

Un modèle de synthèse vocale de Microsoft capable de générer de la parole personnalisée avec seulement quelques secondes d'échantillon.

Modèle IAPayant (à l'usage)

Replicate

ai_model

Plateforme qui permet aux développeurs de faire tourner plus de 100 000 modèles d'IA pré-entraînés via une API simple ou de partager les siens.

CLIP (OpenAI)

ai_model

Modèle multimodal d'OpenAI qui relie texte et images.

NVIDIA NeMo

ai_model

Boîte à outils de développement pour la parole, le texte et les modèles multimodaux de NVIDIA.

Modèle IAGratuit (open-source), via API OpenAI payante

Whisper

ai_model

Système de reconnaissance vocale polyvalent d'OpenAI, entraîné sur un large ensemble de données audio multilingues.

PaLM 2

ai_model

Grand modèle linguistique de Google pour une large gamme de tâches conversationnelles et textuelles.

Meta Llama 3.1

Large Language Model

Nouvelle itération des modèles open-source Llama de Meta, offrant des performances améliorées et de nouvelles tailles.

0.0

Modèle IAPay-as-you-go (API)

Anthropic Claude 3 Haiku

ai_model

Modèle LLM rapide et rentable d'Anthropic, axé sur la sûreté et la performance.

Open-interpreter

ai_model

Interpréteur de langage AI open-source qui exécute du code, accède à des fichiers et utilise des API.

PaLM 2

ai_model

Modèle de langage large de Google, successeur de LaMDA et PaLM, optimisé pour le multilingue et le raisonnement.

Modèle IAGratuit (en phase d'accès anticipé)

DreamMachine

ai_model

Modèle de génération de vidéos text-to-video rapide et cohérent.

Common Voice

ai_model

Dataset vocal multilingue et open-source de Mozilla pour l'entraînement de la reconnaissance vocale.

Meta Voicebox

ai_model

Modèle de génération vocale polyvalent de Meta, capable de synthèse, d'édition et de stylisation vocale.

Llama 2

ai_model

Suite de grands modèles de langage open-source de Meta AI, optimisés pour le dialogue.

Bark

ai_model

Modèle de génération de parole par Suno AI, capable de produire du discours réaliste et non-linguistique.

VoyageEmbeddings

ai_model

Modèles d'embeddings de Voyage AI optimisés pour la recherche sémantique et le RAG.

Modèle IAGratuit via recherche open-source

ImageBind

ai_model

Modèle de Meta AI qui apprend un espace d'intégration unifié entre six modalités différentes.

Modèle IAFreemium (Nano, Pro), Abonnement (Advanced)

Google Gemini (Nano/Pro/Advanced)

ai_model

Famille de modèles multimodaux de Google, allant de très légers à très performants.

InstructBLIP

ai_model

Modèle de vision-langage multimodal basé sur BLIP-2, capable de suivre des instructions pour des tâches visuelles.

Llama 3 (8B/70B)

ai_model

Famille de grands modèles de langage open-source de Meta, offrant diverses tailles de paramètres.

Cohere Embed

ai_model

Génère des représentations vectorielles de texte pour une variété de tâches NLP.

Modèle IAPay-as-you-go

Falcon 180B

ai_model

Grand modèle de langage open-source des Émirats arabes unis, compétitif face aux modèles propriétaires.

XGBoost

ai_model

Implémentation optimisée d'arbres de décision boostés par gradient, largement utilisée en data science.

Code Llama

ai_model

Version de Llama de Meta AI optimisée pour la génération et la complétion de code.

Modèle IAPay-as-you-go (API)

Mistral Medium

ai_model

Modèle de langage puissant de Mistral AI, avec de fortes capacités de raisonnement.

Stable Diffusion 2.1

ai_model

Version améliorée d'un modèle de génération d'images open-source populaire, avec des capacités accrues.

SeamlessM4T Plus (Meta)

ai_model

Système multimodal de traduction et de reconnaissance vocale prenant en charge de nombreuses langues.

Modèle IAOpen source / Self-hosted

Llama 3.3

Modèle open weights de Meta.

Modèle IAGratuit (code open-source via NVIDIA)

StyleGAN3

ai_model

Modèle GAN de NVIDIA pour la génération d'images ultra-réalistes, particulièrement des visages humains.

Modèle IAPropriétaire (utilisé dans Google products)

WaveNet

ai_model

Modèle de DeepMind pour la génération de parole ultra-réaliste.

DreamMachine

ai_model

Modèle d'IA de Luma Labs pour la génération de vidéos hyper-réalistes en temps réel.

Modèle IAGratuit (versions open source) / Payant (API)

Qwen (Tongyi Qianwen)

ai_model

Modèles de langage (LLM) et multimodaux développés par Alibaba Cloud, avec des versions open source disponibles.

InstructPix2Pix

ai_model

Modèle d'édition d'images qui utilise des instructions textuelles pour modifier des images existantes.

Mistral Large

Modèle phare français de Mistral AI.

InternLM2

ai_model

Modèle de langage de pointe développé par Shanghai AI Laboratory, avec des capacités multilingues.

Modèle IAGratuit (open-source), versions cloud payantes

Qwen (Tongyi Qianwen)

ai_model

Famille de grands modèles de langage open-source d'Alibaba Cloud, avec un focus sur la langue chinoise.

Cohere Command R+

ai_model

Modèle de langage large optimisé pour le RAG (Retrieval-Augmented Generation) et les entreprises.

RunwayML Gen-2

ai_model

Modèle de génération de vidéo de RunwayML, capable de créer des vidéos à partir de texte, d'images ou d'autres vidéos.

Vision Transformer (ViT)

ai_model

Modèle d'apprentissage profond qui applique l'architecture Transformer aux tâches de vision par ordinateur.

MusicGen

ai_model

Modèle de génération de musique de Meta, produisant des morceaux à partir de descriptions textuelles ou mélodiques.

Modèle IAAPI via Google AI Studio

LaMDA

ai_model

Modèle conversationnel de Google conçu pour des dialogues ouverts et naturels.

Modèle IAAPI Google, non direct (recherche)

MUSE

ai_model

Modèle de Google de génération d'images texte-vers-image basé sur des transformeurs masqués, rapide et de haute qualité.

Orca 2

ai_model

Modèles de langage de petite taille de Microsoft, optimisés pour le raisonnement.

Meta AnyMAL

ai_model

Modèle multimodal de Meta AI capable de comprendre le langage, l'audio et la vision.

InstructBLIP

ai_model

Modèle multimodal qui connecte les LLM avec la compréhension visuelle pour des instructions complexes.

CodeLlama

ai_model

Famille de grands modèles de langage de Meta AI spécialisés dans le code.

Deepgram Nova

ai_model

API de transcription vocale avancée avec reconnaissance contextuelle et personnalisable.

Modèle IAPay as you go

Google MusicLM

ai_model

Génération de musique conditionnée par des descriptions textuelles.

MegaPose

ai_model

Estimations de pose 6D d'objets multiples en temps réel.

Modèle IAOpen Source (framework)

Megatron-LM

ai_model

Un framework de NVIDIA pour l'entraînement à grande échelle de modèles Transformer.

Modèle IAOpen Source (recherche)

InstructBLIP

ai_model

Un grand modèle de langage et de vision (LVLMs) qui suit les instructions pour diverses tâches multimodales.

Magic3D

ai_model

Un modèle de NVIDIA pour la synthèse de maillages 3D de haute qualité à partir de descriptions textuelles.

Meta Emu

ai_model

Famille de modèles multimodaux de Meta AI pour la génération rapide d'images et l'édition guidée par texte.

Pika Labs

ai_model

Une plateforme de génération vidéo IA basée sur le texte ou l'image, axée sur la créativité et la facilité d'utilisation.

Nvidia Riva

ai_model

Framework de NVIDIA pour la construction de services vocaux conversationnels par IA haute performance.

Meta LLaMA-2-70B-Chat

ai_model

La plus grande variante de LLaMA 2, fine-tunée pour les dialogues et les interactions conversationnelles.

BLIP-2

ai_model

Modèle multimodal performant combinant des modèles de vision et de langage pour l'alignement image-texte, avec des LLM zero-shot.

Modèle IAPay-as-you-go (Google Cloud API)

Google PaLM 2

ai_model

Grande famille de modèles de langage de Google, excelle en raisonnement et multilingue.

YOLOv8

ai_model

La dernière itération de la famille de modèles 'You Only Look Once' pour la détection d'objets en temps réel.

Modèle IA99€/mois (estimation développeur)

Riva (NVIDIA)

ai_model

SDK d'IA conversationnelle pour le déploiement de services de voix et de texte en temps réel sur GPU.

Runway Gen-2

ai_model

Modèle phare de RunwayML pour la génération de vidéos à partir de texte, d'images ou d'autres vidéos.

Megapose

ai_model

Un modèle open-source pour l'estimation de pose 6D d'objets, utilisé en robotique et AR.

Stable Cascade

ai_model

Modèle de génération d'images basé sur des réseaux de diffusion en cascade, offrant un contrôle fin et une haute qualité.

Modèle IAAPI Pay as you go

Google PaLM

ai_model

Modèle de langage Pathway à grande échelle de Google AI.

Hugging Face Zero-Shot Image Classification

ai_model

Modèle permettant de classer des images sans exemples préalables pour une nouvelle catégorie.

Modèle IAPropriétaire (recherche, non commercialisé directement)

AudioLM

ai_model

Modèle de génération audio de Google DeepMind capable de synthétiser des séquences de parole et de musique.

SoundStorm

ai_model

Modèle de Google AI pour la synthèse audio haute fidélité à partir de texte.

AudioCraft (Meta)

ai_model

Cadre de Meta pour la génération de musique et d'audio à partir de texte.

Bard (Google)

ai_model

Agent conversationnel IA de Google, alimenté par la famille PaLM 2 et Gemini Pro.

Coqui XTTS

ai_model

Un modèle de synthèse vocale multi-locuteurs et multilingue à faible latence, avec clonage de voix.

Whisper Tiny

ai_model

Une version légère et rapide du modèle Whisper d'OpenAI.

CoPilot (GitHub)

ai_model

Assistant de programmation basé sur l'IA qui suggère du code en temps réel.

Modèle IA10$/mois

Sun-o

ai_model

Modèle d'IA générative de musique à partir de texte, capable de créer des chansons complètes.

Modèle IABasé sur l'utilisation (Nvidia Cloud services)

Nvidia Picasso

ai_model

Service cloud de Nvidia pour la création de contenu 3D génératif et d'images.

Modèle IAGratuit (code open-source)

Megatron-LM

ai_model

Un projet de recherche collaboratif pour entraîner des LLM massifs avec des centaines de milliards de paramètres.

RVC (Retrieval-based Voice Conversion)

ai_model

Framework open-source de conversion de voix basé sur la récupération, pour le clonage et le transfert de voix.

AudioGen

ai_model

Modèle de génération audio conditionnelle, créant des sons et du bruit à partir de texte.

Modèle IAPropriétaire (utilisé dans Google Assistant)

WaveNet

ai_model

Modèle génératif de DeepMind pour la synthèse vocale très réaliste utilisant des réseaux convolutifs.

Meta AudioCraft

ai_model

Suite de modèles de Meta pour générer de l'audio et de la musique à partir de texte.

Modèle IAGratuit (open-source), nécessite des ressources pour le déploiement

WhisperX

ai_model

Extension de Whisper pour une transcription audio plus précise avec alignement temporel.

Make-A-Video (Meta)

ai_model

Modèle de Meta AI pour la génération de vidéos à partir de texte, démontrant la puissance de la diffusion textuelle.

Coqui XTTS

ai_model

Génération de voix multilingue de haute qualité avec clonage et contrôle émotionnel.

Coqui XTTS

ai_model

Un modèle de synthèse vocale multi-locuteurs et multilingue à faible latence, avec clonage de voix.

Modèle IAOpen Source (recherche)

Audiogen

ai_model

Modèle de Meta AI pour la génération de musique basée sur des descriptions textuelles.

Magic3D

ai_model

Modèle de NVIDIA pour générer des modèles 3D haute qualité à partir de texte.

Chinchilla

ai_model

Un modèle de langage de petite taille optimisé pour l'efficacité avec plus de données.

DeepFace

ai_model

Système de reconnaissance faciale de Facebook (Meta AI).

Modèle IAGratuit (open-source), modèles pré-entraînés disponibles

T5 (Text-to-Text Transfer Transformer)

ai_model

Modèle de Google qui formule toutes les tâches NLP comme des tâches texte-à-texte.

MPT-7B

ai_model

Un puissant modèle de langage développé par MosaicML, optimisé pour l'entraînement et l'inférence.

Stable Audio

ai_model

Modèle de Stable AI pour la génération audio réaliste à partir de texte.

Modèle IAAPI-based

Modèle IAGratuit (démo disponible)

Nvidia GauGAN2

ai_model

Modèle de Nvidia pour la création d'images à partir de croquis ou de descriptions textuelles.

Deformable DETR

ai_model

Extension de DETR qui améliore la convergence et les performances pour la détection d'objets avec des Transformeurs.

Yi-34B

ai_model

Grand modèle de langage open-source développé par 01.AI, offrant des performances compétitives sur un large éventail de tâches.

Nomic AI Atlas

ai_model

Plateforme pour la cartographie, l'organisation et la visualisation de vastes collections d'embeddings de données textuelles ou d'images.

Coqui TTS

ai_model

Bibliothèque de synthèse vocale open-source avec de nombreux modèles pré-entraînés.

Character.AI

ai_model

Application et modèle permettant de créer et d'interagir avec des personnages IA.

DeepMotion Animate 3D

ai_model

Transforme des vidéos 2D en animations de personnages 3D réalistes.

SpeechBrain

ai_model

Boîte à outils tout-en-un pour le traitement de la parole.

OpenCLIP

ai_model

Implémentation open-source de CLIP, un modèle capable de comprendre des images et du texte en tandem.

DeepFill V2

ai_model

Un modèle de Google Brain pour la complétion d'images (inpainting) avec des résultats réalistes.

You.com Smart Search

ai_model

Intègre un LLM pour des réponses directes et des résumés lors de la recherche sur le web.

InternLM2

ai_model

Une suite de grands modèles de langage développée par le Shanghai AI Laboratory, avec des performances compétitives sur diverses tâches.

Modèle IAPropriétaire (recherche, non commercialisé directement)

Perceiver IO

ai_model

Modèle multimodal de DeepMind capable de traiter divers types de données d'entrée flexibles.

DeepFace

ai_model

Un framework open-source pour la reconnaissance faciale basé sur le deep learning.

Perceiver AR

ai_model

Extensions du modèle Perceiver pour la génération autonome et multimodale.

SpeechBrain

ai_model

Plateforme unifiée et open-source pour développer des systèmes de traitement de la parole.

Stability AI DeepFloyd IF

ai_model

Modèle de génération d'images text-to-image de Stability AI, axé sur la cohérence visuelle et le photoréalisme.

Stable Video Diffusion (SVD)

ai_model

Modèle open-source de Stability AI pour générer des vidéos à partir de texte ou d'images.

InternLM

ai_model

Série de LLMs open-source de Shanghai AI Laboratory, axés sur la performance et l'efficacité.

Modèle IAGratuit (nombreuses implémentations open-source)

Visual Question Answering (VQA)

ai_model

Cadre général d'IA qui répond à des questions sur le contenu d'une image en langage naturel.

Yi-VL (Vision-Language)

ai_model

Modèle multimodal de 01.AI combinant le LLM Yi avec des capacités de compréhension visuelle.

Modèle IAGratuit (open-source, recherche)

InstructPix2Pix

ai_model

Modèle qui édite des images à partir d'instructions textuelles, permettant des modifications précises.

BLOOM

ai_model

Grand modèle linguistique multilingue et open-source développé collectivement par la communauté BigScience.

Modèle IAGratuit (open-source), Via API SberAI

Kandinsky 3.0

ai_model

Modèle de génération d'images texte-vers-image développé par SberAI, rivalisant avec les leaders.

Modèle IAFreemium (accès beta)

Luma AI Dream Machine

ai_model

Modèle de Luma AI pour la génération de vidéos et la reconstruction 3D à partir d'images.

DeepFill v2

ai_model

Inpainting d'images avancé pour la suppression d'objets ou la complétion.

OpenAssistant Pythia

ai_model

Une famille de modèles de langage de grande taille entraînés sur des conversations d'assistants humains.

Modèle IANon disponible au public (recherche OpenAI)

Jukebox

ai_model

Modèle génératif de OpenAI pour la musique avec des paroles cohérentes, dans divers styles et genres.

Tongyi Qianwen

ai_model

Modèle de langage large développé par Alibaba Cloud, offrant des capacités multilingues pour diverses tâches.

Modèle IAAccès via Azure AI Studio

Microsoft Phi-3-mini

ai_model

Petit modèle de langage de Microsoft, optimisé pour les appareils et les performances.

FastChat (Vicuna)

ai_model

Plateforme open-source pour entraîner, déployer et évaluer des LLM, incluant le modèle Vicuna.

Jukebox (OpenAI)

ai_model

Modèle d'OpenAI générant de la musique avec paroles et styles variés.

Runway Gen-1

ai_model

Transforme des vidéos existantes avec des styles et des éléments de référence.

Pika Labs

ai_model

Plateforme de génération de vidéos à partir de texte et d'images, pour la création d'animations.

RVC (Retrieval-based Voice Conversion)

ai_model

Modèle de conversion de voix basé sur la récupération, permettant le changement de voix avec conservation de l'intonation.

OpenCLIP

ai_model

Réimplémentation open-source du modèle CLIP d'OpenAI, entraîné sur des données publiques pour l'alignement image-texte.

Orca 2

ai_model

Suite de modèles de Microsoft conçue pour le raisonnement et l'apprentissage de petits modèles avec des données synthétiques.

Modèle IAIntégré à l'abonnement X Premium+

xAI Grok

ai_model

Modèle de langage de xAI (Elon Musk), avec un accès en temps réel à l'information via X.

Modèle IAGratuit via recherche open-source

AudioGen

ai_model

Modèle capable de générer de l'audio à partir de descriptions textuelles ou de compléter des audios existants.

Modèle IAFreemium (payant pour usage avancé)

DeepMotion Animate 3D

ai_model

Plateforme basée sur l'IA pour la capture de mouvement à partir de vidéos 2D.

OpenVINO

ai_model

Toolkit open-source d'Intel pour optimiser et déployer des modèles d'inférence d'IA sur le matériel Intel.

Gemma (2B/7B)

ai_model

Famille de modèles de langage légers et open-source de Google DeepMind, inspirés de Gemini.

Coqui XTTS-v2

ai_model

Modèle de synthèse vocale open-source de Coqui AI, spécialisé dans le zéro-shot clonage de voix multilingue.

Nomic AI GPT4All

ai_model

Collection de modèles LLM open-source exécutables localement sur des CPU à faible puissance.

Make-A-Video

ai_model

Modèle de Meta AI pour la génération de courtes vidéos à partir de prompts textuels.

DeepMotion

ai_model

Outil d'animation par IA qui convertit des vidéos 2D en animations 3D réalistes.

Whisper Tiny

ai_model

La plus petite version du modèle Whisper d'OpenAI, compacte et optimisée pour l'inférence locale.

Modèle IAGratuit (open-source, frameworks)

Xception

ai_model

Architecture de réseau neuronal profond de Google utilisant des convolutions séparables en profondeur.

Meta Emu

ai_model

Génération et édition d'images et de vidéos par Meta.

Point·E

ai_model

Modèle d'OpenAI pour générer des nuages de points 3D à partir de descriptions textuelles.

Modèle IAGratuit (open-source), via Azure

Phi-3 Mini

ai_model

Petit modèle de langage de Microsoft, optimisé pour les déploiements locaux et edge devices.

Open Assistant

ai_model

Un assistant conversationnel open-source, basé sur le prompt engineering.

Modèle IANon spécifié (recherche)

SAM (Semantic-aware Motion)

ai_model

Modèle pour la compréhension du mouvement sémantique et la prédiction dans les vidéos.

XGen-7B

ai_model

Modèle de langage de grande taille avec une fenêtre contextuelle étendue, optimisé pour la compréhension et la génération de code.

XGen Large Language Model

ai_model

Une famille de LLM open-source efficaces pour le Cloud AI.

Open Assistant

ai_model

Assistant conversationnel open-source, entraîné sur des données générées par la foule, visant à concurrencer les modèles propriétaires.

NeMo Guardrails (NVIDIA)

ai_model

Boîte à outils open-source pour ajouter des garde-fous aux applications LLM.

Modèle IAFreemium (crédits)

DeepMotion Animate 3D

ai_model

Outil basé sur l'IA pour la conversion automatique de vidéos 2D en animations 3D (motion capture).

Modèle IANon disponible publiquement (recherche)

OpenAI Jukebox

ai_model

Modèle de génération musicale de OpenAI, capable de créer de la musique avec paroles et instrumentation dans divers genres.

Jurassic-1 Jumbo

ai_model

Un grand modèle linguistique développé par AI21 Labs, compétitif avec d'autres LLM majeurs.

Modèle IAGratuit via projets de recherche open-source

Perceiver

ai_model

Modèle unifié pour le traitement de données multimodales (texte, image, son) en réduisant la complexité.

Meta Llama (Original)

ai_model

Famille de modèles de langage open-source de Meta, conçus pour la recherche.

Modèle IAGratuit (open-source, recherche)

DeepFill V2

ai_model

Algorithme de deep learning pour l'inpainting d'images robuste, capable de combler des régions manquantes de manière cohérente.

Nomic AI Atlas

ai_model

Plateforme et modèle pour la cartographie, l'indexation et la visualisation de vastes ensembles de données d'embeddings.

FaceFormer

ai_model

Modèle pour animer des visages 3D en utilisant l'audio, permettant une synchronisation labiale réaliste.

Llama-X

ai_model

Dérivations expérimentales et affinées de Llama.

Modèle IAGratuit (open-source, recherche)

CogVideo

ai_model

Modèle de génération de vidéos text-to-video à partir de descriptions textuelles en chinois.

WarpDiff

ai_model

Modèle expérimental pour la génération de vidéos stylisées et cohérentes.

CogVideo

ai_model

Modèle de génération de vidéos text-to-video, développé par Zhipu AI.