Chaque modele a son dialecte. On les parle tous.
Le roi du photorealisme.
Flux 1.1 Pro est le modele phare de Black Forest Labs. C'est celui qu'on utilise quand le brief dit 'fais-le realiste'. Exceptionnel pour l'eclairage naturel, les textures de peau, et les scenes complexes multi-sujets. Le dialecte de prompt est propre et descriptif - zero token special.
Toujours le plus onirique.
Midjourney v7 genere des images avec une qualite picturale que personne n'a vraiment reussi a copier. Cinematique, legerement surrealiste, compositionnellement sur. Le modele a sa propre empreinte esthetique - exploite-la.
La coherence de personnages qui marche vraiment.
Nano Banana Pro est le modele pour tout ce qui implique des personnages coherents sur plusieurs shots. Architecture Google, ca se voit - suivi d'instructions exceptionnel, traits du visage constants, rendu de typographie solide.
Open source et vraiment bon maintenant.
Stable Diffusion 3.5 Large tient enfin la promesse de la generation d'image open source. Lance-le en local, fine-tune-le, merge-le. Le dialecte de prompt a beaucoup evolue depuis SD1.5 - prompts courts avec structure sujet-en-premier.
Video sans le flou de mouvement habituel.
Seedance 2 de ByteDance est le modele de generation video le plus controlable qu'on ait teste. Les mouvements de camera suivent les instructions de facon fiable, le mouvement est fluide sans cette qualite floue IA, et les clips 5-10 secondes tiennent narrativement.
Le modele video cinematique de Google.
Veo 3.1 est le modele de generation video de Google DeepMind et il produit des images vraiment cinematiques. L'eclairage est exceptionnel, le mouvement humain est naturel, et le modele gere des transitions de scene complexes. Le format de prompt emprunte a l'ecriture de scenarios.