[ Leggi dalla fonte originale]
DeepSeek non ha solo lanciato il modello di linguaggio di grandi dimensioni del momento, ma, nel pieno di una serie di attacchi informatici, anche una serie di modelli di intelligenza artificiale per la creazione di immagini.
Al momento i server dell’azienda sono infatti sotto attacco, il che implica un rallentamento nella fase di registrazione sulla piattaforma.
Ma tutto questo non ha frenato l’esplosione dei modelli IA dell’azienda. Se infatti DeepSeek-R1 ieri ha sconvolto le borse mondiali con la sua combinazione di alta efficienza, costi di esercizio bassissimi e apertura alla comunità open source, ora il nuovo modello Janus-Pro prende di mira anche DALL-E 3 e Stable Diffusion.
Rilasciati ieri su Hugging Face e GitHub, i modelli sarebbero in grado, secondo DeepSeek, di superare i modelli di Google e OpenAI.
Janus-Pro è descritto come un “nuovo framework autoregressivo” in grado di analizzare e creare nuove immagini ed è disponibile con dimensioni da 1 a 7 miliardi di parametri (più parametri corrispondono grossolanamente a una migliore capacità di risolvere i problemi).
Secondo l’azienda, su due benchmark di valutazione dell’IA, GenEval e DPG-Bench, il più grande modello Janus-Pro, Janus-Pro-7B, batte DALL-E 3 così come PixArt-alpha, Emu3-Gen e Stable Diffusion XL.
Certo, sono solo benchmark, e il confronto con Stable Diffusion è stato fatto con versioni vecchie del modello, ma le affermazioni sono ambiziose. Ma come si comporta nella realtà?
Tutti possiamo provarlo, in quanto i modelli sono disponibili a tutti e rilasciati sotto licenza MIT. Per farlo, basta andare su Hugging Face a questo indirizzo, scorrere in basso e cliccare su Chat with Janus-Pro-7B. Qui scorrete verso il basso e arrivate alla sezione Text-to-Image Generation.
Vale la pena notare che ci sono alcuni limiti: è possibile caricare immagini solo fino a 384 x 384 pixel, mentre la dimensione dell’output è limitata a 768 x 768 pixel.
Per quanto riguarda la qualità delle immagini, è un po’ un terno al lotto.
Qui sotto abbiamo generato un’immagine di una casa in stile Edward Hopper. La prima immagine è generata da Janus-Pro, la seconda da Flux.1. Janus presenta alcuni problemi e deformazioni evidenti.
Va peggio con la generazione di testo. Qui sotto potete vedere, nell’ordine, Janus Pro, Flux.1 e ChatGPT (DALL-E 3). Il modello di DeepSeek ha evidenti problemi, ma secondo DeepSeek è molto migliorato rispetto al predecessore, quindi c’è ampio spazio di miglioramento.
Nel complesso, il modello sembra promettente, ma c’è ancora del lavoro da fare.