Il parco modelli Google si arricchisce: arriva Gemini Embedding 2

16 marzo 2026di FakeJack· 3 min di lettura

Il parco modelli Google si arricchisce: arriva Gemini Embedding 2

Qual è la notizia

La scorsa settimana Google ha rilasciato in anteprima il nuovo modello di embedding, Gemini Embedding 2.

Si tratta del primo modello di embedding di casa Google ad essere nativamente multimodale. Questo significa che informazioni testuali, file audio, immagini e video condivideranno lo stesso embedding space, evitando processi di trasformazione intermedi nella pipeline di ingestion durante la vettorializzazione.

Si tratta senza dubbio di un avanzamento importantissimo, non solo per la maggior precisione e qualità dei dati, ma anche per l'ottimizzazione dei costi e la maggiore precisione nella ricerca delle informazioni semantiche. La modalità di input interlacciato permette inoltre di affiancare informazioni semantiche a diversi tipi di file multimediali.

Attualmente è possibile già testare il nuovo modello via Gemini API e Vertex AI, all'interno quindi dell'ecosistema Google; è inoltre compatibile con alcune tecnologie esistenti tra cui LangChain, LlamaIndex, Weaviate, QDrant, ChromaDB.

TLDR;

Gli aggiornamenti portati dal nuovo modello di embedding di Google, introducono diversi miglioramenti non solo nella qualità dei dati elaborati ma anche nel sistema di ingestion stesso, oltre a rendere nativo il supporto a media differenti.

La pipeline di ingestion

L'ingestion è il processo attraverso il quale i modelli di embedding riescono a tradurre (vettorializzare) un tipo di dato, da una semplice stringa di testo ad un file più complesso, in un vettore; una rappresentazione di dato "comprensibile" ai modelli LLM e utilizzabile quindi in query di ricerca (retrieval semantico).

Gemini Embedding 2, grazie al supporto nativo esteso a più tipi di file multimediale, ottimizza il processo di ingestion destinando le informazioni in un unico embedding space: i vantaggi non riguardano solo le performance, ma anche la precisione semantica.

Embedding space condiviso

La vera novità di questo spazio condiviso risiede nel fatto che è possibile affiancare informazioni contestuali specifiche a diversi file multimediali: associando, ad esempio, alla parola "cane" l'immagine di una specifica razza, quella rappresentazione di immagine del cane e la parola "cane" avranno coordinate vicinissime all'interno della stesso spazio vettoriale condiviso.

Il supporto nativo esteso inoltre, permette di migliorare la precisione dei vettori durante tutta la pipeline di ingestion. Normalmente infatti, per file multimediali complessi era necessario passare per step intermedi (OCR per immagini o STT per file audio, ad esempio) che traducessero i dati originali in un formato comprensibile al processo di vettorializzazione prima di essere sequenziati in un database, andando ad introdurre fattori di imprecisione come il "loss in translation" (perdita di informazioni durante la conversione da un formato all'altro). Passare tutto direttamente allo stato vettoriale senza la "traduzione testuale" intermedia azzera questa dispersione semantica, riduce la latenza e abbassa drasticamente i costi.

Oltre a testo, audio, immagini e video, il modello è stato esplicitamente addestrato per mappare i documenti complessi (come i PDF) all'interno dello stesso spazio vettoriale, migliorando drasticamente il supporto e la precisione per questo tipo di file.

Allenamento semantico multilingua

Lo spazio di embedding non allinea solo diverse modalità (audio e video), ma è in grado di catturare l'intento semantico in oltre 100 lingue.

Se ad esempio vettorializzassimo un documento in italiano e viene effettuata una query di ricerca in giapponese, il modello troverà comunque la corrispondenza vettoriale.

"Matryoshka" (MRL - Matryoshka Representation Learning)

Di default, Gemini Embedding 2 genera un vettore lunghissimo, a 3072 dimensioni. Grazie alla tecnica MRL, le informazioni più importanti sono "concentrate" nelle prime dimensioni del vettore (proprio come le bambole matrioska più piccole sono contenute all'interno di quelle grandi). Questo permette agli sviluppatori di "troncare" il vettore (ad esempio scendendo a 768 dimensioni) senza doverlo ricalcolare da capo, mantenendo quasi intatto il significato semantico.

Limiti e prezzi

Gemini Embedding 2 ha capacità di ingestione precise per ogni chiamata API:

Testo: Fino a 8.192 token di contesto massimo.
Documenti: 1 documento per prompt, per un massimo di 6 pagine.
Immagini: Fino a 6 immagini elaborabili in una singola richiesta.
Video: Supporta file video fino a 120 secondi di durata se privi di traccia audio, oppure fino a 80 secondi se comprensivi di audio.

Di seguito, i costi (in dollari) di utilizzo via API:

Tipo input	Prezzo	Unità	Fonte
Testo	0,25 $	per 1M token	cloud.google
Immagine	0,25 $	per 1M token	cloud.google
Video	0,25 $	per 1M token	cloud.google
Audio	0,50 $	per 1M token	cloud.google