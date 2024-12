A distanza di qualche mese dall’annuncio di Gemma 2 in occasione di Google I/O 2024, per il colosso di Mountain View è arrivato il momento di lanciare PaliGemma 2, nuova soluzione dell’azienda in fatto di intelligenza artificiale.

Si tratta della nuova versione del modello di open vision-language (VLM) di Google, la cui prima release è stata lanciata a maggio per determinati casi d’uso, come la didascalia per immagini e brevi video, la comprensione del testo presente nelle immagini, il rilevamento di oggetti, la segmentazione di oggetti e la risposta visiva alle domande.

Cosa è in grado di offrire PaliGemma 2

Tra le novità che PaliGemma 2 porta con sé vi sono le “didascalie lunghe“: il modello, infatti, dovrebbe essere in grado di generare “didascalie dettagliate e contestualmente rilevanti per le immagini, andando oltre la semplice identificazione degli oggetti per descrivere azioni, emozioni e la narrazione complessiva della scena”.

Stando a quanto è stato reso noto dal colosso di Mountain View, le dimensioni del modello disponibili includono i parametri 3B, 10B e 28B e le risoluzioni a 224px, 448px e 896px.

Ed ancora, sempre secondo Google PaliGemma 2 è in grado di garantire un accurato riconoscimento ottico dei caratteri e la comprensione della struttura e del contenuto delle tabelle nei documenti e può vantare prestazioni leader nel riconoscimento di formule chimiche e di spartiti musicali, nel ragionamento spaziale e nella generazione di referti radiografici del torace.

A dire di Google, PaliGemma 2 è progettato per essere un sostituto “drop-in” per coloro che utilizzano il modello originale e gli sviluppatori dovrebbero beneficiare di immediati guadagni di prestazioni sulla maggior parte delle attività senza la necessità di apportare modifiche sostanziali al codice.

Per ulteriori informazioni vi rimandiamo al sito dedicato di Google.