Giornata di importanti novità in quel di Mountain View. Google annuncia Gemini, il modello IA più grande e completo mai sviluppato dall’azienda, progettato fin dalle fondamenta per risultare multimodale e ottimizzato per tre diverse dimensioni: Ultra, Pro e Nano. Tutto questo ha a che vedere non solo con il mondo degli sviluppatori e delle aziende, ma anche con gli utenti. Scopriamo tutto più da vicino, anche grazie all’arrivo del Pixel Feature Drop di dicembre 2023, che integra proprio Gemini Nano su Google Pixel 8 Pro.
Segui Google Italia su Telegram, ricevi news e offerte per primo
Gemini è ufficiale: è arrivata l’IA di nuova generazione firmata Google
“Credo che la transizione a cui stiamo assistendo con l’intelligenza artificiale sarà la più profonda della nostra vita, molto più grande del passaggio allo smartphone o al web che lo ha preceduto“, ha dichiarato Sundar Pichai, CEO di Google e Alphabet. “L’intelligenza artificiale ha il potenziale per creare opportunità a ogni livello in tutto il mondo, nel quotidiano così come per le grandi sfide sociali“, ha proseguito. “Porterà nuove ondate di innovazione e progresso economico e stimolerà la conoscenza, l’apprendimento, la creatività e la produttività su una scala mai vista prima“.
Il ritmo del progresso per quanto riguarda l’IA sta accelerando sensibilmente negli ultimi tempi: milioni di persone già utilizzano l’intelligenza artificiale generativa nei prodotti Google, e allo stesso tempo gli sviluppatori utilizzano e sfruttare i modelli e l’infrastruttura per creare nuove applicazioni di IA generativa, mentre startup e imprese sparse per il mondo crescono proprio con questi strumenti. Tutto ciò, sostiene Sundar, senza dimenticare la responsabilità, “sviluppando misure di salvaguardia e lavorando in collaborazione con governi ed esperti per affrontare i rischi che emergono mentre l’IA diventa più capace“.
Il prossimo passo lungo questo sorprendente percorso avviene con Gemini, un modello con prestazioni all’avanguardia rispetto a molti benchmark leader di settore. La prima versione, ossia Gemini 1.0, è flessibile e ottimizzata per tre diverse dimensioni, denominate Ultra, Pro e Nano:
- Gemini Ultra: il modello più grande e potente, per i compiti più complessi
- Gemini Pro: il modello migliore per essere applicato su scala a un’ampia gamma di attività
- Gemini Nano: il modello più efficiente per attività da svolgere sui singoli dispositivi (direttamente on-device)
Gemini è il risultato di una collaborazione su larga scala che ha coinvolto molti team di Google, ed è stato costruito fin dalle sue fondamenta per essere multimodale, il che significa che può generalizzare, comprendere, operare e combinare diversi tipi di informazioni, tra cui testo, immagini, audio, video e codice informatico. Le capacità di ragionamento multimodale di Gemini possono aiutare a dare un senso a complesse informazioni scritte e visive, e la capacità di estrarre informazioni rilevanti da centinaia di migliaia di documenti attraverso lettura, filtraggio e comprensione, contribuirà a realizzare nuove scoperte ad alta velocità in tanti campi, dalla scienza alla finanza.
Secondo quanto dichiarato da Google, dalla comprensione naturale delle immagini, dell’audio e dei video, al ragionamento matematico, le prestazioni di Gemini Ultra superano i migliori modelli oggi disponibili in 29 dei 32 benchmark accademici di settore utilizzati più comunemente nella ricerca e sviluppo dei grandi modelli linguistici (LLM). Con un punteggio del 90%, Gemini Ultra è il primo modello a ottenere risultati migliori delle prestazioni umane in ambito MMLU (massive multitask language understanding, ossia comprensione linguistica multitasking su larga scala), che utilizza una combinazione di 57 materie tra cui matematica, fisica, storia, diritto, medicina ed etica, per valutare conoscenze e capacità di risoluzione dei problemi. Gemini Ultra ha ottenuto anche un punteggio del 59,4% sul nuovo benchmark MMMU, che consiste in compiti multimodali che riguardano differenti ambiti e che richiedono capacità di elaborazione complesse.


Gemini dispone delle valutazioni di sicurezza più complete di qualsiasi modello di intelligenza artificiale di Google sviluppato fino ad oggi, anche per quanto riguarda pregiudizi impliciti e tossicità. Google ha condotto nuove ricerche su potenziali aree di rischio come i reati informatici, la manipolazione e l’autonomia di scelta, e sta applicando le migliori tecniche di adversarial testing di Google Research per identificare i problemi critici di sicurezza prima di rendere Gemini disponibile. Per non lasciarsi sfuggire eventuali problemi, la casa di Mountain View sta anche collaborando con una serie di esperti e partner esterni per sottoporre a stress test i modelli su una serie di aspetti.
Finora, l’approccio standard per la creazione di modelli multimodali prevedeva l’addestramento separato di componenti dedicate a ciascuna modalità, ma questo procedimento potrebbe portare qualche difficoltà con i ragionamenti più concettuali e complessi. Gemini è stato progettato per essere nativamente multimodale, pre-addestrato fin da subito su diverse modalità. In questo modo può comprendere e ragionare su ogni tipo di input in modo strutturale e continuo, per capacità all’avanguardia.
Gemini 1.0 è stato addestrato per riconoscere e comprendere testo, immagini, audio e altro contemporaneamente, e di conseguenza comprende meglio le sfumature tra le informazioni e può rispondere a domande su argomenti complicati. La prima versione è in grado di comprendere, spiegare e generare codice nei linguaggi di programmazione più diffusi al mondo, come Python, Java, C++ e Go.
Gemini è stato addestrato utilizzando le Tensor Processing Unit (TPU) v4 e v5e progettate internamente da Google. Su queste ultime funziona molto più velocemente rispetto ai modelli precedenti: questi acceleratori di intelligenza artificiale progettato su misura hanno potenziato il funzionamento dei prodotti di Google basati sull’IA come Ricerca, YouTube, Gmail, Google Maps, Google Play e Android. Quest’oggi Google annuncia anche il sistema TPU più potente e scalabile mai realizzato, CloudTPU v5p, pensato per addestrare modelli IA di punta: accelererà lo sviluppo di Gemini e aiuterà gli sviluppatori e le aziende ad addestrare modelli di IA generativa su larga scala in modo più rapido.



Quando sarà disponibile Gemini?
A partire da oggi, Google Bard utilizzerà una versione dedicata di Gemini Pro per ragionamenti avanzati, pianificazione, comprensione e non solo. Per il momento sarà disponibile in inglese in più di 170 Paesi e territori, ma Google prevede di supportare nuove lingue e ulteriori aree geografiche nei prossimi mesi. Si tratta dell’aggiornamento più importante da quando Bard è stato annunciato.
Gemini fa anche capolino a partire da oggi a bordo di Google Pixel 8 Pro, lo smartphone Android di punta della casa di Mountain View. Questo attraverso l’aggiornamento in distribuzione da questa sera, l’atteso Pixel feature drop di dicembre.
Pixel 8 Pro costituisce il primo smartphone progettato per incorporare Gemini Nano, che sarà in grado di potenziare funzioni come Riassumi sull’app Registratore e Smart Reply sulla tastiera Gboard (a iniziare da WhatsApp, ma altre app di messaggistica saranno coinvolte nel corso del 2024). Gemini arriverà su altri prodotti e servizi Google come Ricerca, Ads, Chrome e Duet AI.
Dal 13 dicembre 2023, sviluppatori e clienti aziendali potranno accedere a Gemini Pro tramite l’API su Google AI Studio o su Google Cloud Vertex AI. Gli sviluppatori Android potranno anche usare Gemini Nano attraverso AICore, una nuova funzionalità di sistema pensata per Android 14 a partire sempre da Pixel 8 Pro. Per quanto riguarda Gemini Ultra, Google sostiene di essere in fase di completamento di estesi test su affidabilità e sicurezza, e di essere al lavoro per perfezionare ulteriormente il modello prima di renderlo disponibile a livello più ampio. Di conseguenza Gemini Ultra sarà disponibile prima per clienti, sviluppatori e partner selezionati per una sperimentazione iniziale, per poi arrivare per gli altri a partire dall’inizio del prossimo anno.
Nello stesso periodo arriverà anche Bard Advanced, una nuova esperienza di punta basata sull’intelligenza artificiale che costituirà uno dei primi metodi per provare la versione Ultra di Gemini. Secondo Google, già con quella Pro Bard può superare il modello GPT 3.5 di Open AI in sei benchmark su otto.
Per ulteriori informazioni su Google Gemini potete seguire questo link e dare uno sguardo ai video qui in basso.
Potrebbe interessarti: Recensione Google Pixel 8 Pro: il primo smartphone che ti porge l’IA in mano