Florence-2: Il Nuovo Standard di Microsoft per la Visione AI | Chat gpt in Italiano Gratis | Microsoft Florence | Chat gpt Gratis Italiano | Turtles AI
Microsoft ha lanciato Florence-2, un modello AI open-source che ridefinisce l’elaborazione visiva. Piccolo ma potente, utilizza un dataset massiccio per eccellere in compiti di visione complessi, sfidando modelli molto più grandi: lo sto provando proprio adesso e non è niente male!
Florence-2 rappresenta un passo significativo nel campo dei modelli di visione-linguaggio. Sviluppato da Microsoft, questo modello leggero, reso disponibile con licenza MIT, mostra capacità notevoli sia in modalità zero-shot che di fine-tuning per attività come didascalie, rilevamento oggetti, grounding e segmentazione. Nonostante le sue dimensioni ridotte, Florence-2 raggiunge risultati paragonabili a quelli di modelli molto più grandi come Kosmos-2, grazie a un dataset di vasta scala, il FLD-5B, che include 126 milioni di immagini e 5,4 miliardi di annotazioni visive dettagliate. Questo dataset è stato creato automatizzando il processo di etichettatura con modelli specializzati, poiché l’etichettatura manuale è costosa. Il dataset FLD-5B non è ancora disponibile al pubblico, ma il suo rilascio è previsto a breve.
La forza di Florence-2 risiede non in una complessa architettura, ma in un’innovativa rappresentazione unificata che permette di gestire oltre dieci compiti di visione diversi con un singolo modello. Questo approccio è reso possibile da un dataset di nuova concezione che supera i limiti dei dataset esistenti, come SA-1B e COCO, offrendo un’annotazione più ampia e dettagliata.
Il modello utilizza un encoder visivo DaViT per convertire le immagini in token visivi, che vengono poi concatenati con gli embeddings di testo generati da BERT e processati da un encoder-decoder basato su trasformatori multi-modali. Per compiti specifici di regione, vengono aggiunti token di posizione che rappresentano coordinate quantizzate, permettendo al modello di gestire informazioni specifiche della regione in un formato di apprendimento unificato.
Florence-2 si distingue per le sue dimensioni ridotte e la sua precisione. La serie Florence-2 comprende due modelli: Florence-2-base e Florence-2-large, con 0,23 miliardi e 0,77 miliardi di parametri rispettivamente. Questo lo rende adatto anche per dispositivi mobili. I test hanno dimostrato che Florence-2 ottiene risultati migliori rispetto a Kosmos-2 in tutti i benchmark, nonostante quest’ultimo abbia 1,6 miliardi di parametri.
Un esempio concreto dell’efficacia di Florence-2 è il suo successo in compiti di visual grounding, OCR con regioni specifiche e rilevamento di oggetti a vocabolario aperto, dimostrando una versatilità senza precedenti. La sua architettura multi-task gli consente di eccellere in una varietà di compiti senza bisogno di modelli separati, rendendolo un candidato ideale per applicazioni nel mondo reale, specialmente su dispositivi con risorse limitate.
In conclusione, Florence-2 rappresenta un avanzamento significativo nei modelli di visione-linguaggio, combinando un’architettura leggera con capacità robuste. Questo lo rende altamente accessibile e versatile, pronto per rivoluzionare il modo in cui interagiamo con le immagini e i video.
Punti chiave:
- Florence-2 utilizza un dataset di 126 milioni di immagini e 5,4 miliardi di annotazioni.
- Il modello eccelle in compiti come didascalie, rilevamento oggetti, grounding e segmentazione.
- Utilizza un encoder visivo DaViT e un encoder-decoder basato su trasformatori multi-modali.
- Nonostante le sue dimensioni ridotte, Florence-2 supera modelli molto più grandi come Kosmos-2.