Harvard e Google collaborano per rilasciare 1 milione di libri di pubblico dominio per l’AI | Llm cosa e | Large language models examples | Large language models pdf | Turtles AI
L’Università di Harvard, in collaborazione con Google, prevede di rilasciare un set di dati contenente un milione di libri di pubblico dominio, una risorsa significativa per la ricerca e lo sviluppo di modelli di AI, accessibile a ricercatori e aziende del settore.
Punti chiave:
- Set di dati: un milione di libri di pubblico dominio provenienti da Google Books.
- Finalità: favorire lo sviluppo equo di modelli linguistici di AI.
- Collaborazioni: supporto finanziario di Microsoft e OpenAI.
- Obiettivo: rendere i dati accessibili a startup, laboratori e accademici.
Harvard e Google stanno lavorando congiuntamente a un’iniziativa destinata a trasformare l’AI, grazie al rilascio di un set di dati senza precedenti che comprenderà circa un milione di libri di dominio pubblico. L’iniziativa nasce dall’ambizioso progetto di digitalizzazione di Google Books, una risorsa accumulata nel tempo che include opere di autori leggendari come Charles Dickens, Dante Alighieri e William Shakespeare, ormai libere da vincoli di copyright per via della loro anzianità. Sebbene il lancio ufficiale del set di dati non abbia ancora una data precisa, la portata del progetto promette di offrire un valore inestimabile per chiunque desideri addestrare modelli di AI, dai laboratori universitari alle startup emergenti. Questo archivio, che spazia per generi, epoche e lingue, si posiziona come una fonte ricca e diversificata, accessibile a comunità accademiche e industriali in cerca di dati legali e affidabili.
La Institutional Data Initiative (IDI), piattaforma annunciata da Harvard lo scorso marzo e oggi ufficialmente lanciata, costituisce il cuore dell’operazione. L’IDI è concepita per garantire la disponibilità di dati di alta qualità e legalmente utilizzabili per l’addestramento di sistemi di AI, rispondendo alla crescente esigenza di risorse affidabili in un campo dominato dai giganti tecnologici. A sostenere economicamente il progetto, oltre a Google, si sono unite Microsoft e OpenAI, rafforzando la credibilità e la solidità dell’iniziativa.
Greg Leppert, direttore esecutivo dell’IDI, ha sottolineato come questo sforzo sia mirato a democratizzare l’accesso ai dati di addestramento per l’AI, riducendo le barriere economiche che spesso limitano le opportunità di sviluppo a una ristretta élite di grandi aziende. La disponibilità gratuita di un set di dati così ampio e variegato mira a fornire un supporto significativo per l’addestramento di modelli linguistici avanzati (LLM) e altri sistemi di AI, contribuendo a una distribuzione più equa delle risorse nel settore tecnologico.
Con questa collaborazione, Harvard e Google si impegnano a garantire che il progresso nell’AI non rimanga esclusivo delle aziende con grandi capacità finanziarie ma diventi una risorsa condivisa, incentivando l’innovazione in contesti più ampi e diversificati.
