Contenuti di YouTube Usati da Grandi Aziende Senza il Consenso | Ia Generativa Google | Chat gpt Login Free | Ia Generativa Immagini | Turtles AI

Contenuti di YouTube Usati da Grandi Aziende Senza il Consenso
Isabella V17 luglio 2024

 

 Uso dei Sottotitoli di YouTube per l’Addestramento di Sistemi di Intelligenza Artificiale

 Punti Chiave:
- Ampia Raccolta: Oltre 170.000 video di YouTube sono stati utilizzati senza consenso per creare un dataset di sottotitoli.
- Grandi Aziende Coinvolte: Aziende come Apple, Anthropic, NVIDIA e Salesforce hanno usato questo dataset per addestrare i loro sistemi di AI.
- Violazioni dei Termini: L’uso di questi contenuti potrebbe violare i termini di servizio di YouTube.
- Strumento di Ricerca: Proof News ha rilasciato uno strumento per cercare quali contenuti sono inclusi nel dataset.

Una recente indagine di Proof News, in collaborazione con Wired, ha rivelato che un vasto dataset chiamato "YouTube Subtitles" è stato utilizzato per l’addestramento di sistemi di AI da parte di diverse aziende tecnologiche, tra cui Apple, Anthropic, NVIDIA e Salesforce. Questo dataset contiene sottotitoli estratti da oltre 170.000 video di YouTube, provenienti da più di 48.000 canali. Tuttavia, questa raccolta di dati è stata effettuata senza il consenso dei creatori dei contenuti e potrebbe violare i termini di servizio di YouTube.

Il dataset è stato creato attraverso uno script che utilizza l’API di YouTube per scaricare i sottotitoli, un metodo simile a quello usato dai browser per visualizzare i video. Nonostante le dichiarazioni di Google riguardo alle misure adottate per prevenire lo scraping abusivo, non è chiaro se queste siano state sufficienti a impedire la raccolta di dati su questa scala.

La questione ha sollevato preoccupazioni significative tra i creatori di contenuti e le organizzazioni che proteggono i diritti di proprietà intellettuale. Famosi YouTuber come MrBeast, PewDiePie e Marques Brownlee hanno scoperto che i loro sottotitoli erano inclusi nel dataset, portando alcuni di loro a esprimere il loro disappunto sui social media. Marques Brownlee ha commentato che, sebbene Apple non sia direttamente responsabile dello scraping, la questione rimarrà un problema rilevante per il futuro.

Il dataset "YouTube Subtitles" fa parte di una raccolta più ampia chiamata The Pile, curata dall’organizzazione no-profit EleutherAI. The Pile include una varietà di dati da libri, articoli di Wikipedia e altri testi disponibili pubblicamente. Questo dataset open-source è stato frequentemente utilizzato per l’addestramento di modelli di AI e ha già portato a diverse cause legali da parte di titolari di diritti d’autore.

Il dibattito su come i dati di YouTube vengano utilizzati per l’addestramento dei modelli di AI è acceso. Ad esempio, OpenAI, durante la presentazione del suo strumento di generazione video Sora, non ha fornito dettagli chiari sui dati utilizzati per l’addestramento, sollevando ulteriori interrogativi sull’etica e la legalità di tali pratiche.

Proof News ha messo a disposizione del pubblico uno strumento interattivo per cercare e verificare quali contenuti sono stati inclusi nel dataset. Questo strumento può essere utile per i creatori di contenuti per verificare se i loro lavori sono stati utilizzati senza autorizzazione.

Le aziende coinvolte hanno difeso il loro operato, sostenendo che l’uso dei dati era legittimo e che i termini di servizio di YouTube non erano applicabili ai dataset open-source come The Pile. Tuttavia, le implicazioni legali e etiche di queste pratiche rimangono un tema di discussione in evoluzione.