
Meta опинилася в центрі скандалу: компанію звинувачують у незаконному завантаженні 81,7 ТБ піратських книг для тренування своєї мовної моделі Llama. Судові документи вказують, що співробітники Meta масово завантажували дані з LibGen, Z-Library та інших тіньових бібліотек.
Судові документи розкрили, що Meta нелегально завантажила понад 80 ТБ книг з піратських ресурсів, включаючи:
Meta нібито навіть виступала в ролі сідера, поширюючи завантажені файли. Компанія намагалася уникнути відстеження, не використовуючи власну інфраструктуру для скачування. Це стало предметом розслідування у справі «Kadrey et al. v. Meta Platforms», поданій у 2023 році авторами, які звинувачують Meta у використанні їхніх творів без дозволу.
Позов проти Meta ініціювали письменники Річард Кадрей, Сара Сільверман та Крістофер Голден у 2023 році. Вони стверджували, що компанія використовувала величезний обсяг захищеного авторським правом контенту для навчання своєї LLM (large language model) Llama.
Раніше Meta заявляла, що 85 ГБ її тренувальних даних були отримані з відкритих джерел, зокрема з датасету The Pile, до складу якого входять 197 000 книг із піратських бібліотек. Однак нові документи свідчать, що обсяг використаних піратських книг був у рази більшим.
Meta заперечує звинувачення, посилаючись на принцип «fair use» – чесного використання контенту. Компанія стверджує, що використання публічних датасетів для навчання ШІ є законним та сприяє технологічному розвитку. Проте видавці вимагають додаткової інформації про використання цих даних і вважають, що Meta порушила закони про авторське право.
Скандал із використанням піратських матеріалів може мати серйозні наслідки для Meta та всієї індустрії генеративного ШІ. Судовий процес визначить, чи стане подібна практика нормою або ж компанії будуть змушені переглянути способи навчання своїх моделей.