Згідно з судовими документами, компанія могла навмисно видалити метадані, щоб приховати походження свого контенту.
Згідно з судовими документами, Meta використовувала базу даних LibGen для навчання своїх моделей штучного інтелекту. У розмові між двома інженерами з Meta один з них поставив під сумнів законність завантаження даних з піратських сайтів на корпоративні пристрої, сказавши «Здається, це неправильно – завантажувати торренти на ноутбуки Meta». Позивачі стверджують, що «Мета» не лише використовувала нелегальні дані, але й навмисно видаляла інформацію про управління авторськими правами (CMI), щоб запобігти викриттю того, що моделі були навчені на захищеному авторським правом контенті.
Згідно з позовом, Meta видалила «нехешовані метадані джерела» та інші дані, які могли б вказати на походження контенту. Крім того, програмісти Meta створили «контрольовані зразки» даних, щоб переконатися, що моделі не видають інформацію, яка б свідчила про використання матеріалів, захищених моделлю Llama. Це свідчить про спробу приховати поведінку компанії. У відповідь Meta подала юридичні документи, в яких стверджувалося, що використання LibGen не було прихованим, а відкритим.
Library Genesis – один з найбільших у світі нелегальних архівів цифрових книг і наукових матеріалів. Сайт дозволяє користувачам безкоштовно завантажувати контент, який порушує авторські права видавців. В останні роки Shadow Library стала частим джерелом даних, оскільки містить величезні обсяги інформації, яка ідеально підходить для навчання моделей штучного інтелекту. Це не перший випадок, коли Meta піддається критиці за використання даних для ШІ-проектів: у 2023 році компанія була оштрафована на рекордні 1,2 мільярда євро за порушення GDPR.
Звинувачення у незаконному використанні даних можуть мати значний вплив на репутацію Meta та її майбутні АІ-проекти. Якщо справа матиме подальший розвиток, це може призвести до нових регуляторних обмежень на збір даних для навчання АІ-моделей.