Видалення даних із моделей навчання ШІ у контексті інтелектуальної власності.

15.02.2024 1 хвилин Автор: Newsman

У цій статті розкриваються ефективні методи видалення даних із моделей навчання ШІ у контексті інтелектуальної власності (ІВ)

Дані, що використовуються для навчання ШІ, часто надходять з Інтернету, наприклад, за допомогою інструментів веб-скрейпінгу. Однак деякі з цих даних будуть захищені авторським правом або правами на базу даних, або обома. Без відповідної ліцензії використання її для навчання системи ШІ може призвести до порушення.

Генеративні інструменти ШІ можуть створювати чудові візуальні ефекти, писати есе, вірші та навіть книги. Потенціал для творчості з генеративними інструментами ШІ необмежений. Однак, оскільки генеративний ШІ навчається з мільярдами параметрів, побудованих за допомогою програмного забезпечення, що обробляє величезні архіви зображень та тексту, він ризикує отримати результати, які порушують різні права інтелектуальної власності. Крім того, потенційний злочинець може використовувати генеративний ШІ, щоб дізнатися про свою конкретну сферу злочинності. ШІ може прискорити спосіб роботи злочинця, надаючи значну інформацію, яка може бути використана для виробництва підробок, творінь, захищених авторським правом, та інших матеріалів, що порушують ІВ, а також досягти прогресу в інших заходах, пов’язаних з порушенням ІВ, таких як шахрайство з реєстрацією товарних знаків.

Хоча є ознаки того, що доктрина добросовісного використання може застосовуватися до навчального процесу Al, власники авторських прав стверджують, що для використання захищеної авторським правом роботи для навчання Al потрібна адекватна згода. Цей дозвіл необхідний, оскільки навчання може надати великим мовним моделям достатньо інформації для узагальнення поточної роботи та досягнення порівнянного результату.

Претензії охоплюють всі типи генеративних Al, включаючи генерацію вмісту Als, такі як ChatGPT, генерацію зображень Als, такі як Midjourney, генерацію коду Als, як GitHub, та інші. Машина штучного інтелекту створює сучасний малювання на основі набору даних що складається з сотень сучасних картини. Вихід виглядає як a сучасний живопис, але не включає будь-який окремий Машина штучного інтелекту створює книгу в стилі відомого автора, використовуючи невелику кількість книг тих самих авторів як набір даних. ШІ-машина використовувала алгоритми, які генерували пісню на основі текстів і музики з існуючих пісень, створених багатьма різними виконавцями.

Різниця між першими двома сценаріями полягає в тому, чи можна порівняти створений результат із певним твором, захищеним авторським правом, і чи може він конкурувати з твором, захищеним авторським правом. Іншими словами, кожен результат має бути оцінений у кожному конкретному випадку, щоб визначити, чи є він достатньо трансформаційним. Чи можна конкретну роботу, створену ШІ, вважати подібною до оригінальної роботи? Перший сценарій передбачає використання великої кількості творів в одному стилі, тоді як другий передбачає використання невеликої кількості творів одного автора. Хоча перший сценарій навряд чи призведе до порушення авторських прав, другий приклад може. Щоб встановити факт порушення, власник авторських прав повинен довести, що люди, які організували вихід штучного інтелекту, взяли «значну частину» своїх оригінальних робіт.

Хоча критерій подібності оцінюється в ряді справ про порушення прав інтелектуальної власності, як цивільних, так і кримінальних, прецедентне право все ще потребує вирішення питання про те, чи твір, який «стилістично» схожий на твір, захищений авторським правом, може розглядатися як суттєво схожі. Наприклад, якщо авторські права все ще будуть застосовані у випадку «Наступного Рембрандта», питання полягає в тому, чи можна подати заяву про порушення авторських прав, якщо метою було створити твір, який можна було б приписати Рембрандту «стилістично». Подібним чином, у третьому сценарії окремі митці мали б продемонструвати суттєву схожість між своїми роботами та роботами, створеними великою кількістю різних митців.

ПРИКЛАД ШІ створив пісню з голосами Дрейка та The Weekend Користувач TikTok, Ghostwriter977, який також стверджує, що є автором пісень, написав пісню під назвою «Heart on My Sleeve» та використав ШІ, щоб імітувати голоси Дрейка та The Weekend. Вихідні виконують цю пісню. Основна музика пісні була новою; лише голоси можна було впізнати як голоси двох відомих виконавців. Пісня стала дуже популярною, поки Universal Music Group не попросила видалити її зі Spotify, Apple Music та інших платформ через порушення авторських прав. Це підняло питання, чи справді пісня порушує авторські права.

Загалом, авторське право не захищає голос співака; радше, він захищає творчі результати, такі як музика чи тексти. Правова основа для такого ставлення буде порівнянна з основою триб’ют-груп, які не порушують захист авторських прав.

Це питання ускладнюється в контексті генеративного ШІ. По-перше, чи використовувалася музика Дрейка та The Weekend для навчання ШІ, і чи було б це дозволеним використанням вмісту, захищеного авторським правом?

По-друге, чи є незаконним використання імені, голосу, зображення чи образу іншої особи без її попереднього дозволу? Голос, як і біометричні дані, захищений статтею 4.1 Регламенту (ЄС) 2016/679 про захист фізичних осіб щодо обробки персональних даних і вільного переміщення таких даних, оскільки він може використовуватися для ідентифікації осіб , є специфічним для фізіологічної ідентичності людей і розкриває велику кількість особистої інформації про мовця.

Порушення правил персональних даних також можуть розглядатися як кримінальний злочин

Цей елемент є особливо важливим у кримінальних справах щодо інтелектуальної власності. Необхідно довести, що був намір виготовити матеріал, що порушує авторські права – робота незалежного художника, яка випадково схожа на оригінальну роботу, не тягне за собою кримінальної відповідальності. Іншими словами, суди мали б оцінити характер використання творів, захищених авторським правом, і його вплив на ринок. Причинно-наслідковий зв’язок. Має існувати причинно-наслідковий зв’язок між твором, захищеним авторським правом, і створенням твору, що порушує авторські права; «копіювання» повинно мати місце, тобто

Хто несе відповідальність? Визначення відповідальності за порушення авторських прав системою ШІ може бути складним. На сьогоднішній день AI не є юридичною особою і не може нести відповідальності за порушення прав інтелектуальної власності. Найкращий підхід до визначення відповідальності – перевірити, хто її мав.

Виняток з права бази даних

Існує виняток щодо “справедливої угоди” щодо баз даних, які були доступні для громадськості (будь-яким способом). Однак виняток вузький і навряд чи буде застосовуватися в комерційному контексті. Права на бази даних у загальнодоступних базах даних не будуть порушені шляхом справедливого поводження з значною частиною її вмісту за умови, що:

вилучення здійснюється особою, яка є законним користувачем бази даних,
він витягується з метою ілюстрації для викладання або досліджень, а не для будь-яких комерційних цілей,
вказано джерело.

Це досить вузький виняток, який вимагає законного доступу та використання в некомерційних цілях. Тому вилучення значної частини загальнодоступної бази даних для використання для цілей навчання ШІ не буде охоплено винятком, якщо мета є комерційною. Це означає, що обов’язок пов’язується на потенційному екстракторі вмісту з бази даних, щоб переконатися, що це законно.