Træning af kunstig intelligens
I strid med ophavsretsloven
Der er flere ophavsretlige udfordringer forbundet med brugen af kunstig intelligens, og hidtil har den mest omtalte udfordring været, at tekster der genereres af AI-modeller, kan udgøre ophavsretskrænkelser. Dette vil være tilfældet, hvis en AI-model kopierer en tekst direkte fra et originalt værk, eller hvis den nye tekst ikke i tilstrækkeligt omfang adskiller sig fra forlægget.
Men faktisk kan også selve træningen af AI-modeller udgøre en ophavsretskrænkelse.
Træningen af AI-modeller fungerer ved, at der indsamles ophavsretligt materiale fra bøger, billeder, film og musik, som bruges til at træne AI modellerne og gøre dem i stand til at generere nye værker af høj kvalitet. Denne betegnes tekst- og datamining.
I ophavsretslovens § 11 b, stk. 1 defineres tekst- og datamining på følgende måde:
"Ved tekst- og datamining forstås enhver automatiseret, analytisk fremgangsmåde, der har til formål at analysere tekst og data i digital form med henblik på at generere oplysninger, herunder mønstre, tendenser og korrelationer."
Tidligere var det ikke lovligt at foretage tekst- og datamining uden rettighedshaverens tilladelse, men efter ændringen af ophavsretsloven den 6. juni 2023 har det været tilladt for virksomheder at bruge eksisterende værker i træningen og udviklingen af kunstig intelligens uden rettighedshavernes tilladelse. Ændringen skyldes implementering af dele af et EU-direktiv om ophavsret på det digitale indre marked.
At dette nu er tilladt, fremgår af ophavsretslovens § 11 b, stk. 2:
"Den, som har lovlig adgang til et værk, må foretage udtræk og fremstille eksemplarer af værket med henblik på tekst- og datamining, på betingelse af at rettighedshaveren ikke udtrykkeligt har forbeholdt sig anvendelsen af værket på passende vis, jf. dog § 11 c, stk. 1."
Bestemmelsen udgør en undtagelse til ophavsmandens eneret. Ifølge bestemmelsen er der dog to betingelser, som skal være opfyldt, for at det er tilladt at foretage tekst- og datamining.
For det første er det skal der være lovlig adgang til de værker, som anvendes til tekst- og datamining.
For det andet må rettighedshaveren ikke udtrykkeligt have taget forbehold for, at dennes værker anvendes til tekst- og datamining.
Det følger endvidere af ophavsretsloven § 11 c, at det er lovligt for forskningsorganisationer og kulturarvsinstitutioner at foretage tekst- og datamining.
Sager overalt i verden
Det er særligt iagttagelsen af den første betingelse, som giver anledning til udfordringer i øjeblikket. Overalt i verden findes der eksempler på virksomheder, som angiveligt har anvendt ophavsretligt beskyttet indhold til træningen af AI-modeller, og det har ført til flere sagsanlæg.
I Tyskland verserer der netop nu en sag, som en tysk fotograf har anlagt mod en organisation, fordi denne har offentliggjort ulovligt billedmateriale til brug for træning af AI-modeller, og i USA er der anlagt søgsmål mod virksomheder, der bruger ulovligt tekstmateriale til træning af AI-modeller. Ingen af disse sager er endnu afgjort.
I Danmark har Danske Forlag, Dansk Forfatterforening og UBVA fået stoppet brugen af et datasæt, Books3, som bestod af indhold fra 200.000 ophavsretlige beskyttede e-bøger, der var indhentet fra en tysk fildelingstjeneste. Efter henvendelse fra RettighedsAlliancen valgte hosteren af Books3 at fjerne den ulovlige adgang til Books3 fra deres hjemmeside.
Hvordan kan man forebygge ophavsretskrænkelser?
Det store spørgsmål er selvfølgelig, hvordan man som rettighedshaver kan gribe ind over for, at virksomheder uberettiget anvender ophavsretligt beskyttede værker til træningen af AI-modeller. En måde at forebygge dette på kunne være at sørge for, at alt det indhold, der anvendes til træningen af AI-modeller, bliver licenseret, altså håndteret gennem individuelle eller kollektive aftaler. Til eksempel har Danske Medier flere gange opfordret regeringen til at inkludere aftalelicens til dette i ophavsretsloven. En aftalelicens kunne sikre, at indholdet var lovligt tilgængeligt for brug og i overensstemmelse med ophavsretsloven, og kunne være en af vejene til at forebygge tvister om træningen af AI-modeller og deraf følgende sagsanlæg om ophavsretskrænkelser. Kulturministeren har tilkendegivet, at der vil blive set nærmere på dette i den kommende folketingssamling.
Introduktion til de databeskyttelsesretlige udfordringer forbundet med træning af AI
Det er ikke kun i ophavsretlig sammenhæng, at træningen kan skabe udfordringer - også AI og databeskyttelsesret hænger uløseligt sammen. Det er afgørende at være opmærksom på, hvornår databeskyttelsesreglerne kommer i spil, hvem der bærer ansvaret for databehandlingen, og hvordan de almindelige databeskyttelsesretlige regler og principper kan overholdes, hvis man ønsker at bruge personoplysninger til træning af AI.
Hvis der i forbindelse med modeltræningen af et AI-system anvendes datasæt med personoplysninger, vil også træningen udgøre en behandling i databeskyttelsesretlig henseende. Databeskyttelsesreglerne finder derfor anvendelse og skal overholdes, herunder principperne om dataminimering, formålsbestemthed, oplysningspligt og risikovurderinger.
Databeskyttelse skal derfor overvejes allerede i træningsfasen og ved bygning af modeller, således at AI-modellerne helt fra begyndelsen af sikrer en effektiv implementering af de grundlæggende databeskyttelsesprincipper via passende tekniske og organisatoriske foranstaltninger - hvis der da overhovedet er behov for at benytte personoplysninger.
Oplysninger, der er helt anonymiserede og aldrig vil kunne kædes til en fysisk person, betragtes ikke som personoplysninger efter databeskyttelsesreglerne. Sådan en anonymisering skal dog være uigenkaldelig, og data der eksempelvis blot er pseudonymiserede, men hvor det er teknisk muligt at identificere personen i kombination med andre data, vil fortsat udgøre personoplysninger. Særligt ved brug af træningsdata med personoplysninger til AI skal man være varsom med kombinationsmuligheder. Hvis man tager et eksempel, hvor man kombinerer et offentligt tilgængeligt datasæt, der er blevet anonymiseret, med et datasæt, der ikke er blevet anonymiseret, så bør man overveje, om AI-modellen, når den sammenligner de to datasæt, kan finde så mange sammenhænge og mønstre, at personerne i det anonymiserede datasæt alligevel kan risikere at blive identificeret. Dette kan lede til, at der er risiko for, at der behandles personoplysninger i større omfang end først antaget.