Reservasjon mot at innhold blir brukt til trening av Kunstig intelligens

Publisert

Språkmodeller, som inngår i KI-tjenester som Chat-GPT er trent på store mengder innhold. Mye av dette innholdet kommer fra norske redaktørstyrte medier. Her får du oppskriften på hvordan du reserverer ditt mediehus mot dette.

Etter MBLs syn vil datafangst (skraping), datasettskapelse og trening av kunstig intelligens (KI) innebære prosesser som krever aksept fra rettighetshaver fordi det innebærer en eksemplarfremstilling i åndsverklovens forstand.

Det er imidlertid slik at det er relativt uvanlig at det innhentes aksept. Det har utviklet seg en praksis der utgivere gir beskjed, i maskinlesbar form, om begrensninger i muligheten til å indeksere eller skrape innhold fra nettstedet. En vanlig måte å gjøre dette på er å bruke en tekstfil som legges på nettstedet – robots.txt. Seriøse aktører forholder seg til de begrensningen som er lagt i denne filen.

Gjennom bruk av robots.txt kan dere altså informere om at dere ikke ønsker at innholdet skal i datasett kan brukes til trening av språkmodeller, eller inngå i trening av kunstig intelligens.

Dessverre er logikken ved bruk av robots.txt slik at den må inneholde informasjon om hvilke aktører dere ønsker å stenge ute. En generell formulering vil kunne innebære utilsiktede konsekvenser for indeksering eller andre tjenester dere ønsker skal fungere på nettsidene.

De ulike tjenestene som henter innhold fra nettstedene identifiserer seg med en såkalt user-agent. TV 2 har kartlagt hvilke user-agents som skraper innhold til bruk i KI-trening, og i tillegg laget en oversikt over hvilke nettsteder som har reservert seg mot de ulike agentene. Oversikten oppdateres jevnlig og finnes her https://docs.google.com/spreadsheets/d/1adVsO3EVLsrnfzLX8y1EO8VGMc212iklDjsrtiKTEFg/edit?usp=sharing.

 

Vi viser her noen eksempler på hvordan robots.txt er satt opp. Disse eksemplene er fra 5.11.2024. Robots.txt bør være dynamisk og endres når nye agenter blir kjent.

https://www.tv2.no/robots.txt
User-agent: rogerbot
User-agent: GPTBot
User-agent: ChatGPT-User
User-agent: anthropic-ai
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: perplexityBot
User-agent: omgili
User-agent: omgilibot
User-agent: Bytespider
User-agent: cohere-ai
User-agent: CCBot
User-agent: PetalBot
User-agent: Diffbot
User-agent: OAI-SearchBot
User-agent: Applebot-Extended
User-agent: Amazonbot
Disallow: /

 

User-agent: *
Disallow: /5374/
Disallow: /TV2/
Disallow: /TV2stream/
Disallow: /backend/
Disallow: /beta/
Disallow: /vaer-beta/
Disallow: /snartlive/
Disallow: /livesport/book/
Disallow: /cache/
Disallow: /do/
Disallow: /dyn-TV2
Disallow: /multimedia/
Disallow: /player/
Disallow: /preview/
Disallow: /rest/
Disallow: /v/test/
Disallow: /arkiv/ajax-api/
Disallow: /arkiv/_relatedArticles

Sitemap: https://www.tv2.no/sitemap/news/sitemap.xml
Sitemap: https://www.tv2.no/sitemap/sitemap.xml
Sitemap: https://www.tv2.no/video2/api/v1/sitemap

 

https://www.adressa.no/robots.txt (pr 5.11.2024)

# robots.txt
User-agent: *
Disallow: /login
Disallow: /redirect
Disallow: /static/*

User-agent: Googlebot-News
Disallow: /annonsorinnhold/
Disallow: /brandstudio/

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: omgili
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Amazonbot
Disallow: /

Sitemap: https://www.adressa.no/sitemaps/adresseavisen-root-sitemap.xml
Sitemap: https://www.adressa.no/sitemaps/adresseavisen-news-sitemap.xml

 

Robots.txt inneholder ofte mer informasjon enn det som gjelder KI-agenter/tjenester. Noen velger å gi informasjon om restriksjoner for KI som en egen del/egen blokk i robots.txt, der det angis at dette gjelder AI (her brukes AI og ikke KI). Typisk angis det med # Start AI crawler block. I noen tilfeller legges det da inn tekst som angir begrensningene, i tillegg til at agenter listes. Avisa Oslo, Aftenposten og VG har løst det slik.

https://www.ao.no/robots.txt (pr 5.11.2024)

User-agent: *
Allow: /

# Start AI crawler block

User-agent: CCBot
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

# End AI crawler block

 

https://www.aftenposten.no/robots.txt (pr 5.11.2024)

User-agent: *
Disallow: /config/
Disallow: /template/
Disallow: /incoming/
Disallow: /WEB-INF/
Disallow: /META-INF/
Disallow: /feed/externalheader/
Disallow: /feed/externalfooter/
Disallow: /adtest/
Disallow: /henvisninger/div/
Disallow: /sok
Disallow: /kampanje/
Disallow: /widgets/
Disallow: /personalized-frontpage-feed

 

# Aftenposten does not permit unlicensed use of our content for training large language models or other
# artificial intelligence technology. All use, reproductions and extractions of our content for
# such purposes require specific # approval by Aftenposten. We explicitly disallow text and data mining and
# all other technical means desig# ned to or with the effect that they enable unlicensed use,
# reproduction or extraction of o# ur content for training AI models.

User-agent: GPTBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: CCBot
Disallow: /

 

https://www.vg.no/robots.txt (pr 5.11.2024)
User-agent: *
Disallow: /tegneserier/salesposter
Disallow: /poll
Disallow: /informasjon/redaksjonelle-avgjorelser/182
Disallow: /informasjon/redaksjonelle-avgjorelser/212
Disallow: /sok*?*
Disallow: /?vcheck=1
Disallow: /?_escaped_fragment_=/kategori/144/bolig-tv
Disallow: /?_escaped_fragment_=/kategori

 

user-agent: Googlebot-News
disallow: /annonsorinnhold/
disallow: /kommersielt-innhold/
disallow: /innstikk/
disallow: /?embed=true
disallow: /arkiv/
disallow: /front/
disallow: /ads/prewarm/

# Start AI crawler block

#

# VG does not permit unlicensed use of our content for training large language models.
# All use, reproductions and extractions of our content for such purposes require specific
# approval by VG. We explicitly disallow text and data mining and all other technical means
# designed to or with the effect that they enable unlicensed use of our content for training
# AI models.

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: omgili
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Amazonbot
Disallow: /

# End AI crawler block

 

User-agent: OAI-SearchBot
Allow: /

Sitemap: https://www.vg.no/sitemaps/files/articles-48hrs.xml
Sitemap: https://www.vg.no/sitemap/files/articles-48hrs.xml
Sitemap: https://www.vg.no/sitemap.xml