AI modeller vet mer om värderingar än vi tror
Kanske måste AI modeller inte tränas för att veta vad som är moraliskt rätt och fel. En ny studie antyder att de kanske redan vet det.
En studie av Pontus Strimling, Joel Krueger och Simon Karlsson, forskare vid IFFS undersökte vad Chat gpt kände till om vardagsvärderingar i olika samhällen.
- Till exempel om man får flörta med folk på jobbet, om man får skratta högljutt i väntrummet hos doktorn eller sova i en park, säger Pontus Strimling som berättade om studien för Vetenskapsradion.
Det visade sig att systemet hade en bra uppfattning om vad som anses vara okej i olika samhällen.
- Det är lite märkligt eftersom en AI modell inte har någon egentlig förståelse för vad till exempel högljutt är. Den har inga öron och har aldrig själv upplevt hur det är att bli störd när det låter för högt. Ändå lyckas den pricka in värderingar förvånansvärt bra, säger Pontus Strimling till Vetenskapsradion.
En konsekvens av detta är att det kanske inte är nödvändigt för människor att träna modellerna om vad som är moraliskt okej och vad som ligger in linje med värderingar i olika samhällen, utan bara utgå från vad modellerna redan tycks känna till om mänskliga värderingar.
- Det är inte det enda som behövs, men jag tror man kommer långt med att se till att de stora systemen har en spärr där de frågar sig själva om något är moraliskt acceptabelt och låta bli att utföra det om de kommer fram till att det inte är det, säger Pontus Strimling.
Studien är ännu inte referentgranskad men finns att läsa här: GPT-4's One-Dimensional Mapping of Morality: How the Accuracy of Country-Estimates Depends on Moral Domain