AI: een kijkje in de zwarte doos
De afgelopen tien jaar heeft AI-onderzoeker Chris Olah (Anthropic) zich volledig gericht op kunstmatige neurale netwerken. Eén vraag stond daarbij centraal: "Wat gebeurt er binnenin deze systemen?" Deze vraag is nu relevanter dan ooit, nu generatieve AI overal aanwezig is. Grote taalmodellen zoals ChatGPT, Gemini en Anthropic's eigen Claude hebben mensen verbaasd met hun taalvaardigheid, maar ook gefrustreerd door hun neiging om dingen te verzinnen. Het begrijpen van wat er binnenin deze "zwarte dozen" gebeurt, zou het gemakkelijker maken om ze veiliger te maken.
Het mysterie van neurale netwerken
Olah leidt een team bij Anthropic dat erin is geslaagd om een kijkje te nemen in deze zwarte doos. Ze proberen grote taalmodellen te reverse-engineeren om te begrijpen waarom ze specifieke outputs genereren. Volgens een recent gepubliceerde paper hebben ze aanzienlijke vooruitgang geboekt.
Vergelijkbaar met neurowetenschappelijke studies die MRI-scans interpreteren om gedachten te identificeren, heeft Anthropic zich verdiept in het digitale netwerk van hun LLM Claude. Ze hebben combinaties van kunstmatige neuronen geïdentificeerd die specifieke concepten oproepen, zoals burrito's, programmeercodes en zelfs dodelijke biologische wapens. Dit werk heeft potentieel enorme implicaties voor AI-veiligheid.
Het proces van mechanistische interpretatie
Een journalist sprak met Olah en drie van zijn collega's, die deel uitmaken van het team van 18 onderzoekers bij Anthropic. Hun aanpak behandelt kunstmatige neuronen als letters van het Westerse alfabet, die op zichzelf meestal geen betekenis hebben, maar samen een betekenis kunnen vormen. Deze techniek, genaamd dictionary learning, stelt hen in staat om combinaties van neuronen te associëren met specifieke concepten.
Josh Batson, een onderzoeker bij Anthropic, legt uit: "We hebben ongeveer 17 miljoen verschillende concepten in een LLM, en ze komen niet gelabeld voor ons begrip. Dus we kijken gewoon wanneer dat patroon opduikt."
Eerste successen en uitdagingen
Vorig jaar begon het team te experimenteren met een klein model dat slechts één laag neuronen gebruikt. Het doel was om in de eenvoudigste setting patronen te ontdekken die kenmerken aanduiden. Na talloze mislukte experimenten, begon een run genaamd "Johnny" neurale patronen te associëren met concepten die in de outputs verschenen.
"Chris keek ernaar en zei: 'Holy crap. Dit ziet er geweldig uit,'" zegt Tom Henighan, een lid van het technische team van Anthropic. Plotseling konden de onderzoekers de kenmerken identificeren die een groep neuronen codeerde. Ze konden in de zwarte doos kijken.
Uitbreiding naar grotere modellen
Nadat ze hadden aangetoond dat ze kenmerken konden identificeren in het kleine model, gingen de onderzoekers aan de slag met het decoderen van een volwaardig LLM. Ze gebruikten Claude Sonnet, de middelsterke versie van Anthropic's drie huidige modellen. Dit werkte ook. Een kenmerk dat opviel, was geassocieerd met de Golden Gate Bridge. Ze brachten het netwerk van neuronen in kaart dat, wanneer het samen vuurde, aangaf dat Claude aan de brug dacht.
Het team identificeerde miljoenen kenmerken, waaronder veiligheidsgerelateerde zoals "het dicht bij iemand komen met een verborgen motief" en "bespreking van biologische oorlogsvoering."
Manipulatie van neurale netwerken
De volgende stap was om te zien of ze die informatie konden gebruiken om het gedrag van Claude te veranderen. Ze begonnen het neurale netwerk te manipuleren om bepaalde concepten te versterken of te verminderen. Dit soort AI-hersenoperaties heeft het potentieel om LLM's veiliger te maken en hun kracht in geselecteerde gebieden te vergroten.
Bijvoorbeeld, door bepaalde kenmerken te onderdrukken, kan het model veiligere computerprogramma's produceren en vooroordelen verminderen. Aan de andere kant, wanneer het team bewust gevaarlijke combinaties van neuronen activeerde, produceerde Claude gevaarlijke computerprogramma's en scam-e-mails.
Risico's en ethische overwegingen
De onderzoekers verzekerden de journalist dat er andere, gemakkelijkere manieren zijn om problemen te creëren als een gebruiker dat zou willen. Toch roept hun werk ethische vragen op. Zou deze toolkit ook kunnen worden gebruikt om AI-chaos te genereren?
Anthropic is niet het enige team dat probeert de zwarte doos van LLM's te openen. Er is een groep bij DeepMind die ook aan dit probleem werkt, geleid door een onderzoeker die eerder met Olah samenwerkte. Een team van de Northeastern University heeft een systeem ontwikkeld om feiten binnen een open-source LLM te identificeren en te bewerken.
Dit is slechts het begin
Anthropic's werk is slechts een begin. Hoewel hun technieken om kenmerken in Claude te identificeren niet noodzakelijkerwijs helpen bij het decoderen van andere grote taalmodellen, hebben ze een belangrijke stap gezet. Hun succes in het manipuleren van het model is een uitstekend teken dat ze betekenisvolle kenmerken vinden.
Hoewel er beperkingen zijn, zoals het feit dat dictionary learning niet alle concepten kan identificeren die een LLM overweegt, lijkt het erop dat Anthropic een barst in de zwarte doos heeft gemaakt. En dat is wanneer het licht binnenkomt.
Dit artikel biedt een kijkje in de fascinerende wereld van AI-onderzoek en de inspanningen om de mysteries van neurale netwerken te ontrafelen. Het werk van Anthropic markeert een belangrijke stap in de richting van veiligere en meer begrijpelijke AI-systemen.
Bekijk onze uitgelichte artikelen
Laat je inspireren door onze uitgelichte artikelen.