Een developer ontdekte onlangs iets vreemds bij de populaire en door AI aangedreven code-editor Cursor. Bij het wisselen tussen apparaten werd hij automatisch uitgelogd. Dit verbrak een veelvoorkomende workflow voor programmeurs die meerdere apparaten gebruiken. Toen de gebruiker contact opnam met de ondersteuning van Cursor, informeerde een agent genaamd ‘Sam’ hem dat dit was gebeurd op basis van een nieuw beleid. Dat is opmerkelijk, want zo’n beleid bestond helemaal niet, en ‘Sam’ bleek bovendien een AI-bot te zijn. Het AI-model had het beleid verzonnen, wat leidde tot een golf van klachten en dreigementen om abonnementen op te zeggen, gedocumenteerd op Hacker News en Reddit.
Dit incident markeert het meest recente voorbeeld van zogeheten ‘AI-confabulaties’ (ook wel ‘hallucinaties’ genoemd) die potentiële bedrijfsschade veroorzaken. Confabulations zijn een soort ‘creatieve gap-filling’ respons waarbij AI-modellen plausibel klinkende maar valse informatie verzinnen. In plaats van onzekerheid toe te geven, geven AI-modellen de voorkeur aan het creëren van plausibel klinkende antwoorden, zelfs als dat betekent dat ze informatie vanuit het niets verzinnen.
Op klanten gerichte rollen
Voor bedrijven die deze AI-systemen in klantgerichte rollen inzetten zonder menselijk toezicht, kunnen de gevolgen ronduit v ervelend en kostbaar zijn: gefrustreerde klanten, beschadigd vertrouwen en, in het geval van Cursor, potentiële opgezegde abonnementen.
Het hierboven genoemde incident begon toen een Reddit-gebruiker genaamd ‘BrokenToasterOven’ opmerkte dat Cursor-sessies onverwacht werden beëindigd bij het wisselen tussen een desktop, laptop en een externe ontwikkelbox. ‘Inloggen op Cursor op één apparaat maakt de sessie op elk ander apparaat ongeldig’, schreef BrokenToasterOven in een bericht dat later werd verwijderd door r/cursor-moderators. ‘Dit is een significante UX-regressie’.
Gefrustreerd stuurde de gebruiker een e‑mail naar de ondersteuning van Cursor en ontving snel een antwoord van Sam: ‘Cursor is ontworpen om te werken met één apparaat per abonnement als een core-beveiligingsfunctie’, luidde het e‑mailantwoord. Het antwoord klonk definitief en officieel, en de gebruiker vermoedde niet dat Sam geen mens was.
Na de initiële Reddit-post nam een Cursor-vertegenwoordiger drie uur later contact op via Reddit, met een mededeling die er kortweg op neer kwam: ‘We kennen geen dergelijk beleid. Je kunt Cursor uiteraard op meerdere apparaten gebruiken. Helaas is dit een onjuist antwoord van een front-line AI-ondersteuningsbot’.
Hallucinaties als bedrijfsrisico
De Cursor-situatie roept herinneringen op aan een vergelijkbaar incident uit februari 2024, toen Air Canada werd gedwongen door hun eigen chatbot verzonnen terugbetalingsbeleid te erkennen. In dat geval had iemand contact opgenomen met de customer service van Air Canada nadat zijn grootmoeder was overleden. De AI-agent van de luchtvaartmaatschappij vertelde hem daarop dat hij een vlucht tegen de reguliere prijs kon boeken en achteraf aanspraak kon maken op rouwtarieven. Toen Air Canada later zijn verzoek om terugbetaling weigerde, beweerde het bedrijf dat de chatbot een afzonderlijke juridische entiteit is die verantwoordelijk is voor zijn eigen handelingen. Een Canadese rechtbank wees deze verdediging af en oordeelde dat bedrijven verantwoordelijk zijn voor de informatie die hun AI-tools verstrekken.
In plaats van de verantwoordelijkheid te betwisten zoals Air Canada had gedaan, erkende Cursor wel direct de fout en nam stappen om het goed te maken. Mede-oprichter Michael Truell bood later zijn excuses aan op Hacker News voor de verwarring over het niet-bestaande beleid, verklaarde dat de gebruiker was terugbetaald en dat het probleem voortkwam uit een back-end wijziging die bedoeld was om de sessiebeveiliging te verbeteren, maar onbedoeld problemen met sessies veroorzaakte voor sommige gebruikers. Alle AI-antwoorden die Cursor gebruikt voor e‑mailondersteuning zijn nu als zodanig gelabeld.
Het incident werpt echter nog steeds vragen op over openheid, aangezien veel mensen die met Sam interacteerden, kennelijk dachten dat het een mens was. Hoewel Cursor de technische bug heeft verholpen, toont de episode de risico’s van het inzetten van AI-modellen in klantgerichte rollen zonder de juiste veiligheidsmaatregelen en transparantie.
0 reacties