7 november 2025
0 Reactie(s)

7 november 2025

SAP’s RPT‑1 AI-model leert de taal van bedrijfsdata begrijpen

Op LinkedIn ontstond onlangs een leven­dige discussie, aange­wak­kerd door analist John Santa­fer­raro, over de betekenis van een op het eerste gezicht bescheiden onder­zoeks­pro­ject van SAP: RPT‑1. Tijdens een besloten gesprek op SAP TechEd, zo schrijft Santa­fer­raro, lichtte CTO Philipp Herzig toe hoe dit project – oorspron­ke­lijk gestart als alter­na­tief voor een groot taalmodel (LLM) – heeft geleid tot een nieuw type AI-model dat tabellen begrijpt in plaats van tekst. De reacties op Santaferraro’s post – van “ground-breaking” tot “praktisch en verant­woor­de­lijk” – laten zien dat RPT‑1 meer is dan een technisch experi­ment. Het zou wel eens een blauw­druk kunnen worden voor hoe bedrijven hun eigen domein­spe­ci­fieke modellen gaan bouwen.

Waarom SAP geen LLM wilde bouwen

Twee jaar geleden vroeg SAP zich af of het zelf een LLM moest ontwik­kelen. Herzig’s antwoord was duide­lijk: nee. De wereld zou overspoeld worden met generieke modellen die vooral getraind zijn op publieke tekst­data. ‘Wat kunnen wij oplossen dat niemand anders kan?’, was zijn kernvraag. SAP beschikt echter over iets wat redelijk uniek is: gestruc­tu­reerde bedrijfs­data. Met andere woorden, tabellen met groot­boek­posten, prijs­con­di­ties, order­re­gels en perso­neels­in­for­matie. Plus het toestem­ming­kader om deze data geano­ni­mi­seerd te gebruiken voor onderzoek.

Die focus leidde tot RPT‑1, een zogeheten ‘relati­onal predic­tion trans­former’ die niet leert schrijven of samen­vatten, maar die getraind is op voorspel­lingen op tabel­ni­veau. Waar LLM’s zijn afgestemd op natuur­lijke taal, richt RPT‑1 zich op het herkennen van patronen in relati­o­nele tabellen. Met andere woorden: de taal van bedrijfsapplicaties.

Van tabel naar voorspelling

RPT‑1 is geen model dat wordt getraind op klant­data, maar er wél mee wordt gevali­deerd. SAP-onder­zoe­kers in Duits­land en Palo Alto bouwden eerst modellen voor ‘single-table predic­tion’ – bijvoor­beeld het voorspellen van ontbre­kende waarden of toekom­stige trans­ac­ties binnen één SAP-tabel – en werken nu volgens Santa­fer­raro aan ‘cross-table predic­tion’, waarbij verbanden tussen verschil­lende tabellen worden gelegd.

Het techni­sche funda­ment van deze benade­ring is beschreven in het paper ‘ConTextTab: A Seman­tics-Aware Tabular In-Context Learner’ van SAP-onder­zoe­kers Marco Spinaci, Marek Polew­czyk en anderen. ConTextTab is feite­lijk de open source onder­zoeks­versie van RPT‑1. De code staat inmid­dels publiek op GitHub onder sap-rpt-1-oss.

De kracht van semantische tabellen

ConTextTab intro­du­ceert een nieuw idee: ‘tabular in-context learning’ (ICL). Waar taalmo­dellen context leren uit opeen­vol­gende woorden, leert ConTextTab context uit rijen en kolommen. Het model verwerkt kolom­namen, waarden, datums en numerieke relaties via speci­fieke embed­ding-lagen. Catego­rieën en tekst­velden worden seman­tisch geïnter­pre­teerd via BERT-achtige vectoren, datums krijgen hun eigen tijdbe­wuste repre­sen­tatie en numerieke waarden worden gestan­daar­di­seerd en lineair geprojecteerd.

Door deze seman­ti­sche rijkdom begrijpt het model niet alleen cijfers, maar ook de betekenis van kolommen en catego­rieën – iets wat tradi­ti­o­nele tabulaire modellen zoals XGBoost of TabPFN niet doen. In testen behaalde ConTextTab state-of-the-art resul­taten, vooral op de CARTE-bench­mark, een verza­me­ling realis­ti­sche bedrijfs­da­ta­sets met seman­ti­sche kenmerken.

Tabular AI versus traditionele modellen

De presta­ties liegen er niet om. Volgens het onder­zoek presteert ConTextTab beter dan alle bestaande table-native ICL-modellen (zoals TabPFN en TabICL) en zelfs beter dan veel getunede gradient-boosting trees op seman­tisch rijke datasets. Alleen groot­scha­lige ensem­bles zoals AutoG­luon en CatBoost CV weten dat niveau te evenaren.

Belang­rijker nog is de archi­tec­tu­rale vernieu­wing. In plaats van ééndi­men­si­o­nale tekst­se­quen­ties gebruikt ConTextTab een trans­former met afwis­se­lende cross-column en cross-row atten­tion. Zo kan het model verbanden leggen tussen kenmerken (kolommen) én tussen records (rijen). Boven­dien is het systeem permu­tatie-invariant: de volgorde van rijen of kolommen beïnvloedt de uitkomst niet, wat cruciaal is voor tabulaire data.

Van RPT‑1 naar de toekomst van voorspellende bedrijfs-AI

De volgende stap in SAP’s roadmap is volgens analist Santa­fer­raro een cross-table graph trans­former: een archi­tec­tuur die relaties tussen tabellen – bijvoor­beeld tussen inkoop, voorraad en finan­ciën – model­leert als een graph. Daarmee verschuift het zwaar­te­punt van AI-toepas­sing binnen ERP-omgevingen van tekst­ge­ne­ratie naar contex­tuele voorspelling.

Volgens Herzig, zo schrijft Santa­fer­raro, opent dat nieuwe mogelijk­heden voor alles van cashflow­plan­ning tot onder­houds­prog­noses. Bedrijven zouden hun eigen tabellen kunnen inzetten als trainings­ma­te­riaal voor domain-specific modellen zonder privacy te schenden. RPT‑1 gebruikt geen ruwe klant­data, maar leert de struc­tuur, statis­tiek en seman­tiek van zulke tabellen begrijpen.

Small en Domain Language Models

Onder Santaferraro’s LinkedIn-post reageerden meerdere experts dat RPT‑1 precies illustreert waar de AI-wereld naartoe gaat: weg van gigan­ti­sche LLM’s, richting Small Language Models (SLM’s) of Domain Language Models (DLM’s). Eén reactie verwoordde het zo: ‘Dit is exact wat ik al een jaar zeg: bedrijven zullen hun eigen modellen bouwen, niet groot, maar gericht op hun unieke en gedif­fe­ren­ti­eerde data.’

Een andere reageerde enthou­siast: ‘Fantas­tisch om te zien dat SAP AI benadert vanuit prakti­sche waarde. Eerst valideren met echte klant­data, dan pas opschalen.’

Weer een andere deelnemer merkte op hoe RPT‑1 ‘de grens tussen voorspel­lende en genera­tieve AI doet vervagen’. Dat is interes­sant, want het model voorspelt op basis van context, net als een taalmodel, maar dan in de wereld van rijen en kolommen.

Technische sprong

De achter­lig­gende paper beschrijft hoe het model werd getraind op de T4-dataset, bestaande uit ruim twee miljoen echte tabellen. Dat is volgens de auteurs van de paper een belang­rijke stap: eerdere modellen zoals TabPFN leerden uitslui­tend van synthe­tisch gegene­reerde data en misten daardoor seman­ti­sche rijkdom.

ConTextTab combi­neert de effici­ëntie van tabulaire archi­tec­turen met de seman­ti­sche kracht van taalmo­dellen. Het gebruikt weight sharing om parame­ters te beperken (172 miljoen gewichten, geredu­ceerd tot 16 miljoen train­bare parame­ters), draait op één H100 GPU en behaalt state-of-the-art resul­taten op bench­marks als OpenML, TabReD en vooral CARTE.

De presta­ties blijven sterk, schrijven de auteurs, ook bij beperkte data. In tests met slechts 128 rijen per dataset bleef ConTextTab nauwkeu­riger dan AutoG­luon en TabPFN. Dat maakt het model bijzonder geschikt voor domeinen waar veel tabellen maar weinig voorbeelden beschik­baar zijn – precies de situatie in ERP-systemen.

Grenzen en uitdagingen

Toch erkennen de onder­zoe­kers beper­kingen. Tabular ICL-modellen schalen nog slecht naar extreem grote tabellen. De huidige archi­tec­tuur presteert uitste­kend tot ongeveer 10 000 rijen, maar daarna nemen gradient-boosting-modellen weer de leiding. Ook het gebrek aan grote, seman­tisch rijke tabulaire bench­marks remt verdere vooruit­gang. SAP roept daarom op tot meer open datasets die echte bedrijfs­com­plexi­teit weerspiegelen.

Een ander aandachts­punt is dat modellen als RPT‑1 alleen effec­tief zijn als ze voldoende seman­ti­sche diver­si­teit zien tijdens training. De onder­zoe­kers benadrukken dat uitbrei­ding van het trainings­ma­te­riaal – met langere tabellen en meer typen data – noodza­ke­lijk is om de stap te maken naar industriële schaal.

Van generatief naar voorspellend

Santa­fer­raro vat het in zijn eigen woorden samen: “Wat SAP doet met relati­o­nele trans­for­mers en tabular in-context learning kan de manier veran­deren waarop we kijken naar wat we ten onrechte ‘genera­tive AI’ noemen.”

RPT‑1 laat zien dat de waarde van AI niet uitslui­tend ligt in het genereren van tekst, maar ook in het begrijpen van relati­o­nele patronen in bedrijfs­data. Door seman­tiek, struc­tuur en context samen te brengen, zet SAP een interes­sante stap richting AI-gestuurde bedrijfs­lo­gica – modellen die niet alleen beschrijven of samen­vatten, maar straks wellicht direct kunnen voorspellen wat er gaat gebeuren in de kern van de bedrijfsvoering.

Robbert Hoeffnagel

Robbert Hoeffnagel

Editor en journalist @ Business Meets IT

0 Reactie(s)

183 weergaven

Gerelateerde berichten

‘Organisatie met intentie’ bepalend voor bedrijfscontinuïteit in 2026

‘Organisatie met intentie’ bepalend voor bedrijfscontinuïteit in 2026

FC Bayern München scoort met RISE with SAP voor een toekomstbestendige organisatie

FC Bayern München scoort met RISE with SAP voor een toekomstbestendige organisatie

Tussen regels en ruimte: hoe Hexaware kijkt naar AI-regulering en digitale soevereiniteit

Tussen regels en ruimte: hoe Hexaware kijkt naar AI-regulering en digitale soevereiniteit

SAP vernieuwt Services en Support voor versnelling klanttransformaties

SAP vernieuwt Services en Support voor versnelling klanttransformaties

Geen berichten gevonden.

0 Reactie(s)

0 reacties

Reacties gesloten

De reactiemogelijkheid is verlopen. (14 dagen)

Pin It on Pinterest

Share This