7 november 2025
0 Reactie(s)

7 november 2025

SAP’s RPT‑1 AI-model leert de taal van bedrijfsdata begrijpen

Op LinkedIn ontstond onlangs een leven­dige discussie, aange­wak­kerd door analist John Santa­fer­raro, over de betekenis van een op het eerste gezicht bescheiden onder­zoeks­pro­ject van SAP: RPT‑1. Tijdens een besloten gesprek op SAP TechEd, zo schrijft Santa­fer­raro, lichtte CTO Philipp Herzig toe hoe dit project – oorspron­ke­lijk gestart als alter­na­tief voor een groot taalmodel (LLM) – heeft geleid tot een nieuw type AI-model dat tabellen begrijpt in plaats van tekst. De reacties op Santaferraro’s post – van “ground-breaking” tot “praktisch en verant­woor­de­lijk” – laten zien dat RPT‑1 meer is dan een technisch experi­ment. Het zou wel eens een blauw­druk kunnen worden voor hoe bedrijven hun eigen domein­spe­ci­fieke modellen gaan bouwen.

Waarom SAP geen LLM wilde bouwen

Twee jaar geleden vroeg SAP zich af of het zelf een LLM moest ontwik­kelen. Herzig’s antwoord was duide­lijk: nee. De wereld zou overspoeld worden met generieke modellen die vooral getraind zijn op publieke tekst­data. ‘Wat kunnen wij oplossen dat niemand anders kan?’, was zijn kernvraag. SAP beschikt echter over iets wat redelijk uniek is: gestruc­tu­reerde bedrijfs­data. Met andere woorden, tabellen met groot­boek­posten, prijs­con­di­ties, order­re­gels en perso­neels­in­for­matie. Plus het toestem­ming­kader om deze data geano­ni­mi­seerd te gebruiken voor onderzoek.

Die focus leidde tot RPT‑1, een zogeheten ‘relati­onal predic­tion trans­former’ die niet leert schrijven of samen­vatten, maar die getraind is op voorspel­lingen op tabel­ni­veau. Waar LLM’s zijn afgestemd op natuur­lijke taal, richt RPT‑1 zich op het herkennen van patronen in relati­o­nele tabellen. Met andere woorden: de taal van bedrijfsapplicaties.

Van tabel naar voorspelling

RPT‑1 is geen model dat wordt getraind op klant­data, maar er wél mee wordt gevali­deerd. SAP-onder­zoe­kers in Duits­land en Palo Alto bouwden eerst modellen voor ‘single-table predic­tion’ – bijvoor­beeld het voorspellen van ontbre­kende waarden of toekom­stige trans­ac­ties binnen één SAP-tabel – en werken nu volgens Santa­fer­raro aan ‘cross-table predic­tion’, waarbij verbanden tussen verschil­lende tabellen worden gelegd.

Het techni­sche funda­ment van deze benade­ring is beschreven in het paper ‘ConTextTab: A Seman­tics-Aware Tabular In-Context Learner’ van SAP-onder­zoe­kers Marco Spinaci, Marek Polew­czyk en anderen. ConTextTab is feite­lijk de open source onder­zoeks­versie van RPT‑1. De code staat inmid­dels publiek op GitHub onder sap-rpt-1-oss.

De kracht van semantische tabellen

ConTextTab intro­du­ceert een nieuw idee: ‘tabular in-context learning’ (ICL). Waar taalmo­dellen context leren uit opeen­vol­gende woorden, leert ConTextTab context uit rijen en kolommen. Het model verwerkt kolom­namen, waarden, datums en numerieke relaties via speci­fieke embed­ding-lagen. Catego­rieën en tekst­velden worden seman­tisch geïnter­pre­teerd via BERT-achtige vectoren, datums krijgen hun eigen tijdbe­wuste repre­sen­tatie en numerieke waarden worden gestan­daar­di­seerd en lineair geprojecteerd.

Door deze seman­ti­sche rijkdom begrijpt het model niet alleen cijfers, maar ook de betekenis van kolommen en catego­rieën – iets wat tradi­ti­o­nele tabulaire modellen zoals XGBoost of TabPFN niet doen. In testen behaalde ConTextTab state-of-the-art resul­taten, vooral op de CARTE-bench­mark, een verza­me­ling realis­ti­sche bedrijfs­da­ta­sets met seman­ti­sche kenmerken.

Tabular AI versus traditionele modellen

De presta­ties liegen er niet om. Volgens het onder­zoek presteert ConTextTab beter dan alle bestaande table-native ICL-modellen (zoals TabPFN en TabICL) en zelfs beter dan veel getunede gradient-boosting trees op seman­tisch rijke datasets. Alleen groot­scha­lige ensem­bles zoals AutoG­luon en CatBoost CV weten dat niveau te evenaren.

Belang­rijker nog is de archi­tec­tu­rale vernieu­wing. In plaats van ééndi­men­si­o­nale tekst­se­quen­ties gebruikt ConTextTab een trans­former met afwis­se­lende cross-column en cross-row atten­tion. Zo kan het model verbanden leggen tussen kenmerken (kolommen) én tussen records (rijen). Boven­dien is het systeem permu­tatie-invariant: de volgorde van rijen of kolommen beïnvloedt de uitkomst niet, wat cruciaal is voor tabulaire data.

Van RPT‑1 naar de toekomst van voorspellende bedrijfs-AI

De volgende stap in SAP’s roadmap is volgens analist Santa­fer­raro een cross-table graph trans­former: een archi­tec­tuur die relaties tussen tabellen – bijvoor­beeld tussen inkoop, voorraad en finan­ciën – model­leert als een graph. Daarmee verschuift het zwaar­te­punt van AI-toepas­sing binnen ERP-omgevingen van tekst­ge­ne­ratie naar contex­tuele voorspelling.

Volgens Herzig, zo schrijft Santa­fer­raro, opent dat nieuwe mogelijk­heden voor alles van cashflow­plan­ning tot onder­houds­prog­noses. Bedrijven zouden hun eigen tabellen kunnen inzetten als trainings­ma­te­riaal voor domain-specific modellen zonder privacy te schenden. RPT‑1 gebruikt geen ruwe klant­data, maar leert de struc­tuur, statis­tiek en seman­tiek van zulke tabellen begrijpen.

Small en Domain Language Models

Onder Santaferraro’s LinkedIn-post reageerden meerdere experts dat RPT‑1 precies illustreert waar de AI-wereld naartoe gaat: weg van gigan­ti­sche LLM’s, richting Small Language Models (SLM’s) of Domain Language Models (DLM’s). Eén reactie verwoordde het zo: ‘Dit is exact wat ik al een jaar zeg: bedrijven zullen hun eigen modellen bouwen, niet groot, maar gericht op hun unieke en gedif­fe­ren­ti­eerde data.’

Een andere reageerde enthou­siast: ‘Fantas­tisch om te zien dat SAP AI benadert vanuit prakti­sche waarde. Eerst valideren met echte klant­data, dan pas opschalen.’

Weer een andere deelnemer merkte op hoe RPT‑1 ‘de grens tussen voorspel­lende en genera­tieve AI doet vervagen’. Dat is interes­sant, want het model voorspelt op basis van context, net als een taalmodel, maar dan in de wereld van rijen en kolommen.

Technische sprong

De achter­lig­gende paper beschrijft hoe het model werd getraind op de T4-dataset, bestaande uit ruim twee miljoen echte tabellen. Dat is volgens de auteurs van de paper een belang­rijke stap: eerdere modellen zoals TabPFN leerden uitslui­tend van synthe­tisch gegene­reerde data en misten daardoor seman­ti­sche rijkdom.

ConTextTab combi­neert de effici­ëntie van tabulaire archi­tec­turen met de seman­ti­sche kracht van taalmo­dellen. Het gebruikt weight sharing om parame­ters te beperken (172 miljoen gewichten, geredu­ceerd tot 16 miljoen train­bare parame­ters), draait op één H100 GPU en behaalt state-of-the-art resul­taten op bench­marks als OpenML, TabReD en vooral CARTE.

De presta­ties blijven sterk, schrijven de auteurs, ook bij beperkte data. In tests met slechts 128 rijen per dataset bleef ConTextTab nauwkeu­riger dan AutoG­luon en TabPFN. Dat maakt het model bijzonder geschikt voor domeinen waar veel tabellen maar weinig voorbeelden beschik­baar zijn – precies de situatie in ERP-systemen.

Grenzen en uitdagingen

Toch erkennen de onder­zoe­kers beper­kingen. Tabular ICL-modellen schalen nog slecht naar extreem grote tabellen. De huidige archi­tec­tuur presteert uitste­kend tot ongeveer 10 000 rijen, maar daarna nemen gradient-boosting-modellen weer de leiding. Ook het gebrek aan grote, seman­tisch rijke tabulaire bench­marks remt verdere vooruit­gang. SAP roept daarom op tot meer open datasets die echte bedrijfs­com­plexi­teit weerspiegelen.

Een ander aandachts­punt is dat modellen als RPT‑1 alleen effec­tief zijn als ze voldoende seman­ti­sche diver­si­teit zien tijdens training. De onder­zoe­kers benadrukken dat uitbrei­ding van het trainings­ma­te­riaal – met langere tabellen en meer typen data – noodza­ke­lijk is om de stap te maken naar industriële schaal.

Van generatief naar voorspellend

Santa­fer­raro vat het in zijn eigen woorden samen: “Wat SAP doet met relati­o­nele trans­for­mers en tabular in-context learning kan de manier veran­deren waarop we kijken naar wat we ten onrechte ‘genera­tive AI’ noemen.”

RPT‑1 laat zien dat de waarde van AI niet uitslui­tend ligt in het genereren van tekst, maar ook in het begrijpen van relati­o­nele patronen in bedrijfs­data. Door seman­tiek, struc­tuur en context samen te brengen, zet SAP een interes­sante stap richting AI-gestuurde bedrijfs­lo­gica – modellen die niet alleen beschrijven of samen­vatten, maar straks wellicht direct kunnen voorspellen wat er gaat gebeuren in de kern van de bedrijfsvoering.

Robbert Hoeffnagel

Robbert Hoeffnagel

Editor en journalist @ Business Meets IT

0 Reactie(s)

104 weergaven

Gerelateerde berichten

PWN bouwt aan toekomstbestendige waterlevering met RISE with SAP

PWN bouwt aan toekomstbestendige waterlevering met RISE with SAP

MCI versnelt wereldwijde standaardisatie met SAP S/​4HANA Public Cloud

MCI versnelt wereldwijde standaardisatie met SAP S/​4HANA Public Cloud

SAP introduceert EU AI Cloud als nieuw fundament voor Europese digitale soevereiniteit

SAP introduceert EU AI Cloud als nieuw fundament voor Europese digitale soevereiniteit

Onderzoek: ‘Een op de tien Nederlandse bedrijven biedt geen startersfuncties meer aan door AI’

Onderzoek: ‘Een op de tien Nederlandse bedrijven biedt geen startersfuncties meer aan door AI’

Geen berichten gevonden.

0 Reactie(s)

0 reacties

Reacties gesloten

De reactiemogelijkheid is verlopen. (14 dagen)

Pin It on Pinterest

Share This