Op LinkedIn ontstond onlangs een levendige discussie, aangewakkerd door analist John Santaferraro, over de betekenis van een op het eerste gezicht bescheiden onderzoeksproject van SAP: RPT‑1. Tijdens een besloten gesprek op SAP TechEd, zo schrijft Santaferraro, lichtte CTO Philipp Herzig toe hoe dit project – oorspronkelijk gestart als alternatief voor een groot taalmodel (LLM) – heeft geleid tot een nieuw type AI-model dat tabellen begrijpt in plaats van tekst. De reacties op Santaferraro’s post – van “ground-breaking” tot “praktisch en verantwoordelijk” – laten zien dat RPT‑1 meer is dan een technisch experiment. Het zou wel eens een blauwdruk kunnen worden voor hoe bedrijven hun eigen domeinspecifieke modellen gaan bouwen.
Waarom SAP geen LLM wilde bouwen
Twee jaar geleden vroeg SAP zich af of het zelf een LLM moest ontwikkelen. Herzig’s antwoord was duidelijk: nee. De wereld zou overspoeld worden met generieke modellen die vooral getraind zijn op publieke tekstdata. ‘Wat kunnen wij oplossen dat niemand anders kan?’, was zijn kernvraag. SAP beschikt echter over iets wat redelijk uniek is: gestructureerde bedrijfsdata. Met andere woorden, tabellen met grootboekposten, prijscondities, orderregels en personeelsinformatie. Plus het toestemmingkader om deze data geanonimiseerd te gebruiken voor onderzoek.
Die focus leidde tot RPT‑1, een zogeheten ‘relational prediction transformer’ die niet leert schrijven of samenvatten, maar die getraind is op voorspellingen op tabelniveau. Waar LLM’s zijn afgestemd op natuurlijke taal, richt RPT‑1 zich op het herkennen van patronen in relationele tabellen. Met andere woorden: de taal van bedrijfsapplicaties.
Van tabel naar voorspelling
RPT‑1 is geen model dat wordt getraind op klantdata, maar er wél mee wordt gevalideerd. SAP-onderzoekers in Duitsland en Palo Alto bouwden eerst modellen voor ‘single-table prediction’ – bijvoorbeeld het voorspellen van ontbrekende waarden of toekomstige transacties binnen één SAP-tabel – en werken nu volgens Santaferraro aan ‘cross-table prediction’, waarbij verbanden tussen verschillende tabellen worden gelegd.
Het technische fundament van deze benadering is beschreven in het paper ‘ConTextTab: A Semantics-Aware Tabular In-Context Learner’ van SAP-onderzoekers Marco Spinaci, Marek Polewczyk en anderen. ConTextTab is feitelijk de open source onderzoeksversie van RPT‑1. De code staat inmiddels publiek op GitHub onder sap-rpt-1-oss.
De kracht van semantische tabellen
ConTextTab introduceert een nieuw idee: ‘tabular in-context learning’ (ICL). Waar taalmodellen context leren uit opeenvolgende woorden, leert ConTextTab context uit rijen en kolommen. Het model verwerkt kolomnamen, waarden, datums en numerieke relaties via specifieke embedding-lagen. Categorieën en tekstvelden worden semantisch geïnterpreteerd via BERT-achtige vectoren, datums krijgen hun eigen tijdbewuste representatie en numerieke waarden worden gestandaardiseerd en lineair geprojecteerd.
Door deze semantische rijkdom begrijpt het model niet alleen cijfers, maar ook de betekenis van kolommen en categorieën – iets wat traditionele tabulaire modellen zoals XGBoost of TabPFN niet doen. In testen behaalde ConTextTab state-of-the-art resultaten, vooral op de CARTE-benchmark, een verzameling realistische bedrijfsdatasets met semantische kenmerken.
Tabular AI versus traditionele modellen
De prestaties liegen er niet om. Volgens het onderzoek presteert ConTextTab beter dan alle bestaande table-native ICL-modellen (zoals TabPFN en TabICL) en zelfs beter dan veel getunede gradient-boosting trees op semantisch rijke datasets. Alleen grootschalige ensembles zoals AutoGluon en CatBoost CV weten dat niveau te evenaren.
Belangrijker nog is de architecturale vernieuwing. In plaats van ééndimensionale tekstsequenties gebruikt ConTextTab een transformer met afwisselende cross-column en cross-row attention. Zo kan het model verbanden leggen tussen kenmerken (kolommen) én tussen records (rijen). Bovendien is het systeem permutatie-invariant: de volgorde van rijen of kolommen beïnvloedt de uitkomst niet, wat cruciaal is voor tabulaire data.
Van RPT‑1 naar de toekomst van voorspellende bedrijfs-AI
De volgende stap in SAP’s roadmap is volgens analist Santaferraro een cross-table graph transformer: een architectuur die relaties tussen tabellen – bijvoorbeeld tussen inkoop, voorraad en financiën – modelleert als een graph. Daarmee verschuift het zwaartepunt van AI-toepassing binnen ERP-omgevingen van tekstgeneratie naar contextuele voorspelling.
Volgens Herzig, zo schrijft Santaferraro, opent dat nieuwe mogelijkheden voor alles van cashflowplanning tot onderhoudsprognoses. Bedrijven zouden hun eigen tabellen kunnen inzetten als trainingsmateriaal voor domain-specific modellen zonder privacy te schenden. RPT‑1 gebruikt geen ruwe klantdata, maar leert de structuur, statistiek en semantiek van zulke tabellen begrijpen.
Small en Domain Language Models
Onder Santaferraro’s LinkedIn-post reageerden meerdere experts dat RPT‑1 precies illustreert waar de AI-wereld naartoe gaat: weg van gigantische LLM’s, richting Small Language Models (SLM’s) of Domain Language Models (DLM’s). Eén reactie verwoordde het zo: ‘Dit is exact wat ik al een jaar zeg: bedrijven zullen hun eigen modellen bouwen, niet groot, maar gericht op hun unieke en gedifferentieerde data.’
Een andere reageerde enthousiast: ‘Fantastisch om te zien dat SAP AI benadert vanuit praktische waarde. Eerst valideren met echte klantdata, dan pas opschalen.’
Weer een andere deelnemer merkte op hoe RPT‑1 ‘de grens tussen voorspellende en generatieve AI doet vervagen’. Dat is interessant, want het model voorspelt op basis van context, net als een taalmodel, maar dan in de wereld van rijen en kolommen.
Technische sprong
De achterliggende paper beschrijft hoe het model werd getraind op de T4-dataset, bestaande uit ruim twee miljoen echte tabellen. Dat is volgens de auteurs van de paper een belangrijke stap: eerdere modellen zoals TabPFN leerden uitsluitend van synthetisch gegenereerde data en misten daardoor semantische rijkdom.
ConTextTab combineert de efficiëntie van tabulaire architecturen met de semantische kracht van taalmodellen. Het gebruikt weight sharing om parameters te beperken (172 miljoen gewichten, gereduceerd tot 16 miljoen trainbare parameters), draait op één H100 GPU en behaalt state-of-the-art resultaten op benchmarks als OpenML, TabReD en vooral CARTE.
De prestaties blijven sterk, schrijven de auteurs, ook bij beperkte data. In tests met slechts 128 rijen per dataset bleef ConTextTab nauwkeuriger dan AutoGluon en TabPFN. Dat maakt het model bijzonder geschikt voor domeinen waar veel tabellen maar weinig voorbeelden beschikbaar zijn – precies de situatie in ERP-systemen.
Grenzen en uitdagingen
Toch erkennen de onderzoekers beperkingen. Tabular ICL-modellen schalen nog slecht naar extreem grote tabellen. De huidige architectuur presteert uitstekend tot ongeveer 10 000 rijen, maar daarna nemen gradient-boosting-modellen weer de leiding. Ook het gebrek aan grote, semantisch rijke tabulaire benchmarks remt verdere vooruitgang. SAP roept daarom op tot meer open datasets die echte bedrijfscomplexiteit weerspiegelen.
Een ander aandachtspunt is dat modellen als RPT‑1 alleen effectief zijn als ze voldoende semantische diversiteit zien tijdens training. De onderzoekers benadrukken dat uitbreiding van het trainingsmateriaal – met langere tabellen en meer typen data – noodzakelijk is om de stap te maken naar industriële schaal.
Van generatief naar voorspellend
Santaferraro vat het in zijn eigen woorden samen: “Wat SAP doet met relationele transformers en tabular in-context learning kan de manier veranderen waarop we kijken naar wat we ten onrechte ‘generative AI’ noemen.”
RPT‑1 laat zien dat de waarde van AI niet uitsluitend ligt in het genereren van tekst, maar ook in het begrijpen van relationele patronen in bedrijfsdata. Door semantiek, structuur en context samen te brengen, zet SAP een interessante stap richting AI-gestuurde bedrijfslogica – modellen die niet alleen beschrijven of samenvatten, maar straks wellicht direct kunnen voorspellen wat er gaat gebeuren in de kern van de bedrijfsvoering.





0 reacties