Token Control für ISVs: KI-Funktionen monetarisieren, abrechnen, kontrollieren

Inhalt

Token Control als KI-Gateway
Monetarisierung von KI-Funktionen im eigenen Produkt
Abrechnung von KI-Funktionen an die eigenen Kunden
Governance und Limitierungen
Integration in bestehende Setups
Vergleich, Einordnung und nächster Schritt

Die Kostenfrage bei KI im eigenen Produkt ist kein Modell- oder Prompt-Problem. Sie ist ein Problem der Zuordnung und der Architektur. Wer den KI-Verbrauch nicht sauber je Kunde zuordnen kann, kann ihn weder bepreisen, abrechnen noch begrenzen. Genau daran scheitern überraschend viele KI-Funktionen nicht in der Integration, sondern im Betrieb.

Das Muster sehen wir bei Softwareanbietern immer wieder. Das KI-Feature ist in wenigen Tagen integriert: SDK einbinden, API-Key hinterlegen, erste Requests senden. Für den Prototyp reicht das. Sobald dasselbe Feature aber bei vielen Kunden produktiv läuft, kommen die Fragen, die vorher niemand gestellt hat:

Welcher Kunde verursacht welche Kosten? Welches Budget gilt pro Kunde, Feature oder Key? Wie wird Verbrauch weiterberechnet? Und was passiert, wenn ein einzelner Kunde die Modell-Deployment-Limits ausreizt?

Diese Fragen hängen alle an einer einzigen Sache: eine belastbare Verbrauchszuordnung je Kunde. Token Control setzt genau hier an. In diesem Beitrag gehen wir die drei Konsequenzen durch, die daraus entstehen: die Monetarisierung von KI-Funktionen im eigenen Produkt, die Abrechnung gegenüber den eigenen Kunden und die Governance über Limits und Zugriffe.

Token Control als KI-Gateway

Token Control ist ein KI-Gateway für Softwareanbieter. Es sitzt zwischen Ihrer Anwendung und den angebundenen KI-Providern. Dabei unterstützt Token Control die gängigen Anbieter wie Azure AI Foundry, Azure OpenAI, Google Gemini, Mistral, Meta und Anthropic. Ihre Software sendet ihre Requests weiter wie bisher, Token Control übernimmt im Hintergrund Routing, Verbrauchserfassung und Budgetprüfung.

Der entscheidende Mechanismus ist nicht das Routing, sondern die verbrauchsgenaue Zuordnung. Token Control bildet Ihre Produktstruktur ab: Ihre Kunden, darunter einzelne Nutzer oder Features, und zugehörige API-Keys, die die Requests senden und die Kosten verursachen. Erst diese Hierarchie löst das Problem aus der Einleitung. Wer Verbrauch auf dieser Ebene zuordnen kann, hat die Grundlage für alles Weitere.

Kunden, Features und API-Keys in Token Control

Token Control ist hierbei der Mess-, Enforcement- und Kostenzuordnungs-Layer. Die kommerzielle Entscheidung, welcher Kunde welches KI-Feature in welchem Plan nutzen darf, definiert die Lizenz- beziehungsweise Entitlement-Ebene Ihres Produkts. Token Control liefert die Datengrundlage und das harte Enforcement, auf dem diese Ebene aufsetzt. Diese Trennung ist der Grund, warum sich Token Control einfach in bestehende Produkt- und Lizenzarchitekturen einfügt.

Monetarisierung von KI-Funktionen im eigenen Produkt

Jedes paketierte oder nutzungsbasierte Pricing braucht eine native Durchsetzungsgröße, bevor es funktioniert. Bei Token Control ist das ein Budget in Euro pro Kunde oder Feature, token-genau gemessen und hart durchgesetzt, bevor Kosten entstehen. Genau darauf setzen AI-Credit-Pakete und Tier-Staffelungen auf. Ohne diese Größe verkaufen Sie ein KI-Funtkionen blind und tragen das volle Kostenrisiko selbst.

Ein konkretes Beispiel: Ein Softwareanbieter bietet seinen Kunden drei AI-Credit-Pakete an: Small, Medium, Large. “Credit” ist dabei die kundenfreundliche Abstraktion. Technisch entspricht jedes Paket einem monatlichen Limit in Euro pro Kunde, angelegt über die Token Control Management-API. Ist das Paket aufgebraucht, wird der nächste Request blockiert, bevor unkontrollierte Kosten entstehen.

Token Control kennt keinen stillen Overspend. Will ein Kunde mehr, heben Sie in Ihrem Produkt das Limit per API an, etwa beim Wechsel von Medium auf Large. Das ist eine bewusste, protokollierte Aktion Ihres Produkts:

PUT https://mgmt-api.tokencontrol.ai/api/management/consumption/update
Content-Type: application/json

{
  "id": "<id-des-kunden>",
  "name": "Kunde ACME",
  "monthlyLimit": 400.00,
}

Damit verkaufen Sie ein klares Paket statt einer offenen Kostenwette, und Ihre Marge steckt kalkulierbar im Paketpreis. Die Paketdefinition und der Faktor zwischen Credit und Euro bleiben Ihre Pricing-Entscheidung. Token Control macht sie messbar und erzwingt die resultierende Obergrenze.

Abrechnung von KI-Funktionen an die eigenen Kunden

Sie möchten den KI-Verbrauch Ihrer Kunden Token-genau abrechnen? Bei einer direkten KI-Provider-Anbindung ist der Verbrauch nur auf Subscription- oder Ressourcenebene sichtbar, nicht pro Kunde. Genau das macht eine saubere Weiterberechnung unmöglich.

Die Abrechnung läuft programmatisch über die Management-API. Der Lebenszyklus sieht so aus: Sie legen den Kunden mit einem Budget an, das Gateway misst den Tokenverbrauch pro Kunde und API-Key, und zum Abrechnungslauf rufen Sie die Verbrauchs- und Kostendaten je Kunde über die Token Control Management API ab.

POST https://mgmt-api.tokencontrol.ai/api/management/cost/query
Content-Type: application/json

{
  "cloudControlId": "<id-des-kunden>",
  "startTime": "2026-06-01T00:00:00Z",
  "endTime": "2026-06-30T23:59:59Z",
  "includeChildren": true
}

Die Antwort liefert pro Entität die Kosten in der jeweiligen Währung sowie Input- und Output-Tokens:

{
  "costData": [
    {
      "consumptionEntityCloudControlId": "<id-des-kunden>",
      "cost": 142.30,
      "currency": "EUR",
      "inputTokens": 820000,
      "outputTokens": 410000
    }
  ]
}

Zurück zum Beispiel. Zum Monatsende holt sich Ihr Abrechnungslauf die Kostendaten je Kunde über die Management-API, verrechnet das Paket als Flatrate plus eventuelle Zukäufe und erzeugt die Rechnungsposition automatisch in Ihrem Billing- oder ERP-System. Kein manueller Abgleich, keine Diskussion mit dem Kunden über eine Zahl, die niemand belegen kann. Für interne Auswertungen stehen dieselben Daten im Portal und über die API bereit.

Budget-Hierarchie mit monatlichem Limit pro Kunde

Rechnungsstellung und Vertragslogik bleiben in Ihrem Billing- beziehungsweise Lizenzsystem. Token Control liefert die Daten und setzt die Limits durch.

Governance und Limitierungen

Sobald KI-Funktionen produktiv an Kunden ausgeliefert werden, reicht eine reine API-Anbindung der LLM-Modelle nicht mehr aus. Sie müssen nachvollziehen können, wie KI im Produkt genutzt wird, welche Kosten entstehen und welche Regeln pro Kunde, Feature gelten. Wir haben an anderer Stelle ausführlicher beschrieben, warum KI-Kosten in Sekunden entstehen und klassisches Kostenmanagement dafür nicht ausreicht.

Token Control stellt dafür eine zentrale Governance-Schicht bereit. Das Budget-Enforcement greift in Echtzeit: Ist ein Limit erreicht, wird der Request blockiert, bevor weitere Kosten entstehen. Kostenkontrolle findet damit nicht erst im Reporting statt, sondern im laufenden Betrieb. Über TPM-Limits, also Token pro Minute, lässt sich zusätzlich verhindern, dass ein einzelner Kunde oder Agent die geteilte Kapazität dominiert.

Nicht jeder Kunde soll automatisch jedes Modell, jeden Provider oder jedes Deployment nutzen? Modell- und Deployment-Freigaben lassen sich zentral festlegen, API-Keys pro Kunde oder Feature getrennt verwalten. Für Operations- und Support-Teams entsteht damit Nachvollziehbarkeit: Warum wurde ein Request abgelehnt, welches Modell verursacht den höchsten Verbrauch, welche Auffälligkeiten treten über die Zeit auf. Jede Anfrage wird über eine Correlation-ID mit Token-Verbrauch, Modell-Deployment, Zeitstempel und Status dokumentiert, während Prompts und Antworten nicht gespeichert werden. Token Control liefert die technische Grundlage für die notwendige Transparenz und Compliance. Auch für den EU AI Act.

Integration in bestehende Setups

Die technische Hürde ist niedrig. In vielen Fällen ändern sich nur der Endpoint und API-Key Ihrer bestehenden Integration. Ihr genutztes SDK bleibt unverändert im Einsatz. Hier am Beispiel des Azure OpenAI SDKs:

from openai import AzureOpenAI

# Endpoint und Key zeigen jetzt auf Token Control
client = AzureOpenAI(
    azure_endpoint="https://api.tokencontrol.ai/api/v1/azure",
    api_key="<token-control-api-key>",
    api_version="2024-12-01",
)

Für automatisiertes Provisioning steht die Management API bereit. Damit legen Sie Kunden, Budgets, API-Keys und Deployment-Zuordnungen direkt aus Ihren bestehenden Onboarding- oder Self-Service-Prozessen heraus an, statt sie manuell im Token Control Portal zu pflegen:

POST https://mgmt-api.tokencontrol.ai/api/management/consumption/create
Content-Type: application/json

{
  "cloudControlId": "<ihre-kunden-id>",
  "name": "Kunde ACME",
  "type": "Department",
  "parentCloudControlId": "<ihre-org-id>",
  "monthlyLimit": 150.00,
  "threshold": 80
}

Token Control schließt ein vorhandenes API Gateway wie Azure API Management nicht aus, sondern ergänzt es: Das Gateway übernimmt Routing und Lastverteilung, Token Control die Zuordnung je Kunde, Budgets und das Reporting.

Vergleich, Einordnung und nächster Schritt

Die folgende Übersicht stellt die direkte Provider-Anbindung mit der Anbindung über Token Control gegenüber:

Dimension	Direkte Provider-Anbindung	Anbindung über Token Control
Real-time Budget-Enforcement	🔴	🟢
Verbrauch pro Request	🟡	🟢
Kostenzuordnung pro Kunde, Feature oder eigene Entität	🟡	🟢
Trennung nach Kunden	🔴	🟢
Multi-Provider-Routing	🔴	🟢
API-Key-Verwaltung pro Kunde	🟡	🟢
BYOK	–	🟢
Abrechnungsfertige API-Daten	🔴	🟢

Zurück zur Ausgangsthese: KI ist schnell integriert, der Betrieb entscheidet und dieser hängt von verlässlicher Verbrauchszuordnung ab. Token Control liefert dieses Fundament für KI-Monetarisierung, -Abrechnung und -Governance, ohne dass Sie für jeden Kunden oder Feature eine eigene Billing- und Governance-Schicht entwickeln müssen.

Wenn Sie KI-Funktionen kontrolliert in Ihr Produkt integrieren wollen, buchen Sie jetzt eine Demo oder starten Sie direkt mit Token Control als SaaS.