KI-Hardware · Lieferung & Inbetriebnahme aus München

KI-Server.
Bei dir. Nicht in der
Cloud.        

Drei vorkonfigurierte GPU-Systeme zum Kauf oder zur Miete vor Ort. Wir liefern, integrieren und betreuen — du bekommst dedizierte Rechenleistung in deinem Netz, ohne dass deine Daten dein Haus verlassen.

Kauf oder Mietmodell
Lieferung & Setup vor Ort
Wartung & Fernsupport inklusive
GEX-Reihe · Konfiguration M
AI-Server M
ON-PREM
GPU · RTX PRO 5000 Blackwell
CPU · 12 Cores
RAM · 128 GB DDR5 ECC
NVMe · 2× 2TB Gen5
10G Network · Redundant PSU
VRAM
48 GB GDDR7 ECC
KI-Leistung
1.801 TOPS
Bereitstellung
Kauf oder Miete
Standort
Dein Serverraum
Wann eigene Hardware

Drei Gründe, die Cloud zu lassen.

Cloud-KI ist schnell zu starten. Aber für regulierte Branchen, große Datenmengen und produktive Workloads gibt es Situationen, in denen eigene Hardware schlicht günstiger, sicherer oder schneller ist.

01
Datenhoheit ist Pflicht
Patientendaten, Mandantenakten, Konstruktionspläne — Daten, die das Unternehmen aus regulatorischen Gründen nicht verlassen dürfen, gehören auf eigene Hardware.
→ DSGVO ·  BDSG ·  Berufsgeheimnis
02
Latenz oder Datenvolumen
Wenn Bilder, CAD-Dateien oder Sensordaten in Echtzeit verarbeitet werden, ist die Leitung in die Cloud das Bottleneck. On-Premises bleibt alles im LAN.
→ Bildverarbeitung ·  CAD ·  IoT
03
Dauerlast wird teuer
Cloud-GPUs lohnen sich für Spitzenlasten. Wer KI dauerhaft betreibt, zahlt nach 12–18 Monaten oft mehr Miete als der Server kosten würde.
→ TCO-Rechnung auf Anfrage
DREI KONFIGURATIONEN

GEX-Systeme. Klare Specs.
Kauf oder Miete.

Wähle die Hardware, die zu deiner Modellgröße und Nutzerzahl passt. Alle Pakete kommen mit dediziertem VRAM, ECC-Speicher und Blackwell-Architektur. Skalieren auf größeres Paket jederzeit möglich.
GEX-S
Workstation · kleinere Modelle, einzelne Anwender
RTX PRO 4000
Blackwell · 24 GB GDDR7 ECC
vCPU
8 Cores
RAM
64 GB DDR5
Storage
2× 1 TB NVMe
CUDA-Cores
8.960
Bandbreite
672 GB/s
FP32
40 TFLOPS
KI-Leistung
1.290 TOPS
Kauf
auf Anfrage
Miete / Monat
auf Anfrage
GEX-S anfragen
GEX-M
Server · 7B–30B Modelle, kleine Teams
RTX PRO 5000
Blackwell ·  48 GB GDDR7 ECC
vCPU
12 Cores
RAM
128 GB DDR5 ECC
Storage
2× 2 TB NVMe
CUDA-Cores
14.080
Bandbreite
1.344 GB/s
FP32
55,3 TFLOPS
KI-Leistung
1.801 TOPS
Kauf
auf Anfrage
Miete / Monat
auf Anfrage
GEX-M anfragen
GEX-L
Server · große Modelle, viele User parallel
RTX PRO 6000
Blackwell · 96 GB GDDR7 ECC
vCPU
16 Cores
RAM
256 GB DDR5 ECC
Storage
4× 2 TB NVMe
CUDA-Cores
24.064
Bandbreite
1.792 GB/s
FP32
125 TFLOPS
KI-Leistung
4.000 TOPS
Kauf
auf Anfrage
Miete / Monat
auf Anfrage
GEX-L anfragen

Alle Preise zzgl. MwSt. · Optional als Managed Inferenz mit Modell-Betrieb buchbar (Add-on) ·  Mehrere GPUs oder Sonderkonfiguration?

BEREITSTELLUNG

Kauf oder Miete.
Du entscheidest, wir liefern.

Beide Modelle, dieselbe Hardware, dieselbe Service-Qualität. Der Unterschied liegt nur in Eigentum und Bilanzierung — der Server steht in beiden Fällen in deinem Serverraum.
Kauf
Hardware geht in dein Eigentum über
  • Volles Eigentum nach Lieferung — Aktivierung als Anlagevermögen
  • Inbetriebnahme, Einrichtung und Integration durch uns
  • Optionaler Wartungsvertrag mit Hardware-Tausch und Support-SLA
  • Keine laufenden Kosten außer Strom und optionalem Servicevertrag
  • Frei wählbare Restnutzung nach Abschreibung — Hardware bleibt deins
Lohnt sich, wenn …
… du dauerhaft hohe Auslastung erwartest und CapEx vorziehst.
Mietmodell vor Ort
Dieselbe Hardware, ohne Anschaffung
  • Monatliche Pauschale statt Investition — als OpEx buchbar
  • Lieferung, Inbetriebnahme und laufende Wartung inklusive
  • Hardware-Tausch und Aufrüstung während der Vertragslaufzeit möglich
  • Defekte Komponenten werden ohne Zusatzkosten ersetzt
  • Kündigung nach Mindestlaufzeit, Übernahme zum Restwert möglich
Lohnt sich, wenn …
… du Flexibilität brauchst und nicht selbst in Hardware investieren willst.
Was wir liefern

Hardware ist das eine.
Betrieb ist das andere.

Wir liefern keine Pappkartons mit Server drin. Wir konfigurieren die Hardware auf deinen Use Case, integrieren sie in dein Netz, installieren das Sprachmodell deiner Wahl und übernehmen den laufenden Betrieb — wenn du willst.

  1. Konfiguration & Beratung
    Welches Modell, wie viele Nutzer, welche Daten? Wir dimensionieren das System anhand der Anforderungen — keine Standardpakete, sondern abgestimmte Hardware.
  2. Lieferung & Aufbau vor Ort
    Wir bringen den Server zu dir, bauen ihn ein und schließen ihn an. Inkl. Stromversorgung, Netzwerk-Anbindung, Kühlungsprüfung — alles, was zur Inbetriebnahme gehört.
  3. Setup von Modell & API
    Wir installieren das Open-Source-Sprachmodell deiner Wahl mit vLLM und stellen eine OpenAI-kompatible API bereit — sodass deine Anwendungen sofort darauf zugreifen können.
  4. Wartung & Fernsupport
    Optional mit Wartungsvertrag: Monitoring, Sicherheits-Updates, Modell-Updates, Hardware-Tausch bei Defekten. Reaktionszeiten je nach SLA-Stufe.
// Typischer Ablauf

Vom Kickoff zum Live-Betrieb

1
TAG 1
Erstgespräch
30 Min — Use Case, Modell, Nutzerzahl, Datenklasse
2
TAG 2–3
Konfigurationsangebot
Konkretes Angebot mit Specs, Preis und Mietmodell-Vergleich
3
WOCHE 2–4
Beschaffung & Vorbereitung
Hardware-Bestellung, Vorkonfiguration in unserem Lab
4
WOCHE 4–5
Lieferung & Inbetriebnahme
Aufbau vor Ort, Netzwerk-Integration, Modell-Setup
5
AB WOCHE 5
Live-Betrieb
API steht, Anwendungen laufen, optional mit Wartungsvertrag
Was läuft darauf

Welches System für welches Modell?

Damit du weißt, was du kaufst: Hier siehst du, wie viele gleichzeitige Nutzer jedes System pro Open-Source-Sprachmodell bedient. Reasoning-Modelle in voller Präzision, kein Quantisierungs-Trick.
Modell
Max Context
GEX-S
GEX-M
GEX-L
gpt-oss-20B (high)
131k
-
7
22
gpt-oss-20B (high)
131k
-
-
- *
Gemma 4 31B Reasoning
256k
-
1
5
Gemma 4 26B A4B Reasoning
256k
-
7
24
Nemotron 3 Super 120B A12B Reasoning
1M
-
-
 - *  
Nemotron 3 Nano 30B A3B Reasoning
1M
-
4
20
Qwen 3.6 35B A3B Reasoning
262k
-
-
5

Werte = gleichzeitige aktive Nutzer (Concurrent Users). „—" = Modell passt nicht ins VRAM. * Mehr-GPU-Setup auf Anfrage möglich.

Modell nicht dabei? Wir betreiben grundsätzlich jedes Open-Source-Sprachmodell, das mit vLLM kompatibel ist — Llama, DeepSeek, Mistral und andere. Sag uns, was du brauchst.
Modell anfrage →
Aus der Praxis

Wofür Kunden KI-Server vor Ort einsetzen.

Vier typische Konstellationen aus unseren Branchen — als Orientierung, welche Konfiguration zu welcher Anwendung passt.
Arztpraxen & MVZ

Befundtexte automatisch zusammenfassen

Anamnesen, Laborwerte und Befunde aus dem KIS werden lokal durch ein Sprachmodell zusammengefasst – ohne dass Patientendaten je das Praxis-Netz verlassen. Berufsgeheimnis und § 203 StGB bleiben gewahrt.

Empfohlen
GEX-M ·  Gemma 4 26B
Steuerkanzleien

Mandanten-Schriftverkehr & Recherche

Mandantenakten werden lokal durchsucht und ausgewertet. Vorschläge für Schreiben, Einsprüche und Stellungnahmen entstehen aus dem Bestand — Mandantengeheimnis bleibt im Haus.

Empfohlen
GEX-M ·  Qwen 3.6
Architekten & Ingenieure

Spezifikationen & Ausschreibungen

Lastenhefte, Leistungsverzeichnisse und Normentexte werden ausgewertet und Vorlagen generiert. Konstruktions-IP bleibt im Büro, statt sie an US-Cloud-Anbieter zu schicken.

Empfohlen
GEX-L ·  Nemotron 3 Nano
Maschinenbau

Service-Doku & Wartungs-Assistent

Schaltpläne, Service-Bulletins und Maschinen-Handbücher werden indiziert. Servicetechniker bekommen Antworten direkt aus der Werks-IT — auch offline, auch im Werk ohne Internet.          

Empfohlen
GEX-L ·  gpt-oss-20B
FAQ

Häufige Fragen.
Klare Antworten.

Etwas Wichtiges fehlt? 30-Min Beratung buchen — wir
gehen alles durch.

Wann lohnt sich eigene Hardware gegenüber Cloud-KI-Hosting?

Faustregel: bei Dauerlast ab 8–10 Stunden pro Tag, bei sensiblen Daten mit Berufsgeheimnis-Pflicht (Arzt, Anwalt, Steuerberater), bei großen Datenvolumina im LAN oder wenn die Internet-Anbindung nicht für Cloud-KI ausreicht. Wir machen dir auf Wunsch eine TCO-Rechnung über 36 Monate.

Welches System passt zu uns?

Faustregel: GEX-S für einzelne Anwender und Embedding-Workloads, GEX-M für 7B–30B Modelle und kleine Teams, GEX-L für 30B+ Modelle und produktiven Mehrnutzer-Betrieb. Die Modell-Tabelle oben zeigt, wie viele Nutzer parallel laufen können. Im Erstgespräch dimensionieren wir das System auf deinen konkreten Use Case.

Was ist im Lieferumfang enthalten?

Vollständig vorkonfigurierter Server, Lieferung an deinen Standort, physischer Aufbau und Netzwerk-Integration, Installation des Sprachmodells deiner Wahl mit vLLM und OpenAI-kompatibler API, Übergabe-Doku. Optional mit Wartungsvertrag (Monitoring, Updates, Hardware-Tausch).

Wie lange dauert es bis zur Inbetriebnahme?

Vom unterschriebenen Angebot bis zur betriebsbereiten Maschine vor Ort sind es typischerweise 4–5 Wochen — abhängig von der Hardware-Verfügbarkeit. Bei Lagerware geht es schneller, bei Sonderkonfigurationen länger.

Brauchen wir einen eigenen Serverraum?

Idealerweise ja — Klima, USV und 19"-Rack sind die Anforderungen. Wenn du nichts davon hast, prüfen wir Alternativen: Kompakt-Server in einem klimatisierten Schrank, oder Mietmodell mit Hosting in unserem Rechenzentrum (siehe KI-Hosting-Seite).

Wer wartet das System?

Auf Wunsch wir, per Fernzugriff. Im Wartungsvertrag enthalten: Sicherheits-Updates, Modell-Updates, Hardware-Monitoring, Reaktion auf Störungen je nach SLA-Stufe (Standard: 24/5 mit nächstem Werktag, Premium: 24/7 mit 4-Stunden-Reaktion). Hardware-Tausch bei Defekten.

Was passiert nach Mietende?

Drei Optionen: Verlängerung mit aktualisierter Hardware, Übernahme zum Restwert, oder Rückgabe. Du entscheidest 3 Monate vor Vertragsende.

Können wir mit einem System anfangen und später erweitern?

Ja. Du kannst innerhalb der Vertragslaufzeit auf eine größere Konfiguration wechseln (im Mietmodell anteilige Anrechnung, im Kaufmodell Inzahlungnahme). Mehrere GPUs in einem System oder mehrere Server für Lastverteilung sind ebenfalls möglich.

NÄCHSTER SCHRITT

30 Minuten. Konkrete Konfiguration.
Keine Slide-Decks.

Sag uns, welcher Use Case und welches Modell — wir sagen dir, welches System passt, was es kostet und wann du live gehst.