KI-Hosting Rechenzentrum Deutschalnd

Open-Source-
Sprachmodelle.
Fertig. Aus
Deutschland.        

Drei GPU-Pakete ab 399 €/Monat. Optional als Managed Inferenz mit OpenAI-kompatibler API — Qwen, Gemma, gpt-oss und mehr laufen produktiv, ohne dass eure Daten Deutschland verlassen.

Hosting in München & Frankfurt
DSGVO-konform
OpenAI-API kompatibel
Setup in 48 Stunden
# Drop-in für jede OpenAI-Anwendung from openai import OpenAI client = OpenAI( base_url="https://ki.byteheroes.de/v1", api_key="sk-..." ) response = client.chat.completions.create( model="gpt-oss-120b", messages=[{ "role": "user", "content": "Fasse das Protokoll zusammen." }] )
WAS DU BEKOMMST

Hardware, Modell, API.
Drei Bausteine, ein Vertrag.

Kein Cloud-Patchwork, keine Plattform-Lock-ins. Wir liefern dedizierte GPU-Hardware, betreiben darauf das Modell deiner Wahl und stellen dir eine API zur Verfügung, die zu jedem ChatGPT-kompatiblen Tool passt.

01
Dedizierte GPU-Hardware
RTX PRO 4000, 5000 oder 6000 Blackwell — keine Shared-Ressourcen, garantiertes VRAM. Dein Paket, dein Server.
→ S ·  M ·  L ·  ab 399 €/Monat
02
Managed Inferenz (vLLM)
Wir installieren, optimieren und überwachen das Sprachmodell deiner Wahl. Updates, Monitoring, Skalierung — wir kümmern uns drum.
→ Qwen · Gemma · gpt-oss · Nemotron
03
OpenAI-kompatible API
Eine base_url ändern, fertig. Jede Anwendung, die heute mit ChatGPT spricht, läuft mit deinem Modell auf deinem Server.
→ /v1/chat/completions · /v1/embeddings
SCHRITT 1 - HARDWARE

Drei GPU-Pakete. Klare Preise.

Wähle die Hardware, die zu deiner Modellgröße und Nutzerzahl passt. Alle Pakete kommen mit dediziertem VRAM, ECC-Speicher und Blackwell-Architektur. Skalieren auf größeres Paket jederzeit möglich.
GPU VM S
Einstieg · kleinere Modelle, wenige User
399€
/ Monat netto · monatlich kündbar
GPU
RTX PRO 4000 Blackwell
VRAM
24 GB GDDR7 ECC
vCPU
8 Cores
RAM
64 GB
CUDA-Core
8.960
Bandbreite
672 GB/s
FP32
40 TFLOPS
KI-Leistung
1.290 TOPS
Paket S anfragen
GPU VM M
Beliebteste Wahl · 7B–30B Modelle, Teams
699€
/ Monat netto · monatlich kündbar
GPU
RTX PRO 5000 Blackwell
VRAM
48 GB GDDR7 ECC
vCPU
12 Cores
RAM
128 GB
CUDA-Cores
14.080
Bandbreite
1.344 GB/s
FP32
55,3 TFLOPS
KI-Leistung
1.801 TOPS
Paket M anfragen
GPU VM L
Enterprise · große Modelle, viele User parallel
999€
/ Monat netto · monatlich kündbar
GPU
RTX PRO 6000 Blackwell
VRAM
96 GB GDDR7 ECC
vCPU
16 Cores
RAM
256 GB
CUDA-Cores
24.064
Bandbreite
1.792 GB/s
FP32
125 TFLOPS
KI-Leistung
4.000 TOPS
Paket L anfragen

Alle Preise zzgl. MwSt. · Optional als Managed Inferenz mit Modell-Betrieb buchbar (Add-on) ·  Mehrere GPUs oder Sonderkonfiguration?

SCHRITT 2 - MODELLE

Welches Modell läuft
auf welcher GPU?

Die ehrliche Antwort: hängt vom Modell ab. Hier siehst du, wie viele gleichzeitige Nutzer jedes Paket pro Modell bedient — damit du genau weißt, was du brauchst. Reasoning-Modelle in voller Präzision, kein Quantisierungs-Trick.
Modell
Max Context
RTX 4000 Pro
RTX 5000 Pro
RTX 6000 Pro
gpt-oss-20B (high)
131k
-
7
22
gpt-oss-20B (high)
131k
-
-
- *
Gemma 4 31B Reasoning
256k
-
1
5
Gemma 4 26B A4B Reasoning
256k
-
7
24
Nemotron 3 Super 120B A12B Reasoning
1M
-
-
 - *  
Nemotron 3 Nano 30B A3B Reasoning
1M
-
4
20
Qwen 3.6 35B A3B Reasoning
262k
-
-
5

Werte = gleichzeitige aktive Nutzer (Concurrent Users). „—" = Modell passt nicht ins VRAM. * Mehr-GPU-Setup auf Anfrage möglich.

Modell nicht dabei? Wir betreiben grundsätzlich jedes Open-Source-Sprachmodell, das mit vLLM kompatibel ist — Llama, DeepSeek, Mistral und andere. Sag uns, was du brauchst.
Modell anfrage →
SCHRITT 3 - INTEGRATION

Eine Zeile Code. Mehr nicht.

Die API ist 1:1 kompatibel zur OpenAI-API. Jedes Tool, jedes SDK, jede Anwendung, die heute mit ChatGPT funktioniert, funktioniert mit deinem KI-Server in Deutschland — du tauschst nur die base_url aus.

  1. Was ist Inferenz?
    Der laufende Betrieb eines fertig trainierten Sprachmodells. Du sendest Text, das Modell antwortet. Wir betreiben das Modell mit vLLM — der gleichen Inferenz-Engine, die auch Anbieter wie Anyscale und Mistral einsetzen.
  2. Endpunkte, die du kennst
    /v1/chat/completions, /v1/completions, /v1/embeddings — Streaming, Function Calling und Tool Use inklusive.
  3. Funktioniert mit allem
    n8n, LangChain, LlamaIndex, OpenWebUI, Continue.dev, Cursor, Cline — alles, was eine OpenAI-kompatible Konfiguration anbietet, läuft sofort.
# Selbe API. Andere base_url. # Statt: base_url="https://api.openai.com/v1" # Bei dir: base_url="https://ki.byteheroes.de/v1" # Streaming, Tools, Embeddings: for chunk in client.chat.completions.create( model="gemma-4-26b", messages=msgs, stream=True, tools=mein_toolset ): print(chunk.choices[0].delta.content)
OPTIONAL

Cloud-Hosting oder vor Ort beim Kunden.

Dieselbe Hardware, zwei Betriebsmodelle. Wenn deine Daten das Rechenzentrum nicht verlassen dürfen, stellen wir die Systeme auch direkt zu dir — als Mietmodell mit demselben Managed-Service-Vertrag.

Cloud-Hosting

Wir betreiben die GPU in unserem Rechenzentrum in Deutschland. Du bekommst API-Zugang, wir kümmern uns um Hardware, Inferenz, Updates und Monitoring.

Mietmodell vor Ort

Dieselbe Hardware steht in deinem Rechenzentrum oder Serverraum — Wartung, Updates und vLLM-Betrieb laufen weiter über uns per Fernzugriff.
SELBSTVERSTÄNDLICH

Datenhoheit ist kein Feature.
Es ist die Voraussetzung.

Alles, was wir bauen, liegt in deutschen Rechenzentren. Deine Daten verlassen weder das Land noch unsere Infrastruktur — und werden niemals zum Training weiterverwendet.

Deutschland

Standorte München & Frankfurt. Keine Datenverarbeitung außerhalb der EU.

DSGVO-konform

AV-Vertrag, TOMs, dokumentierte Verarbeitung. Auf Anfrage erhältlich.

Kein Training

Deine Prompts und Daten werden nicht zum Modelltraining verwendet — von niemandem.

Kein Big-Tech

Unabhängig von AWS, Azure, GCP. Keine US-Behörden-Zugriffe.

FAQ

Häufige Fragen.
Klare Antworten.

Etwas Wichtiges fehlt? 30-Min Beratung buchen — wir
gehen alles durch.

Wie schnell bin ich live?

Nach der Bestellung dauert die Bereitstellung 24–48 Stunden. Du bekommst per Mail die API-URL, einen API-Key und eine kurze Doku. Erste Anfrage in der Regel innerhalb einer Stunde nach Empfang der Zugangsdaten möglich.

Welches Paket passt zu mir?

Faustregel: Paket S für Tests und Embedding-Workloads, Paket M für 7B–30B-Modelle und kleine Teams (5–15 Nutzer), Paket L für 30B+ Modelle und produktiven Mehrnutzer-Betrieb. In der Modell-Tabelle oben siehst du konkrete Concurrent-User-Zahlen pro Modell.

Was, wenn ich ein Modell brauche, das nicht aufgelistet ist?

Wir betreiben grundsätzlich jedes Open-Source-Sprachmodell, das mit vLLM kompatibel ist — darunter Llama, DeepSeek, Mistral, Phi und kleinere spezialisierte Modelle. Schreib uns das Modell auf einem Zettel, wir prüfen Hardware-Anforderungen und Betrieb innerhalb von 24 Stunden.

Was ist der Unterschied zu einer ChatGPT-API?

Drei Punkte: (1) deine Daten bleiben in Deutschland und werden nicht zum Training verwendet, (2) du zahlst eine feste Monatspauschale statt Token-basiert, (3) du wählst und tauschst das Modell selbst — du bist nicht an einen Anbieter gebunden.

Kann ich das Modell wechseln?

Ja. Im Managed Inferenz Tarif tauschen wir das Modell auf Anfrage — meist innerhalb eines Werktags. Du behältst deine API-URL und den API-Key, nur der model-Parameter im Request ändert sich.

Was passiert bei Lastspitzen?

Im Hosting-Modell ist die GPU dediziert — du teilst sie nicht mit anderen Kunden. Bei wachsendem Bedarf skalierst du jederzeit auf ein größeres Paket oder ergänzt eine zweite GPU. Kein Throttling, kein „Fair Use".

Brauche ich KI-Know-how, um zu starten?

Nein. Wenn deine Anwendung bereits mit ChatGPT spricht, ändert sich für die Anwendung nichts außer einer URL. Für eigene Integrationen helfen wir bei der ersten Anbindung — Stundensatz transparent, keine Beraterpaket-Pflicht.

NÄCHSTER SCHRITT

30 Minuten. Konkrete Antworten.
Keine Slide-Decks.

Sag uns, welches Modell und welche Anwendung — wir sagen dir, welches Paket passt, was es kostet und wann du live gehst.