KI-Hosting Rechenzentrum Deutschalnd

Open-Source-
Sprachmodelle.
Fertig. Aus
Deutschland.

Drei GPU-Pakete ab 399 €/Monat. Optional als Managed Inferenz mit OpenAI-kompatibler API — Qwen, Gemma, gpt-oss und mehr laufen produktiv, ohne dass eure Daten Deutschland verlassen.

Pakete & Preise ansehen →

30-Min Beratung

Hosting in München & Frankfurt

DSGVO-konform

OpenAI-API kompatibel

Setup in 48 Stunden

                # Drop-in für jede OpenAI-Anwendung
                from openai import OpenAI
                client = OpenAI(
                base_url="https://ki.byteheroes.de/v1",
                api_key="sk-..."
                )
                response = client.chat.completions.create(
                model="gpt-oss-120b",
                messages=[{
                "role": "user",
                "content": "Fasse das Protokoll zusammen."
                }]
                )
              

WAS DU BEKOMMST

Hardware, Modell, API.
Drei Bausteine, ein Vertrag.

Kein Cloud-Patchwork, keine Plattform-Lock-ins. Wir liefern dedizierte GPU-Hardware, betreiben darauf das Modell deiner Wahl und stellen dir eine API zur Verfügung, die zu jedem ChatGPT-kompatiblen Tool passt.

Dedizierte GPU-Hardware

RTX PRO 4000, 5000 oder 6000 Blackwell — keine Shared-Ressourcen, garantiertes VRAM. Dein Paket, dein Server.

→ S · M · L · ab 399 €/Monat

Managed Inferenz (vLLM)

Wir installieren, optimieren und überwachen das Sprachmodell deiner Wahl. Updates, Monitoring, Skalierung — wir kümmern uns drum.

→ Qwen · Gemma · gpt-oss · Nemotron

OpenAI-kompatible API

Eine base_url ändern, fertig. Jede Anwendung, die heute mit ChatGPT spricht, läuft mit deinem Modell auf deinem Server.

→ /v1/chat/completions · /v1/embeddings

SCHRITT 1 - HARDWARE

Drei GPU-Pakete. Klare Preise.

Wähle die Hardware, die zu deiner Modellgröße und Nutzerzahl passt. Alle Pakete kommen mit dediziertem VRAM, ECC-Speicher und Blackwell-Architektur. Skalieren auf größeres Paket jederzeit möglich.

GPU VM S

Einstieg · kleinere Modelle, wenige User

399€

/ Monat netto · monatlich kündbar

GPU

RTX PRO 4000 Blackwell

VRAM

24 GB GDDR7 ECC

vCPU

8 Cores

RAM

64 GB

CUDA-Core

8.960

Bandbreite

672 GB/s

FP32

40 TFLOPS

KI-Leistung

1.290 TOPS

Paket S anfragen

GPU VM M

Beliebteste Wahl · 7B–30B Modelle, Teams

699€

/ Monat netto · monatlich kündbar

GPU

RTX PRO 5000 Blackwell

VRAM

48 GB GDDR7 ECC

vCPU

12 Cores

RAM

128 GB

CUDA-Cores

14.080

Bandbreite

1.344 GB/s

FP32

55,3 TFLOPS

KI-Leistung

1.801 TOPS

Paket M anfragen

GPU VM L

Enterprise · große Modelle, viele User parallel

999€

/ Monat netto · monatlich kündbar

GPU

RTX PRO 6000 Blackwell

VRAM

96 GB GDDR7 ECC

vCPU

16 Cores

RAM

256 GB

CUDA-Cores

24.064

Bandbreite

1.792 GB/s

FP32

125 TFLOPS

KI-Leistung

4.000 TOPS

Paket L anfragen

Alle Preise zzgl. MwSt. · Optional als Managed Inferenz mit Modell-Betrieb buchbar (Add-on) · Mehrere GPUs oder Sonderkonfiguration?

SCHRITT 2 - MODELLE

Welches Modell läuft
auf welcher GPU?

Die ehrliche Antwort: hängt vom Modell ab. Hier siehst du, wie viele gleichzeitige Nutzer jedes Paket pro Modell bedient — damit du genau weißt, was du brauchst. Reasoning-Modelle in voller Präzision, kein Quantisierungs-Trick.

Modell

Max Context

RTX 4000 Pro

RTX 5000 Pro

RTX 6000 Pro

gpt-oss-20B (high)

131k

gpt-oss-20B (high)

131k

- *

Gemma 4 31B Reasoning

256k

Gemma 4 26B A4B Reasoning

256k

Nemotron 3 Super 120B A12B Reasoning

- *

Nemotron 3 Nano 30B A3B Reasoning

Qwen 3.6 35B A3B Reasoning

262k

Werte = gleichzeitige aktive Nutzer (Concurrent Users). „—" = Modell passt nicht ins VRAM. * Mehr-GPU-Setup auf Anfrage möglich.

Modell nicht dabei? Wir betreiben grundsätzlich jedes Open-Source-Sprachmodell, das mit vLLM kompatibel ist — Llama, DeepSeek, Mistral und andere. Sag uns, was du brauchst.

Modell anfrage →

SCHRITT 3 - INTEGRATION

Eine Zeile Code. Mehr nicht.

Die API ist 1:1 kompatibel zur OpenAI-API. Jedes Tool, jedes SDK, jede Anwendung, die heute mit ChatGPT funktioniert, funktioniert mit deinem KI-Server in Deutschland — du tauschst nur die base_url aus.

Was ist Inferenz?
Der laufende Betrieb eines fertig trainierten Sprachmodells. Du sendest Text, das Modell antwortet. Wir betreiben das Modell mit vLLM — der gleichen Inferenz-Engine, die auch Anbieter wie Anyscale und Mistral einsetzen.
Endpunkte, die du kennst
/v1/chat/completions, /v1/completions, /v1/embeddings — Streaming, Function Calling und Tool Use inklusive.
Funktioniert mit allem
n8n, LangChain, LlamaIndex, OpenWebUI, Continue.dev, Cursor, Cline — alles, was eine OpenAI-kompatible Konfiguration anbietet, läuft sofort.

                # Selbe API. Andere base_url.
                # Statt:
                base_url="https://api.openai.com/v1"
                # Bei dir:
                base_url="https://ki.byteheroes.de/v1"
                # Streaming, Tools, Embeddings:
                for chunk in client.chat.completions.create(
                model="gemma-4-26b",
                messages=msgs,
                stream=True,
                tools=mein_toolset
                ):
                print(chunk.choices[0].delta.content)
              

OPTIONAL

Cloud-Hosting oder vor Ort beim Kunden.

Dieselbe Hardware, zwei Betriebsmodelle. Wenn deine Daten das Rechenzentrum nicht verlassen dürfen, stellen wir die Systeme auch direkt zu dir — als Mietmodell mit demselben Managed-Service-Vertrag.

Cloud-Hosting

Wir betreiben die GPU in unserem Rechenzentrum in Deutschland. Du bekommst API-Zugang, wir kümmern uns um Hardware, Inferenz, Updates und Monitoring.

Mietmodell vor Ort

Dieselbe Hardware steht in deinem Rechenzentrum oder Serverraum — Wartung, Updates und vLLM-Betrieb laufen weiter über uns per Fernzugriff.

Beratung buchen

SELBSTVERSTÄNDLICH

Datenhoheit ist kein Feature.
Es ist die Voraussetzung.

Alles, was wir bauen, liegt in deutschen Rechenzentren. Deine Daten verlassen weder das Land noch unsere Infrastruktur — und werden niemals zum Training weiterverwendet.

✓

Deutschland

Standorte München & Frankfurt. Keine Datenverarbeitung außerhalb der EU.

✓

DSGVO-konform

AV-Vertrag, TOMs, dokumentierte Verarbeitung. Auf Anfrage erhältlich.

✓

Kein Training

Deine Prompts und Daten werden nicht zum Modelltraining verwendet — von niemandem.

✓

Kein Big-Tech

Unabhängig von AWS, Azure, GCP. Keine US-Behörden-Zugriffe.

FAQ

Häufige Fragen.
Klare Antworten.

Etwas Wichtiges fehlt? 30-Min Beratung buchen — wir
gehen alles durch.

Welches Paket passt zu mir?

Faustregel: Paket S für Tests und Embedding-Workloads, Paket M für 7B–30B-Modelle und kleine Teams (5–15 Nutzer), Paket L für 30B+ Modelle und produktiven Mehrnutzer-Betrieb. In der Modell-Tabelle oben siehst du konkrete Concurrent-User-Zahlen pro Modell.

Was, wenn ich ein Modell brauche, das nicht aufgelistet ist?

Wir betreiben grundsätzlich jedes Open-Source-Sprachmodell, das mit vLLM kompatibel ist — darunter Llama, DeepSeek, Mistral, Phi und kleinere spezialisierte Modelle. Schreib uns das Modell auf einem Zettel, wir prüfen Hardware-Anforderungen und Betrieb innerhalb von 24 Stunden.

Was ist der Unterschied zu einer ChatGPT-API?

Drei Punkte: (1) deine Daten bleiben in Deutschland und werden nicht zum Training verwendet, (2) du zahlst eine feste Monatspauschale statt Token-basiert, (3) du wählst und tauschst das Modell selbst — du bist nicht an einen Anbieter gebunden.

Open-Source-
Sprachmodelle.
Fertig. Aus
Deutschland.

Hardware, Modell, API.
Drei Bausteine, ein Vertrag.