AI-платформа

Inference API + GPU-инстансы + managed векторные базы.

Три уровня абстракции. Выбирайте тот, на котором у вас задача.

Уровень 1: Inference API

OpenAI-совместимый endpoint. Бросьте OPENAI_BASE_URL=https://api.h3llo.cloud/v1 в код — и существующие SDK поедут.

import openai
client = openai.OpenAI(base_url="https://api.h3llo.cloud/v1", api_key="h3pat_...")
client.chat.completions.create(model="qwen3-72b", messages=[...])

Каталог моделей: Qwen 3, Llama 4, Yi 2, Mixtral 8×22B, GigaChat-Pro, YandexGPT-5.

Уровень 2: Managed GPU

Поднимаем нужный image (vllm, sglang, tgi) на L40S/H100. Управляете autoscale, батчингом и квантованием — мы обеспечиваем железо и сеть.

Уровень 3: GPU-инстансы

Просто отдаём вам сырое железо с CUDA-драйверами и pre-warmed image'ом. Полный контроль, цена ниже.

Serverless

HTTP-функции и event-driven триггеры. Холодный старт < 100 мс.

Установка h3 CLI

Один бинарь, без зависимостей. Linux, macOS, Windows.

On this page

Уровень 1: Inference API Уровень 2: Managed GPU Уровень 3: GPU-инстансы