h3llo cloudDOCS

AI-платформа

Inference API + GPU-инстансы + managed векторные базы.

Три уровня абстракции. Выбирайте тот, на котором у вас задача.

Уровень 1: Inference API

OpenAI-совместимый endpoint. Бросьте OPENAI_BASE_URL=https://api.h3llo.cloud/v1 в код — и существующие SDK поедут.

import openai
client = openai.OpenAI(base_url="https://api.h3llo.cloud/v1", api_key="h3pat_...")
client.chat.completions.create(model="qwen3-72b", messages=[...])

Каталог моделей: Qwen 3, Llama 4, Yi 2, Mixtral 8×22B, GigaChat-Pro, YandexGPT-5.

Уровень 2: Managed GPU

Поднимаем нужный image (vllm, sglang, tgi) на L40S/H100. Управляете autoscale, батчингом и квантованием — мы обеспечиваем железо и сеть.

Уровень 3: GPU-инстансы

Просто отдаём вам сырое железо с CUDA-драйверами и pre-warmed image'ом. Полный контроль, цена ниже.

On this page