// producto

Corre modelos open frontier
a través de una sola API.

Modelos open operados en infraestructura de la UE, todo el stack de inferencia tras un único endpoint. Soberanía + tarifa plana + cero logs.

reservar_llamada

// arquitectura

Un endpoint. Nunca sale de la UE.

Cada petición llega a una URL compatible con OpenAI, se enruta y limita en el control plane, y la resuelven modelos abiertos en GPUs gestionadas — todo dentro de la UE, nada registrado.

La petición entra por un endpoint en la UE y nunca sale — no se almacena ningún prompt, ningún dato cruza a un hyperscaler de EE. UU.

// garantías

Cuatro propiedades de arquitectura.

No son funciones configurables — son propiedades de cómo está construida la plataforma. Se cumplen en cada modelo y cada caso de uso.

Tokens ilimitados

Sin límites de consumo — solo RPM y concurrencia por API key.

Compatible con OpenAI

Cambia la base URL y la key. Cualquier cliente compatible con OpenAI funciona tal cual.

Sin logs

Ningún prompt se almacena. Ni datos ni código se usan para entrenar modelos.

Datos en la UE

Procesados exclusivamente en infraestructura de la UE — no sujetos al Cloud Act.

// la plataforma

Explora el stack.

Cuatro áreas, un producto. Profundiza en modelos, dónde corre, cómo se protege y con qué se integra.

Modelos

Nueve modelos abiertos — LLMs, embeddings, reranking y voz — tras una sola API.

Despliegue

Compartido, GPU dedicada o full on-premise — mismo stack, distinto nivel de soberanía.

Seguridad y Compliance

Sin logs, residencia en la UE, AI Act nativo, GDPR y DORA por arquitectura.

Integraciones

Cursor, Zed, OpenCode, LangChain, el SDK de OpenAI — drop-in, sin cambios.

// capacidades

Todo lo que hace la API.

Un endpoint compatible con OpenAI con toda la superficie funcional — texto, visión, voz, retrieval y agentes.

Tool & function calling

Function calling nativo con el JSON schema de OpenAI — agentes que actúan, no que solo chatean.

todos los LLM

Salidas estructuradas

Respuestas restringidas al JSON schema que definas con response_format — tipadas, siempre.

response_format

Visión y multimodal

Entrada de imagen y audio en Gemma 4 y MiMo — interpreta escaneados, gráficas y capturas.

gemma4 · mimo

Streaming

Streaming de tokens por SSE para chat en tiempo real, copilots y UX de voz.

SSE

Contexto largo

Ventana de hasta 1M tokens en DeepSeek V4-Flash — corpus enteros en una sola pasada.

hasta 1M

Embeddings y reranking

Vectores multilingües de 4096 dim más reranking translingüe — retrieval integrado de serie.

qwen3-embedding · rerank

Voz · STT y TTS

Transcripción con Whisper y síntesis con Kokoro — 99+ idiomas, latencia inferior a un segundo.

whisper · kokoro

Tokens ilimitados

Sin tope de consumo — los límites son RPM y concurrencia por API key.

por API key

// en cifras

La plataforma en especificaciones.

Las cifras concretas del stack — contexto, hardware, región y fiabilidad.

Ventana de contexto hasta 1M tokens

Dim. de embedding 4096

Modelos 9 en producción

Hardware B200 · 192GB

Región UE · Madrid

SLA de uptime 99.9%

API Compatible con OpenAI · 6 endpoints

Retención de datos sin logs

// casos de uso

Qué construyen los equipos.

El mismo stack sirve para retrieval, voz, copilots, flujos documentales y agentes — cada uno con su propio playbook.

RAG sobre conocimiento interno Búsqueda semántica Análisis de documentos Revisión y QA de documentos Extracción documental Resumen Generación de contenido Traducción Copilots profesionales Atención al cliente Voz y transcripción Agentes autónomos

// faq de producto

La plataforma, respondida.

Lo que preguntan los equipos antes de mover la inferencia a Helmcode.

¿Qué ejecuta Helmcode exactamente?

Modelos open-weight — DeepSeek, Qwen, Gemma, más embeddings, reranking y voz — servidos tras una API compatible con OpenAI, operados en GPUs de la UE, sin logs.

¿Cómo empiezo?

Genera una API key en la consola, cambia la base URL y la key, y listo. Cualquier SDK o herramienta compatible con OpenAI funciona sin cambios — la mayoría de equipos despliegan el mismo día.

¿Qué modelos hay disponibles?

Nueve en producción: DeepSeek V4-Flash, MiMo, Qwen 3.6 y Gemma 4 para texto, qwen3-embedding y rerank para retrieval, y Whisper y Kokoro para voz. Consulta la página de Modelos para las especificaciones.

¿Dónde se ejecuta la inferencia?

Exclusivamente en infraestructura de la UE — nunca en hyperscalers de EE. UU. sujetos al Cloud Act. GDPR y AI Act nativos, por arquitectura, no por configuración.

¿Es gestionado o hay que autoalojar?

Totalmente gestionado: aprovisionamos, monitorizamos y operamos todo el stack. Para requisitos más estrictos se puede pasar a GPUs dedicadas o a un despliegue on-premise completo.

¿Cómo se factura?

Por API key — tarifa plana mensual, no por token. Tokens ilimitados en modelos open, sin sorpresas de consumo, sin lock-in. Consulta Precios para ver los planes.

// empezar

EMPIEZA A QUEMAR TOKENS

Olvídate de la infra de IA. Despliega hoy el primer endpoint de inferencia privada.

Tarifa plana. Datos en la UE. Compatible con la API de OpenAI.

reservar_llamada

Corre modelos open frontiera través de una sola API.

Un endpoint. Nunca sale de la UE.

Cuatro propiedades de arquitectura.

Tokens ilimitados

Compatible con OpenAI

Sin logs

Datos en la UE

Explora el stack.

Modelos

Despliegue

Seguridad y Compliance

Integraciones

Todo lo que hace la API.

Tool & function calling

Salidas estructuradas

Visión y multimodal

Streaming

Contexto largo

Embeddings y reranking

Voz · STT y TTS

Tokens ilimitados

La plataforma en especificaciones.

Qué construyen los equipos.

La plataforma, respondida.

EMPIEZA A QUEMAR TOKENS

Corre modelos open frontier
a través de una sola API.