// casos de uso · agentes autonomos

Agentes que
no topan con un muro.

Agentes autónomos y automatización de procesos sobre modelos abiertos, tool calling, razonamiento y sin límites de tokens, para que un bucle largo no muera en un 429.

// como funciona

Planifica, actua, observa — sin muro de tokens.

Tool calling, razonamiento y bucles sin contador en un unico endpoint compatible con OpenAI — solo dentro de la UE.

paso 01

Define herramientas y objetivo

deepseek-v4-flash

Se le dan al agente las herramientas y el objetivo. El function calling nativo y el razonamiento dirigen el bucle — las mismas herramientas JSON que ya se usan con OpenAI.

paso 02

Ejecuta el bucle

qwen3.6

Planifica, actua, observa, repite. Los agentes queman tokens en rafagas — y sin limites, el bucle no se atasca en un 429 a mitad de tarea.

paso 03

Escala en horizontal

deepseek-v4-flash

Se ejecutan muchos agentes en paralelo. Los limites son RPM y concurrencia por key, dimensionados a la carga sobre GPUs dedicadas — despliegue en abanico sin techo.

// drop-in

Se cambia una linea. El bucle sigue igual.

El mismo bucle de agente que ya se escribe — apuntado a Helmcode. Herramientas y streaming incluidos, sobre modelos privados de la UE sin muro de tokens.

leer_los_docs
agent.py
from openai import OpenAI

client = OpenAI(api_key="sk-...", base_url="https://api.helmcode.com/v1")

# plan, act, observe, repeat — no token wall to hit
while not done:
    step = client.chat.completions.create(
        model="deepseek-v4-flash",
        messages=history,
        tools=tools,        # native tool calling
    )
    history += run_tools(step)   # act, then observe

// por que helmcode

Pensado para como funcionan los agentes de verdad.

Los bucles de agente disparan picos enormes de tokens — justo el patron que las APIs con contador castigan con 429 y facturas sorpresa.

01

Sin limites, sin muros de 429.

Los agentes disparan rafagas enormes de tokens. Sin limites en el consumo total y sin muros de rate-limit a mitad del bucle — solo RPM y concurrencia por key.

02

Tool calling y razonamiento.

Function calling nativo y razonamiento — la base que un agente necesita para planificar y actuar, no solo para chatear. Modelos abiertos de referencia, pensados para el bucle.

03

Sin logs, desde la arquitectura.

Las trazas del agente, y el codigo y los datos que toca, no se almacenan nunca ni entrenan ningun modelo — ni el nuestro ni el de nadie.

04

Procesado en la UE.

Los agentes se ejecutan en infraestructura de la UE — no en hyperscalers de EE. UU. sujetos al Cloud Act. GDPR y AI Act nativos, incluso cuando acceden a sistemas sensibles.

05

Modelos abiertos, sin lock-in.

DeepSeek V4-Flash, Qwen 3.6, Gemma 4. Ningun proveedor puede deprecar el modelo del que dependen los agentes ni cambiar el precio de un dia para otro.

06

Compatible con cualquier framework.

LangGraph, CrewAI, el OpenAI Agents SDK y bucles propios. Se cambia la base URL y la key — herramientas y streaming incluidos.

En produccion en
  • Dev tools y agentes de codigo
  • Telco
  • Productos AI-native
En producción en

// faq de agentes

Agentes, respondido.

Lo que preguntan los equipos de plataforma e ingenieria antes de llevar agentes a produccion.

¿Por que importa "sin limites" en el caso concreto de los agentes?

Los bucles de agente planifican, llaman herramientas y re-promptean — disparando picos enormes de tokens. Las APIs con contador estrangulan o devuelven 429 a mitad de tarea; Helmcode no tiene limites de tokens, solo RPM y concurrencia por key, asi que el bucle se ejecuta hasta el final.

¿Soportais tool / function calling?

Si — function calling nativo con el mismo JSON schema que ya se usa con OpenAI, mas razonamiento y streaming. La base que los agentes necesitan para actuar, no solo para responder.

¿Funciona con LangGraph, CrewAI o el OpenAI Agents SDK?

Si. Basta con apuntar cualquier framework compatible con OpenAI a nuestra base URL con la API key — LangGraph, CrewAI, el Agents SDK y bucles a medida funcionan sin cambios.

¿Se pueden ejecutar muchos agentes en paralelo?

Si. La concurrencia es por API key y se dimensiona a la carga, con GPUs dedicadas para flotas de agentes de alto rendimiento.

¿Almacenais las trazas de los agentes o los datos que tocan?

No. Sin logs — los prompts, las trazas y el codigo y los datos que leen los agentes no se persisten nunca ni entrenan ningun modelo.

¿Pueden los agentes ejecutarse on-premise?

Si. Se ejecutan en una GPU dedicada o totalmente on-premise dentro del datacenter del cliente — la misma API y el mismo codigo, con todo dentro de la red.

// empezar

EMPIEZA A QUEMAR TOKENS

Olvídate de la infra de IA. Despliega hoy el primer endpoint de inferencia privada.

Tarifa plana. Datos en la UE. Compatible con la API de OpenAI.