// casos de uso · voz

IA de voz que
se queda en Europa.

Voz a texto, voicebots y texto a voz con un solo proveedor, en infraestructura de la UE, 99+ idiomas, síntesis por debajo del segundo.

reservar_llamada

// como funciona

El bucle de voz completo, un proveedor.

Transcripcion, un LLM y sintesis de voz en un unico endpoint compatible con OpenAI — el audio hace un solo trayecto corto, y solo dentro de la UE.

paso 01

Transcribe

whisper-large-v3

Convierte llamadas y audio en texto — 99+ idiomas, 3,2% de WER en espanol, hasta 25MB por archivo. Las grabaciones se procesan solo en infraestructura de la UE.

paso 02

Entiende y responde

deepseek-v4-flash

Resume, enruta, responde o dirige un voicebot con un LLM sobre la transcripcion — con tool calling incluido, para que la conversacion haga algo de verdad.

paso 03

Habla

kokoro

Sintetiza voz natural en menos de un segundo — 67 voces, espanol incluido — para voicebots en tiempo real, IVR y accesibilidad.

// drop-in

Se cambia una linea. El stack sigue igual.

Los endpoints de audio de OpenAI — transcripciones y voz — funcionan tal cual. Se cambia la base URL y la key y el codigo de voz existente corre sobre modelos privados de la UE.

leer_los_docs

voice.py

from openai import OpenAI

client = OpenAI(
    api_key="sk-...",
    base_url="https://api.helmcode.com/v1",  # one line changes
)

# 1 · transcribe a call — 99+ languages, stays in the EU
text = client.audio.transcriptions.create(
    model="whisper-large-v3",
    file=open("call.mp3", "rb"),
)

# 2 · synthesize the reply — sub-second, 67 voices
speech = client.audio.speech.create(
    model="kokoro",
    voice="alba",
    input=reply,
)

// por que helmcode

Voz sin el quebradero de cabeza de la privacidad.

Las grabaciones son el dato mas sensible que existe en una empresa — lleno de PII y el favorito de cualquier regulador. Con Helmcode, todo se queda en la UE.

Las grabaciones no salen.

Llamadas, transcripciones y audio sintetizado no se almacenan nunca ni entrenan ningun modelo. La PII de una grabacion no se convierte en problema de nadie.

Procesado en la UE.

Voz a texto, LLM y texto a voz se ejecutan en infraestructura de la UE — no en hyperscalers de EE. UU. sujetos al Cloud Act. GDPR y AI Act nativos.

STT + LLM + TTS, una API.

El stack de voz completo — transcripcion, razonamiento y sintesis — tras un unico endpoint compatible con OpenAI. Un proveedor, una factura, un salto de red.

Pensado para tiempo real.

Sintesis por debajo del segundo y transcripcion rapida en GPUs dedicadas — latencia suficientemente baja para voicebots e IVR en vivo, no solo procesamiento por lotes.

Sin limites de minutos.

Cada minuto de audio de entrada y salida esta incluido. Los limites son RPM y concurrencia por key — nunca el total de tokens. Un volumen alto de llamadas no dispara la factura.

En produccion en

Contact center / BPO
Telco
Medios y agencias
Salud
RRHH y seleccion
Educacion
Productos AI-native

En producción en

// faq de voz

Voz, respondida.

Lo que preguntan los equipos de CX, operaciones e ingenieria antes de internalizar la voz.

¿Que modelos de voz ofreceis?

whisper-large-v3 para transcripcion (99+ idiomas, 3,2% de WER en espanol, hasta 25MB / ~2 min por archivo) y kokoro para texto a voz (82M parametros, latencia por debajo del segundo, 67 voces incluido espanol).

¿Almacenais grabaciones de llamadas o transcripciones?

No. Sin logs — el audio, las transcripciones y la voz sintetizada no se persisten nunca ni entrenan ningun modelo. Transcribir grabaciones deja de ser un problema de privacidad.

¿Es lo bastante rapido para voicebots en vivo?

Si. En GPUs dedicadas, kokoro sintetiza en menos de un segundo y la transcripcion se ejecuta con baja latencia — suficiente para voicebots e IVR en tiempo real, no solo transcripcion por lotes.

¿Se puede construir un voicebot completo — STT + LLM + TTS?

Si, con un solo proveedor. Se transcribe con whisper-large-v3, se razona y responde con un LLM (deepseek-v4-flash, con tool calling), y despues se habla con kokoro — todo tras una API compatible con OpenAI.

¿Usa la API de audio de OpenAI?

Si. Los endpoints audio.transcriptions y audio.speech son compatibles con OpenAI — se cambia la base URL y la key y el codigo existente funciona.

¿Y para compliance estricto con grabaciones?

Se ejecuta en una GPU dedicada o totalmente on-premise dentro del datacenter del cliente — la misma API y el mismo codigo, con audio que no sale de la red. Pensado para contact centers, salud y sector publico.

// empezar

EMPIEZA A QUEMAR TOKENS

Olvídate de la infra de IA. Despliega hoy el primer endpoint de inferencia privada.

Tarifa plana. Datos en la UE. Compatible con la API de OpenAI.