// opendata

Las cifras reales
de la plataforma.

Datos de uso de la plataforma de inferencia — agregados y anonimizados. Sin prompts, sin contenido; solo contadores a nivel de petición.

Actualización semanal · 28 Jun 2026

374.4B

Tokens procesados

acumulado

33.6M

Peticiones servidas

acumulado

9

Modelos activos

en producción

// modelos

Tokens por modelo.

Tokens acumulados por modelo. Un modelo abierto concentra la mayor parte de la carga — el stack completo está siempre disponible.

01 Qwen 3.6 73.1% 273.8 B · 29.9 M
02 DeepSeek V4-Flash 13.1% 48.9 B · 995.7 K
03 MiMo V2.5 10.7% 39.9 B · 535.6 K
04 Gemma 4 2.5% 9.5 B · 1.6 M
05 Qwen3 Embedding 0.6% 2.2 B · 563.1 K
06 Qwen3 Coder <0.1% 142.8 M · 7.1 K
07 Whisper Large v3 <0.1% 24 · 20.8 K

// tokens

Entrada vs. salida.

La inferencia es mayoritariamente de lectura — prompts largos, recuperación y contexto — con una fracción menor de tokens generados.

Entrada · prompt 366.1 B 97.8%
Salida · generado 8.3 B 2.2%

// uso

Tokens por día.

Tokens procesados a diario en los últimos 90 días, con pico en 8.8 B/day.

0 3 B 6 B 9 B 8.8 B peak
hace 90 díashoy

// más allá del texto

Voz y reranking.

El stack va más allá de los LLM — transcripción, síntesis y reranking funcionan sobre la misma API.

Texto a voz Kokoro 20.7 K peticiones
Reranking Qwen3 Reranker 5.2 K peticiones

// clientes · últimos 7 días

Cómo se conectan los equipos.

Compatibilidad drop-in con OpenAI en producción real — el SDK oficial y OpenCode concentran la gran mayoría del tráfico.

OpenAI SDK (Python) 49.7% 245 devs
OpenAI SDK (JS) 11.8% 58 devs
Node.js 8.1% 40 devs
curl 7.7% 38 devs
Vercel AI SDK 6.1% 30 devs
Python httpx 4.9% 24 devs
Go HTTP client 4.3% 21 devs
Python requests 3.7% 18 devs
Otros 3.9% 19 devs

// geografía · últimos 7 días

Origen de las peticiones.

El 76.1% del tráfico se origina en la UE — la audiencia para la que se ha construido esta infraestructura.

España 31.6% 837.2 K
Finlandia 27.1% 718.9 K
Alemania 16.1% 427.4 K
Colombia 12.7% 337.8 K
Estados Unidos 4.8% 127.8 K
Reino Unido 2.1% 56.1 K
México 2.1% 55.7 K
Argentina 1.1% 29.1 K
Francia 0.7% 18.9 K
Países Bajos 0.4% 11.8 K
Irlanda 0.2% 4.4 K
Chile 0.2% 4.4 K
Otros 0.9% 23.8 K

// rendimiento

Latencia y throughput.

Mediana de tiempo hasta el primer token y throughput sostenido por modelo, medido el 28 Jun 2026.

Modelo TTFT p50 Throughput
Qwen 3.6 1 s 4996733 rpm
Gemma 4 98 ms 71.5 rpm
Qwen3 Embedding n/a 33.6 rpm
MiMo V2.5 1.3 s 28.7 rpm
DeepSeek V4-Flash 6.8 s 12.4 rpm
Qwen3 Reranker n/a 7.8 rpm
Kokoro n/a 1 rpm
Whisper Large v3 n/a 0.1 rpm

TTFT p50 = mediana de tiempo hasta el primer token · Throughput = peticiones sostenidas por minuto.

// para quién

Dos formas de usar este stack.

Estas cifras vienen de cargas de trabajo reales, tanto de comunidad como de despliegues privados.

Builders y comunidad

Modelos frontier, precio justo, sin ceder datos.

Acceso a los últimos modelos abiertos a un coste razonable, sin compartir datos — a través de la comunidad NaN.

nan.builders →
Startups y empresas

Inferencia privada y dedicada con SLAs.

Infraestructura dedicada, soporte y SLAs contractuales — tarifa plana, datos en la UE, compatible con OpenAI.

ver_precios →

Metodología. Las cifras son contadores agregados y anonimizados recogidos a nivel de petición. Helmcode no guarda logs — nunca se almacena contenido de prompts ni respuestas. Las métricas acumuladas cubren toda la vida de la plataforma; las métricas por ventana se indican en cada sección.

// empezar

EMPIEZA A QUEMAR TOKENS

Olvídate de la infra de IA. Despliega hoy el primer endpoint de inferencia privada.

Tarifa plana. Datos en la UE. Compatible con la API de OpenAI.