// opendata

Las cifras reales
de la plataforma.

Datos de uso de la plataforma de inferencia — agregados y anonimizados. Sin prompts, sin contenido; solo contadores a nivel de petición.

Actualización semanal · 28 Jun 2026

374.4B

Tokens procesados

acumulado

33.6M

Peticiones servidas

acumulado

Modelos activos

en producción

// modelos

Tokens por modelo.

Tokens acumulados por modelo. Un modelo abierto concentra la mayor parte de la carga — el stack completo está siempre disponible.

01 Qwen 3.6 73.1% 273.8 B · 29.9 M

02 DeepSeek V4-Flash 13.1% 48.9 B · 995.7 K

03 MiMo V2.5 10.7% 39.9 B · 535.6 K

04 Gemma 4 2.5% 9.5 B · 1.6 M

05 Qwen3 Embedding 0.6% 2.2 B · 563.1 K

06 Qwen3 Coder <0.1% 142.8 M · 7.1 K

07 Whisper Large v3 <0.1% 24 · 20.8 K

// tokens

Entrada vs. salida.

La inferencia es mayoritariamente de lectura — prompts largos, recuperación y contexto — con una fracción menor de tokens generados.

Entrada · prompt 366.1 B 97.8%

Salida · generado 8.3 B 2.2%

// uso

Tokens por día.

Tokens procesados a diario en los últimos 90 días, con pico en 8.8 B/day.

hace 90 díashoy

// más allá del texto

Voz y reranking.

El stack va más allá de los LLM — transcripción, síntesis y reranking funcionan sobre la misma API.

Texto a voz Kokoro 20.7 K peticiones

Reranking Qwen3 Reranker 5.2 K peticiones

// clientes · últimos 7 días

Cómo se conectan los equipos.

Compatibilidad drop-in con OpenAI en producción real — el SDK oficial y OpenCode concentran la gran mayoría del tráfico.

OpenAI SDK (Python) 49.7% 245 devs

OpenAI SDK (JS) 11.8% 58 devs

Node.js 8.1% 40 devs

curl 7.7% 38 devs

Vercel AI SDK 6.1% 30 devs

Python httpx 4.9% 24 devs

Go HTTP client 4.3% 21 devs

Python requests 3.7% 18 devs

Otros 3.9% 19 devs

// geografía · últimos 7 días

Origen de las peticiones.

El 76.1% del tráfico se origina en la UE — la audiencia para la que se ha construido esta infraestructura.

España 31.6% 837.2 K

Finlandia 27.1% 718.9 K

Alemania 16.1% 427.4 K

Colombia 12.7% 337.8 K

Estados Unidos 4.8% 127.8 K

Reino Unido 2.1% 56.1 K

México 2.1% 55.7 K

Argentina 1.1% 29.1 K

Francia 0.7% 18.9 K

Países Bajos 0.4% 11.8 K

Irlanda 0.2% 4.4 K

Chile 0.2% 4.4 K

Otros 0.9% 23.8 K

// rendimiento

Latencia y throughput.

Mediana de tiempo hasta el primer token y throughput sostenido por modelo, medido el 28 Jun 2026.

Modelo TTFT p50 Throughput

Qwen 3.6 1 s 4996733 rpm

Gemma 4 98 ms 71.5 rpm

Qwen3 Embedding n/a 33.6 rpm

MiMo V2.5 1.3 s 28.7 rpm

DeepSeek V4-Flash 6.8 s 12.4 rpm

Qwen3 Reranker n/a 7.8 rpm

Kokoro n/a 1 rpm

Whisper Large v3 n/a 0.1 rpm

TTFT p50 = mediana de tiempo hasta el primer token · Throughput = peticiones sostenidas por minuto.

// para quién

Dos formas de usar este stack.

Estas cifras vienen de cargas de trabajo reales, tanto de comunidad como de despliegues privados.

Builders y comunidad

Modelos frontier, precio justo, sin ceder datos.

Acceso a los últimos modelos abiertos a un coste razonable, sin compartir datos — a través de la comunidad NaN.

nan.builders →

Startups y empresas

Inferencia privada y dedicada con SLAs.

Infraestructura dedicada, soporte y SLAs contractuales — tarifa plana, datos en la UE, compatible con OpenAI.

ver_precios →

Metodología. Las cifras son contadores agregados y anonimizados recogidos a nivel de petición. Helmcode no guarda logs — nunca se almacena contenido de prompts ni respuestas. Las métricas acumuladas cubren toda la vida de la plataforma; las métricas por ventana se indican en cada sección.

// empezar

EMPIEZA A QUEMAR TOKENS

Olvídate de la infra de IA. Despliega hoy el primer endpoint de inferencia privada.

Tarifa plana. Datos en la UE. Compatible con la API de OpenAI.

reservar_llamada

Las cifras realesde la plataforma.