// casos de uso · búsqueda semántica

Búsqueda semántica sobre
datos propios.

Embeddings multilingües y reordenación cross-lingual. Búsqueda, ranking y recomendación sobre catálogos, repos y archivos.

reservar_llamada

// cómo funciona

Búsqueda que entiende significado, no palabras clave.

Embeddings y reranking desde un único endpoint compatible con OpenAI — multilingüe de serie y privado por defecto.

paso 01

Vectoriza el corpus

qwen3-embedding

Convierte catálogos, repos y archivos en vectores de 4096 dimensiones — más de 100 idiomas, MMTEB 70.58. Se puede reindexar todas las veces que haga falta; los tokens son ilimitados.

paso 02

Busca por significado

qwen3-embedding

Se vectoriza la consulta y se extraen los vecinos más cercanos del vector store propio — pgvector, Qdrant, Pinecone, Weaviate. Significado e intención, no coincidencia de cadenas.

paso 03

Reordena para precisar

rerank

Los mejores candidatos se afinan con nuestro reranker multilingüe, para que el resultado más relevante aparezca primero — incluso cuando la consulta y el documento están en idiomas distintos.

// drop-in

Cambia una línea. El stack se queda.

Apunta el SDK de OpenAI — o el pipeline de búsqueda que ya tengas — a Helmcode. Mismas llamadas, mismas formas, modelos multilingües privados en infraestructura de la UE.

leer_los_docs

search.py

from openai import OpenAI

client = OpenAI(
    api_key="sk-...",
    base_url="https://api.helmcode.com/v1",  # one line changes
)

# 1 · embed your catalog — 4096-dim multilingual vectors
catalog = client.embeddings.create(
    model="qwen3-embedding",
    input=documents,
)

# 2 · retrieve from your vector store, then rerank for precision
ranked = client.post(
    "/rerank",
    cast_to=dict,
    body={"model": "rerank", "query": query, "documents": candidates, "top_n": 5},
)

// por qué helmcode

Relevancia sin ceder el control.

Búsqueda y recomendación que se quedan privadas y multilingües — sin que la factura escale con el tráfico.

Sin logs, desde la arquitectura.

Las consultas y el catálogo no se almacenan, y nada de lo que se indexa entrena un modelo — ni el nuestro, ni el de nadie.

Los vectores se quedan en la UE.

Embeddings y reranking se ejecutan solo en infraestructura de la UE — no en hyperscalers de EE. UU. sujetos al Cloud Act. Nativos en GDPR y AI Act.

Embeddings + rerank, una API.

Embeddings vectoriales y reordenación semántica multilingüe tras un único endpoint compatible con OpenAI. Sin dos proveedores que conectar entre sí.

Multilingüe de serie.

Más de 100 idiomas y recuperación cross-lingual incluida. Se busca en un idioma y se encuentran documentos escritos en otro.

Reindexa sin factura.

Se puede reindexar el catálogo entero todas las veces que haga falta. Los límites son RPM y concurrencia por key, nunca el total de tokens.

La base vectorial no cambia.

Basta con cambiar la base URL y la key. pgvector, Qdrant, Pinecone y cualquier código de búsqueda propio siguen funcionando — no se impone ninguna capa de almacenamiento.

En producción en

E-commerce y retail
Dev tools
Medios y agencias
SaaS
Contact center
Salud
Farma y biotech
RRHH y reclutamiento
Educación
Productos AI-native

En producción en

// faq de búsqueda

Búsqueda semántica, respondida.

Lo que preguntan los equipos de ingeniería antes de internalizar la búsqueda y la recomendación.

¿Qué modelo de embedding usáis y qué calidad tiene?

qwen3-embedding — 8B parámetros, 4096 dimensiones, más de 100 idiomas, 70.58 en MMTEB. Se sirve desde la misma API compatible con OpenAI que el resto del stack.

¿Se almacenan las consultas o el catálogo?

No. Sin logs: consultas, documentos y embeddings no se persisten nunca, y nada de lo que se envía entrena un modelo. La privacidad se garantiza desde la arquitectura, no desde una política.

¿Se puede mantener la base de datos vectorial propia?

Sí. Helmcode produce los embeddings y la reordenación — el vector store sigue siendo el del equipo (pgvector, Qdrant, Pinecone, Weaviate...). No hay índice propietario al que migrar.

¿Cómo mejora el reranking los resultados?

Tras la recuperación vectorial que devuelve candidatos, el modelo rerank (Qwen3 Reranker) puntúa los pares consulta-documento directamente y los reordena — para que el resultado más relevante sea el primero, no solo el más cercano en el espacio vectorial.

¿Funciona realmente entre idiomas?

Sí. Tanto los embeddings como el reranking son multilingües, así que una consulta en un idioma encuentra documentos relevantes escritos en otro — sin índice por idioma ni paso de traducción.

¿Se puede usar para recomendación, no solo búsqueda?

Sí. Los mismos embeddings sirven para similitud y recomendación — se representan usuarios, productos o contenido como vectores y se recuperan los vecinos más cercanos, todo en infraestructura privada de la UE.

// empezar

EMPIEZA A QUEMAR TOKENS

Olvídate de la infra de IA. Despliega hoy el primer endpoint de inferencia privada.

Tarifa plana. Datos en la UE. Compatible con la API de OpenAI.