nan.builders

Models del server.

Los modelos de la comunidad. Todos se acceden por la misma API OpenAI-compatible con el mismo base URL.

generación de texto y chat

qwen3.6 - 35B-A3B

El modelo principal. MoE de 35B parámetros, multimodal, con tool calling y reasoning.

Tipo
MoE (35B total)
Activo por token
3B
Cuantización
FP8
Contexto
128K tokens
Speculative decoding
MTP → ~2x throughput
Sampling
temp=0.6, top_p=0.95
Reasoning
reasoning_config=

capacidades

  • Tool calling (formato XML)
  • Reasoning mode
  • Multimodal (vision / imágenes)
  • Generación streaming (SSE)

embeddings

qwen3-embedding - 8B

Modelo de embedding vectorial. MMTEB score 70.58 — top open-source. Soporta 100+ idiomas incluyendo español y código.

Dimensión
4096
Precisión
Float32 (CPU)
RPM
60
Batch size
32

casos de uso

  • Similitud cross-lingual (ES↔EN: 0.915)
  • Búsqueda semántica
  • Clasificación de texto
  • RAG / retrieval aumentado

text-to-speech

kokoro - v1.0

TTS de 82M params con 67 voice packs. Sub-second latency en CPU.

Latencia
< 1s
Partes
82M
RPM
15

voces disponibles

  • af_heart — English (female)
  • ef_dora — Spanish (female)
  • em_alex — Spanish (male)
  • 67 voice packs en total (ver listado completo)

speech-to-text

whisper - large-v3

STT en CPU con CTranslate2 e INT8. ~1x realtime. 99+ idiomas.

Tamaño
~3 GB (INT8)
WER ES
~3.2%
RPM
10

capacidades

  • Transcripción de audio a texto
  • 99+ idiomas
  • Detección de idioma automática
  • API OpenAI-compatible

rate limits por API key

Requests / min
100 rpm
Paralelo max
5 concurrentes