Models del server.
Los modelos de la comunidad. Todos se acceden por la misma API OpenAI-compatible
con el mismo base URL.
generación de texto y chat
qwen3.6 - 35B-A3B
El modelo principal. MoE de 35B parámetros, multimodal, con tool calling y reasoning.
- Tipo
- MoE (35B total)
- Activo por token
- 3B
- Cuantización
- FP8
- Contexto
- 128K tokens
- Speculative decoding
- MTP → ~2x throughput
- Sampling
- temp=0.6, top_p=0.95
- Reasoning
- reasoning_config=
capacidades
- Tool calling (formato XML)
- Reasoning mode
- Multimodal (vision / imágenes)
- Generación streaming (SSE)
embeddings
qwen3-embedding - 8B
Modelo de embedding vectorial. MMTEB score 70.58 — top open-source. Soporta 100+ idiomas incluyendo español y código.
- Dimensión
- 4096
- Precisión
- Float32 (CPU)
- RPM
- 60
- Batch size
- 32
casos de uso
- Similitud cross-lingual (ES↔EN: 0.915)
- Búsqueda semántica
- Clasificación de texto
- RAG / retrieval aumentado
text-to-speech
kokoro - v1.0
TTS de 82M params con 67 voice packs. Sub-second latency en CPU.
- Latencia
- < 1s
- Partes
- 82M
- RPM
- 15
voces disponibles
- af_heart — English (female)
- ef_dora — Spanish (female)
- em_alex — Spanish (male)
- 67 voice packs en total (ver listado completo)
speech-to-text
whisper - large-v3
STT en CPU con CTranslate2 e INT8. ~1x realtime. 99+ idiomas.
- Tamaño
- ~3 GB (INT8)
- WER ES
- ~3.2%
- RPM
- 10
capacidades
- Transcripción de audio a texto
- 99+ idiomas
- Detección de idioma automática
- API OpenAI-compatible
rate limits por API key
- Requests / min
- 100 rpm
- Paralelo max
- 5 concurrentes