Servidor GPU de alto rendimiento, diseñado para inteligencia artificial, inferencia, fine-tuning, visión por computadora, renderizado y procesamiento intensivo.
Esta configuración combina una plataforma AMD EPYC de 64 núcleos / 128 hilos, 256 GB de memoria ECC y 6 GPUs NVIDIA RTX 3090 de 24 GB, ofreciendo gran capacidad de cómputo para entornos de laboratorio, desarrollo y producción.
Es una solución ideal para tareas como:
Inferencia de modelos LLM
Fine-tuning y ajuste de modelos
Generación de texto e imágenes
Embeddings y búsqueda semántica
Speech-to-text / text-to-speech
Procesamiento de imágenes y video
Modelos multimodales
Render GPU y cómputo acelerado
Compatible con entornos y modelos modernos como Llama, Mistral, Mixtral, Qwen, DeepSeek, Gemma, Whisper, Stable Diffusion, Flux y otros frameworks compatibles con CUDA.
Montado en un chasis 5U de alta ventilación, con 6 ventiladores de 12 cm de alto flujo y alimentación redundante, este servidor está preparado para operación intensiva 24/7.
Este kit de aceleración con 2 x NVIDIA Tesla V100 SXM2 (32GB HBM2 en total) está diseñado para usuarios que necesitan máximo rendimiento en cómputo científico, IA y Machine Learning.
Puedes ejecutar estos modelos en estas GPU de forma offline.
Además de usar este servidor para tus propios proyectos de IA, también puedes alquilarlo en plataformas como Vast.ai y generar ingresos con tu hardware. Si lo deseas, puedo ayudarte con una configuración llave en mano: creación de la instancia, optimización y puesta en marcha completa.
Modelos recomendados (offline, ≥5 tokens/s)
7–8B (15–50 tokens/s con una sola GPU V100, 25–70 tokens/s con 2 GPU V100)
• Llama-3.1 8B Instruct (AWQ/GPTQ 4-bit o GGUF Q4_K_M)
• Mistral 7B Instruct v0.3 (AWQ/GPTQ 4-bit o GGUF Q4)
• Qwen2 7B Instruct (AWQ/GPTQ 4-bit o GGUF Q4)
• 10–14B (se recomienda 2 GPU V100, ~10–30 tokens/s)
• Phi-3 Medium 14B (AWQ 4-bit)
• Llama-2 13B / Llama-3 8B (cuantización de alta calidad
🔹 ¿Qué es?
No es un servidor completo ni una PC. Es un kit de aceleración que se conecta a tu propio equipo mediante una tarjeta PCIe x16 incluida. De esta forma, las GPU trabajan como si fueran parte de tu máquina, con comunicación ultrarrápida gracias a NVLink.
🔹 ¿Cómo funciona?
Se instala la tarjeta adaptadora PCIe en tu computadora.
La placa SXM2 con las dos GPU se conecta al adaptador mediante cables SlimSAS (incluidos).
La fuente EVGA de 650W y el chasis ITX con ventiladores proveen la energía y refrigeración necesarias.
El sistema operativo (Ubuntu recomendado) reconoce las GPU mediante drivers CUDA de NVIDIA.
🔹 Ventajas principales
Rendimiento FP64 (doble precisión): hasta 7 TFLOPS, ideal para simulaciones científicas e ingeniería.
Rendimiento FP32: hasta 14 TFLOPS → entrenamientos de IA más rápidos.
Memoria HBM2 de alta velocidad: 900 GB/s de ancho de banda.
NVLink: comunicación directa entre las dos GPU con hasta 300 GB/s, eliminando cuellos de botella.
Formato compacto: caja ITX silenciosa y práctica, lista para integrarse en tu laboratorio o centro de trabajo.
🔹 ¿En qué casos es ideal?
Investigación científica y universitaria (física, química computacional, simulaciones).
Entrenamiento de modelos de Machine Learning y Deep Learning.
Aplicaciones de HPC (High Performance Computing).
Usuarios que requieren cómputo de precisión doble (FP64) que no ofrecen las GPU de consumo.
🔹 Garantía y exclusividad
Incluye factura legal y 3 meses de garantía.
Producto único en Paraguay, prácticamente imposible de conseguir en el mercado local.