Volver al radar
Inferencia/Serving
Ver en GitHub vllm-project/vllm
vLLM es un motor de inferencia y serving de alto rendimiento para LLMs, destacado por su eficiencia en memoria y throughput.
★
81,974
Lang
Python
vLLM es un motor de inferencia y serving de alto rendimiento para LLMs, destacado por su eficiencia en memoria y throughput.