Inferencia/Serving

vllm-project/vllm

vLLM es un motor de inferencia y serving de alto rendimiento para LLMs, destacado por su eficiencia en memoria y throughput.

★

81,974

Lang

Python