Inferencia/Serving

lightseekorg/tokenspeed

TokenSpeed es un motor de inferencia LLM de alto rendimiento optimizado para cargas de trabajo de agentes, ofreciendo un rendimiento comparable al de TensorRT-LLM con la facilidad de uso de vLLM.

Ver en GitHub

★

1,366

Lang

Python