Volver al radar
Inferencia/Serving
Ver en GitHub lightseekorg/tokenspeed
TokenSpeed es un motor de inferencia LLM de alto rendimiento optimizado para cargas de trabajo de agentes, ofreciendo un rendimiento comparable al de TensorRT-LLM con la facilidad de uso de vLLM.
★
1,366
Lang
Python