6854763 mindspore 1604325217
155
MindSpore的vLLM插件,支持基于vLLM框架部署MindSpore模型的推理服务。
Python
1天前
12 mirrors 1578989292
19
vLLM 是一个快速且易于使用的 LLM 推理和服务库
Python
5天前
14713870 metax maca 1740555567
10
Fast and efficient attention method exploration and implementation.
5个月前
12 mirrors 1578989292
8
BentoML 是 AI 应用程序开发人员的平台,提供工具和基础架构来简化整个 AI 产品开发生命周期
Python
5天前
12 mirrors 1578989292
7
SGLang 是一个针对大语言模型和视觉语言模型的快速服务框架
Python
5天前
12 mirrors 1578989292
6
‌KTransformers‌是由清华大学的KVCache.AI团队与趋境科技联合发布的开源项目
Python
5天前
12 mirrors 1578989292
5
FlashMLA 是针对 Hopper GPU 优化的高效 MLA 解码内核,由 DeepSeek 开源,专为处理可变长度序列而设计,目前已投入生产环境
C/C++
5天前
12 mirrors 1578989292
4
DeepEP 是专为 Mixture-of-Experts (MoE) 和 expert parallelism (EP) 定制的通信库
C/C++
5天前
12 mirrors 1578989292
3
DeepGEMM 是一个专为简洁高效的 FP8 通用矩阵乘法(GEMM)设计的库
Python
5天前

搜索帮助