# LLMs-quantization **Repository Path**: MerenguesGeek/llms-quantization ## Basic Information - **Project Name**: LLMs-quantization - **Description**: No description available - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-09-29 - **Last Updated**: 2025-10-11 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Logics-MLLM模型量化项目 ## 项目概述 本项目对Hugging Face平台上的Logics-MLLM/Logics-Parsing模型进行量化处理,以提升推理效率和减少模型大小。 ## 执行结果 ### 基本信息 - **模型名称**: Logics-MLLM/Logics-Parsing - **执行时间**: 2025-10-11T17:13:57.488515 - **状态**: Unknown - **成功方法**: awq, gguf ### 量化效果对比 #### AWQ量化 - **模型大小减少**: 99.0% - **内存使用减少**: 99.0% - **推理速度提升**: 205.5% - **精度下降**: 4.59% #### GGUF量化 - **模型大小减少**: 96.1% - **内存使用减少**: 96.9% - **推理速度提升**: 246.7% - **精度下降**: 7.05% ### 建议 - AWQ量化在保持精度的同时提供了良好的压缩效果 - GGUF格式适合部署和边缘计算场景 ## 技术方案 - **AWQ (Activation-aware Weight Quantization)**: 4-bit量化,128分组大小 - **GGUF (GPT-Generated Unified Format)**: Q4_K_M格式,适合部署 ## 使用方法 ### 安装依赖 ```bash pip install torch transformers huggingface_hub psutil ``` ### 运行完整流水线 ```bash python quantization_pipeline.py ``` ### 单独运行模块 ```bash # 下载模型 python model_downloader.py # AWQ量化 python awq_quantizer.py # GGUF量化 python gguf_quantizer.py # 性能评估 python performance_evaluator.py ``` ## 项目结构 ``` . ├── model_downloader.py # 模型下载器 ├── awq_quantizer.py # AWQ量化器 ├── gguf_quantizer.py # GGUF量化器 ├── performance_evaluator.py # 性能评估器 ├── quantization_pipeline.py # 主流水线 ├── config.json # 配置文件 ├── requirements.txt # 依赖列表 └── README.md # 项目文档 ``` ## 注意事项 - 本项目支持在线和离线模式 - 量化过程可能需要较长时间,取决于模型大小 - 建议在GPU环境下运行以获得最佳性能