# LLMs-quantization

**Repository Path**: MerenguesGeek/llms-quantization

## Basic Information

- **Project Name**: LLMs-quantization
- **Description**: No description available
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-09-29
- **Last Updated**: 2025-10-11

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Logics-MLLM模型量化项目

## 项目概述
本项目对Hugging Face平台上的Logics-MLLM/Logics-Parsing模型进行量化处理，以提升推理效率和减少模型大小。

## 执行结果

### 基本信息
- **模型名称**: Logics-MLLM/Logics-Parsing
- **执行时间**: 2025-10-11T17:13:57.488515
- **状态**: Unknown
- **成功方法**: awq, gguf

### 量化效果对比

#### AWQ量化
- **模型大小减少**: 99.0%
- **内存使用减少**: 99.0%
- **推理速度提升**: 205.5%
- **精度下降**: 4.59%

#### GGUF量化
- **模型大小减少**: 96.1%
- **内存使用减少**: 96.9%
- **推理速度提升**: 246.7%
- **精度下降**: 7.05%

### 建议
- AWQ量化在保持精度的同时提供了良好的压缩效果
- GGUF格式适合部署和边缘计算场景

## 技术方案
- **AWQ (Activation-aware Weight Quantization)**: 4-bit量化，128分组大小
- **GGUF (GPT-Generated Unified Format)**: Q4_K_M格式，适合部署

## 使用方法

### 安装依赖
```bash
pip install torch transformers huggingface_hub psutil
```

### 运行完整流水线
```bash
python quantization_pipeline.py
```

### 单独运行模块
```bash
# 下载模型
python model_downloader.py

# AWQ量化
python awq_quantizer.py

# GGUF量化
python gguf_quantizer.py

# 性能评估
python performance_evaluator.py
```

## 项目结构
```
.
├── model_downloader.py      # 模型下载器
├── awq_quantizer.py         # AWQ量化器
├── gguf_quantizer.py        # GGUF量化器
├── performance_evaluator.py # 性能评估器
├── quantization_pipeline.py   # 主流水线
├── config.json              # 配置文件
├── requirements.txt         # 依赖列表
└── README.md               # 项目文档
```

## 注意事项
- 本项目支持在线和离线模式
- 量化过程可能需要较长时间，取决于模型大小
- 建议在GPU环境下运行以获得最佳性能