LogLLM & Log-BPD 服务器部署与运维指南

最后更新: 2025-12-03 平台: 恒源云 (GPUGeek) | 显卡: RTX 3090/4090 (24GB) 项目: LogLLM 复现与 Log-BPD 改进

🗺️ 1. 核心目录地图 (Where is What?)

资产类型	存放路径 (Path)	状态说明
项目代码	`/root/logllm`	[系统盘] 永久保存，关机不丢。
Conda环境	`logllm` (Python 3.10)	[系统盘] 永久保存。
Llama-3	`/hy-tmp/model_weights/LLM-Research/Meta-Llama-3-8B`	[临时盘] 关机>24h 会被清空。
BERT	`/hy-tmp/model_weights/AI-ModelScope/bert-base-uncased`	[临时盘] 关机>24h 会被清空。
云端备份	`oss://my_models/`	[OSS云盘] 永久冷备份，用于恢复数据。

⚡ 2. 开机恢复流程 (Disaster Recovery)

⚠️ 警告：如果服务器关机超过 24 小时，/hy-tmp 下的模型文件会丢失。开机后请务必先运行以下命令检查和恢复：

第一步：检查模型是否存在

ls -F /hy-tmp/model_weights/

如果报错或文件夹为空，请执行下面的恢复命令。

第二步：从 OSS 云盘“秒传”恢复

(耗时约 3-5 分钟，走内网不耗流量)

# 1. 进入临时盘
cd /hy-tmp

# 2. 拉取 Llama-3 备份包
oss cp oss://my_models/llama3_backup.zip .
unzip -q llama3_backup.zip  # 解压 (-q 静默模式)
rm llama3_backup.zip        # 删除压缩包释放空间

# 3. 拉取 BERT 备份包
oss cp oss://my_models/bert_backup.zip .
unzip -q bert_backup.zip    # 解压
rm bert_backup.zip          # 删除压缩包释放空间

🚀 3. 如何运行代码 (How to Run)

3.1 激活环境

conda activate logllm

3.2 运行测试脚本 (冒烟测试)

用于验证显卡是否正常，以及模型路径是否正确：

cd /root/logllm
python test_model.py

预期输出：✅ SUCCESS! Model loaded to GPU.

3.3 运行 LogLLM 主程序

注意：代码中的 model_name 和 encoder_name 必须使用绝对路径！

Llama-3 路径: "/hy-tmp/model_weights/LLM-Research/Meta-Llama-3-8B"
BERT 路径: "/hy-tmp/model_weights/AI-ModelScope/bert-base-uncased"

# 运行示例 (根据实际脚本调整)
python main.py

🔄 4. 开发工作流 (Git Workflow)

不要直接在服务器上修改核心代码！ 请遵循以下流程：

本地电脑 (Local):
- 修改代码 (VSCode/PyCharm)。
- 提交推送: git add . -> git commit -m "update" -> git push。
服务器 (Server):
- 拉取最新:
```
cd /root/logllm
git pull
```
- 运行验证。

🛠️ 5. 常用工具备忘 (Cheat Sheet)

查看显存占用: nvidia-smi -l 1
查看临时盘空间: df -h | grep hy-tmp
OSS 工具命令:
- 查看云端文件: oss ls oss://my_models/
- 上传文件: oss cp <本地文件> oss://my_models/
- 下载文件: oss cp oss://my_models/<云端文件> <本地路径>

Happy Coding! 🚀

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
.idea		.idea
eval_scripts		eval_scripts
ft_model_BGL		ft_model_BGL
ft_model_HDFS		ft_model_HDFS
ft_model_Liberty		ft_model_Liberty
ft_model_Thunderbird		ft_model_Thunderbird
prepareData		prepareData
scripts		scripts
CODEMAP.md		CODEMAP.md
README.md		README.md
SERVER_SETUP.md		SERVER_SETUP.md
customDataset.py		customDataset.py
eval.py		eval.py
framework.png		framework.png
model.py		model.py
prepare_hdfs_data.py		prepare_hdfs_data.py
readmyself.md		readmyself.md
requirements.txt		requirements.txt
test_model.py		test_model.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LogLLM & Log-BPD 服务器部署与运维指南

🗺️ 1. 核心目录地图 (Where is What?)

⚡ 2. 开机恢复流程 (Disaster Recovery)

第一步：检查模型是否存在

第二步：从 OSS 云盘“秒传”恢复

🚀 3. 如何运行代码 (How to Run)

3.1 激活环境

3.2 运行测试脚本 (冒烟测试)

3.3 运行 LogLLM 主程序

🔄 4. 开发工作流 (Git Workflow)

🛠️ 5. 常用工具备忘 (Cheat Sheet)

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

LogLLM & Log-BPD 服务器部署与运维指南

🗺️ 1. 核心目录地图 (Where is What?)

⚡ 2. 开机恢复流程 (Disaster Recovery)

第一步：检查模型是否存在

第二步：从 OSS 云盘“秒传”恢复

🚀 3. 如何运行代码 (How to Run)

3.1 激活环境

3.2 运行测试脚本 (冒烟测试)

3.3 运行 LogLLM 主程序

🔄 4. 开发工作流 (Git Workflow)

🛠️ 5. 常用工具备忘 (Cheat Sheet)

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages