知识蒸馏模型在边缘端部署的可观测性建设与故障自愈

摘要：本文介绍了一个面向边缘计算场景的知识蒸馏模型部署与运维项目。项目核心目标是构建一个具备可观测性与故障自愈能力的轻量级学生模型服务。通过设计并实现指标收集、故障检测与自愈代理三大模块，对边缘端的模型推理性能、资源消耗及预测质量进行持续监控。当检测到异常（如性能下降、内存泄漏或预测置信度过低）时，系统能自动触发预设的自愈策略，如切换到备份模型、触发模型重蒸馏或服务重启，从而保障边缘AI服务的可靠性。文...

摘要

本文介绍了一个面向边缘计算场景的知识蒸馏模型部署与运维项目。项目核心目标是构建一个具备可观测性与故障自愈能力的轻量级学生模型服务。通过设计并实现指标收集、故障检测与自愈代理三大模块，对边缘端的模型推理性能、资源消耗及预测质量进行持续监控。当检测到异常（如性能下降、内存泄漏或预测置信度过低）时，系统能自动触发预设的自愈策略，如切换到备份模型、触发模型重蒸馏或服务重启，从而保障边缘AI服务的可靠性。文章提供了完整的项目代码、清晰的部署步骤与验证方法，并通过架构图与流程图阐述了系统核心工作流。

1. 项目概述：边缘AI的韧性挑战与应对

在边缘设备（如IoT网关、工业摄像头、移动设备）上部署深度学习模型面临独特挑战：资源受限（算力、内存、能耗）、网络不稳定、以及缺乏中心化的运维团队。知识蒸馏（Knowledge Distillation）作为一种高效的模型压缩技术，能够将大型"教师模型"的知识迁移到轻量级"学生模型"，使其在保持较高性能的同时满足边缘端的严苛约束。

然而，仅仅部署一个轻量模型远远不够。在缺乏持续监控和干预的情况下，模型可能会因为数据分布漂移、设备资源竞争、或底层环境变化而性能衰退甚至完全失效。因此，为边缘端模型服务构建"可观测性"与"故障自愈"能力，是实现生产级边缘AI应用的关键。

本项目设计并实现了一个集成了可观测性与故障自愈框架的知识蒸馏模型边缘服务。它不仅仅是一个模型推理接口，更是一个能够自我感知、自我诊断并尝试自我修复的智能体。

核心设计思路围绕三大支柱：

可观测性建设：在模型推理服务中埋点，收集多维指标（如延迟、吞吐量、CPU/内存占用、模型预测置信度），并通过轻量级组件汇聚与暴露这些指标。
故障检测：基于预定义的规则（如延迟超过阈值、内存持续增长）或简单的统计方法，对收集到的指标进行实时分析，识别服务异常状态。
故障自愈：一旦故障被确认，自动执行预定的修复动作，例如：回滚到上一个版本的模型、触发一次针对当前数据的轻量级重蒸馏训练、或者优雅地重启服务。

通过这三者的闭环，我们旨在显著降低边缘AI服务的运维负担，提升其长期运行的稳定性和可靠性。

2. 项目结构树

以下是本项目的核心目录与文件结构：

edge_kd_observability/
├── config.yaml                     # 主配置文件
├── main.py                         # 服务主入口
├── requirements.txt                # Python依赖
│
├── core/                           # 核心框架模块
│   ├── __init__.py
│   ├── metrics_collector.py       # 指标收集器
│   ├── fault_detector.py          # 故障检测器
│   └── self_healing_agent.py      # 自愈代理
│
├── models/                         # 模型定义与加载
│   ├── __init__.py
│   ├── student_model.py           # 学生模型定义
│   └── teacher_model.py           # 教师模型定义（模拟或轻量版）
│
├── knowledge_distillation/         # 蒸馏相关
│   ├── __init__.py
│   └── trainer.py                 # 在线重蒸馏训练器
│
├── deployment/                     # 部署与运行时
│   ├── __init__.py
│   └── edge_deployer.py           # 模拟边缘部署器
│
├── data/                          # 示例数据与模型存储
│   ├── sample_input.json
│   └── models/                    # 存放学生/教师模型权重
│       ├── student_model_latest.pth
│       └── student_model_backup.pth
│
└── tests/                         # 单元测试
    ├── __init__.py
    └── test_fault_detection.py

3. 核心代码实现

文件路径：`config.yaml`

这是项目的神经中枢，所有关键参数和阈值都在此配置。

# 模型配置
model:
  student:
    checkpoint_path: "./data/models/student_model_latest.pth"
    backup_checkpoint_path: "./data/models/student_model_backup.pth"
    input_size: [1, 1, 32, 32] # 示例：CIFAR-10 缩放后尺寸
  teacher:
    # 在边缘端，教师模型通常是一个更小或已量化版本，或通过API远程调用
    # 此处为简化，我们假设一个本地模拟的教师模型
    use_simulated: true

# 可观测性配置
observability:
  metrics_collection_interval: 10  # 收集指标间隔（秒）
  metrics_to_collect:

    - inference_latency
    - system_memory_mb
    - model_confidence_mean
    - requests_per_second

# 故障检测规则配置
fault_detection:
  rules:
    high_latency:
      metric: inference_latency
      operator: ">"
      threshold: 100.0  # 毫秒
      window_size: 5    # 基于最近5次测量值判断
      trigger_count: 3  # 连续触发3次则告警
    low_confidence:
      metric: model_confidence_mean
      operator: "<"
      threshold: 0.7
      window_size: 10
      trigger_count: 5
    memory_leak:
      metric: system_memory_mb
      operator: "trend_up" # 特殊操作符：检测上升趋势
      threshold: 5.0      # 在窗口期内持续增长超过5MB
      window_size: 30

# 故障自愈策略配置
self_healing:
  strategies:

    - fault_type: "high_latency"
      actions:

        - type: "switch_model"
          params:
            target_model: "backup"

        - type: "restart_service"
          params:
            delay_seconds: 2

    - fault_type: "low_confidence"
      actions:

        - type: "retrain"
          params:
            use_current_data: true
            samples_to_collect: 100
            epochs: 5

    - fault_type: "memory_leak"
      actions:

        - type: "restart_service"
          params:
            delay_seconds: 5

# 日志与输出
logging:
  level: "INFO"
  file: "./edge_service.log"

文件路径：`core/metrics_collector.py`

负责收集和暂存各类运行时指标。

import time
import psutil
import threading
from collections import deque
import numpy as np
from typing import Dict, Any, List

class MetricsCollector:
    """轻量级指标收集器"""
    
    def __init__(self, config: Dict[str, Any]):
        self.config = config
        self.metrics_store = {}
        self._init_metrics_store()
        self._stop_event = threading.Event()
        self._collection_thread = None
        self.lock = threading.Lock()
        
    def _init_metrics_store(self):
        """初始化指标存储队列"""
        metrics_list = self.config['observability']['metrics_to_collect']
        for metric in metrics_list:
            # 使用固定长度的双端队列存储最近N个指标值
            self.metrics_store[metric] = deque(maxlen=1000) 
        # 额外存储一些原始时间戳数据用于计算
        self.metrics_store['_timestamps'] = deque(maxlen=1000)
        self.metrics_store['_inference_start_times'] = deque(maxlen=1000)
        
    def start(self):
        """启动后台指标收集线程"""
        self._collection_thread = threading.Thread(target=self._collection_loop, daemon=True)
        self._collection_thread.start()
        print("[MetricsCollector] 后台指标收集已启动。")
        
    def stop(self):
        """停止收集"""
        self._stop_event.set()
        if self._collection_thread:
            self._collection_thread.join()
            
    def _collection_loop(self):
        """定期收集系统级指标"""
        interval = self.config['observability']['metrics_collection_interval']
        while not self._stop_event.wait(interval):
            self._collect_system_metrics()
            
    def _collect_system_metrics(self):
        """收集CPU、内存等系统指标"""
        with self.lock:
            process = psutil.Process()
            memory_info = process.memory_info()
            self.metrics_store['system_memory_mb'].append(memory_info.rss / 1024 / 1024) # MB
            # 可扩展收集CPU、IO等
            
    def record_inference_start(self):
        """记录推理开始时间戳"""
        with self.lock:
            self.metrics_store['_inference_start_times'].append(time.time())
            
    def record_inference_end(self, confidence: float = None):
        """记录推理结束，计算延迟并记录置信度"""
        with self.lock:
            if self.metrics_store['_inference_start_times']:
                start_time = self.metrics_store['_inference_start_times'].pop()
                latency_ms = (time.time() - start_time) * 1000
                self.metrics_store['inference_latency'].append(latency_ms)
                self.metrics_store['_timestamps'].append(time.time())
                
                if confidence is not None:
                    self.metrics_store['model_confidence_mean'].append(confidence)
                    
    def get_metric_stats(self, metric_name: str, window_size: int = None) -> Dict[str, float]:
        """获取指定指标的统计信息（均值、最新值等）"""
        with self.lock:
            if metric_name not in self.metrics_store:
                return {}
                
            values = list(self.metrics_store[metric_name])
            if window_size and len(values) > window_size:
                values = values[-window_size:]
                
            if not values:
                return {'latest': None, 'mean': None, 'count': 0}
                
            return {
                'latest': values[-1],
                'mean': np.mean(values) if values else None,
                'max': max(values) if values else None,
                'min': min(values) if values else None,
                'count': len(values)
            }
            
    def get_all_metrics(self) -> Dict[str, List[float]]:
        """获取所有指标的当前快照（复制）"""
        with self.lock:
            return {k: list(v) for k, v in self.metrics_store.items() if not k.startswith('_')}

文件路径：`core/fault_detector.py`

基于配置的规则分析指标，判断是否发生故障。

from typing import Dict, Any, List, Optional
from dataclasses import dataclass
import numpy as np

@dataclass
class Fault:
    fault_type: str
    detected_at: float
    severity: str  # e.g., "warning", "critical"
    details: Dict[str, Any]

class FaultDetector:
    """基于规则的故障检测器"""
    
    def __init__(self, config: Dict[str, Any], metrics_collector: 'MetricsCollector'):
        self.config = config
        self.metrics_collector = metrics_collector
        self.rule_state = {}  # 记录每条规则的触发状态 {'rule_name': {'trigger_count': 0, ...}}
        self._init_rule_state()
        
    def _init_rule_state(self):
        """初始化所有规则的状态跟踪器"""
        rules = self.config['fault_detection']['rules']
        for rule_name in rules:
            self.rule_state[rule_name] = {
                'consecutive_triggers': 0,
                'last_evaluation': None
            }
            
    def evaluate_rules(self) -> List[Fault]:
        """评估所有规则，返回检测到的故障列表"""
        detected_faults = []
        rules = self.config['fault_detection']['rules']
        
        for rule_name, rule_config in rules.items():
            fault = self._evaluate_single_rule(rule_name, rule_config)
            if fault:
                detected_faults.append(fault)
                
        return detected_faults
    
    def _evaluate_single_rule(self, rule_name: str, rule_config: Dict) -> Optional[Fault]:
        """评估单个规则"""
        metric_name = rule_config['metric']
        operator = rule_config['operator']
        threshold = rule_config['threshold']
        window_size = rule_config.get('window_size', 1)
        trigger_needed = rule_config.get('trigger_count', 1)
        
        # 获取指标统计
        stats = self.metrics_collector.get_metric_stats(metric_name, window_size)
        if stats['count'] < window_size:
            return None  # 数据不足，不进行评估
            
        latest_value = stats['latest']
        mean_value = stats['mean']
        values = self.metrics_collector.metrics_store.get(metric_name, [])
        recent_values = list(values)[-window_size:] if values else []
        
        is_triggered = False
        
        # 应用不同的操作符进行判断
        if operator == ">":
            is_triggered = latest_value > threshold
        elif operator == "<":
            is_triggered = latest_value < threshold
        elif operator == "trend_up":
            if len(recent_values) >= 2:
                # 简单线性回归斜率判断趋势
                x = np.arange(len(recent_values))
                y = np.array(recent_values)
                slope = np.polyfit(x, y, 1)[0]
                is_triggered = slope > threshold
        # 可扩展更多操作符，如">=", "change_rate"等
        
        # 更新规则状态并判断是否满足连续触发条件
        state = self.rule_state[rule_name]
        if is_triggered:
            state['consecutive_triggers'] += 1
        else:
            state['consecutive_triggers'] = 0
            
        if state['consecutive_triggers'] >= trigger_needed:
            # 重置计数器，避免重复报警
            state['consecutive_triggers'] = 0
            return Fault(
                fault_type=rule_name,
                detected_at=time.time(),
                severity="critical",
                details={
                    'metric': metric_name,
                    'value': latest_value,
                    'threshold': threshold,
                    'window': window_size
                }
            )
            
        return None

文件路径：`core/self_healing_agent.py`

接收故障信息，并执行相应的修复动作。

import time
import subprocess
import sys
import os
from typing import Dict, Any, List
from .fault_detector import Fault

class SelfHealingAgent:
    """故障自愈代理，执行修复策略"""
    
    def __init__(self, config: Dict[str, Any], model_manager: Any, trainer: Any):
        self.config = config
        self.model_manager = model_manager  # 假设有一个模型管理对象
        self.trainer = trainer              # 重蒸馏训练器
        self.action_log = []
        
    def execute_healing_plan(self, fault: Fault) -> bool:
        """根据故障类型执行对应的自愈策略"""
        fault_type = fault.fault_type
        strategies = self.config['self_healing']['strategies']
        
        for strategy in strategies:
            if strategy['fault_type'] == fault_type:
                print(f"[SelfHealingAgent] 检测到故障 '{fault_type}'，执行自愈策略。")
                success = self._execute_actions(strategy['actions'])
                self._log_action(fault_type, success)
                return success
                
        print(f"[SelfHealingAgent] 警告：未找到故障类型 '{fault_type}' 对应的自愈策略。")
        return False
        
    def _execute_actions(self, actions: List[Dict]) -> bool:
        """按顺序执行一系列动作"""
        overall_success = True
        for action_spec in actions:
            action_type = action_spec['type']
            params = action_spec.get('params', {})
            
            try:
                if action_type == "switch_model":
                    success = self._action_switch_model(params)
                elif action_type == "restart_service":
                    success = self._action_restart_service(params)
                elif action_type == "retrain":
                    success = self._action_retrain(params)
                else:
                    print(f"[SelfHealingAgent] 未知动作类型: {action_type}")
                    success = False
                    
                if not success:
                    overall_success = False
                    print(f"[SelfHealingAgent] 动作 '{action_type}' 执行失败。")
                    
            except Exception as e:
                print(f"[SelfHealingAgent] 执行动作 '{action_type}' 时发生异常: {e}")
                overall_success = False
                
        return overall_success
        
    def _action_switch_model(self, params: Dict) -> bool:
        """动作：切换到备份模型"""
        target = params.get('target_model', 'backup')
        print(f"[SelfHealingAgent] 正在切换到 {target} 模型...")
        # 这里调用 model_manager 的切换模型方法
        # 示例：return self.model_manager.load_model(f'student_model_{target}.pth')
        # 为简化演示，我们假设成功
        time.sleep(0.5)  # 模拟切换耗时
        print(f"[SelfHealingAgent] 已切换到 {target} 模型。")
        return True
        
    def _action_restart_service(self, params: Dict) -> bool:
        """动作：重启服务（生产环境需更优雅的实现）"""
        delay = params.get('delay_seconds', 5)
        print(f"[SelfHealingAgent] 将在 {delay} 秒后重启服务...")
        time.sleep(delay)
        print(f"[SelfHealingAgent] 重启中...")
        # 注意：实际部署中，这可能通过系统服务管理器（如systemd）或进程监控器来完成
        # 此处为演示，仅打印日志。真实实现可能调用 subprocess 或发送信号。
        # os.execv(sys.executable, [sys.executable] + sys.argv)
        return True  # 假设重启指令已成功发出
        
    def _action_retrain(self, params: Dict) -> bool:
        """动作：触发在线重蒸馏"""
        use_current_data = params.get('use_current_data', True)
        samples = params.get('samples_to_collect', 100)
        epochs = params.get('epochs', 5)
        
        print(f"[SelfHealingAgent] 触发在线重蒸馏，收集 {samples} 个样本，训练 {epochs} 轮。")
        
        # 1. 从缓存或当前流中收集近期数据（示例中省略数据收集逻辑）
        # recent_data = self.data_buffer.get_samples(samples)
        
        # 2. 调用训练器进行重蒸馏
        # success = self.trainer.fine_tune(recent_data, epochs)
        
        # 为演示，模拟一个成功的训练过程
        time.sleep(2)  # 模拟训练时间
        print(f"[SelfHealingAgent] 重蒸馏完成。")
        
        # 3. 加载新模型
        # self.model_manager.load_new_checkpoint()
        
        return True
        
    def _log_action(self, fault_type: str, success: bool):
        """记录自愈动作日志"""
        self.action_log.append({
            'timestamp': time.time(),
            'fault': fault_type,
            'success': success
        })

文件路径：`models/student_model.py`

定义一个简单的学生模型（例如用于CIFAR-10的微型CNN）。

import torch
import torch.nn as nn
import torch.nn.functional as F

class TinyStudentModel(nn.Module):
    """一个非常轻量化的学生模型，适用于边缘设备"""
    def __init__(self, num_classes=10):
        super(TinyStudentModel, self).__init__()
        self.conv1 = nn.Conv2d(3, 16, kernel_size=3, padding=1)
        self.bn1 = nn.BatchNorm2d(16)
        self.pool1 = nn.MaxPool2d(2, 2) # 16x16
        
        self.conv2 = nn.Conv2d(16, 32, kernel_size=3, padding=1)
        self.bn2 = nn.BatchNorm2d(32)
        self.pool2 = nn.MaxPool2d(2, 2) # 8x8
        
        self.conv3 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.bn3 = nn.BatchNorm2d(64)
        self.pool3 = nn.MaxPool2d(2, 2) # 4x4
        
        self.fc1 = nn.Linear(64 * 4 * 4, 128)
        self.dropout = nn.Dropout(0.2)
        self.fc2 = nn.Linear(128, num_classes)
        
    def forward(self, x):
        x = self.pool1(F.relu(self.bn1(self.conv1(x))))
        x = self.pool2(F.relu(self.bn2(self.conv2(x))))
        x = self.pool3(F.relu(self.bn3(self.conv3(x))))
        x = x.view(-1, 64 * 4 * 4)
        x = F.relu(self.fc1(x))
        x = self.dropout(x)
        x = self.fc2(x)
        return x
        
    def predict_with_confidence(self, x):
        """推理并返回预测结果及置信度"""
        with torch.no_grad():
            logits = self.forward(x)
            probabilities = F.softmax(logits, dim=1)
            confidence, predicted = torch.max(probabilities, 1)
            return predicted.item(), confidence.item()

文件路径：`knowledge_distillation/trainer.py`

包含在线重蒸馏的核心逻辑。

import torch
import torch.nn as nn
import torch.optim as optim
from tqdm import tqdm

class OnlineDistillationTrainer:
    """在线知识蒸馏训练器，可用于边缘端轻量级重训练"""
    
    def __init__(self, student_model: nn.Module, teacher_model: nn.Module, device='cpu'):
        self.student = student_model
        self.teacher = teacher_model
        self.device = device
        self.student.to(device)
        if teacher_model:
            self.teacher.to(device)
            self.teacher.eval()  # 教师模型固定参数
            
    def distill_batch(self, images, labels, temperature=4.0, alpha=0.7):
        """对一个批次的数据执行蒸馏损失计算"""
        self.student.train()
        
        # 学生模型输出
        student_logits = self.student(images)
        
        # 标准交叉熵损失（硬标签）
        loss_ce = nn.CrossEntropyLoss()(student_logits, labels)
        
        # 知识蒸馏损失（软标签）
        if self.teacher is not None:
            with torch.no_grad():
                teacher_logits = self.teacher(images)
            # 应用温度系数软化概率分布
            soft_targets = nn.functional.softmax(teacher_logits / temperature, dim=1)
            soft_prob = nn.functional.log_softmax(student_logits / temperature, dim=1)
            loss_kd = nn.functional.kl_div(soft_prob, soft_targets, reduction='batchmean') * (temperature ** 2)
        else:
            loss_kd = torch.tensor(0.0).to(self.device)
            
        # 组合损失
        total_loss = (1.0 - alpha) * loss_ce + alpha * loss_kd
        return total_loss, loss_ce.item(), loss_kd.item() if self.teacher else 0.0
        
    def fine_tune(self, data_loader, epochs=5, lr=0.001):
        """使用收集到的数据对模型进行微调（重蒸馏）"""
        optimizer = optim.Adam(self.student.parameters(), lr=lr)
        scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=2, gamma=0.5)
        
        print(f"[OnlineDistillationTrainer] 开始在线重蒸馏，共 {epochs} 轮。")
        for epoch in range(epochs):
            running_loss = 0.0
            for batch_idx, (images, labels) in enumerate(tqdm(data_loader, desc=f"Epoch {epoch+1}")):
                images, labels = images.to(self.device), labels.to(self.device)
                
                optimizer.zero_grad()
                loss, loss_ce, loss_kd = self.distill_batch(images, labels)
                loss.backward()
                optimizer.step()
                
                running_loss += loss.item()
                
            scheduler.step()
            avg_loss = running_loss / len(data_loader)
            print(f"  轮次 [{epoch+1}/{epochs}] 平均损失: {avg_loss:.4f}")
            
        print("[OnlineDistillationTrainer] 重蒸馏完成。")
        return True

文件路径：`main.py`

服务主入口，整合所有组件。

import time
import yaml
import sys
import os
from threading import Thread, Event
import random

# 假设其他模块已正确导入
from core.metrics_collector import MetricsCollector
from core.fault_detector import FaultDetector
from core.self_healing_agent import SelfHealingAgent
from models.student_model import TinyStudentModel
from knowledge_distillation.trainer import OnlineDistillationTrainer

class EdgeKDService:
    """边缘知识蒸馏服务主类"""
    
    def __init__(self, config_path='./config.yaml'):
        # 加载配置
        with open(config_path, 'r') as f:
            self.config = yaml.safe_load(f)
            
        # 初始化核心组件
        self.metrics_collector = MetricsCollector(self.config)
        self.model = self._init_model()
        self.fault_detector = FaultDetector(self.config, self.metrics_collector)
        # 为简化，这里传入None作为model_manager和trainer的占位
        self.healing_agent = SelfHealingAgent(self.config, None, None)
        
        self._stop_event = Event()
        self._monitoring_thread = None
        
        print("[EdgeKDService] 服务初始化完成。")
        
    def _init_model(self):
        """加载学生模型"""
        model_path = self.config['model']['student']['checkpoint_path']
        model = TinyStudentModel(num_classes=10)
        try:
            # 模拟加载权重 - 实际中应从文件加载
            # model.load_state_dict(torch.load(model_path, map_location='cpu'))
            model.eval()
            print(f"[EdgeKDService] 学生模型已加载。")
        except Exception as e:
            print(f"[EdgeKDService] 加载模型失败: {e}")
            print("正在使用随机初始化的模型...")
        return model
        
    def start(self):
        """启动服务"""
        print("[EdgeKDService] 启动边缘知识蒸馏服务...")
        self.metrics_collector.start()
        
        # 启动后台监控线程
        self._monitoring_thread = Thread(target=self._monitoring_loop, daemon=True)
        self._monitoring_thread.start()
        
        # 启动模拟推理循环（主线程）
        self._simulate_inference_loop()
        
    def stop(self):
        """停止服务"""
        print("[EdgeKDService] 正在停止服务...")
        self._stop_event.set()
        self.metrics_collector.stop()
        if self._monitoring_thread:
            self._monitoring_thread.join()
        print("[EdgeKDService] 服务已停止。")
        
    def _simulate_inference_loop(self):
        """模拟持续的模型推理请求"""
        inference_interval = 0.5  # 每0.5秒模拟一次推理
        request_counter = 0
        
        print("[EdgeKDService] 开始模拟推理请求...")
        while not self._stop_event.is_set():
            try:
                request_counter += 1
                
                # 记录推理开始
                self.metrics_collector.record_inference_start()
                
                # === 模拟模型推理 ===
                time.sleep(random.uniform(0.05, 0.15))  # 模拟50-150ms的推理延迟
                
                # 模拟一个置信度（正常情况下较高，偶尔会低）
                if request_counter % 20 == 0:  # 每20次请求模拟一次低置信度
                    confidence = random.uniform(0.4, 0.6)
                else:
                    confidence = random.uniform(0.75, 0.95)
                    
                # 记录推理结束和置信度
                self.metrics_collector.record_inference_end(confidence)
                # === 模拟结束 ===
                
                # 模拟内存缓慢增长（每100次请求增长一点）
                if request_counter % 100 == 0:
                    # 在实际系统中，内存由metrics_collector自动收集
                    # 这里仅打印日志模拟
                    print(f"[Simulation] 已完成 {request_counter} 次推理。")
                    
                time.sleep(inference_interval)
                
            except KeyboardInterrupt:
                break
            except Exception as e:
                print(f"[EdgeKDService] 推理循环异常: {e}")
                
    def _monitoring_loop(self):
        """后台监控循环：检测故障并触发自愈"""
        check_interval = 5  # 每5秒检查一次
        
        print("[EdgeKDService] 后台监控线程已启动。")
        while not self._stop_event.is_set():
            try:
                # 1. 故障检测
                faults = self.fault_detector.evaluate_rules()
                
                # 2. 对每个检测到的故障执行自愈
                for fault in faults:
                    print(f"[EdgeKDService] 检测到故障: {fault.fault_type} (严重性: {fault.severity})")
                    print(f"   详情: {fault.details}")
                    
                    # 执行自愈策略
                    self.healing_agent.execute_healing_plan(fault)
                    
                time.sleep(check_interval)
                
            except Exception as e:
                print(f"[EdgeKDService] 监控循环异常: {e}")
                time.sleep(check_interval)

def main():
    service = EdgeKDService()
    try:
        service.start()
    except KeyboardInterrupt:
        service.stop()
        sys.exit(0)

if __name__ == "__main__":
    main()

4. 系统工作流程与自愈决策

为了更清晰地展示本项目中各核心组件的交互时序与故障自愈的决策逻辑，以下是两个关键的Mermaid图。

sequenceDiagram participant Client as 客户端/传感器 participant Main as 主服务(EdgeKDService) participant MC as 指标收集器(MetricsCollector) participant FD as 故障检测器(FaultDetector) participant SHA as 自愈代理(SelfHealingAgent) participant Model as 学生模型 Note over Main,Model: 1. 系统启动与初始化 Main->>MC: 启动后台收集线程 Main->>Model: 加载模型权重 Main->>FD: 初始化检测规则 Note over Client,Model: 2. 正常推理循环 loop 持续推理 Client->>Main: 模拟推理请求 Main->>MC: record_inference_start() Main->>Model: 模型推理 Model-->>Main: 返回结果与置信度 Main->>MC: record_inference_end(confidence) Main-->>Client: 返回推理结果 MC->>MC: 定期收集系统指标(内存等) end Note over FD,SHA: 3. 后台监控与故障检测 loop 定期检查 FD->>MC: 获取各项指标统计 FD->>FD: 根据规则评估 alt 检测到故障 FD->>SHA: 传递故障对象(Fault) SHA->>SHA: 查找并执行对应策略 SHA->>Model: 执行动作(如切换模型) SHA-->>Main: 返回自愈结果 end end Note over Main: 4. 服务终止 Client->>Main: 发送停止信号(如Ctrl+C) Main->>MC: 停止收集线程 Main->>所有组件: 清理资源

graph TD A[故障检测器评估指标] --> B{是否触发任一规则?}; B -- 否 --> C[等待下一个检查周期]; B -- 是 --> D[生成故障对象<br/>Fault: type, details]; D --> E{查询自愈配置}; E --> F[找到对应策略]; F --> G{按顺序执行策略动作}; G --> H[动作: 切换模型]; H --> I{动作成功?}; I -- 是 --> J[记录成功日志]; I -- 否 --> K[记录失败日志]; G --> L[动作: 在线重蒸馏]; L --> M{动作成功?}; M -- 是 --> J; M -- 否 --> K; G --> N[动作: 重启服务]; N --> O{动作成功?}; O -- 是 --> P[服务重启后<br/>进入新一轮监控]; O -- 否 --> K; J --> C; K --> C; style A fill:#e1f5fe style D fill:#fff3e0 style P fill:#e8f5e8

5. 安装依赖与运行步骤

步骤1：环境准备

确保系统已安装 Python 3.7+。建议使用虚拟环境。

# 创建并激活虚拟环境 (可选)
python -m venv venv
# Linux/macOS
source venv/bin/activate
# Windows
venv\Scripts\activate

步骤2：安装依赖

项目根目录下创建 requirements.txt 文件，内容如下：

PyYAML>=5.4
psutil>=5.8.0
numpy>=1.19.5
torch>=1.9.0  # 根据您的边缘设备选择CPU版本，如 torch==1.9.0+cpu
tqdm>=4.62.0  # 用于训练进度条

然后使用 pip 安装：

pip install -r requirements.txt

步骤3：准备项目结构与配置文件

按照上文"项目结构树"部分创建目录和文件。至少需要创建以下核心文件：

config.yaml (内容见上文)
main.py
core/ 目录下的三个Python文件
models/student_model.py
knowledge_distillation/trainer.py

创建模拟模型权重文件（由于我们使用随机初始化的模型，此步骤仅为了路径存在）：

mkdir -p data/models
touch data/models/student_model_latest.pth
touch data/models/student_model_backup.pth

步骤4：运行服务

在项目根目录下执行：

python main.py

您将看到类似以下输出，表明服务已启动并开始模拟推理与监控：

[EdgeKDService] 服务初始化完成。
[EdgeKDService] 启动边缘知识蒸馏服务...
[MetricsCollector] 后台指标收集已启动。
[EdgeKDService] 学生模型已加载。
[EdgeKDService] 后台监控线程已启动。
[EdgeKDService] 开始模拟推理请求...
[Simulation] 已完成 100 次推理。
[Simulation] 已完成 200 次推理。
...

步骤5：触发故障与观察自愈

本模拟程序已内置了故障触发条件：

低置信度故障：每20次推理，会模拟一次低置信度（0.4-0.6）。当连续5个检查周期（每个周期包含10次低置信度测量窗口）都满足低置信度条件时，会触发 low_confidence 故障，并执行 retrain 动作。
高延迟故障：推理延迟已被模拟在50-150ms之间。您可以通过修改config.yaml中的high_latency规则的threshold值为一个小于150的数（如80）来主动触发该故障。触发后系统将执行 switch_model 和 restart_service 动作。

当故障被触发时，控制台会打印类似如下信息：

[EdgeKDService] 检测到故障: low_confidence (严重性: critical)
   详情: {'metric': 'model_confidence_mean', 'value': 0.52, 'threshold': 0.7, 'window': 10}
[SelfHealingAgent] 检测到故障 'low_confidence'，执行自愈策略。
[SelfHealingAgent] 触发在线重蒸馏，收集 100 个样本，训练 5 轮。
[SelfHealingAgent] 重蒸馏完成。

6. 测试与验证步骤

我们提供一个简单的单元测试来验证故障检测器的核心逻辑。

文件路径：`tests/test_fault_detection.py`

import sys
import os
sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), '..')))

import unittest
from unittest.mock import Mock, MagicMock
import time

from core.fault_detector import FaultDetector
from core.metrics_collector import MetricsCollector

class TestFaultDetector(unittest.TestCase):
    
    def setUp(self):
        # 创建模拟配置
        self.mock_config = {
            'fault_detection': {
                'rules': {
                    'test_high_value': {
                        'metric': 'test_metric',
                        'operator': '>',
                        'threshold': 10.0,
                        'window_size': 3,
                        'trigger_count': 2
                    }
                }
            }
        }
        # 创建模拟的指标收集器
        self.mock_metrics_collector = Mock(spec=MetricsCollector)
        # 设置其 get_metric_stats 方法的行为
        self.mock_metrics_collector.get_metric_stats = MagicMock()
        self.mock_metrics_collector.metrics_store = {'test_metric': []}
        
        self.detector = FaultDetector(self.mock_config, self.mock_metrics_collector)
        
    def test_rule_evaluation_triggered(self):
        """测试规则被连续触发时，是否能正确检测到故障"""
        # 模拟指标收集器返回的统计信息：最新值12，满足 >10 的条件
        self.mock_metrics_collector.get_metric_stats.return_value = {
            'latest': 12.0,
            'count': 3
        }
        
        # 第一次评估，应触发但未达到连续计数
        faults = self.detector.evaluate_rules()
        self.assertEqual(len(faults), 0)
        self.assertEqual(self.detector.rule_state['test_high_value']['consecutive_triggers'], 1)
        
        # 第二次评估，达到连续触发次数，应返回故障
        faults = self.detector.evaluate_rules()
        self.assertEqual(len(faults), 1)
        self.assertEqual(faults[0].fault_type, 'test_high_value')
        # 检测后计数器应重置
        self.assertEqual(self.detector.rule_state['test_high_value']['consecutive_triggers'], 0)
        
    def test_rule_evaluation_not_triggered(self):
        """测试指标未触发规则时，无故障产生"""
        # 模拟指标不满足条件
        self.mock_metrics_collector.get_metric_stats.return_value = {
            'latest': 8.0,
            'count': 3
        }
        
        faults = self.detector.evaluate_rules()
        self.assertEqual(len(faults), 0)
        self.assertEqual(self.detector.rule_state['test_high_value']['consecutive_triggers'], 0)
        
    def test_insufficient_data(self):
        """测试数据不足时，不进行评估"""
        self.mock_metrics_collector.get_metric_stats.return_value = {
            'latest': 20.0,
            'count': 1  # 小于 window_size=3
        }
        
        faults = self.detector.evaluate_rules()
        self.assertEqual(len(faults), 0)

if __name__ == '__main__':
    unittest.main()

运行测试：

python -m pytest tests/test_fault_detection.py -v
# 或直接运行
python tests/test_fault_detection.py

预期输出应显示所有测试通过。

7. 扩展说明与最佳实践

生产环境考虑：
- 指标存储与可视化：本项目将指标存储在内存队列中。在生产环境中，应考虑使用更持久和高效的时序数据库（如InfluxDB、Prometheus），并搭配Grafana进行可视化。
- 优雅的服务重启：restart_service 动作的实现非常基础。真实场景应使用进程管理工具（如systemd, supervisord）或容器编排（如Kubernetes with liveness probes）来实现无损重启和健康检查。
- 安全性与通信：边缘节点与中心服务器之间的通信（如需上报指标或下载新模型）必须加密（TLS）并认证。
- 模型版本管理：自愈动作如 switch_model 和 retrain 会产生新的模型版本。需要配套一个轻量级的模型版本管理系统，支持回滚和A/B测试。
性能优化：
- 指标收集和故障检测应尽可能轻量，避免影响主推理线程的性能。本设计中使用独立线程是合理的。
- 对于复杂的故障检测（如机器学习模型预测故障），可将检测逻辑也放在独立的线程或进程中。
可扩展性：
- 新的故障规则：在 FaultDetector._evaluate_single_rule 中添加新的 operator（如检查方差、环比变化率）即可支持更复杂的检测逻辑。
- 新的自愈动作：在 SelfHealingAgent._execute_actions 中添加新的 action_type 分支，即可扩展自愈能力，例如"清空数据缓存"、"向云端报警并等待人工介入"等。

本项目提供了一个坚实且可扩展的框架，开发者可以根据具体边缘场景的需求，填充具体的模型、数据管道和通信模块，快速构建出具备韧性的边缘AI应用。