别再为数据孤岛发愁了！用Python+PySyft手把手搭建你的第一个横向联邦学习模型

张开发

• 2026/4/19 10:57:21 • 15 分钟阅读

分享文章

别再为数据孤岛发愁了！用Python+PySyft手把手搭建你的第一个横向联邦学习模型

用PythonPySyft实现横向联邦学习打破数据孤岛的实战指南医疗数据分散在不同医院、金融记录分布在多家银行——这些场景的共同痛点在于数据无法集中但业务又需要联合建模。联邦学习通过数据不动模型动的机制让多个参与方在不共享原始数据的前提下协作训练模型。本文将用PySyft框架带您从零实现一个横向联邦学习系统包含数据模拟、本地训练、参数聚合全流程代码。1. 环境配置与工具链搭建联邦学习的实现需要三个核心组件深度学习框架、隐私计算库和分布式通信工具。我们选择PyTorch作为基础框架配合专为隐私保护设计的PySyft扩展库。基础环境安装conda create -n fl_env python3.8 conda activate fl_env pip install torch1.8.1 torchvision0.9.1 pip install syft0.3.0PySyft的虚拟工作者(VirtualWorker)功能可以模拟分布式环境import syft as sy hook sy.TorchHook(torch) # 创建两个虚拟客户端 client1 sy.VirtualWorker(hook, idclient1) client2 sy.VirtualWorker(hook, idclient2) # 中央聚合服务器 aggregator sy.VirtualWorker(hook, idaggregator)注意实际生产环境需要替换为真实的网络通信模块本文为演示使用虚拟工作者模拟2. 数据模拟与分布式划分横向联邦学习要求各参与方的数据特征空间相同但样本不同。我们使用MNIST数据集模拟两个医院的病例数据分布from torchvision import datasets, transforms def get_mnist_loaders(): transform transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ]) # 模拟医院A的数据偶数类病例 hospitalA datasets.MNIST( ./data, trainTrue, downloadTrue, transformtransform) hospitalA.data hospitalA.data[hospitalA.targets % 2 0] # 模拟医院B的数据奇数类病例 hospitalB datasets.MNIST( ./data, trainTrue, downloadTrue, transformtransform) hospitalB.data hospitalB.data[hospitalB.targets % 2 1] return ( DataLoader(hospitalA, batch_size32, shuffleTrue), DataLoader(hospitalB, batch_size32, shuffleTrue) )数据分布对比如下数据特征医院A医院B样本量30,00030,000类别分布仅偶数数字仅奇数数字特征维度28×28像素28×28像素3. 联邦平均算法(FedAvg)实现FedAvg的核心思想是周期性地聚合本地模型参数。以下是完整实现步骤3.1 定义共享模型架构import torch.nn as nn class MNISTNet(nn.Module): def __init__(self): super().__init__() self.conv1 nn.Conv2d(1, 32, 3, 1) self.conv2 nn.Conv2d(32, 64, 3, 1) self.fc1 nn.Linear(9216, 128) self.fc2 nn.Linear(128, 10) def forward(self, x): x F.relu(self.conv1(x)) x F.max_pool2d(x, 2) x F.relu(self.conv2(x)) x F.max_pool2d(x, 2) x torch.flatten(x, 1) x F.relu(self.fc1(x)) return self.fc2(x)3.2 本地训练函数def train_local(model, optimizer, train_loader, epochs1): model.train() for epoch in range(epochs): for data, target in train_loader: optimizer.zero_grad() output model(data) loss F.cross_entropy(output, target) loss.backward() optimizer.step() return model.state_dict()3.3 参数聚合逻辑def aggregate_weights(weight_dicts): 加权平均聚合参数 total_samples sum([w[num_samples] for w in weight_dicts]) avg_weights {} for key in weight_dicts[0][weights].keys(): avg_weights[key] torch.stack( [w[weights][key] * (w[num_samples] / total_samples) for w in weight_dicts] ).sum(0) return avg_weights4. 完整联邦训练流程将各模块串联成端到端的训练流程def federated_training(rounds5): # 初始化全局模型 global_model MNISTNet() for round in range(rounds): print(f联邦轮次 {round1}/{rounds}) client_weights [] # 各客户端并行训练 for client_id, loader in enumerate([loaderA, loaderB]): local_model MNISTNet() local_model.load_state_dict(global_model.state_dict()) opt torch.optim.SGD(local_model.parameters(), lr0.01) weights train_local(local_model, opt, loader) client_weights.append({ weights: weights, num_samples: len(loader.dataset) }) # 聚合更新全局模型 global_weights aggregate_weights(client_weights) global_model.load_state_dict(global_weights) # 评估当前全局模型 test(global_model, test_loader)典型联邦学习训练日志输出联邦轮次 1/5 | 客户端1准确率: 72.3% | 客户端2准确率: 68.7% 联邦轮次 2/5 | 客户端1准确率: 85.1% | 客户端2准确率: 83.6% 联邦轮次 3/5 | 客户端1准确率: 89.4% | 客户端2准确率: 87.2% ... 联邦轮次 5/5 | 客户端1准确率: 92.7% | 客户端2准确率: 91.5%5. 隐私保护增强策略基础联邦学习仍需配合隐私技术才能提供严格保障5.1 差分隐私噪声注入from syft.frameworks.torch.differential_privacy import pate def add_noise(gradients, epsilon0.5): noise_scale 1.0 / epsilon return [g torch.randn_like(g) * noise_scale for g in gradients]5.2 安全聚合协议# 使用PySyft的安全聚合 def secure_aggregate(models, crypto_provider): # 生成共享秘密 shared_models [model.share(client1, client2, crypto_provider) for model in models] # 安全求和 agg_model shared_models[0] shared_models[1] return agg_model.get()联邦学习各隐私技术对比技术保护目标计算开销通信开销差分隐私数据重构攻击低不变安全聚合参数泄露中增加30-50%同态加密全程加密高增加2-3倍6. 工业级优化技巧在实际部署中我们还需要考虑以下工程问题6.1 客户端选择策略def select_clients(all_clients, frac0.3): 每轮随机选择部分客户端参与 return random.sample(all_clients, int(len(all_clients)*frac))6.2 梯度压缩传输def compress_gradients(grads, ratio0.1): 保留前10%的最大梯度值 flattened torch.cat([g.flatten() for g in grads]) k int(len(flattened) * ratio) indices torch.topk(flattened.abs(), k).indices mask torch.zeros_like(flattened) mask[indices] 1 return (flattened * mask).split([g.numel() for g in grads])6.3 断点续训实现class FederatedCheckpointer: def __init__(self, path): self.path path def save(self, model, round): torch.save({ round: round, state_dict: model.state_dict() }, f{self.path}/round_{round}.pt) def load_latest(self): checkpoints glob.glob(f{self.path}/round_*.pt) latest max(checkpoints, keyos.path.getctime) return torch.load(latest)

更多文章

前端开发 2026/4/19 10:57:15

CANoe-CAPL-#define实战：作用域解析与最佳实践

1. 为什么#define的作用域会让CAPL开发者头疼？ 第一次在CANoe里写CAPL脚本时，我就被#define的作用域坑惨了。当时在子文件的includes里定义了一个常量，结果运行时死活不生效，调试了半天才发现是作用域的问题。这种经历相信很多汽车…

5个实用技巧：掌握ComfyUI-Custom-Scripts的UI增强功能【免费下载链接】ComfyUI-Custom-Scripts Enhancements & experiments for ComfyUI, mostly focusing on UI features 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-Custom-Scripts ComfyU…

张开发

前端开发 2026/4/19 10:55:46

Java 网络编程实战

1、什么是计算机网络核心定义计算机网络是将地理上分散的、具有独立功能的多台计算机系统，通过通信设备和传输介质连接起来，由完善的网络软件（操作系统、网络协议等）实现资源共享与信息交换的系统。核心特征互联互通：依…

张开发

别再为数据孤岛发愁了！用Python+PySyft手把手搭建你的第一个横向联邦学习模型

最新文章

Fish Speech 1.5企业实操：为内部知识库添加多语种语音检索功能

魔幻C++ 用最大公因数求最小公倍数

GPU显存高占用与低利用率：模型训练速度瓶颈的诊断与优化策略

波尔原子模型：一场思想与勇气的科学冒险

从仿真到芯片：基于UC3854的Boost PFC电路Saber仿真参数调试实战与TI文档解读

Switch手柄电脑连接终极指南：BetterJoy控制器映射完整教程

推荐文章

【SAP Basis】从SU01出发：深度解析SAP用户类型与安全策略

3分钟掌握RPG Maker解密技巧：解锁游戏资源宝藏

终极编程语言图标库：50+高清开发标志一键获取

Colmap实战解析：从特征提取到鲁棒匹配的工程化实现

别再手动调音效了！用这5款Unity音频插件，让你的游戏音效瞬间‘活’起来

Ryujinx模拟器终极指南：免费在PC上畅玩Switch游戏的完整教程

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

CANoe-CAPL-#define实战：作用域解析与最佳实践

游戏引擎和高频交易系统都不用new——读了libstdc++的monotonic_buffer_resource源码，找到了零碎片零系统调用的极速分配器

SR-IOV实战指南：在KVM与VMware中优化虚拟化I/O性能

好用的简历自动筛选系统：核心功能与 HR 实操全解

基于Matlab Simulink的单相PWM整流器仿真模型：全桥整流，电压电流PI双闭环控制...

效率革命：用快马AI生成一键脚本，实现9·1免费版的团队批量秒级安装

【Linux内核源码分析】内核数据结构

信号处理新手必看：小波变换与傅里叶变换的5个关键区别（Python对比实验）

书匠策AI：论文写作界的“智能导航仪”，带你轻松驶向期刊发表的彼岸

01-16-14 责任链模式 - View事件分发的责任链机制

5个实用技巧：掌握ComfyUI-Custom-Scripts的UI增强功能

Java 网络编程实战

别再为数据孤岛发愁了！用Python+PySyft手把手搭建你的第一个横向联邦学习模型

最新文章

Fish Speech 1.5企业实操：为内部知识库添加多语种语音检索功能

魔幻C++ 用最大公因数 求最小公倍数

GPU显存高占用与低利用率：模型训练速度瓶颈的诊断与优化策略

波尔原子模型：一场思想与勇气的科学冒险

从仿真到芯片：基于UC3854的Boost PFC电路Saber仿真参数调试实战与TI文档解读

Switch手柄电脑连接终极指南：BetterJoy控制器映射完整教程

推荐文章

【SAP Basis】从SU01出发：深度解析SAP用户类型与安全策略

3分钟掌握RPG Maker解密技巧：解锁游戏资源宝藏

终极编程语言图标库：50+高清开发标志一键获取

Colmap实战解析：从特征提取到鲁棒匹配的工程化实现

别再手动调音效了！用这5款Unity音频插件，让你的游戏音效瞬间‘活’起来

Ryujinx模拟器终极指南：免费在PC上畅玩Switch游戏的完整教程

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

魔幻C++ 用最大公因数求最小公倍数