多个网站备案负责人建站的注意事项-贵港市网站建设公司-Seo优化

多个网站备案负责人,建站的注意事项,wordpress 获取目录,外贸WordPress主机推荐前言本文主要记录了来自北京大学和蚂蚁集团发表在 archive 上的论文《Towards Efficient Privacy-Preserving Machine Learning: A Systematic Review from Protocol, Model, and System Perspectives》#xff0c;相应的论文推荐仓库放在了 GitHub 上。这篇文章分别从协议、…前言本文主要记录了来自北京大学和蚂蚁集团发表在 archive 上的论文《Towards Efficient Privacy-Preserving Machine Learning: A Systematic Review from Protocol, Model, and System Perspectives》相应的论文推荐仓库放在了 GitHub 上。这篇文章分别从协议、模型、系统三个层面介绍了隐私保护机器学习的发展下面是文章的总体结构文章目录前言一、预备知识1. 密态推理架构2. PPML中的常用设置2.1. 网络设置2.2. 核心评估指标二、协议级优化1. 线性层优化1.1. 基于 OT 的协议1.2. 基于 HE 的协议1.2.1. SIMD 编码1.2.2. 系数编码1.2.3. 嵌套编码1.2.4. 方法对比1.3. 基于 SS 的协议1.4. 预处理2. 非线性层优化3. 图级优化3.1. 交互式协议3.2. 非交互式协议三、模型级优化1. 线性层优化2. 非线性层优化四、系统级优化1. 编译器优化2. GPU 优化五、未来工作1. 协议、模型、系统这三个层级进行协同优化1.1. 协议 - 模型协同优化1.2. 协议-系统协同优化2. 直接使用 HE 计算非线性层3. LLM 时代的 PPML一、预备知识1. 密态推理架构现有的 2PC 推理架构可以分为两类交互式推理推理时客户端和服务器之间交互共同计算。其中非线性层通常使用 OT 或 GC 进行保护而线性层使用 OT 或 HE。非交互式推理客户端上传加密数据服务器进行密态推理。2. PPML中的常用设置2.1. 网络设置为了模拟真实的部署环境PPML研究通常会在两种典型的网络条件下进行评估局域网设置高带宽 377 MBps、低延迟 0.3 ms此时系统瓶颈通常是计算能力而非网络常用于数据中心内部、同机房服务器间的通信场景。广域网设置低带宽 40 MBps、高延迟 80 ms 此时网络通信成为主要瓶颈常用于跨地域、通过互联网的客户端-服务器通信场景如MLaaS真实场景。2.2. 核心评估指标PPML研究主要关注以下两个维度的开销延迟分别在 LAN 和 WAN 设置下测量完成整个 PPML 推理任务所需的总时间。通信量在执行 PPML 协议过程中参与方之间需要交换的数据总量。二、协议级优化1. 线性层优化线性层主要出现在卷积层、注意力层和前馈网络。1.1. 基于 OT 的协议客户端持有输入x xx的秘密份额⟨ x ⟩ c \left⟨x\right⟩_c⟨x⟩c服务器持有输入x xx的另一秘密份额⟨ x ⟩ s \left⟨x\right⟩_s⟨x⟩s以及明文形式的模型权重w ww双方协作安全地计算线性层输出y w ⋅ x yw\cdot xyw⋅x预处理阶段对于模型权重的每一比特客户端和服务器分别本地生成随机向量r rr和s ss双方执行一系列 OT 协议使得客户端能计算出其输出份额⟨ y ⟩ c w r − s \left⟨y\right⟩_cwr−s⟨y⟩cwr−s。在线阶段客户端将输入份额 ⟨x⟩_s 发送给服务器服务器计算⟨ y ⟩ s w ⋅ ( x − r ) s \left⟨y\right⟩_sw\cdot(x−r)s⟨y⟩sw⋅(x−r)s。文中指出基于 OT 的线性层协议有以下两个优化方向减少乘法数量降低输入和模型参数的比特宽度1.2. 基于 HE 的协议HE 方案对具有一维系数向量的多项式进行操作而 DNN 则对张量进行计算因此 Encoding 操作需要将张量映射为向量。现有的编码方法有三种相关文献汇总如下1.2.1. SIMD 编码SIMD 编码将向量作为多项式的系数利用复数根将向量打包到多个槽位中每个槽位代表了多项式的一个点值。SIMD 编码下的输入与输出格式保持相同便于在层之间直接串联其主要性能瓶颈在于旋转操作的高开销。下面介绍 SIMD 编码下的矩阵乘法和卷积操作矩阵乘法卷积操作文中指出旋转是 SIMD 编码的瓶颈有以下两个优化方向减少打包的元素数量从而减少同一密文不同槽之间的交互。许多旋转操作会产生中间结果这些中间结果可以被后续计算复用。例如利用 BSGS 方法中预计算小步旋转的结果通过组合这些小步旋转得到任意位置的旋转结果。1.2.2. 系数编码在 HEMPC 混合框架中基于 OT 的协议在环Z 2 l Z_{2^l}Z2l上的效率显著优于在Z q Z_qZq上的效率而 SIMD 编码需要在Z q Z_qZq上进行计算。为此引入系数编码将向量元素作为多项式的系数利用多项式乘法在系数域上天然具备的卷积结构高效的模拟卷积运算。该编码完全避免旋转操作计算效率最高但其输入、输出格式不一致层间可组合性最差主要用于 HEMPC 场景。下面是一个简单的编码示例矩阵乘法输入向量从上到下编码为多项式参数权重从上到下从左到右编码。卷积操作输入向量从上到下从左到右编码参数权重从下到上从右到左编码。由于系数编码下密文分布结果具有稀疏性即生成密文中只有部分有用因此系数编码的改进侧重于有效减少传输密文数量。有两种主要方法可以实现这一目标重新设计分块方式将大矩阵计算分解为小块让输出更紧凑。使用 HomAuto 将多个稀疏密文的有效系数提取并打包到一个密文中同时最小化 HomAuto 操作次数。1.2.3. 嵌套编码嵌套编码通过离散傅里叶变换转换 SIMD 编码和系数编码 DFT ( w ) SIMD × DFT ( x ) SIMD DFT ( w Coef × x Coef ) \left\text{DFT}(w) \right_\text{SIMD} \times \left\text{DFT}(x) \right_\text{SIMD} \text{DFT}(\leftw\right_\text{Coef} \times \leftx\right_\text{Coef})⟨DFT(w)⟩SIMD×⟨DFT(x)⟩SIMDDFT(⟨w⟩Coef×⟨x⟩Coef)1.2.4. 方法对比下面是各个方法的优势对比卷积嵌套编码 NeuJeans 在旋转和乘法上取得了最佳平衡总体最优。矩阵乘BOLTSIMD 和嵌套编码表现最佳。混合框架系数编码计算量最小但受限于输入输出的一致性通常作为混合框架中的加速模块。不同编码方法的特点如下SIMD大多数 SIMD 编码可以保持输入和输出编码的一致性允许连续计算适用于 FHE 场景。系数编码系数编码消除了旋转具有较低的计算复杂度在卷积方面的计算 / 通信复杂度明显低于 SIMD但编码不一致仅用于 HEMPC 的混合协议场景。嵌套编码适用于连续计算场景单个卷积可采用系数编码以高效执行多项式卷积而多卷积核的并行计算则利用 SIMD 编码的批处理能力。然而连续计算通常依赖密文域的 DFT 变换需要与自举结合成本较高。1.3. 基于 SS 的协议三方计算场景中采用( 2 , 3 ) (2,3)(2,3)-RSS 将一个秘密值x xx被拆分为三个随机份额x 0 , x 1 , x 2 x_0,x_1,x_2x0,x1,x2满足x x 0 x 1 x 2 xx_0x_1x_2xx0x1x2。每个参与方P i P_iPi持有两个份额( x i , x i 1 ) (x_i,x_i1)(xi,xi1)恢复时公开两方的份额计算三个不同值的和。假设每个参与方有三个常数c 1 , c 2 , c 3 c_1,c_2,c_3c1,c2,c3和两个秘密份额[ ⁣ [ x ] ⁣ ] , [ ⁣ [ y ] ⁣ ] [\![x]\!],[\![y]\!][[x]],[[y]]则可以进行以下计算加法线性组合c 1 x c 2 y c 3 c_1xc_2yc_3c1xc2yc3的三个份额为( c 1 x 0 c 2 y 0 c 3 , c 1 x 1 c 2 y 1 , c 1 x 2 c 2 y 2 ) (c_1x_0c_2y_0c_3,c_1x_1c_2y_1,c_1x_2c_2y_2)(c1x0c2y0c3,c1x1c2y1,c1x2c2y2)。乘法为计算乘积x y xyxy每个参与方P i P_iPi计算z i x i y i x i 1 y i x i y i 1 z_ix_iy_ix_{i1}y_ix_iy_{i1}zixiyixi1yixiyi1并将z i ′ α i z i z_i\alpha_iz_izi′αizi发送给P i − 1 P_{i-1}Pi−1则P i P_iPi所拥有的份额为( z i ′ , z i 1 ′ ) (z_i,z_{i1})(zi′,zi1′)。其中α i \alpha_iαi由P i P_iPi利用伪随机生成器生成满足α 1 α 2 α 0 0 \alpha_1\alpha_2\alpha_0 0α1α2α00。1.4. 预处理近期多数 PPML 工作都将推理过程分为离线和在线两个阶段并将大部分在线成本转移到离线阶段。离线阶段的核心步骤是生成 Beaver 三元组其主流构造方法包括基于 OT 的生成和基于 HE 的生成。前者计算开销较低而后者通信成本更低。2. 非线性层优化非线性层主要表现在 CNN 中的 ReLU 函数和 Transformer 中的 GeLU 和 SiLU 函数。方法细节基于 GC 的协议用GC评估函数时只需要常数轮但通信开销很高基于 OT 的协议①百万富翁运算Millionaires’/Wrap用于比较操作。②与运算AND通过比特三元组实现主要使用 16 选 1 OT。③布尔转算术B2A 将布尔份额转为算术份额主要使用 2 选 1 OT。④多路复用器Multiplexer MUX 实现条件选择逻辑主要使用 2 选 1 OT。⑥查找表Lookup Table, LUT允许一方安全地查找另一方持有的预计算输入-输出对。基于 HE 的协议①多项式逼近连续函数使用多项式插值逼近并且为了数值稳定性常用切比雪夫基符号函数、取模等不连续函数需采用间接方法例如傅里叶级数近似、tanh逼近、极小极大多项式近似。②FHE over the TorusTFHETFHE 支持可编程自举可直接通过查找表计算任意单变量函数适用于非线性层的高效计算。然而TFHE方案不支持SIMD操作与BFV/CKKS相比延迟更高。现有方法通过与 BFV/CKKS结合实现多输入并行计算或将TFHE应用于量化神经网络降低输入比特宽度。评估非线性函数时各方法对比如下基于 GC 的协议只需要一轮持续的循环但通信成本很高限制了最近的工作中的采用。基于 OT 的协议适用于不同的非线性函数但由于频繁的交互计算通信成本很高可以使用 VOLE 降低通信成本。基于 FSS 的协议为比较等特定功能提供亚线性通信但缺乏通用性。基于 HE 的协议实现了低通信成本但计算开销较高。TFHE利用可编程自举在没有近似的情况下评估任意非线性函数。3. 图级优化3.1. 交互式协议交互式协议通常需要同时使用 HE 和 SS二者之间需要进行协议转换。HE 转 SS 的转换流程持有密文E n c ( x ) Enc(x)Enc(x)的服务器随机采样一个向量r rr并计算E n c ( x − r ) Enc(x-r)Enc(x−r)将其发送给客户端。客户端解密得到明文x − r x-rx−r作为x xx的一个加性秘密份额而服务器保留份额。SS 转 HE 的逆向转换流程客户端同态加密其份额E n c ( x − r ) Enc(x-r)Enc(x−r)并将其发送给服务器。服务器将自己的份额r rr同态地加到E n c ( x − r ) Enc(x-r)Enc(x−r)上恢复出E n c ( x ) E n c ( x − r r ) Enc(x) Enc(x-r r)Enc(x)Enc(x−rr)。然而将上述方法直接应用于 CKKS 密文可能引发安全隐患其根源在于对 SIMD 编码处理不当。为此可以通过在编码前进行转换步骤以消除潜在风险。3.2. 非交互式协议非交互式协议包括以下操作方法细节自举实际神经网络中的乘法深度远超过了 LHE 的参数配置因此不得不使用自举。CKKS的自举步骤包括系数转槽位Coefficient-to-Slots, CtS、槽位转系数Slots-to-Coefficient, StC、模数提升Modular Raising、近似模约减Approximate Modular Reduction五个操作。从图级优化的角度来看可以将自举中的域转换步骤与神经网络计算图融合隐藏或分摊开销。通过折叠减少层级消耗①AvgPool折叠将平均池化层与卷积层融合为带缩放因子的卷积。②激活函数折叠将多项式激活函数转换为“首一多项式”并将缩放因子向后传播。③BatchNorm折叠将批归一化的仿射参数吸收到前一个线性层中。惰性重缩放在CKKS中每次乘法后都需要重缩放以控制缩放因子但重缩放本身计算代价高。因此延迟重缩放不在每次乘法后重新缩放而是推迟到整个线性层的末尾从而在多次乘法中分摊成本。三、模型级优化1. 线性层优化对于CNN来说线性层主要涉及卷积对于 Transformer线性层主要涉及注意力和前馈中的矩阵乘法。目前有两个优化方向减少每层的乘法操作次数这类工作通过设计特殊的、计算效率更高的线性层结构来替代标准结构。减少总的线性层层数这类工作通过合并或删减网络中的线性层来减少总体计算量。相关文献汇总如下2. 非线性层优化在模型粒度上直接进行近似或修剪通常会导致显著的性能退化。为缓解这一问题近年来的研究逐渐转向更细粒度的近似策略例如利用 NAS 算法实现逐层或逐头的精细化近似或通过以更简单的运算、低阶多项式替换非线性层并结合再训练以恢复模型性能或采用高阶多项式≥3 阶逼近非线性层通常无需再训练即可获得较好的近似效果但其计算开销会显著增加。方法细节ReLU 近似①替换与近似将模型中所有的ReLU统一替换为其他对PPML更友好的函数通常需要重新训练模型以适应改变。常用方法有多项式近似、函数替换与简化、用一个像素点的计算结果代表一定区域的结果、重新分配通道。②细粒度剪枝与搜索借助神经架构搜索NAS技术有选择性地移除网络中“不重要”的ReLU同时保留关键的ReLU以维持精度。GeLU 近似①重训练用 ReLU、LeakyReLU 替换直接移除二次多项式近似或者用 NAS 移除不重要的层。使用这些方法时需要重训练。②不训练使用分段函数近似当定义域小于一定值时为常数大于一定值时为一阶多项式中间部分使用 4 到 6 阶多项式因此计算开销较高。Softmax 近似①替换在模型训练过程中用二次函数、ReLU、( x c ) p (xc)^p(xc)p等高效算子替换指数、最大和除法操作。②剪枝直接减少Softmax的数量例如修剪/合并head、KV缓存压缩。③高阶近似在没有训练的情况下用泰勒级数等高阶多项式替换指数、最大和除法操作。④查表预计算函数并存储评估时直接查表常用于指数或倒数的计算。量化量化需要将激活值或权重压缩到低比特宽度以实现高效的训练或推理。将其与 PPML 结合起来时通常需要模型、算法、PPML 协议三者之间的协同优化以提高端到端的效率。相关文献汇总如下四、系统级优化1. 编译器优化手动编写高效的HE程序极其困难因此需要专门的编译器技术将高级的ML计算图自动、高效地映射到底层的HE原语上。其困难主要体现在以下几个方面问题描述数据流约束HE程序必须是静态的数据流图不支持原生控制流如条件分支、动态循环。有限的指令集FHE仅支持少量同态操作如加法、乘法、旋转表达复杂函数需要数学近似。性能调优复杂需要精细管理噪声增长、数据精度和加密参数这对专家而言也非易事。任务不适配当涉及 PPML 任务时出现了额外的困难① 神经网络涉及许多非线性层难以在 HE 中有效表达。② 优化 SIMD 编码的数据布局对于神经网络的大型张量操作至关重要但手动进行这项工作极具挑战性。③ 在 CKKS 中正确地安排 scale 和 bootstrapping 是使用该方案的核心难点即使是熟悉 FHE 的专家也需要谨慎处理。针对上述问题现有的解决方法有方法描述打包优化利用 RLWE-based HE方案的 SIMD 能力将多个数据元素打包到一个密文中并通过旋转操作实现灵活的数据编排①专家驱动固定布局提供一组固定的数据布局每种布局对应一组预定义的高效内核。②灵活布局自动矢量化引入更灵活的布局表示并尝试自动优化布局和旋转操作以最小化延迟和噪声增长。③高级抽象与统一算法提出更抽象的布局表示支持任意维度顺序、交错和间隙。通过分析性算法选择最优布局最大化打包密度最小化布局转换。缩放管理与自举调度在计算图中智能地插入 Rescale 和 Bootstrapping 操作在保证计算正确性的前提下最小化整体延迟①仅缩放管理早期编译器只做缩放管理、不支持自举。②支持自举调度自举放置是 NP 难问题且必须与缩放管理协同。2. GPU 优化HE计算与明文计算之间存在巨大性能鸿沟文章将从操作和系统两个层面讨论 GPU 优化。操作层面主要聚焦于在 GPU 上实现数论变换、密钥切换、自举等操作系统级层面主要聚焦于在不同系统架构下定制硬件设计。评估 GPU 加速 HE 框架性能的常见基准任务如下HELR同态逻辑回归分训练和推理两个任务。RNN循环神经网络在加密嵌入上运行 RNN 推理。HECNNHE友好型CNN用平方函数代替非线性激活的轻量CNN。ResNet在 CIFAR-10 或 ImageNet 上运行标准 ResNet 模型的加密推理。相关文献汇总如下五、未来工作1. 协议、模型、系统这三个层级进行协同优化1.1. 协议 - 模型协同优化量化不能直接用于 PPML量化虽然降低了计算量但在PPML中会引入昂贵的在线比特扩展、截断、重量化等协议开销。需要设计PPML友好的量化算法并与协议融合等技术结合最小化总成本。非线性层优化无法减少总通信大量研究专注于剪枝 ReLU/GeLU 以降低在线延迟但忽略了 MLaaS 中的预处理成本。有效利用稀疏性对 PPML 效率至关重要LLM 中的注意力机制天然稀疏但直接剪枝会导致精度损失或引入额外协议开销需要设计协议成本感知的剪枝算法。避免再训练对于LLM额外的再训练是不切实际且不可扩展的。1.2. 协议-系统协同优化编译器-协议协同设计是高效HE的关键手动 FHE 编程极其复杂需要编译器。然而现有编译器的打包优化大多基于 SIMD 编码可能错过了更高效的系数编码将协议级的编码集成到编译器框架中是实现重大性能提升的关键机遇。面向ML的GPU组件不能直接加速 PPML现代 GPU 的 TCU 能加速明文 ML但其有限的数值精度难以直接支持 HE 所需的高精度模运算。这要求密码协议与硬件能力进行协同设计。未来可能需要重新设计协议以更好地利用 TCU 特性或与模型量化协同降低HE操作所需的数值精度从而充分利用 GPU 的新组件。2. 直接使用 HE 计算非线性层基于 OT 的非线性层通常带来较大的通信开销而基于 HE 的方法在通信效率上更具优势。现有方案普遍依赖多项式逼近来实现非线性层的同态计算。未来的研究方向之一是探索无需多项式逼近、能够直接在 HE 上高效实现非线性运算的机制以进一步提升性能与实用性。3. LLM 时代的 PPML私有 LLM 推理的关键挑战可以大致概括如下大规模线性层与 CNN 中常用的矩阵向量乘法不同LLM 涉及嵌入表、注意力层和 FFN 层中的大量高维矩阵乘法。例如在 GPT-2 基模型中FFN 层的向上投影需要按维度的矩阵乘法。复杂的非线性层与 CNN 中的简单 ReLU 不同LLM 由更复杂的非线性函数组成如 Softmax、GeLU 和 SiLU这些函数需要昂贵的指数、tanh 和除法协议。复杂的 PPML 感知优化LLM 优化比 CNN 和 ViT 复杂得多应优先考虑无训练方法。同时简单的 KV-cache 压缩无法提供预期的效率改进因此应仔细设计 PPML-friendly 算法。此外设计密态参数微调如 LoRA可能是一个有前景的研究方向。这两天脑袋昏昏的阅读这篇文章时想不清东西因此上述记录中可能存在理解错误欢迎指正

多个网站备案负责人建站的注意事项

爱网站官网国内免费注册域名

大企业网站建设费用类似聚划算的网站怎么建设

上海做家教网站有哪些网站建设技术协议

有没有专业做咖啡店设计的网站网站功能模块结构图

养车网站开发网站建设从建立服务器开始

网站维护多久能好北京市建设资格注册中心网站

多个网站备案负责人建站的注意事项

爱网站官网国内免费注册域名

大企业网站建设费用类似聚划算的网站怎么建设

上海做家教网站有哪些网站建设 技术协议

有没有专业做咖啡店设计的网站网站功能模块结构图

养车网站开发网站建设从建立服务器开始

网站维护多久能好北京市建设资格注册中心网站

上海做家教网站有哪些网站建设技术协议