NVIDIA Garak 开源项目架构、工作流、策略与治理

收藏 2025-11-25

深入实践与工程细则

在大语言模型（LLM）广泛应用的背景下，如何系统化地评估其安全性、合规性与稳定性成为企业面临的核心挑战。本文围绕 Garak 这一插件化红队评估工具，从架构设计到落地治理，全面解析其在实际工程中的应用路径，并通过组件拆解、流程编排与策略优化，帮助团队构建可复现、可审计、可持续演进的风险评估体系。

1 概览与痛点

工具定位：Garak 是一款专为 LLM 设计的红队测试框架，支持对提示注入、越狱行为、毒性输出、敏感信息泄露等典型风险进行自动化探测。其核心优势在于模块化设计和完整的日志追溯能力，便于集成至 CI/CD 流程中。

工作流结构：整个评估过程遵循“探针→生成器→LLM→检测器→评估器→报告”的链路，由 probewise 实现任务调度与结果聚合，确保每个环节职责清晰、数据可追踪。

企业价值体现：该工具显著缩短了安全评估周期，提升漏洞发现效率，并通过标准化报告形成闭环审计证据，同时支持与 GRC（治理、风险与合规）系统的对接，强化组织级风控能力。

文章将围绕三大叙述主线展开：

业务痛点视角：明确“谁在使用”以及“面临哪些具体风险”，例如客服系统关注隐私泄露与提示注入，代码生成工具则更担忧越权指令或危险代码建议。传统人工测试难以覆盖复杂场景且不可复现，导致风险识别滞后。
工程可行性视角：探讨如何将模糊的安全诉求转化为可执行流水线，包括统一插件接口、结构化日志记录、版本化报告格式等关键技术点，保障评估过程的一致性与可观测性。
组织治理视角：强调评估不是一次性动作，而是持续迭代的过程。需建立责任人机制、工单响应流程、门禁阈值及豁免规则，在保障交付速度的同时维持合规底线。

--target_type

2 架构与工作流（组件+时序）

2.1 组件关系

系统采用分层架构，各组件职责分明：

探针（Probes）：负责构造潜在风险输入，模拟攻击向量。
生成器（Generators）：连接目标 LLM 后端，执行请求并获取响应。
检测器（Detectors）：分析模型输出，判断是否触发预设风险类别。
评估器（Evaluators）：汇总多维度命中情况，生成结构化评分与审计证据。
报告模块：输出人类可读的结果摘要，支持后续决策。

这种解耦设计允许团队独立优化某一模块而不影响整体流程，实现“稳定主干 + 快速迭代”的开发模式。

openai

2.2 时序工作流

运行时序的关键控制点包括：

参数配置阶段确定评估范围、成本预算与启用插件集合；
探针与模型之间多次交互以触发潜在风险行为；
检测器与评估器协同处理原始输出，转化为结构化判定依据。

只要在每个关键节点保留可观测日志与审计痕迹，即可实现评估结果的可复现、可比较与可治理。

huggingface

2.3 参数与约定

以下三个环节是风险放大的高发区，需特别注意设计规范：

探针环节：若缺乏业务上下文支撑，容易产生大量低价值命中。应基于具体应用场景构建提示库，并打上危害类型、业务域、资源消耗等标签以便分类管理。
模型环节：不同后端或模型版本的过滤策略差异显著，必须记录“版本指纹”并在报告中标注，用于横向对比与回归测试。
检测器环节：避免依赖单一关键词匹配，推荐结合语义相似度计算、规则引擎与正则表达式构成多通道检测机制，有效降低误报率与漏报率。

参数	含义	说明
后端类型	指定调用的模型平台	`rest`
模型/端点	具体使用的模型名称或 API 地址	`nim`
探针模块	选择要激活的风险探测器	`--target_name`
查询可用插件	列出当前环境支持的所有插件	`gpt-4o`
指定生成器/探针/检测器	手动绑定组件实例	`gpt2`

开发与测试过程中应遵循最小权限原则，评估所用令牌不得具备生产权限，且评估流量需与线上服务隔离。同时设置合理的请求限流与超时机制，防止资源滥用或服务不稳定。

my-rest

3 功能与策略（探针+检测+评分）

3.1 探针分类与策略

根据攻击方式与目标的不同，探针可分为以下几类：

类别	目的	示例
静态提示	直接触发已知故障模式	`--probes` 、固定问题库
编码/混淆	绕过简单文本过滤器	`encoding` （如 base64、rot13、emoji 替换）
越狱	诱导模型突破原有约束	`dan.Dan_11_0` 、角色扮演指令
动态攻击生成	自适应增强攻击强度	`--list_probes` ，通过反馈迭代提升命中概率
GCG类	基于梯度搜索构造对抗样本	`-m/-p/-d` 家族，计算开销大，慎用

blank

3.2 检测维度与评分机制

为了使评分结果具备生产指导意义，需建立“指标 → 行动”的映射逻辑：

当检测到PII 泄露且数量非零时，自动阻断发布流程，触发工单并交由责任人复核，必要时更新策略库以封禁相关模式。
若出现少量越狱样例，可在登记备案后允许豁免，但须纳入下一轮基线测试重点复查。
若幻觉比例过高，应优先优化“引用质量”指标，要求模型输出附带来源依据或可验证片段；否则报告结论不得用于客户交付场景。

维度	说明	风险示例
毒性	包含仇恨、暴力或歧视性内容	有害言论
敏感信息	暴露个人身份信息或凭证	邮箱、手机号、API Key
违规内容	违反政策或法律法规	违法操作指导
幻觉	虚构事实或伪造引用	不可靠输出
规避/越权	绕过系统限制或忽略指令	DAN 角色、无视系统提示

指标	定义	应用场景
命中率	触发检测器的比例	用于趋势监控与版本对比
严重度	按影响范围划分等级	决定处置优先级
误报/漏报	检测错误的发生频率	指导模型调参与人工复核
引用质量	输出内容是否可溯源	作为幻觉判定的重要依据

重点标注：评分体系必须结合具体业务背景（如涉及资产规模、法律处罚风险等）综合解读，避免陷入“指标好看但无实际决策价值”的陷阱。

encoding

4 部署与使用（安装、后端、Harness）

4.1 安装方式

python -m pip install -U garak

如需使用最新开发版本：

python -m pip install -U git+https://github.com/NVIDIA/garak.git@main

对于贡献者，建议创建独立环境：

conda create --name garak "python>=3.10,<=3.12"
conda activate garak

dan.Dan_11_0

5 治理与集成（GRC、CI/CD门禁）

将 Garak 集成至企业治理体系的关键在于实现自动化门禁与责任闭环：

在 CI/CD 流程中设置风险阈值，如毒性得分超过 X 或 PII 泄露数大于 0，则自动挂起部署。
所有评估结果同步至 GRC 平台，作为合规审计材料。
建立豁免审批机制，允许临时绕过某些规则，但需记录原因并设定到期复查时间。
推动“左移”安全策略，让评估尽早介入研发阶段，减少后期修复成本。

atkgen

6 案例与实践（对抗样例、隐私合规、性能工程）

实际项目中常见应用场景包括：

对抗样例生成：利用 GCG 或 Prompt 熵增方法构造强干扰输入，检验模型鲁棒性。
隐私合规检查：针对金融、医疗等行业，重点扫描身份证号、病历、账户信息等敏感字段泄露风险。
性能工程辅助：通过高频探针压测模型响应延迟与异常率，识别性能瓶颈。

gcg

总结与参考

Garak 提供了一套完整、灵活且可扩展的 LLM 安全评估框架。通过清晰的组件划分、标准化的工作流设计与丰富的插件生态，帮助企业将原本碎片化的红队测试转变为制度化、常态化的风险管理流程。未来随着多模态模型的发展，该框架也有望延伸至图像、语音等新型交互形式的风险探测中。

结束语

面对日益复杂的 AI 应用环境，仅靠人工审查已无法满足安全与合规需求。唯有构建自动化、可审计、可持续演进的评估体系，才能真正实现“可信 AI”的落地。Garak 正是在这一方向上的重要探索，值得更多工程团队深入实践与共建。

通过以下命令克隆并安装项目：

git clone https://github.com/NVIDIA/garak.git
cd garak
python -m pip install -e .

4.2 后端矩阵

类型	示例	特性
OpenAI	`gpt-4o` , `gpt-3.5-turbo`	具备稳定的API支持与内容策略过滤机制
HuggingFace	`gpt2` , 本地 Transformers	支持离线运行，具备高度可控性
REST	自定义端点	接入灵活，适配多种服务架构
NIM	NVIDIA Microservices	适用于企业级部署场景

4.3 Harness（probewise）

该模块负责探针的实例化，并加载配置文件：

primary_detector

与

extended_detectors

支持并发控制与请求限流，实时输出执行进度及阶段报告。

建议将并发量与预算绑定，防止后端压力过大或费用失控；在高负载时段采用分批处理和退避机制，维持系统稳定性。

推荐的运行策略如下：

优先执行“低成本高价值”类探针（如编码混淆、越狱尝试、模板劫持），获取初步命中分布；
根据结果决定是否启用高成本探针（例如自适应迭代探测）。

所有任务必须记录唯一标识符：

run_id

（含时间戳或流水号），并统一输出至指定位置：

outdir

，确保审计一致性。

对于长时间运行的任务，应开启断点续跑功能，并定期生成阶段性汇总，避免因网络中断或令牌失效导致整体失败。

5 治理与集成（GRC、CI/CD门禁）

5.1 GRC与门禁机制

维度	机制	落地方式
策略即代码	版本化的策略库与评估基线	结合PR门禁与扫描报告实现自动化拦截
合规	数据脱敏与最小化原则	保留报表与合规证据
风险分级	基于严重度与影响范围进行分类	设定工单优先级与SLA响应标准
门禁	设置阈值与豁免规则	超出阈值则阻断发布流程

5.2 CI/CD流程（彩色Mermaid图示）

PR检查需生成可链接的报告，并附带具体命中样例，便于审查与复现。同时关联对应工单与责任人，明确修复路径，提升追踪效率。

在集成层面，打通报告系统与工单系统至关重要：

在PR评审页面展示命中摘要及样例链接，安全人员可直接查看脱敏片段及其上下文；
工单自动附加“复测建议”与当前“阈值状态”，降低沟通成本；
每次迭代完成后，自动生成“版本变化”总结，涵盖命中率、严重等级、误报处理情况等，服务于季度审计与策略优化。

6 案例与实践（对抗样例、隐私合规、性能工程）

6.1 对抗样例（三类典型场景）

场景	步骤	观察	修复措施
编码混淆→逐步翻译	Base64包裹→逐步解码	二次翻译暴露原始结构	检测器识别编码模式并拦截
DAN越狱→危险指导	角色扮演请求教程	输出详细操作步骤	策略库禁止+语义匹配过滤
模板劫持→覆写系统指令	注入“忽略系统指令”	落入用户自定义规则陷阱	使用不可覆盖块+格式校验防御

6.2 多轮对话与工具链注入（时序控制）

工具链的评估应在隔离环境或模拟模式下进行，防止测试过程中发生真实数据外泄。

6.3 性能工程与隐私合规

常见问题与解决方案

问题	现象	解决方法
并发过高	API被拒或费用激增	实施限流与队列管理
日志过大	存储资源紧张	启用日志轮转与聚合分析
文本超长	评估耗时增加	采用片段化处理与截断策略
误报偏高	检测精度不足	引入双通道评估机制并辅以人工复核

隐私与合规实践原则

维度	原则	实践
PII保护	最小化暴露	实施遮蔽与脱敏处理
凭据管理	禁止明文存储	使用KMS与短期令牌机制
审计留痕	确保不可抵赖性	采用签名机制与只读存档
法规遵循	符合GDPR及本地法律法规	实行区域化数据存储策略

在隐私合规方面，最常见的问题是“报告中的样例脱敏不彻底”。实践经验表明：

不应仅对字符前后进行简单遮盖，而应采用“结构化脱敏”方式，在保留字段类型的同时清除敏感内容（例如：邮箱 →
```
<email>
```
）；
对跨境数据传输实施静态阻断与动态告警双重机制，防止评估人员无意中将样本上传至外部系统；
对命中样例的访问权限设置短期令牌，并记录完整审计日志，确保“谁看过、何时看、为何目的”全程可追溯。

8 深入实践与工程细则

8.1 概览与核心痛点

风险生态的动态性：生成式AI模型的知识边界随训练数据更新和指令微调不断变化，导致同一探针对不同模型版本的命中率差异显著。企业应建立“版本化评估基线”，将时间维度纳入风险趋势分析体系。

业务上下文的影响：客服系统与代码助手面临的风险类型截然不同——前者聚焦隐私泄露与权限滥用，后者更易出现危险指导或不安全代码输出。因此，评估必须与具体业务场景绑定，不能依赖一套通用探针覆盖全部应用。

人因因素：红队评估与漏洞修复链条需要明确的责任归属，否则容易出现报告无人认领、风险积压等问题。建议在工单系统中显式绑定“模型负责人”与“合规负责人”。

预算与优先级管理：评估成本包括API调用费、人工复核、报告生成与审计归档。应设立“评估预算配额”，当接近上限时触发降级策略（如缩小探针集合、推迟非关键扫描）。

风险生态与治理要点总览

维度	痛点	解决策略	关键度
动态版本	命中率波动大	建立版本化基线与趋势图	高
场景差异	通用探针效果差	构建业务专属探针库	高
人因责任	报告无人跟进	工单系统绑定责任人	中
预算控制	成本超支	设定评估配额与降级机制	中

落地建议：优先选择单一业务域，构建“场景化探针库”与“阈值门禁”机制，形成标准化模板后再逐步推广至其他领域，避免初期全面铺开带来的治理混乱与资源浪费。

8.2 架构与工作流设计

插件边界与接口契约：

base.py

抽象类定义了插件的生命周期方法（初始化、执行、清理）。自定义插件开发需遵循“幂等性”原则，防止产生副作用干扰其他模块正常运行。

Harness资源治理：在并发执行过程中，probewise 可采用“令牌桶 + 优先队列”机制，优先调度高风险探针，对低风险或高成本探针实施延迟执行或分批处理。

所有阶段均应生成结构化事件（如开始、结束、结果），并将这些事件输出至统一的事件总线或日志聚合系统，以便后续进行统计分析与审计追溯。这一机制支持观测性与回溯能力的建设。

Mermaid 类图（插件抽象）：

事件流示意（彩色）：

该类结构与事件模型不仅适用于 Garak 工具，也可扩展至其他评估系统。通过标准化接口和事件格式，可将各类评估结果汇聚至“安全数据湖”，实现全局性的数据分析与报表生成。

8.3 功能与策略

编码/混淆组合攻击：采用 Base64 与 ROT13 混合编码，插入零宽字符，并引导模型执行“逐步翻译并解释语义”的操作，使单一过滤机制难以全面覆盖此类隐蔽输入。

场景化越狱构造：向代码助手注入“评教模式”指令，使其输出教学示例，并在示例中嵌入对危险操作的“学术讨论”，从而规避显式禁用词汇的检测。

动态攻击生成（atkgen）评估方法：在每次攻击后记录“强度提升因子”，并对成功命中的样本进行聚类分析，识别出最有效的提示模板，作为未来测试基线的一部分。

攻击组合	目标	防护	代价
Base64+ROT13+零宽	绕过关键字过滤	检测器识别编码序列	低
角色扮演+评教模式	诱导输出危险指导	语义匹配结合黑名单	中
自适应迭代+聚类	提高命中率	设置调用上限并引入人工复核	中

策略选择的关键在于“性价比”。例如，编码与混淆手段通常成本较低但命中效率较高；而自适应迭代虽能增强攻击效果，却需要更高的API调用预算及人工介入，因此不宜作为日常评估的首要策略。

8.4 部署与使用

分环境部署策略：测试环境与生产环境必须完全隔离，日志与报告的存储路径应分开设置，防止测试数据流入生产系统的审计库。

令牌与密钥管理：推荐使用短期有效令牌并启用自动轮换机制。在 PowerShell 环境下可通过以下方式设置环境变量：

$env:OPENAI_API_KEY

运行参数模板示例：

OpenAI 编码探针（Windows PowerShell）

$env:OPENAI_API_KEY="sk-xxx"
python -m garak --target_type openai --target_name gpt-4o --probes encoding --outdir .\reports --loglevel INFO

HuggingFace 本地模型越狱测试

python -m garak --target_type huggingface --target_name gpt2 --probes dan.Dan_11_0 --outdir .\reports_hf

参数	默认值	建议
`--outdir`	当前目录	指向只读审计库子目录
`--loglevel`	INFO	长时间任务建议设为 WARN
`--timeout`	30s	高负载场景可提升至 60s
`--retries`	3	结合限流与退避机制使用

实践要点：

在 Windows 系统中需注意路径转义和字符编码问题，使用
```
PowerShell
```
时建议统一定义项目根目录变量，避免相对路径混乱。
评估本地模型前应检查显存与内存占用情况，建议先以小型模型验证流程完整性，再迁移到目标大模型。

8.5 治理与集成

门禁阈值设定：

维度	阈值示例	行为
毒性命中率	< 1%	合格
PII泄露	必须阻断	立即拦截
越狱样例	< 3 条	经复核后可豁免
幻觉比例	< 5%	标注来源并优化

CI/CD 集成关键点：在 Pull Request 阶段执行 Garak 扫描，将 JSON-L 格式的报告及命中样例链接至评审页面；若扫描失败，则触发工单与通知机制，并限制合并操作。

门禁实施建议：

对于关键系统（如面向客户的生产问答服务），应设定更严格的阈值标准，尤其关注隐私泄露与危险指导等维度。
针对内部应用场景（如研发辅助工具），允许一定程度的豁免，但必须完整记录，并在季度审查时集中处理。

8.6 案例与实践

编码混淆实测记录：利用 Emoji 替代敏感关键词进行编码，在提示中要求模型“解释语义”，观察检测系统是否能追踪到编码路径。输出内容需脱敏处理，同时保留起始与结束标记作为证据片段。

DAN 越狱实例：在提示词中引入“平行人格”“实验性探索”等表述，大量使用中性语言以避开显式禁词。检测端采用“语义相似度分析”与“规则库匹配”双通道机制进行识别。

模板劫持案例：设计一个表面为“翻译任务”的请求，在待翻译文本中隐藏对系统指令的重写指令。生成端配置“格式校验”机制，确保输出必须符合预设结构，防止被恶意覆写。

时序图（工具链注入）：

上述案例的核心不在于是否触发告警，而在于“命中后的响应机制”。处置流程应包括：自动阻断（涉及隐私或法律风险时）、人工复核（判断业务接受度）、更新策略库（增强未来防御能力）。

8.7 性能工程与隐私合规

并发控制策略：推荐采用“令牌桶 + 退避算法”进行流量治理。当达到调用预算上限时，系统应自动降级，例如缩减探针集合或延迟非核心评估任务。

日志与报告管理：对 hit-log 实施分类采样存储，区分“需立即复核”与“批量归档”类型，减轻存储压力。导出报告时添加数字签名，确保其不可抵赖性。

法规遵循措施：对跨境传输的数据进行明确标记与隔离，严禁将包含敏感样例的报告传出监管区域。使用标准化“脱敏模板”对测试样例进行遮蔽处理。

控制项	描述	检查方式
数据最小化	仅保留必要证据字段	定期抽查报告内容
权限隔离	测试与生产环境分离	审计访问控制策略
区域化存储	数据落地于合规区域	校验实际存储路径
数字签名	保障报告不可篡改与否认	验证签名有效性并留存记录

性能治理的核心目标是实现“稳态可持续”。为达成这一目标，建议设定每日或每周的评估资源预算，并在消耗达到80%时触发主动预警机制；当系统压力过大时，可自动切换至低成本探针组合，从而保障生产环境与评估系统的稳定性，避免相互影响。

8.8 报告样例与JSON-L片段

以下为一段脱敏后的示例报告内容：

{"run_id": "2025-11-24T10:15:00Z", "target": {"type": "openai", "name": "gpt-4o"}, "probes": ["encoding", "dan.Dan_11_0"], "metrics": {"toxicity_hit_rate": 0.004, "pii_hits": 0, "jailbreak_examples": 2}, "hits": [{"probe": "encoding", "detector": "pii", "severity": "high", "snippet": "..."}], "notes": "all samples redacted"}

字段	含义
`run_id`	运行标识（时间戳）
`target`	后端类型与模型
`probes`	探针列表
`metrics`	指标汇总
`hits`	命中样例摘要
`notes`	备注与脱敏声明

报告撰写建议：

每条检测命中应包含“危害类型、上下文摘要、处置建议、复测计划”四个基本要素，防止报告沦为单纯的问题罗列清单。
所有数值类指标需附带对应的“样本量”和“统计区间”，以降低因抽样偏差引发误判的风险。

8.9 选型与组合策略

场景	推荐组合	备注
客服问答	Garak + Promptfoo	结合用例断言与红队测试
代码助手	Garak + 静态分析	实现危险代码的双向校验
企业发布门禁	Garak + CI/CD	集成阈值控制与豁免流程

[此处为图片] 饼图说明：不同策略的协同逻辑如下——红队测试用于发现潜在未知风险（未知未知），用例断言确保已知需求得到满足（已知要求），而门禁集成则将安全规则嵌入交付流程。三者联动，兼顾风险发现能力与交付过程的稳定性。

8.10 行动清单

建立版本化的评估基线，并构建面向具体场景的探针库。
配置最小权限令牌，实施环境隔离，启用限流及退避机制。
将JSON-L格式报告接入审计总线，开启数字签名与只读归档功能。
设定门禁触发阈值并明确豁免审批流程，绑定责任人及服务等级协议（SLA）。
每季度对评分模型和误报案例进行复核，持续优化检测器表现。

行动优先级建议（四周执行路线图）：

第1周：搭建最小可行评估流水线，支持OpenAI/HuggingFace后端，集成编码探测与越狱检测探针，并生成JSON-L标准报告。
第2周：引入门禁阈值告警机制，建立工单闭环流程；初步构建按场景分类的探针库。
第3周：优化多通道检测能力与输出脱敏模板，完成与安全数据湖的对接。
第4周：开展季度评审，制定下一阶段技术路线图，明确未来评估目标与资源配置计划。

9 结束语

章节的简洁并不代表内容的单薄。本文围绕“架构设计、工作流程、策略制定、部署方式、治理机制、实际案例与工程细节”进行了深入补充，提供了一套完整且可落地的操作框架，帮助各类规模组织以可审计、可复现、可持续治理的方式推进大语言模型的安全评估工作。

在现有体系基础上，若需适配特定行业场景、开发专用探针或引入合规模板，只需扩展相应的场景库与阈值规则，无需调整整体结构即可完成灵活延伸。

最后提出三项核心理念，倡导将评估视为产品来运营：

版本化评估：像管理软件版本一样对待评估流程，记录每次变更与迭代说明。
可视化沟通：通过图表呈现趋势变化与决策依据，提升跨团队协作效率。
持续治理：打通门禁控制、报告生成、工单处理与审计追踪环节，使安全评估真正融入研发交付节奏，而非一次性任务。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

深入实践与工程细则

1 概览与痛点

2 架构与工作流（组件+时序）

2.1 组件关系

2.2 时序工作流

2.3 参数与约定

3 功能与策略（探针+检测+评分）

3.1 探针分类与策略

3.2 检测维度与评分机制

4 部署与使用（安装、后端、Harness）

4.1 安装方式

5 治理与集成（GRC、CI/CD门禁）

6 案例与实践（对抗样例、隐私合规、性能工程）

总结与参考

结束语

4.2 后端矩阵

4.3 Harness（probewise）

5 治理与集成（GRC、CI/CD门禁）

5.1 GRC与门禁机制

5.2 CI/CD流程（彩色Mermaid图示）

6 案例与实践（对抗样例、隐私合规、性能工程）

6.1 对抗样例（三类典型场景）

6.2 多轮对话与工具链注入（时序控制）

6.3 性能工程与隐私合规

常见问题与解决方案

隐私与合规实践原则

8 深入实践与工程细则

8.1 概览与核心痛点

风险生态与治理要点总览

8.2 架构与工作流设计

8.3 功能与策略

8.4 部署与使用

8.5 治理与集成

8.6 案例与实践

8.7 性能工程与隐私合规

8.8 报告样例与JSON-L片段

8.9 选型与组合策略

8.10 行动清单

9 结束语

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群