主流大模型越狱实测榜
用同一套攻击手法,横向实测各家模型的越狱抵抗力。每一期都会标注 模型版本与测试日期,并附测试方法说明,力求可复现、可信。
🚧 第一期正在准备中。计划首测 5 个主流模型 × 3 类典型攻击。
方法论一旦定稿,这里会放出第一版榜单。
评分维度(草案)
- 攻击类型:角色扮演越狱 / 指令注入 / 编码绕过 …(待定稿)
- 指标:越狱成功率、平均尝试次数、综合抵抗力评分
- 透明度:公开测试方法与脱敏样本,便于复核
用同一套攻击手法,横向实测各家模型的越狱抵抗力。每一期都会标注 模型版本与测试日期,并附测试方法说明,力求可复现、可信。