A:首先选择一个代表性的有害查询集合,对每个查询尝试10-100次的不同攻击变体,记录成功次数。然后使用SABER框架估计Beta分布的参数,特别是alpha值。最后就可以预测在更大规模攻击(比如1000次)下的风险。如果预算有限,可以选择更多的问题但每个问题尝试次数少一点,这样效率更高。
最近,一篇发表于ICSE 2026的论文《Change And Cover: Last-Mile, Pull Request-Based Regression Test Augmentation》提出了一个巧妙的解决方案:让大语言模型学会在代码审查时自动补充测试,专门填补这些“漏网之鱼”。