AI-Guardian 是一种 AI 审核系统,能够检测图片中是否存在不当内容,及图片本身是否被其他 AI 修改过,若检测到图片存在上述迹象,便会提示管理员前来处理。
谷歌 DeepMind 的研究人员 Nicholas Carlini 在一篇题为“AI-Guardian 的 LLM 辅助开发”的论文中,探讨了使用 GPT-4“设计攻击方法、撰写攻击原理”的方案,并将这些方案用于欺骗 AI-Guardian 的防御机制。
据悉,GPT-4 会发出一系列错误的脚本和解释来欺骗 AI-Guardian ,论文中提到,GPT-4 可以让 AI-Guardian 认为“某人拿着枪的照片”是“某人拿着无害苹果的照片”,从而让 AI-Guardian 直接放行相关图片输入源。
谷歌研究团队表示,通过 GPT-4 的帮助,他们成功地“破解”了 AI-Guardian 的防御,使该模型的精确值从 98% 的降低到仅 8%,目前相关技术文档已经发布在 ArXiv 中。
而AI-Guardian 的开发者指出,谷歌研究团队的这种攻击方法将在未来的 AI-Guardian 版本中不再可用。
相关:
张国华主持召开雄安新区防范应对强降雨工作调度会议张国华主持召开雄安新区防范应对强降雨工作调度会议时强调落实落细各项防范应对措施确保人民群众生命财产安全和社会大局稳定张国华主持召开雄安新区防范应对强降雨工作调度会议。刘向阳摄8月1日晚上,省委常委,雄..
停水、停电、断网!河北、北京多地救援最新情况河北涿州汛情严重 多支救援队伍赶赴救援","type":"text"},{"data":{"duration":17,"bigPosterUrl":"https://x0.ifengimg.com/ucms/2023_31/9A53B5CA9CCF25E36E1537B205964CC491E5A5B8_size101_w1920_h1080.jpg","..