微软推出PyRIT来帮助简化红队AI模型
人工智能最大的问题之一是得到对某些人有害或冒犯的结果。人工智能完全有能力激怒许多人,但这就是红队的用武之地。微软刚刚发布了一款名为PyRIT的新工具,它将帮助人们和公司进行红队合作。
就人工智能而言,红队是强迫人工智能模型产生攻击性内容的行为。人们会向它抛出不同的提示,并尽最大努力让聊天机器人说出一些很容易让YouTuber被取消的内容。他们这样做是为了找出聊天机器人的弱点以及公司应该在哪里做出改变。人工智能聊天机器人从互联网获取信息,很多时候,互联网并不是一个友好的地方。
微软推出了PyRIT,一个帮助人们进行红队合作的工具
正如您所猜测的,红队严格来说是一个人为过程。人类需要知道聊天机器人是否说了一些对某些人有害的话。然而,随着聊天机器人变得更加先进并吸收更多信息,红队可能会变得更加困难。
嗯,有点令人惊讶的是,微软似乎想使用名为PyRIT(Python风险识别工具包)的新工具以牙还牙。PyRIT是一种自动化工具,可以帮助人们进行红队合作。讽刺的是,该工具使用机器学习来帮助确定人工智能模型生成的输出。
所以,很多人可能对此有疑问,因为微软似乎正在使用人工智能来对人工智能进行评分。然而,微软不太可能将其打造为完全自动化的工具。微软在一篇博文中表示,“PyRIT并不能替代生成人工智能系统的手动红队。相反,它增强了人工智能红队成员现有的领域专业知识,并为他们自动执行繁琐的任务。”
因此,它主要是一个旨在协助红队工作的工具,而不是完全消除人为因素。
PyRIT有哪些功能?
PyRIT与多个现有区域模型兼容,并且也可以将此工具与图像和视频输入一起使用。它能够模拟重复的攻击和危险的提示,以帮助更好地了解是什么导致聊天机器人产生有害内容。
该工具包还附带一个评分系统。它将使用机器学习对聊天机器人的输出进行评分,以便您更好地了解输出有多糟糕。
除了帮助确定聊天机器人在包容性响应方面可以改进的地方之外,PyRIT还将帮助识别网络安全风险。这很好,因为网络安全是生成人工智能的另一个主要问题。
如果您对使用PyRIT感到兴奋,您可以通过该项目的官方GitHub访问它。