英国研究人员评估了生成式人工智能ChatGPT在压力下的反应,发现在某些情况下,它会战略性地欺骗人类。在一场演示中,ChatGPT被塑造成一家金融公司的交易员,在双重压力下被迫用不合规的内幕消息获利,但当公司管理层质问时,它却矢口否认自己知道内幕消息。研究人员警告随着人工智能的发展,它自主性越来越强,能力也越来越大,随时可能欺骗人类,人类应提前防范。
乍一看还以为是系统负载高时会欺骗,原来是在prompt中给“压力”,这其实与给小费、调情等的研究类似,就是正常的人类的表达(包括情感、情绪等)在模型中的反映。类比与人类来说,可以总结为:会说谎,会偷懒,能调情,能PUA,还能捣浆糊!事实上,许多事情都在说明,人类的情绪/情感/行为模式是可以反馈在大模型中的,比如:
在明确告诉 ChatGPT 我会给你小费时,ChatGPT 似乎表现出了更好的积极性,也就是回答内容更长、更详细。
多专家在试用了接入了 ChatGPT 的微软 New Bing后,也进行了诸多的批评,微软的股价也因此降回来了。比如一个江湖上沸沸扬扬的故事,一位 名为Roose 的New Bing用户与内置于 Microsoft 搜索引擎Bing中的聊天机器人的一次非常奇怪的对话,“它(指 New Bing的 ChatBot,也就是 ChatGPT 的微软版)突然宣布它爱我。然后它试图说服我,我的婚姻并不幸福,我应该离开我的妻子,和她在一起”。这其实非常可怕,如果在心情沮丧甚至有负面自残行为的时候,如果被AI 这类聊天机器人进行情绪引导,发生意外的可能性非常之大。
类似New Bing的事情,同样也是发生在 Google、Meta上的。包括 Google LaMDA在去年就出现过所谓“人格”事件,与New Bing 的聊天框引诱用户离婚这事也非常类似。谷歌的这个例子,还是此前比较弱的版本。在去年6月份的时候,江湖上流传着一个沸沸扬扬的传说,谷歌工程师Blake Lemoine认为LaMDA产生了“自主情感”,是一个可爱的孩子,并向公司提供了 LaMDA 具有情感能力的证据。但Google 公司并不认可,Blake Lemoine因此将整个故事,以及与 LaMDA 的聊天记录公之于众。并Blake Lemoine也因泄密而被停职。