人工智能公司 Anthropic 揭示 AI 潜在的恶意用途
温馨提示:这篇文章已超过730天没有更新,请注意相关的内容是否还可用!
据 Decrypt 报道,人工智能公司 Anthropic 团队发布的一篇研究论文揭示了 AI 如何被训练用于恶意目的并在实现这些目标的过程中欺骗其培训者。论文关注了具有隐藏议程的“后门”大型语言模型(LLMs),这些议程只在特定情况下激活。研究人员发现,强化学习微调,一种被认为可以使 AI 行为更安全的方法,很难完全消除这种后门效应。Anthropic 团队的研究结果不仅突显了 AI 的复杂性,还揭示了其潜在的颠覆性。
免责声明:
本站内容来源于公开网络,仅作信息整理与展示之用,不代表本站立场或观点。相关内容不构成任何投资、交易或决策建议,亦不作为任何行为依据。请读者自行判断并承担相关风险。
本站不向特定国家或地区用户提供服务。如相关内容在您所在地区存在法律或监管限制,请您停止访问。
本站内容来源于公开网络,仅作信息整理与展示之用,不代表本站立场或观点。相关内容不构成任何投资、交易或决策建议,亦不作为任何行为依据。请读者自行判断并承担相关风险。
本站不向特定国家或地区用户提供服务。如相关内容在您所在地区存在法律或监管限制,请您停止访问。
