为了操控、引导超级智能对齐问题,OpenAI周三(5日)表示,组建了一支人工智能对齐团队Superalignment。一起该团队也是对OpenAI现有作业的弥补,可提高ChatGPT等产品的安全性,在4年内处理超级智能对齐问题。
超级智能将是人类发明的最具影响力的技能之一,能够帮助我们处理世界上许多难题。但超级智能的巨大力量也可能十分危险,并导致人类失去操控权,乃至灭绝人类。虽然超级智能还很悠远,但OpenAI以为,10年之内就很有可能完成。
现在,OpenAI还没有一个清晰的处理方案来引导或操控超级人工智能。当下可操控的人工智能技能,例如,依据人类反应进行强化学习,依赖于人类监督的AI才能等。但人类无法可靠地监督,比我们聪明多的AI体系,因而,我们现在的对齐技能无法扩展到超级智能,需求新的科学技能打破。
20%算力用来处理AI失控问题
为了操控、引导超级智能对齐问题,OpenAI组建了一支由Ilya Sutskever(OpenAI联合创始人兼首席科学家)和Jan Leike领导的人工智能对齐团队——Superalignment。
一起该团队也是对OpenAI现有作业的弥补,可提高ChatGPT等产品的安全性,包括非法滥用、经济破坏、虚伪信息、偏见和歧视、数据隐私和其他可能呈现的问题。
他们预测,超智能AI(即比人类更聪明的体系)可能在这个十年(2030年前)就会到来,人类将需求比现在更好的技能来操控超智能AI,因而需求在所谓的“一致性研讨”方面取得打破,该研讨的重点是确保人工智能对人类有利。
依据他们的说法,在微软(Microsoft)的支持下,OpenAI将拿出未来四年所获算力的20%用于处理AI失控的问题。此外,该公司正在组建一个新的团队来安排这项作业,称为超级一致性团队。
据悉,该团队的方针是创建一个“人类等级”的AI研讨人员,然后经过很多的计算才能进行扩展。OpenAI表示,这意味着他们将运用人类反应来练习AI体系,练习AI体系来辅佐人类评价,然后最终练习AI体系进行实践的一致性研讨。
OpenAI的办法
建立一个大致到达人类水平的主动对齐体系。然后,能够运用很多算力来扩展作业,并调整超级智能。
1、开发可扩展的练习办法:为了针对人类难以评价的任务供给练习办法,能够经过人工智能体系来协助评价,其他人工智能体系(可扩展的监督)。此外,OpenAI希望了解和操控其模型,将监督应用到无法监督的任务(泛化)上。
2、验证生成的模型:为了验证体系的一致性,OpenAI将主动搜索有问题的行为(稳定性)和有问题的内部结构(主动可解释性)。
3、对整个对齐管道进行压力测验:能够经过故意练习未对准的模型,来测验整个安全流程,并承认技能检测到最差的未对准类型(对抗性测验)。
OpenAI预计,跟着对超级智能对齐了解越来越多,研讨重点将会发生重大改变,可能会增加全新的研讨范畴。
未来,会共享更多有关技能研讨路线图的信息。