在新一代AI世界中探索信任与安全
作者:编辑部
2023-07-11
摘要:新一代人工智能有助于抵御网络危害——前提是我们能够有效管理风险。

对于公民、管理人员、监管机构甚至技术专家来说,跟上技术创新及其对我们生活的影响的辩论证明是极具挑战性的。生成式人工智能开创了一个新时代,创造和传播近乎无限的内容已成为有形的现实。大型语言模型(LLM)(如GPT-4)和文本到图像模型(如Stable Diffusion)等工具引发了从华盛顿到布鲁塞尔的全球讨论。

随着监管机构竞相追赶,出现了一些关键问题,涉及对在线平台的影响,更重要的是对互联网信任和安全的影响。这些人工智能工具可能会导致非法或有害内容或大规模操纵行为的增加,从而可能影响我们对健康、财务、选举投票方式,甚至我们自己的叙述和身份的决定。与此同时,这些强大的技术也为改善我们的数字世界提供了重要机遇。

必须强调的是,这并不全是即将到来的人工智能启示录。虽然这种可能性始终存在,而且完全取决于我们如何避免,但我们应着眼于如何利用人工智能技术对我们的线上和线下生活产生积极影响。这些工具可以作为信息战的武器,也可以用来抵御来自人工智能和人类的网络伤害。

谷歌和微软都已开始利用生成式人工智能来“提高安全性”,使安全专业人员能够更好地检测和应对新威胁。大型在线平台已经在使用人工智能工具来检测某些内容是否由人工智能生成,并识别潜在的非法或有害内容。新一代人工智能可以提供更强大的工具来检测网上的有害行为,包括网络欺凌或诱骗儿童、推销非法产品或用户的恶意行为。

好与丑

除被动保护外,生成式人工智能工具还可用于主动教育。对于负责审核用户生成内容的在线内容审核员来说,精确度和召回率是关键。生成式人工智能可帮助版主快速扫描和总结相关新闻事件等内容。它还可以提供相关政策或培训文件的链接,以提高版主的技能并提高他们的工作效率。通过负责任地使用ChatGPT或谷歌的Bard等工具,还可以帮助创作者确保内容符合特定平台的政策,或以有益、包容和信息丰富的方式撰写。

然而,信任与安全政策专业人士在依赖人工智能生成工具执行日常任务之前,需要考虑各种因素。明智的做法是保持谨慎,并考虑到生成式人工智能可能会在互联网上充斥大量内容,这使得内容管理更具挑战性且成本高昂,以及这些内容在规模上可能造成的潜在危害。例如,最早观察到的大型语言模型行为之一是它们倾向于“产生幻觉”,创造出既不存在于用于训练的数据中也不符合事实的内容。随着幻觉内容的传播,这些内容可能会被用于训练更多的LLM。这将导致我们所知的互联网的终结。

要避免这种灾难,有一个相对简单的解决方案:人类必须参与到政策制定、审核决策和其他关键的信任与安全工作流程中。

管理风险而非实施禁令

生成式人工智能的兴起引发了一波关于是否应暂停技术进步的讨论,数千人为此签署了一封信。但是,虽然暂停可能会让我们在短期内“松口气”,不会急于走向不可预测的人工智能末日,但这并不是一个令人满意甚至切实可行的长期解决方案,尤其是考虑到公司和国家之间的竞争。相反,我们需要集中精力确保在线信任和安全不会受到这些技术的负面影响。

首先,虽然技术可能是新的,但所采用的风险管理实践和原则并不一定是新的。数十年来,信任与安全团队一直在制定和执行有关误导性和欺骗性在线内容的政策,并为应对这些新挑战做好了独特的准备。管理其他风险(如网络安全)的常见做法可用于确保生成式人工智能世界的信任与安全。

成为一名成功的红队成员所需的技能和创造力本身就是一个新兴产业。衡量危害是困难的,因为它取决于文化、解释和背景等因素。同样,在评估确定内容是否有害的人工智能工具(如检测图片或视频中非法产品的工具)的质量时也会遇到挑战。

在商业互联网诞生超过四分之一世纪之后,我们需要加倍努力,提高人们对网络信任和安全的认识。对虚假信息和欺诈行为的教育投资将有助于保护个人免受人工智能生成的真实内容的欺骗。信任与安全团队提供的情报和分析对于开发有效利用人工智能的系统至关重要,这些系统将促进个人之间更真实的联系,而不是削弱这种联系。

随着我们的生活逐渐向线上转移,以及人工智能在各行各业的应用和产品范围的不断扩大,确保我们的数字世界是安全和有益的正变得越来越具有挑战性和紧迫性。在线平台已在其在线信任和安全实践、流程和工具方面花费了多年时间。通常情况下,这些工作都是无形的,但现在是这些经验和专家们大显身手的时候了。当我们与人工智能共存时,我们必须共同努力,规划人类前进的道路,而不是被人工智能的阴影所笼罩。


热门文章