本文由Adaihappyjan翻译自2023年12月14日的英文社区中心博客(有改动)。
在2023年的科技技术领域中,没有任何事情能比生成式人工智能(生成式AI,英文简称为GenAI)更有话题了。而生成式AI正式引起大众关注,是从今年的这个时候,OpenAI建立了一个可以回答各种各样问题的AI聊天网站——ChatGPT。它允许您向他们的大语言模型提出复杂的问题,并输出一个非常详细,富有创意的回答。ChatGPT出现后,我们见证了它在互联网上的各种应用形式,无论是好是坏。
今天的博客中,我们不会详细的阐述生成式AI到底是个什么。如果您现在才听说这个东西,那么我们觉得您的名字或许是史蒂夫·罗杰斯(美国队长,从上世纪40年代沉睡直到21世纪醒来),您需要补习的可不仅仅是这个主题。这里有一个对生成式AI进行简单阐述的网站:https://www.techrepublic.com/article/what-is-generative-ai/ 。
我们在这里要讨论的是,我们如何将生成式AI运用到Fandom上的——我们已经做了的,目前正在开发的功能,和可预见的未来发展方向。
关于生成式AI的理念[]
我们已经在2023年社区交流会议期间和核心创作者们讨论了生成式AI。当时我们的首席技术官Adil Ajmal做了一个小时的演讲,阐述了我们对于生成式AI的高层理念。
他演讲的核心是对社区做一个承诺 - 赋其能力,勿置替焉。
这意味着我们开发和研究的任何生成式AI功能都将用于更好地理解和突出用户们创作的内容(UGC),或使其作为帮助您进行更高效创作内容的工具。我们没有考虑让其进行任何用于撰写文章的完整内容或对Wiki编辑核心社区进行自动建设和写作的工具。
我们坚信这个理念对于Fandom来说是正确的。首先,像您这样的编辑者所拥有的精准且专业的知识使得Wiki内容与质量上更加出色。Fandom中文章的魅力之一就在于读者能够感受到编辑者在其编辑过程中传递入的真挚、深层次的知识。
其次,这符合我们的编辑者的期望。我们一整年都在密切关注着编辑者对AI的看法与感受。通过调查、研究小组、社区交流会议和与社区进行的其他交流,我们已经看到编辑者们对于在Fandom使用某种程度的AI所持有的开放态度,或者至少是带有一些谨慎的兴趣。当然,这需要达成一些核心条件,例如大模型的原始数据必须是符合伦理的,这个问题在图像生成方面尤为明显。
目前为止,我们对生成式AI的发展一直是谨慎的,这也符合了Adil先生在社区交流会议上所言的承诺。让我们来看看今年我们是如何实现这一点的。
生成式AI在审查中的应用[]
在Fandom,图像审查的挑战明显高于文本管理。文本由特定的字母序列组成,使得通过工具如AbuseFilter和Phalanx内容过滤器进行控制变得相对简单。这些工具可以识别和阻止不适当的词汇。
相比之下,图像的管理复杂得多,因为它们可以以无限种方式表示一个概念。只有当你亲眼看到图片时,你才能真正理解其表达的内容。这就是为什么我们多年来一直手动审查上传到Fandom的所有图像。和文本一样,存在添加不适当图像(如色情、血腥或裸露内容)的风险,维护一个适合所有年龄段和背景的安全网络环境对我们至关重要。
技术的进步为图像审查带来了转变。人工智能现在可以使用含有数千张图像的模型,这些图像已被人工定义。AI能够识别图像A是关于某个主题,然后通过比较,确定图像B与图像A的相似性,并给出关于图像B的相似主题的概率。随着模型的不断强化和校正(告诉它“你是对的”或“你错了”),它的准确性会逐渐提高。
今年早些时候,Fandom开始与一家名为CoActive的公司合作,利用AI来代替人工图像审核过程,该过程于九月完成。CoActive的方法是编程审查每张上传到Fandom的图像,并在多个概念上打分(0-100分),检查图像是否包含色情、血腥或仇恨言论等内容。如果图像在某个概念上得分很高,它将被自动删除;如果在所有概念上得分都很低,表明CoActive认为它不包含任何不当内容,那么它将被批准。
目前,CoActive帮助Fandom自动批准或拒绝约90%的上传内容。剩余的10%(得分较高的图像)仍会接受人工审查,用以教导模型哪些内容是不适当的,哪些是可以接受的。随着时间的推移,我们期望实现近乎100%的自动审核,从而提高效率和准确性。
对于Fandom来说,过去十年一直手动审查上传到平台的所有图像确实是一个重要的保障措施,旨在确保所有内容符合使用条款。这个过程不仅保护了用户,也减少了社区工作人员接触有害图像的情况。转向自动审核的决定旨在继续执行这些核心功能,同时降低工作人员团队必须处理的不良图像数量。
自动审核之所以优于手动审核,原因如下:
- 即时检测与删除不适当的图像: AI可以在图像上传几毫秒后即刻检测并删除不适当的内容,从而防止任何用户看到这些图像。为了确保准确性,自动删除功能的加强是逐步进行的。
- 减少管理员和版主的负担: 自动审核减轻了管理员、工作人员和版主处理特别恶劣的(巨魔)行为所需的时间和精神压力。
- 节省时间: AI处理审查任务可以为员工节省大量时间,使他们能够专注于其他不那么平凡的任务。
- 提高检测难以察觉的内容的能力: 在包含大量文本的图像中检测仇恨言论等内容对人来说可能颇具挑战,但AI一旦学会识别这类内容,其检测能力会持续提高。
综上所述,使用AI审核解决方案的目的是保护您的wiki免受不良图像的影响,减少对脆弱用户群体的影响,并降低对版主的负担。这种方法旨在通过技术手段,维持Fandom平台的安全和适宜性,同时提高效率和准确性。
生成式AI在理解页面内容方面的应用[]
尽管科技已经能够轻易理解文字,但在领会文字所蕴含的深层意义方面,AI在这几年才逐渐接近人类的水平。例如,如果我提到“尤达宝宝”的真实名字是“古古”,你作为读者应该能立刻明白我的意图(除非你是美队,并且出于某种原因还在阅读这篇博客。好了,如果你不熟悉,建议从《星球大战》第四集开始观看。虽然我也承认,这听起来可能没有多大意义。)。
直到不久前,技术在基本理解方面一直稍显不足。多年来,谷歌等搜索引擎基本上仅根据页面内容与你的查询(例如“尤达宝宝”)是否匹配来提供搜索结果。但最近,搜索引擎已经开始掌握这一基本理念。因此,如果你在谷歌上查询“尤达宝宝的真实名字是什么?”谷歌现在能够直接展示一个针对这一问题的明确的顶部搜索结果。
然而,这种理解在处理表格数据时仍然有所欠缺。几乎每个wiki页面都用表格形式包含了关于文章主题的核心信息,但由于这些信息通常不是以句子形式表达的,大多数搜索引擎仍难以解析它们。例如,它们可能仅将文本解读为“名字是古古”,而不是理解为“这个角色的名字是古古”。尽管如此,只要数据以一种搜索引擎能识别的特定格式呈现,谷歌便能较为轻松地理解表格数据。
人工智能生成技术正在展现其强大的功能。我们目前的工作是采集信息框内的数据,通过AI解析每个字段的具体含义,并生成一个供Google爬取和理解的JSON文件。虽然理解表格中每个字段的含义看似简单,但让我们通过一个实例来展示AI为何如此重要。
(有趣的事实:如果你已经在这个平台上驻足多年,可能还记得多年前推出的行动化信息框,这实际上是结构化数据的早期尝试。经过这么多年,我们终于有机会实现当时的设想。)
以Wookieepedia为例,该站点记录了古古于公元前41年出生,使用的字段是“出生”。然而,不同的网站可能会使用如“出生日期”、“生日”、“出生年份”等多种术语。大语言模型能够识别这些术语实际上描述的是相同的概念。因此,当我们向谷歌提交必要的信息时,谷歌会将这些多样的术语统一归类至其使用的Schema.org词汇表中。
得益于谷歌现在能够识别我们页面包含的这些结构化数据,你的页面在搜索结果中的排名将得到提升。更高的排名带来更多的访客,增加他们阅读和享受内容的机会。
这些JSON文件会在一年中的不同时间点生成。我们的数据显示,相比于那些未生成这类文件的网站,拥有JSON文件的网站访问量显著增加。由于这一变更仅在后端进行,它不会影响用户的编辑体验,且我们的编辑无需采取任何额外步骤。
生成式AI在快问快答中的应用[]
在九月的博客中,我们首次讨论了快问快答工具,Brandon撰写的这篇博客全面概述了该工具的发展历程。我强烈建议阅读原文以获得完整信息,但在此我会为您简要回顾,帮助您快速了解核心内容:
快问快答是一款创新产品,它将wiki页面上的长篇文章转换为问答(Q&A)格式,并将这些问答模块嵌入到原文页面中。这种格式不仅便于读者理解,还便于谷歌对其进行索引,提升搜索排名。
整个夏天,我们通过与GenAI合作伙伴合作,利用生成式AI模型从Fandom页面信息中提取问题,创建一组初步的答案。这些答案基于谷歌搜索中频繁出现的相关问题,目的是利用现有的专家内容减少社区开展此项工作的时间和精力。在试验阶段,我们的团队严格审查了这些问题和答案的准确性,并在确认无误后才进行发布。
然而,当项目扩展到约6500个角色页面时,我们发现AI生成答案的准确率大幅下降,因此我们迅速撤回了这些内容并重新评估了策略。
这次经历虽然遇到了挑战,但也为我们提供了宝贵的学习机会,这是功能开发过程中不可或缺的一部分。我们从中学到了哪些方法有效、哪些方法需要改进,并据此调整策略。目前,我们正在细化模型,以平衡其生成效率和准确性。
我们已经开发出新的模型,并正在完善一款新工具,该工具将允许社区版主参与答案的审查和策划。目前已有12个wiki社区正在测试这个新的策划仪表板,反馈普遍正面。假期结束后,我们将详细介绍这种新的快问快答体验。这个工具不仅将帮助读者高效地找到所需答案,增强SEO效果,预计还将在新年伊始全面投入使用。
人工智能的引入旨在减轻社区启动此功能的负担,但最终,社区通过仪表板拥有了发布内容的决定权。在下月测试结束后,我们将进一步讨论这个仪表板,包括新增的为期七天的“审查”期,以减少手动审查的压力。AI在这一过程中扮演的是辅助而非替代的角色。
下一步[]
我们已向您介绍了今年Fandom在生成式AI方面实施的三项关键措施。其中,ImageReview和JSON表格结构两个工具主要用于帮助我们理解和处理您手动生成的内容。而快问快答工具,则是为了在不增加wiki编辑者负担的情况下,帮助您快速启动新的有益内容。我们将继续遵循“使能而非替代”的理念,这也是我们2024年的核心哲学。
虽然各产品开发团队仍在制定2024年的详细计划,但生成式AI在Fandom的应用前景已逐渐清晰。
首先,我们计划继续利用GenAI帮助我们更好地在后端结构化页面内容,正如我们通过信息框上的JSON文件所做的那样。我们将把更多表格和图形数据转换为机器可读的格式,这样一来,一旦明确了数据的去向,就能以全新且有效的方式重新利用这些信息。例如,编码一个多分支家族树在当前可能相当复杂,但有了正确的工具,这一任务将大为简化。
其次,我们看到了使用AI改善管理员工具的潜力。例如,我们已经试验了为图片移除操作提供概率评分的系统,同样的方法也可以应用于文本编辑。想象一下,作为管理员,在最近更改中看到一个基于风险评分的过滤器,它会指出需要审查的编辑。这只是我们预见到的众多针对管理员的工具之一,未来将是可行且可扩展的。
虽然我们无法确定2023年哪些流行趋势会持续(我为你加油,Taylor和Travis!),但生成式AI的影响无疑是长远的。作为一家公司,我们面临的挑战是如何明智地利用这一技术——作为现有巨大社区的补充,而非取代。我们希望您看到我们的审慎做法,并对您的社区带来益处,期待您继续与我们携手共进。
點擊這裡關注Fandom網誌。
想要與編輯者和職員取得即時通訊嗎?
加入我們為已註冊編輯者開放的官方Discord伺服器吧!
想要與中文社群的編輯者取得即時通訊嗎?
加入中文社群中心團隊營運的交流群吧!