你真的了解内容审核吗?多语言内容审核系统科普答疑

最新文章

随着国内互联网企业在出海场景不断开拓,内容审核系统的搭建已经逐渐成为重要议题,在搭建内容审核系统的过程中会遇到什么问题?又有怎样的解决方案,笔者精选了几个经典问题和回答,供各位出海开发者参考。

问题一:只靠词库可以搭建靠谱的内容审核系统吗?
答:当然不可以。任何脱离语义、情感识别的审核系统都是“耍流氓”!

一方面,容易造成以下这类啼笑皆非的误检场景:

你是**座吗(屏蔽词:处女 触发类别:色情)

处女座:


麻将**来一局(屏蔽词:自摸 触发类别:色情)

现在的***的技能比师傅都多(屏蔽词:徒弟会 触发类别:违禁)

走,今晚去吃永顺炸**架(屏蔽词:男性生殖器 触发类别:色情)

炸鸡商家:


另一方面,某些敏感内容是没有很明显的关键词的,譬如:

在我看来,黑人是不配上街的(种族仇恨言论)

残疾人赶紧滚回家(残疾仇恨言论)

除此之外,像变形、拆字、同音、干扰等复杂敏感场景也是依靠词库所不能处理的哦。


审核策略:词库+规则+强大的语义、情感、变体识别算法系统。词库和规则是底层基础,而算法是保障识别准确率的“核武器”,专业算法团队从情感、上下文语义等维度,通过数以亿计的各语种数据积累训练,能够准确识别含负向情感、隐晦敏感的内容,从而规避“处女座”被屏蔽这类尴尬情况;另外,强大的变体识别算法可以有效识别各类变体及非规范性用语。

问题二:先翻译后审核可以实现全球多语言内容审核吗?
答:不可以。即便在某些情况下可以过滤掉部分敏感信息的,前提也需要待检测文本规范标准(不能是带有本国文化气息的俚语、方言),翻译结果足够地道。但是网络社交环境错综复杂,大部分敏感信息都充斥着变体、缩略语、隐晦色彩,市面上大部分翻译产品也无法做到百分百地本土化翻译。所以先翻译后审核无法做到有效屏蔽。

例如:

1. ночные бабочки(俄语)

直译:night butterflies

实际含义:妓女

2. fazer a zona(葡萄牙语)

直译:make the zone

实际含义:嫖娼

3. 31 ekiyorum(土耳其语)

直译:i'm shooting 31

实际含义:我在打飞机

审核策略:各语种的检测彼此独立,每个语种都有专业的本地化运营团队,负责各国文化历史及网络环境研究;采集标准语、方言、俚语、缩略语、社交隐晦用语等敏感信息,从而规避翻译导致的敏感信息遗失。


问题三:多语言审核前必须进行语种检测吗
答: Yes,但凡涉猎过两种以上语言的人,都会知道:世界各语系错综复杂,各语种的演变随着历史、政治、文化的影响不断融合和分裂。相同语系内的各语种之间的词汇、语法相互交融又彼此独立;较多共用词汇却又有或多或少的意义差别,这极大提升了多语言审核的技术难度。

例如:

1. lelo 西班牙语:傻子 英语:人名

2. land 拉丁化印地语:男性生殖器 英语:土地

审核策略:拥有强大的自研语种识别系统,根据待检测文本所属的语种进行独立检测。从而规避相似语种间的干扰影响。

问题四:各地区、国家可以共用一套审核策略吗
答:


审核策略不仅仅需要区分行业领域(譬如在普通社交场景里需屏蔽的暴力词汇,在很多游戏里是专业术语哦),在面临出海战略时,每个国家都有不同的网络安全政策和审核侧重点,国内很多出海厂商最容易犯的错误就是用带有中国特色的审核策略应对全球化的审核任务。

例如:

在美国,重点审核政治(美国政治言论自由),却忽略儿童色情;

在西班牙,严格屏蔽赌博相关内容(西班牙赌博合法);

在泰国,不去审核皇室相关仇恨言论,却屏蔽了“大麻”相关内容(2022年,泰国正式成为亚洲第一个“大麻合法化”的国家)

以上都是中国出海厂商在审核其他发行地用户内容时,产生的一系列水土不服的案例。这类水土不服的审核策略不但起不到本地化审核效果,从而导致当地用户体验感差,更甚者会导致用户大规模流失。


审核策略:每个语种所涉及的区域,都有独立的政策调研团队,负责该区域的官方政策文件解读、社会环境调研。另外还有专业用户运营团队针对不同行业领域、业务场景,不同发行地区、产品出品地等维度,为客户定制审核策略及标准。真正做到审核策略本地化、行业标准定制化。

笔者有话说
“内容审核”表面上是一项冷冰冰的技术服务,但本质上是一种需要语言学、计算机科学、传播学、社会学等储备研究的多学科交叉行业。“技术”是冰冷的;而“内容”是有温度的,包含语言、历史、文化、社会等诸多要素。脱离“技术”不能与时俱进;而脱离“内容”则从根本上背离行业本质,注定无法行地更深、走的更远。