人工智能的视频审核:“放下那段搞笑片,有事冲着AI来”

最新文章

无视频、不娱乐,视频审核要排队。

管理员说:“此山是我开,此树是我栽,要想从此过……”

机审、人审、再加举报审核。

一审、二审、三审、四审。

审核决定一个视频平台公司能不能活,也决定它会不会死。

话说,B站也曾被请去喝珍珠奶茶。


AI技术对于视频审核的意义,很大一部分是减轻人类审核的工作量。

视频,按其体量可被视为工业界最大的业务场景之一。

参考爱奇艺官宣每天大概产生的数量规模,主页频道的内容规模,上千。PGC内容。上万,UGC内容,上百万。

参考阿里巴巴资深算法专家王晓博公开演讲:“只要视频平台开放了UGC上传口,每天百万级数量级上传量,挡都挡不住。”

快手名场面,鼠年春节达3.2亿日活跃用户的峰值,牛年春节更加牛(多地倡导,原地过年)。


优质岗位常年空缺,视频审核大师广告文案如下(假想版):

“一月3休,每周300小时强制工时,每天只需要工作到凌晨3点。”

如今,AI技术在“审核”环节用得最广,审核要求非常高,比如鉴黄。

如果AI看不懂视频,审核工作全部归人类,这是一桩严重违反《劳动法》的惨案。

视频平台都有审核中心,TikTok也曾设有海外审核中心,2020年5月在美国加州总部设立一个名叫“透明中心”的部门,实则是审核中心。这里都是劳动密集型办公,光靠人力不够。

审核大师手捏泰国船票,正准备收拾个人物品跑路,AI就上岗了,一插电,审核数量级从十万飙升到十亿。

弹幕飘过:“好开心,谢谢你。”


一、AI审核看不懂视频,就会“误伤”。

误伤什么,都不能误伤长腿美女。科学讲解现在开始,比如,某天,长腿美女的比基尼视频被低俗恶搞了,数个小时内上传量激增。广大网友到处求资源,“好人一生平安”。

热度过高,视频审核怎么办?“长腿美女比基尼专项整治工作小组”在一片祥和安宁的气氛中组建。

要么,把所有含有比基尼三点式泳装的相关视频都召回,一刀切。结果使得召回视频大部分是不相关的,把维密天使、海景Vlog、游泳教学、港姐选美的视频都错误召回了。

BGM播放:“哦漏,哦漏,哦漏漏漏漏。”

要么,用技术手段精准地找到不雅视频,再把不相关的给人力处理。

最后,清点全部召回的视频,评估有多少错的,多少对的。正确率越高,说明算法越精准。

快手审核负责人:“哦耶,哦耶,哦耶耶耶耶。”

视频审核也要对文本、语音、图像、视频等(不同种类的多媒体)进行统一搜索。

“跨界”从多种媒体中,找出长得像的作品,既能“查重”,还能打击“洗稿”。

比如,“六神磊磊”讲金庸的文字原稿,常常被“搬运”,改头换面,就成了“历史故事”短视频,还有一堆不明真相的群众点赞。

审核低效,速度就会很慢,热点流量的高峰来临,就无法处理。

快手审核大师说:“我终究没能飙得过那辆宝马,只能眼望它在夕阳中绝尘而去,不是引擎不好,而是脚蹬子坏了。”

再看看高德地图:“没有AI,就没有路了。”

于是,AI算法工程师狠狠心,训练人工智能“看懂”视频。

二、AI看懂视频是很难,关键在于看懂到什么程度?

比如,破格公主姚安娜在快手跳了一段现代舞。

AI读懂(字幕、弹幕、广告标语、标题),听懂(乐曲、歌词),看懂(姚安娜,她在跳舞,在家里跳舞)。

姚安娜情绪很积极,可惜,舆论情绪很负面。

评论一:“跳得好不好不说,有一种有钱人的自信。”评论二:“这水平,过年给亲戚表演的感觉。”

AI顺手完成一道附加题,搞懂了群众对公主跳舞的态度。


比起AI看懂破格公主姚安娜的照片,AI处理视频是关注整条视频的信息,不像传统方法关注的是图片(照片)的信息,视频信息量更大。

将二维图片信息升维了,增加了时间序列信息,既一脉相承,又有技术创(nan)新(ti)。

再比如,爱奇艺的AI技术如何看懂视频?

仔细看,在播放进度条横线的上方,AI画了波浪线,把视频里精彩的部分标注出来,叫做视频highlight。


AI能画出“潮涨潮落”,证明AI知道哪里是“高潮”,而且还有时间“印记。

问题一:为什么快手AI认识姚安娜?

人脸识别在警察叔叔那里抓嫌疑犯,在视频中就是识别演员,或者给演员换脸。

比如爱奇艺APP的“只看他”功能早已上线,爱奇艺等长剧场景非常需要,短视频业务里就不是刚需。

只看《如懿传》周迅的片段,只播放进度条中周迅的片段。计算机先把视频切分了,按段分析。

在长视频里,技术实现并不难,就是花多长时间找出来。

问题二:为什么快手AI读得懂视频里的字?

OCR一般用于发票信息识别,在软件中一键识别,发票号码,消费金额等信息,RPA机器人还能做到一键填入。

OCR来到视频的世界,不仅希望能看懂视频中的每个字, 也希望能理解它们的类型、重要性和逻辑。

姚安娜的视频只是其中一个,视频平台要管理亿级视频的“大仓”,系统要能给视频分类。

分类也是在理解的基础上进行。这里就不得不补一段“标签的历史”。


视频理解过去主要是标签,现在是颗粒度更细。标签分为,内容标签和类型标签。

内容标签是对文本、图文或者短视频等内容的表征。

表征,就是用一些关键词或者是短语来表达对应的内容是什么含义“萌宠”与“萌娃”就是两种不同的萌物。


内容标签,是根据内容生成标签,换句话说,有什么样的内容就有什么样的标签。标签的集合是开放的。

类型标签,是一个分类体系,就是把不同的内容分到不同的体系下面,这个分类体系是预先定义的,比如“影视”与“动漫”。

以前做到,软件快速为快手视频生成热门内容标签,解决快手视频关键词无法露出的问题,但对于细粒度结构分析则较少。现在,快手用视频理解技术关联,能把视频关联到相关视频。

快手后台审核人员做什么呢?他们忙着给访问量高的视频打标签,关联到热点。

姚安娜跳舞的视频,也会被打标签。

安防视频很多都是无声的(无拾音器摄像头),而娱乐视频里信息量很大,人脸、商品、物体、人物行为、地点、文字、歌词、对话、时间。

线索越多,难度越大,那怎么办?

答案:多模态联合建模,用好视频里一切可以利用的信息。

媒体内容包含多种形态,比如视频、图片、声音、文字等等。

技术小哥哥敲黑本:综合使用这些媒体形态的技术,叫做多模态技术。

AI媒体内容生产,就是自动、批量地生产这些不同模态的内容。从1970年代起步的多模态学习,英文全称 MultiModal Machine Learning (MMML)。

经历了多个发展阶段,现在全面进入深度学习的阶段。

图像、视频、音频、语义之间的多模态学习比较热门。


比如互联网大型视频平台,快手爱奇艺优酷腾讯,都会将多模态技术用于视频理解业务,可以加视频封面,视频抽帧,加文本信息融合,比如做视频分类,视频质量评估。

欢声笑语中,AI默默接手海量视频管理,撑起快手视频亿级估值。


三、AI技术处理图片是主流,AI处理视频,仍然力不从心。

在国内,算法推荐内容方面最典型的公司,是今日头条、抖音和快手。

几年前,2018爱奇艺世界大会上,CTO刘文峰说:“私人影院的观看时长因为有了智能推荐提高了15%。”这告诉我们推荐也是AI技术的基本功。

AI审核和推荐都及格了,但是,特效和剪辑,AI依然力不从心。

B站两个镇站之宝, “鬼畜”与“踩点”。

踩点之王“改革春分吹满地,中国人民真争气”。剪辑大师把赵本山台词拼出来,把对应的帧找出来,凑上画面,配上音效。弹幕飘过:“再来亿遍“停不下来”屏幕背后,笑出猪叫声。

在快手科技,多媒体内容理解部门(MultiMedia Understanding,MMU),有一种工程师的岗位,叫做多模态内容创作算法工程师。

岗位职责上面写着:“对海量多媒体素材(如图片、视频、文本、音乐等)进行深入语义理解,在此基础上进行素材打散、内容匹配和智能创作,形成多样化高质量的内容,服务于智能广告生成、视频智能混剪等方向。对无监督学习、搜索、强化学习、GAN、图形学等方向有深入了解者优先。”

这一岗位,北京、杭州、成都都有。

巧了,《亲爱的数据》有一位朋友在快手做AI算法工程师,偷看了一眼“Offer Letter概览”,每个月基本薪资25000元,还不算公司估值对应的长期激励。

快手MMU张德兵在知乎中谈道:

“(MMU尝试的十个方向)未来可能会诞生一个AI,它可以借助全网的信息跟你沟通交流,模态不限。不仅能充分理解你,而且可以用最直观易懂高效的方式给你传递各类信息,潜在对于资讯、娱乐、教育、商业等众多行业都产生非常大的影响。”


与此同时,在字节跳动,智能创作图像组也做这个特效方向。

计算机眼里,视频中有很多“帧”,理解视频,从帧入手。

一个视频大概抽几帧,关键帧里有什么样的人物、场景、动作、情绪、服装、化妆、道具,将视频分解成为更小的颗粒去理解。

再说智能首图功能,几乎所有头部视频平台都有。

“封面”可以就是“一帧”。能做到输入一段视频用算法解析视频,输出视频封面,还可以给不同用户剪出定制封面。

游戏向多模态技术,拈花一笑。


腾讯多媒体实验室,开发了一套《使命召唤手游》视频智能剪辑工具,想推广到超大规模视频剪辑中。

技术也很硬核,有通用视频理解框架,还用到了时序动作分割与文字识别等技术。


腾讯游戏和快手有啥关系呢?游戏直播等来源于游戏的视频是快手等视频平台内容原料之一。

总之,视频审核,离不了AI。

AI技术想彻底搞定视频,难度非常大,现实场景比学术场景复杂的多。所以,放松一下,慢慢来吧。

日本社畜有一句话:“事情做不完就明天再做吧,运气好的话,明天死了就不用做了。”


最后,放下那段搞笑片,有事冲着AI来。