时代资讯-做中国综合的新闻信息资讯站

您现在的位置:首页 > 国内 > >

博士毕业后 他在淘宝“扫垃圾”

时间: 2021-01-28 12:59 来源: 未知 编辑: winwen 收藏 百度搜索本文

    2016年,香港中文大学博士刘翔宇毕业后来到了阿里工作。同一年,《网络安全法》和《国家网络空间安全战略》正式通过,社会对于网络环境治理和网络安全的关注度迅速飙升。
    刘翔宇随着这股浪潮加入了阿里安全。起初,他做着基础安全的研究。后来,慢慢聚焦在淘宝交互内容、旺旺、直播弹幕等的内容安全治理。如果说阿里巴巴是座城,刘翔宇和他的同事们就是专门为这座城“扫垃圾”的人。
    跟线下的市场一样,对于这座城里的大商户,总有不怀好意的勒索者骚扰平台商家。这些黑灰产每天试图向商家群发上百万条垃圾信息。为了规避系统排查,他们故意把一些关键词用音、形、义相近的字词代替,出现了“胃♡”、“叩--裙”、“9え”、“发嘌”……
    对于清扫垃圾内容的“刘翔宇”们而言,城太大,人力不可能覆盖每一个角落。如何对这些垃圾信息做到秒级处理,同时误判率必须在万分之五以下?刘翔宇和一众算法专家与不断变异的黑灰产斗智斗勇。
    现在,刘翔宇和阿里安全的小二研发的阿里新一代安全架构核心算法,每日已能清理百万级的垃圾信息,保护商户在平台的清朗营商环境。
图示:刘翔宇
疯狂的“推销者”日发百万条骚扰信息
    如果你曾厌恶电线杆上的牛皮藓,那么也会厌恶一个24小时不停按门铃推销的人。
    黑灰产通常掌控上千个账号,并编写程序,利用机器海量给商家群发信息,有一些刷单、欺诈信息等违法内容,更多的是营销、店铺代运营等各种招揽生意的广告,像极了那些上门捣乱的人。
    黑灰产团伙通常会在很短的时间内把大量的垃圾消息海量群发给商家。他们嗡嗡不停,少则一天群发几万条信息,多则一天上百万条,最疯狂时,一分钟就能群发上万条信息。
    旺旺上线“戳一戳”的新功能后,有的黑灰产试图编写程序,同时“戳一戳”上万人。被“乱戳”的主要是新商家,这样的骚扰可能会让初入淘宝大门的商家不胜其扰。
    不过,旺旺上也有一些采购量非常大的买家,这些买家一般会多方比价,最多时会一次性发给上千商家询价,这是平台允许的正常经营行为。上述难点都要求阿里安全的算法在识别垃圾信息上必须又快又准,还不能误伤商家。
     依靠算法进行分层识别,刘翔宇和同事们研发的算法不仅减少了误识别风险,同时对大量垃圾信息实现了“秒级撤回”,即发现黑灰产群发的垃圾信息后,系统在一秒内可撤回信息,尽可能减轻对商家的影响。
     同时,阿里安全内容安全管理团队每天要处罚上万个账号,处罚方式包括扣分、禁言、封号等,不少黑灰产属于集体作案,安全团队还“一追到底”,如果情况严重,还将举报给警方处理。
用AI对抗专业团伙不断变异的进攻
    “垃圾清理人”面对的不是散兵游勇,而是黑灰产的团伙作战。
    “他们应该是专业团伙,按照攻击时间,可以看出他们每天也有固定的上下班时间,不少人应该是学计算机相关专业出身的,甚至是像我们一样做过安全防控的人,这些人对安全防控非常了解,会用智能化手段对抗,比如他们会发测试信息,对我们的拦截做试探再做调整。”刘翔宇说。
    敌暗我明,刘翔宇不知道对方什么时候忽然发动攻击,而且黑灰产团伙针对防守者的攻击,每周少则几次,多则十几次,往往最猛烈的攻击发生在凌晨。“明显是故意的,就是让你很难受。”
    尤其是“双11”大促期间,黑灰产非常疯狂,发出的垃圾信息量比平时多几十倍。刘翔宇说:“临近大促节日的晚上,垃圾信息像消费者去抢‘秒杀’一样呼地一下就上去了。他们很聪明,知道‘双11’期间用户最活跃,这时候骚扰用户感觉效果最好,这就需要我们提前做好预案防控,把他们赶出去。”
    狡猾的黑灰产还会想尽办法通过“变异”试图突破安全防线。
    所谓的“变异对抗”,就是黑灰产会试图改变发送的垃圾消息内容,让系统无法快速识别。黑灰产故意把一些关键,用音近、形近或语义相近的字词代替。在黑灰产黑话中,qq群变成了“叩--裙”,私人微信写成“私入崴伈”,发票可能成为“发嘌”。
    最初,“垃圾清扫人”几乎晚上睡觉都不踏实,总觉得黑灰产进攻后,系统的提示声随时会响。为了对抗“变异”,“垃圾清理人”必须持续收集变异情况,升级模型。
图示:“垃圾清扫人”——算法专家在商量对抗策略
    在这些算法专家的努力下,目前平台利用神经机器翻译和多模态词嵌入技术,不断增强垃圾文本内容风险识别系统的性能。
    刘翔宇介绍,基于主动生成的对抗平行语料,利用神经机器翻译技术,构建对抗纠错模型,可消除黑灰产发出的内容对抗扰动。同时,利用多模态词嵌入技术提取垃圾文本的语义、语音、字形特征,并通过多模态融合机制有效地增强系统针对基于义近、音近、形近等文本变异的鲁棒性,可进一步提供系统识别准确率。
    现在,他们打造的算法已能够自行理解某个字和与它音形义近似的字的关联,识别准确率高于98%,可有效新增识别变异违规文本内容50%以上。此外,算法专家还开发了“变异垃圾语言”翻译功能,系统可以将“变异信息”翻译回正常语句。由于对抗垃圾信息的相关前沿技术在实际应用场景应用效果显著,刘翔宇和团队成员的技术成果获得了国际顶尖AI会议的承认,被USENIX Security、ACL、WWW、SIGIR、IJCAI等收录。
    “垃圾清扫人”每天带着AI一起在淘宝与发送垃圾信息的黑灰产打仗,日均铲除垃圾信息条数已达百万级。刘翔宇说,对抗是安全守卫永远的主题,夜晚也许有危机和喧嚣,但“垃圾清扫人”永远在线。
    清晨第一束阳光照进城池,城内干净有序,没有人知道,与垃圾信息的大量战斗曾发生过。也许,这就是守护的意义。
 
 

顶一下
(0)
0%
踩一下
(0)
0%