Quantcast
Channel: 微软亚洲研究院
Viewing all 620 articles
Browse latest View live

培养一个人类医生至少需要八年,那么人工智能呢?

$
0
0

一位普通患者的非典型住院之旅

去年,微软亚洲研究院的资深研究员闫峻在北京一家医院做了一场外科手术,手术前后,他在医院住了十天。但当他躺在病床上,想安安静静看上几本书,或者干脆好好补个长觉时,却不断被各种嘈杂的声音打扰。如果你也曾在医院待过一两天,你几乎不会错过这样的场景:忙不过来的医生和不断追问的家属,手忙脚乱。

闫峻躺在病床上,研究者的好奇心让他试图用技术的眼光寻找原因。闫峻分析:“医生资源十分有限,他没有办法将他的知识表达给所有的患者,而由于信息不对称的存在,患者是安全感不够的。患者需要得到医生的专业解释和帮助,这样心里才会有底。”

“提高生产力”这个概念几乎对于每一个微软员工都熟捻于心。当这位微软亚洲研究院的研究员结束了他十天的医院之旅,走出医院时,一个利用已有的人工智能技术帮助医院医生提高生产力的计划在他的脑海里也逐渐萌芽。

知识挖掘与人工智能

闫峻是微软亚洲研究院数据挖掘与企业智能化组的负责人,今年是他在研究院工作的第10个年头。早在2003年,闫峻在北大读博士的第二年开始就以实习生的身份加入了微软亚洲研究院,彼时亚洲研究院刚成立五年,国内互联网和计算机技术发展迅猛。闫峻在博士期间的研究方向是模式识别,其实就是现在广义的机器学习。

近几年,人工智能俨然成为了计算机领域最火热的研究方向,这背后离不开机器学习、大数据和云计算等的共同作用。社会上关于人工智能的讨论始终不绝于耳,人工智能威胁论、人工智能奇点论等等。但无论媒体如何鼓吹,人工智能领域的研究专家基本上都会给你同样的答案:真正的人工智能离我们还很遥远。

目前,人工智能已经能够在一些如图像识别、语音识别、实时翻译等特定的任务上表现优异,但在更深层次的思考、总结、联想、创造等等方面的进展十分有限。此前计算机战胜人类顶级围棋棋手加强了研究者们用机器学习构建计算机智能的信心,诚然,机器学习目前也被视为是通往人工智能一条近路之一。

事实上,知识的挖掘和知识的表述是人工智能里最基础的问题。我们怎么衡量一个人是“智能”的?一方面,我们会说这个人的脑子很灵活,反应很快。另一方面我们会说这个人有很多经验,懂很多知识。对应到人工智能的研究上来,也就是我们需要人工智能本身拥有很多的背景知识,也需要他有很强的推理能力、理解能力和判断能力。目前,闫峻所在的数据挖掘与企业智能化组主要的研究方向便主要聚焦于知识的挖掘,表示与计算,具体来说就是研究如何从不同的数据来源里挖掘出知识,帮助人工智能的其他算法在具体的场景中完成一些特定的任务。

这一次,闫峻想借用自己的研究成果,为医生培养他们自己的人工智能助手,辅助医生完成一些他们无暇顾及的任务,并为患者提供更多的人文关怀。最终的目的是希望这个人工智能医生助手兼学徒有一天能够顺利出师,能像一个真正的医生一样耐心细致的回答病人的疑惑,协助病人的康复,缓解目前的医疗资源紧缺的局面。

培养一个人类医生至少需要八年,那么人工智能呢?

闫峻在病假后的第一次午饭时,就和研究院的同事们聊起了这次住院经历。让他意外的是,几乎每一个同事——甚至比他年纪小很多的90后年轻研究员都表达了强烈的同感,他们的父母或者亲人都或多或少的经历过同样的事情。在那天的午饭上,数据挖掘与企业智能化组的研究员们提出了一个创造性的想法:为医生构建一个人工智能医生助手!

对于人工智能医生助手而言,技术上最关键的一环就是让计算机学会一些必要的医学知识。这恰恰是闫峻博士所在的数据挖掘与企业智能化组所专攻的。闫峻习惯将机器学习知识的过程与人类学习知识的方式相类比,将这个过程分为四个阶段。“就像指导你的孩子一样学知识。” 闫峻形容道。

第一个阶段是人类婴儿出生到上学之前的这个阶段。这个阶段孩子还没有很强的读写和分析问题的能力,更多地是从他的父母或者身边的环境中学习一般性的知识(common sense knowledge),例如糖是甜的,天是蓝的。这种让计算机学会一般性的知识是较为基础的研究工作,机器会从不同的数据源里面学到一些基本的事实和一些基本的关系。与之对应的,不久前数据挖掘与企业智能化组还发布的Microsoft Concept Graph和Microsoft Concept Tagging模型就试图让计算机掌握部分常识。

第二个阶段则是小孩进入学校开始读书直至大学毕业的阶段。这个过程其实人们主要的学习方式是读书,学习书本上的知识。人们在读书的过程中会不断地分析、总结、归纳,将一些知识进行整合和关联,形成系统性的知识体系,我们称之为知识图谱(knowledge graph)。因此在这个阶段,让机器拥有阅读能力是一个非常重要的课题。研究员们让计算机阅读了大量医学学生的必学书目,让计算机从这些文本中获取作为医生助手最基础的医学知识作为储备,并为下一步进医院“实习”做好准备。

第三阶段则是研究生阶段,你会有一个导师,而你学习的方式已经不再是被动的接受书本知识,而是主动地从他人——你的导师那里学习知识了。这种学习方式中师生间有很多互动,学生会主动询问老师解决办法,从机器学习的角度来理解就是“主动学习”。到了这个阶段,研究员们就将这位人工智能助手送到医院的具体某个科室,选择一位医生作为它的“师傅”。进行简单的“拜师仪式”之后,机器人将成为某位医生的学徒。对于机器学徒不懂得问题,会在聚类总结后向导师主动询问来获取知识。

除了主动提问,跟人类的拜师学艺没有什么区别,计算机向师傅学习的最便捷的方式,就是从医生的匿名诊疗记录入手。这里暗藏着医生的经验知识,在医疗信息化的今天,每一位医生看过的病人信息都会以电子化的形式记录下来,包括病人的症状,各项检查结果以及医生的治疗方案。通过对病例的通读与学习之后,这位虚拟学徒便会对这个科室有一个大体的认识,包括常见症状以及诊疗方案等。但这并不意味着这位人工智能助手可以成功出师了,它还需要最后一个阶段的学习。

最后一个阶段人们通常称之为“增强学习”。很显然,知识的更迭日新月异,人们在走出象牙塔之后发现还需要不断地学习此时的学习更多地会依赖于自己经验的积累以及不断的试错。此前AlphaGo所采用的增强学习就是源自这类思想,它会不断尝试各种下法,观察不同的决策带来的可能性,并以此进行经验总结,从而指导他与真人下棋时的决策。在这个阶段,研究员们才让这位“助手”在监督无风险情况下有选择地与患者进行接触。搜集反馈,提升自己的经验和能力。所有的知识学习阶段都是在“终身学习“ 的框架下不断迭代的进行。

“培养一个医生至少需要八年,但是计算机几乎不眠不休、不吃不喝,并且过目不忘,所以这个学习过程毫无疑问可以大大缩短。” 闫峻博士虽然没有给出一个具体的时长,因为这个很大程度上与人工智能医生所处的科室关系很大,但可以确信的是,培养一个人工智能虚拟医生助手的成本远远低于培养一个真正人类的医生助手。


做些医生做不到的事情

那么,人工智能医生助手究竟能帮医生和病患们做些什么呢?

目前,这项关于人工智能医生助手的医疗项目已经与多家医院和医疗机构合作进行试点,由微软亚洲研究院提供算法和解决方案,对接医院需求,医生与研究员一起从事临床实验。研究员们为每个医生各自搭建了属于他们的人工智能助手。这位医生助手会以微信服务号等多种不同的形式协助医生,并贯穿在治疗前、治疗中和治疗后的整个就医体验中。

其实在许多疾病的治疗,特别是外科手术中,大部分患者遇到的问题是很类似的,机器人可以记忆并理解这些常见的问题,辅助医生事先向患者提问,搜集患者的有用信息,并给出初步的诊疗方案供医生参考,甚至能让患者在与医生见面之前提前做好必备的检查,这样就能大大缩短病人实际面见医生的时间和流程,在有限的时间里,直接切入关键问题。

除了治疗前的提前沟通和治疗途中的有问必答之外,人工智能助手还能做些医生很难细致的面面俱到的事,例如患者随访,收集医疗大数据,增进对病患的人文关怀。

“在和医生合作的过程中,我们发现医生看病的过程跟机器学习也十分相似。” 闫峻博士说。患者介绍病情即提供了机器学习算法的特征维度,接下来,医生根据患者的病情提供治疗方案,即进行预测,这很像训练机器学习的一个算法模型。但最重要的是,医生还需要了解这个治疗方案是否合适、患者有无并发症等问题,如果没有这一反馈,就无法得知医生的预测结果是否成功、没有机器学习需要的重要的数据标注,也就很难用此数据提高整体医疗水平。

“这其实就是一个患者随访的过程。” 闫峻说道。

闫峻在这次与医院的合作过程中认识了不少医生朋友。他了解到,每位医生每年的患者量非常巨大,对每一位患者都进行长期跟踪随访几乎是不可能的,“有的医生平均一年可能做上千台手术”。从学术科研的角度来看,真实有效随访的医疗大数据量很少,影响医疗水平的提高;而从患者的角度来说,由于离开医院后很难得到后续的提醒和关怀,也影响整体的就医感受。

微软亚洲研究院的研究员们也很快为这个问题提供了解决方案。研究员为医生们在各自的人工智能医生助手提供了一个后台,医生能在机器人的后台上设置一些规则、随访问题,例如治疗效果如何、是否有并发症等。在患者给出回复后,计算机便会通过自然语言处理技术来理解患者的回答,并将其变成知识库中的一部分,用来做数据分析。当患者有不理想的治疗结果反馈时,机器人也会及时地将这一信息通知医生。这样医生就能第一时间联系病人进行进一步的治疗,杜绝潜在的风险。特别是对于外地来省会医院等治疗的病人,由于路途遥远,这种自动化定期随访将方便他们与医生构建长期联系的机制。

“这个医疗项目本质上是提升医生和患者之间的沟通效率,让两者能够相互信赖。” 闫峻博士总结道。通过人工智能医生助手,患者在就诊前就可以事先和机器人做一些简单的沟通,大概了解可能的治疗方案,什么时间去医院比较合适,在本地治疗还是需要去更高级的医院。患者能够通过这种前期沟通的方式一定程度上消除这种信息的不对等,患者在治疗过程中有任何疑惑也能得到及时的回答。在治疗之后,患者还能得到医院的长期关怀,研究员们还为这个机器人加入了一些很人性化的功能,例如提醒病人什么时候需要吃药,吃药的剂量;或者在患者生日和特殊节日时,发送祝福,祝愿患者身体健康等。这些对于计算机而言十分简单的任务,对于工作繁重的医生来说却几乎不可能面面俱到的完成。而从医院的角度来看,也可以收集真实的医疗大数据,帮助医院提升整体的医疗水平和科研水平。


最大的困难是没有困难

困难重重。这个词可能是很多人第一次接触到这个项目时的想法。但出人意料的是,闫峻博士却不觉得这个项目有什么“最大的困难”。

对于学术界的人来说,如果想做这样一个项目,最大的困难可能来源于对资金的支持。而对于工业界的人来说,你很难说服自己的老板去做一个和整个公司的商业目标不是完全契合的项目。但这两种困难,对于微软亚洲研究院这样一个十几年如一日深耕计算机基础科研的机构来说,是几乎不存在的。

“我觉得在这里做研究最好的事情是我们没有太多的后顾之忧,也没有什么资金的压力。你只需要证明你做的这件事情本身是有价值的,那就没有人会阻拦你。如果说困难,困难都是研究上面的具体问题,例如数据量太大导致训练算法的过程耗时太久等等。但这种问题是每一个做研究的人都会碰到的。”

类似于人工智能医生助手这类的研究项目在微软还有很多。帮助视觉障碍患者重新“看见”周围世界的Seeing AI项目,帮助渐冻症患者用眼睛驾驶轮椅的Eye Gaze Wheelchair项目,用机器学习技术寻找艾滋病毒的核心蛋白计划,利用计算机视觉和机器学习识别癌症病理切片……正是因为有这么多心怀善意与正能量的酷炫极客们正在用技术来改善身边每一个人的计算体验,这个世界才会越来越美好。

目前,这个人工智能医疗助手项目还处于试验的早期阶段,相关的技术还在根据试验的结果不断完善。至于下一步的计划,闫峻博士表示:“希望能将这项技术真正应用到临床上,让每一个医疗环节都能多一份信赖。”

与此相关,为了更好的了解医生和患者的实际需求,也为了有更多的人工智能技术能够服务于中国的医疗健康问题,微软亚洲研究院与中文信息学会语言与知识计算专业委员会联合组织了知识图谱与智慧医疗论坛,于今日在成都展开讨论。期待专家学者们能够为医疗信息化、精准医疗等问题提供更高效,更贴近民生的解决方案!

作者简介

​ 闫峻

微软亚洲研究院的资深研究员

微软亚洲研究院数据挖掘与企业智能化组的负责人


 

如何做好计算机视觉的研究?

$
0
0

简单说一下这篇文章的背景:从我去年(2015年)回到微软亚洲研究院之后接触到很多聪明的实习生。一方面感受到他们对计算机视觉研究的热情,另方面也有感于他们对计算机视觉研究认知的局限性,或者说大一点,是基本研究方法和思路上的局限性,就有想法要对如何做好计算机视觉的研究写点什么,但一直也没有找到合适的机会。最近计算机视觉领域国际权威、加州大学洛杉矶分校的朱松纯老师发表了一篇关于计算视觉的三个起源和人工智能的评论,引起了很大的反响。朱松纯老师的评论全面深刻,我想借着这个机会,结合朱老师评论的内容和我在计算及视觉领域15年的研究经历,也来谈谈如何做好计算机视觉的研究,希望对领域内的学生和年青的研究员能有所帮助。

“如何做好计算机视觉的研究?” 

要回答这个问题,我们先要对这个问题的关键词进行分析:如果去掉“计算机视觉”这个限定词,这问题就变成了“如何做好研究?”那么,要回答这个问题,我们就要知道“什么是好的研究?”而要定义什么是好的研究,必须回到根本,先要知道“什么是研究?”

我们的讨论就从这个问题开始。

什么是研究?

一个被普遍接受的对研究的广义定义为:研究是为了产生新的知识或者是为已有的知识设计新的应用的系统性的工作。因为我们今天的讨论其实更多集中在科学研究上,先确定狭义的研究的定义为:利用科学的方法来调查解释一个现象或者获取新的知识。

综合这两个定义,可以看到科学研究从本质上是由三个基本的要素构成:1) 目的:产生新的知识或者是设计出新的应用; 2)手段:科学的方法。缺少这两个要素任何之一都不构成科学研究; 3) 成果:新的知识。所谓新的知识,必须是前人不知道的东西。

我们很多同学和年轻的研究员认为研究就是写论文、研究成果就是论文,这其实是在观念上走进了一个误区。论文是系统阐述新的知识、新的应用,以及阐述获取这个新知识或者新应用用到了什么样的科学方法的一个载体。论文,作为阐述研究成果的主要手段,必须经过同行的评议通过才能正式发表和被认可。

在人工智能进入第三个热潮之际,我们看到各种各样关于AI的各种媒体报道层出不穷,一方面,这对大众普及了AI各方面的知识,是积极的。但从另一个方面讲,很多观点没有经过仔细的推敲,也没有同行的评议,一些谬误或者是夸大的观点可能因为广泛传播而被大众接受,结果产生负面的社会影响。这就提醒我们相关领域的研究人员,在对大众媒体去做一些评论的时候,必须仔细斟酌,尽量不传播没有得到检验的观点。

这就谈到第二个问题:

什么是好的研究?

不同领域的研究员对这个问题可能会有不同的看法。

从计算机科学的角度来讲,尤其是计算机视觉的研究,无论是理论的还是实践的,我们的研究成果最终是要解决现实世界的问题的。在这个方面,我印象比较深刻的还是我在西安交通大学读研究生的时候,沈向洋博士2001年在西安交大做报告提到的一个观点:最好的研究员发现新问题;好的研究员创造新方法解好问题;一般的研究员跟随别人的方法解问题——大家在多次这里看到“新”这个关键词,创新是研究的本质。

有了这些铺垫,我们首先定义什么是最好的研究。通常认为一个领域中对于某一个问题最好的研究工作有三种:第一篇论文 (The First Paper),最好的一篇论文 (The Best Paper),以及最后一篇论文(The Last Paper)。这第一篇论文的含义是说这篇论文率先提出了一个好的问题和方向。最好的一篇论文是什么?那一定是开创性地提出了一种解法,启发了最终解决这个问题的途径。至于最后一篇论文,那一定是彻底把这个问题解决了,从此以后这个问题不再需要继续做进一步的研究。

从计算机视觉领域举一个具体的例子来讲,Harris Corner Detector属于最早的一批在图像中检测角点的论文,可以归为第一篇之列。David Lowe博士的SIFT特征检测和局部描述子,可以归为在这个方向上最好的论文之列。那么这个方向的最后一篇呢? 我认为可能还没有出现。具体到我自己的研究工作,在局部描述子这个方向上,我跟我的同事Matthew Brown和Simon Winder在2007年到2009年之间所做的一系列用机器学习的方法来建立描述子的工作,也实际上为提高局部描述子的性能提供了一个新的思路和方法。

对于我们很多研究员和学生来讲,一辈子可能都做不到这三种最好的研究工作之一。那是不是就等于说你不能做好的研究工作或者根本不用考虑做研究了呢?肯定不是这样。科学研究是一个共同体。这些最好的研究工作也是在前面很多很多非常扎实(solid)的研究工作的基础上发展出来的。因此,对于年青的研究员和学生而言,应该胸怀大志,去追求做最好的研究工作,但从实际执行上来讲,还是要把一项一项具体的工作先做扎实了。

怎么做到把研究工作做扎实了?首先,你必须对你要解的问题有一个全面深刻的了解,包括为什么要解这个问题、解这个问题有什么意义呢、以前有没有试图解决同样或者类似问题的先例,如果有,你就要全面了解前人都提出了什么样的解法、他们的解法都有什么样的优势和缺陷……最后,你的解法解决了前面这些解法不能解决的问题呢,或者是你的解法处理了什么样的他们不能处理的缺陷了?这些问题的答案如果都有了,那么,在写论文的过程中要注意的就是,1)你的假设是什么?2)你怎么验证了你的假设?这个验证既可以是理论上的证明,也可以是实验的验证。我们很多学生和年青的研究员,写论文的时候没有找到内在的逻辑关系,很多观点都是似是而非。或者说重一点,在论文撰写方面的训练严重不足。你的研究如果到了写论文的阶段,那就必须要有明确的观点提出来。这个观点必须明确无误,只有这样你才能被称为形成了新的知识。你的每一个观点都必须在理论上或者是实验中得到验证。另外,论文的撰写是为了让人看懂,不是让人看不懂,所以我们在撰写过程中必须尽量保证不去假设读者已经拥有了某些方面的知识。做好了这些,基本上你就有很大的可能性能够做出扎实(solid)的研究工作。

然后回到我们讨论的主题:

如何做好计算机视觉的研究工作?

其实,要回答这个问题,将我上面讲的所有观点加上“计算机视觉领域”这个限定词就行了。我这儿结合计算机视觉研究的一些现状及朱松纯老师的一些观点来进一步谈谈我的观点。

首先谈谈我观察到的一些现象。很多年轻的学生,现在讨论问题的时候都用这样的谈话:我发现用FC6层的特征,比用FC7层的特征,在某个图像数据集上比现在最好的算法提高了1.5%的识别精度,老师我们可以写论文了(如果大家不能理解这句话,FC6和FC7是表示AlexNet的两个中间输出层)。我想请问,你在这个过程中发现了什么样的普适的新的知识吗,又或者,在不是普适的情况下,你在什么限定条件下一定能够看到这样的识别精度提高了?

不错,提高识别精度是一个很好的目标,但要注意,计算机视觉的研究是要解决识别的问题,不是解某一个图像数据集。这些图像数据集提供了很好的验证你的假设和方法的手段,但如果你没有遵循科学的方法和和手段去设计你的算法和实验,你也不可能得到一个科学的结论,从而也不能产生新的知识,更不用谈对这个领域做出贡献。朱松纯老师在他的评论中提到,很多学生认为,计算机视觉现在就是调深度神经网络的参数,也就是说的这个问题。

所以,具体到对于刚开始从事计算机视觉研究的学生来讲,要做好这方面的研究,我觉得第一步还是要系统学习一下计算机视觉的课程,全面了解一下计算机视觉这个领域的来龙去脉、这个领域都有哪些基本的问题、哪些问题已经解得比较成熟而哪些问题还在初级阶段……这里,推荐所有的学生学习两本经典教材《Computer Vision: A Modern Approach》和《Computer Vision: Algorithms and Applications》,可以先读完第一本再读第二本。


只有对这个领域有了一个初步的全面了解,你才能够找到自己感兴趣的那个问题。在众多的问题当中,你是希望做三维重建,还是做图像识别、物体跟踪,又或是做计算摄影呢?做研究其实不是一个完全享乐的的过程,你必须要有足够的兴趣来保证你能持续地走下去,这在你感觉自己当前研究的思路走不下去的时候尤其具有重要意义。当你确定你感兴趣的问题,你应该首先全面调研一下这个问题的来龙去脉。这就意味着你不能只读过去五年的论文。你可以从过去一年的论文开始,慢慢追溯回到过去很久的相关的论文。有些时候,你会惊讶地发现前人想问题的深度。研究的英文单词是Research,拆开是Re-Search,用中文直译就是重新搜索和发现,而不是直接发现,其实就是说你要首先对这个问题做追本溯源。朱松纯老师提到的我们很多学生现在不读五年以前的论文,说的也是这个道理。

当你做好了这些,你必须钻进计算视觉的一个小的领域。人的精力是有限的,这就意味着你不可能把很多事情同时做好,所以在你选好方向之后,就要把你的精力集中在你感兴趣的一个问题上, 努力成为这个方面的专家。研究是一项长跑,很多时候,你在一个方向上比别人坚持久一点, 你就有机会超越他而成为某个方面的专家。

最后,我也来谈谈深度学习对计算机视觉的影响。在这里,我对马里兰大学Rama Chellapa教授在Tom Huang教授80岁生日论坛上表达的观点非常认可,他认为,深度学习网络就像一个Pasta Machine:你把该放的东西放进去,它能给你产生好吃的Pasta。同时它也是一个Equalizer:无论你在计算机视觉领域有40年的经验还是0年的经验,只要你会用Caffee,你在一些问题,比方说图像识别上,都能产生差不多的结果。他开玩笑说这有点伤自尊 (It hurts my ego!),但我们还是应该把它作为一个好的工具拥抱它。我想,他的言外之意,是我们的研究应该做得更深,要去理解这个工具为什么能够工作得比较好,从而产生新的知识去指导将来的研究和应用。

我认为,对于年轻的学生来讲,从深度学习的方法开始学习没有什么问题,但必须要进一步去了解一下其他的数学和算法工具,像统计贝叶斯的方法、优化的方法、信号处理的方法等等等的。计算机视觉的问题,其本质是不适定的反问题,解这一类问题需要多种方法的结合。这里面有深度学习解得比较好的问题,像图像识别,也有深度学习解不了的问题,像三维重建和识别。

任何研究领域包括计算机视觉的研究,对处在研究初期的学生而言, 更重要的是掌握足够的数学工具,培养一种正式思维(Formal Thinking)的能力,这样,遇到实际的问题就能以一种理论上正确的思路去解决这个问题。

作为结束语,我想对在从事或者有志于从事计算机视觉研究的学生说,计算机视觉的研究处在一个非常好的时期,有很多我们原来解不了的问题现在能够解得比较好了,像人脸识别,尽管我们其实还没有从真正意义上达到人类视觉系统对人脸识别的鲁棒程度。但我们离真正让计算机能够像人看和感知这个世界还有很远的距离。在我们达到这个目标之前,深度学习的方法可能是这个过程中一个重要的垫脚石,同时我们还要将更多的新的方法和工具带入这个领域来进一步推动这个领域的发展。

作者简介

华刚博士是微软亚洲研究院资深研究员,现任微软亚洲研究院计算视觉组负责人。他的研究重点是计算机视觉、模式识别、机器学习、人工智能和机器人,以及相关技术在云和移动智能领域的创新应用。他因在图像和视频中无限制环境人脸识别研究做出的突出贡献,于2015年被国际模式识别联合会(International Association on Pattern Recognition)授予”生物特征识别杰出青年研究员”奖励,因其在计算机视觉和多媒体研究方面的杰出贡献,于2016年被遴选为国际模式识别联合会院士(IAPR Fellow)和国际计算机联合会杰出科学家(ACM Distinguished Scientist) 。。华刚博士已在国际顶级会议和期刊上发表了120多篇同行评审论文。他将担任2019国际模式识别和计算机视觉大会 (CVPR 2019)的程序主席,以及CVPR 2017和ACM MM 2017的领域主席。

此前华刚博士曾担任CVPR 2014、ICCV 2011、ACM MM 2011/ 2012/ 2015、ICIP 2012/2013/2015/2016、ICASSP 2012/ 2013等十多个顶级国际会议的领域主席,以及IEEE Trans. on Image Processing(2010-2014)编委。目前,华刚博士还担任着IEEE Trans. on Image Processing、IEEE Trans. on Circuits Systems and Video Technologies、IEEE Multimedia、CVIU、MVA和VCJ的编委。


 

【展望2017】17位微软科学家带你预测2017和2027

$
0
0


12月4日上午,“编程一小时”科普活动启动仪式在微软大厦举行,180名小学生在微软工程师和现场志愿者的带领下,学习并体验了《我的世界》造物主版编程教程。这是本周微软在全球展开的计算机科学教育周活动之一。

在这个“加速时代”,技术进步和商业全球化正在改变整个行业以及社会本身,每个人都要懂一些计算机知识,尤其是我们的下一代,这一点比以往任何时候都更加重要。

尤其是女性和女孩,更需要了解计算机知识——尽管女性占世界总人口的约50%,但是据报告显示,在34个亚太经合组织成员国,只有不到20%的计算机科学专业毕业生是女性。

这会产生深远的社会和经济后果。原因如下:

  • 美国劳工统计局预测,到2020年,将有140万个计算类工作岗位,但是只有40万计算机科学专业的学生有能力申请这些工作。
  • 美国大学与雇主协会报告显示,计算机科学是薪酬很高的一个专业,计算机编程岗位的增长速度是全国岗位平均增长速度的两倍。

计算领域为什么缺乏女性?人们经常提到的一个原因就是:缺乏能够激励女孩在科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)领域(简称STEM)追寻梦想的职业榜样。为此,我们特别邀请来自微软全球研究院的17位女性对2017年各自研究领域的前景进行预测,试图打消对科技行业女性的这一偏见。正值年末预测季,我们也请她们分享了她们对从现在起未来10年的展望。

我们希望您能从她们的广博知识中受益,愿意花一点时间在您的社交网络上分享这篇文章。如果一次简单的分享就能激励多一位女生或男生追求STEM职业梦想,那么你就对本周活动的主题精神做出了贡献。




张冬梅,微软亚洲研究院首席研究员

  • 2017年,数据分析与可视化领域将有哪些重大进展?

2017年,数据分析与可视化领域的重大技术突破将出现在智能数据发现 (Smart Data Discovery)方向,其核心就是自动、快速地从数据中挖掘出用户感兴趣的、最有价值的信息,并利用交互式、可视化的呈现方式提供给用户,从而帮助用户实现有效、专业的数据分析。

  • 2027年,数据分析与可视化领域的重大进展或热门话题将是什么?

2027年,数据分析与可视化领域的进展将使不同语义层面的跨数据源和跨领域的分析成为可能。广大用户将能够利用自然语言等更方便的交互机制,快速有效地从数据中获得与业务和生活各方面相关的广泛而深入的信息。

孙晓艳微软亚洲研究院主管研究员

  • 2017年,计算机视觉领域将有哪些重大进展?

2017年的重大进展就是:基于深度学习的计算机视觉技术将在2017年继续高速发展。这将在接近人类能力的高精度对象识别、轻量级便携式视觉系统以及视觉平台的广泛应用中充分体现。

  • 2027年,计算机视觉领域的重大进展或热门话题将是什么?

到2027年,视觉“眼”将无处不在。我们将拥有高度发达的成像设备、强大的计算资源以及整合深度和广度学习的视觉技术。这些技术的进步使得无处不在的视觉“眼”能够“看到”并在日常生活和各种职业中为人们赋予更大能力——从制造和医疗一直到金融和安全。

Kalika Bali微软印度研究院研究员

  • 2017语音和自然语言处理领域将有哪些重大进展?

2017年,我们的语音和语言处理技术应用将会涉及越来越多的语种。这并不仅仅意味着我们将在我们的产品上添加更多语言。我们确实会这样做,但是我们还将开发能够理解、处理并生成语言的系统,可供有英语-西班牙语、法语-阿拉伯语或印度语-英语需求的用户使用,使她可以从一种语言轻松切换到另一种语言——即使在同一场对话、聊天,甚至是在同一个句子中也能轻松切换。

  • 2027年,语音和自然语言处理领域的重大进展或者热门话题将会是什么?

语言模型将在认知模型中确立牢固的地位,让人工智能(AI)系统能够相对轻松地进行推理,并与人类沟通,灵活转换并适应不同的社交场合、谈判、辩论和说服,就像人类一直以来一样。计算社会语言学和语用模型将在创造拥有社会文化意识的人工智能中发挥重大作用。

Jennifer Chayes,微软新英格兰研究院院长兼微软纽约研究院院长,杰出科学家

  • 2017年,机器学习算法将有哪些重大进展?

深度学习正在许多方面改变我们的技术,然而,当今的深度学习算法很大程度上仍然是启发式的——基于该领域领导人物的经验和直觉。2017年,我们将开发一种更有原则性的方式来理解深度学习,以及由此得出更加强大的算法。这些洞见将来自诸多领域,包括统计物理学和计算机科学的交叉学科。

  • 2027机器学习算法领域的重大进展或热门话题将会是什么?

人工智能和机器学习算法大大改善了我们的生活。然而,目前的算法常常再现了我们数据中的区分性和不公平,并且受到输入误导数据的操纵。未来十年算法方面的一个重大进步将是开发出更加公平、可追责、且更不容易被操纵的稳健算法。

Susan Dumais,微软雷德蒙研究院副院长,杰出科学家

  • 2017年,搜索和信息检索领域将有哪些重大进步?

搜索和信息检索中的深度学习将盛行。过去几年,我们看到语音识别、图像理解和自然语言处理等领域取得突破,这是全新深度学习架构与更多数据和更强大计算能力结合的结果。明年,深度学习模型将继续提高网络搜索结果的质量,实现文档理解和查询契合度方面更全面的改进。

  • 2027年,搜索和信息检索领域的重大进步或热门话题将是什么?

搜索框将消失。它将被更加无处不在、嵌入式、对上下文敏感的搜索功能所取代。我们通过语音查询而看到这一转变的开始——尤其是移动和智能家庭场景。这一趋势将会加速发展,并且能够发起包含声音、图片或视频的查询,无需提出明确的查询就能利用上下文来主动检索与当前位置、内容、实体或活动相关的信息。

Sara-Jane Dunn,微软剑桥研究院科学家

  • 2017年,生物计算领域将有哪些重大进展?

尽管人们广泛使用计算和工程类比来“解释”生物学,但是细胞所执行的计算并不需要、实际上也并没有与芯片计算扯上关系。短期内的重大进展将是一个理解生物信息处理的理论基础,它将作为我们寻求设计、修改或重新编程细胞行为的基础。

  • 2027年,生物计算领域的重大进展或热门话题将是什么?

如果我们可以想象编程生物学终将实现,那么在未来10年,我们将在农业、医疗、能源、材料和计算等领域开拓全新的行业和应用。尽管过去50年已经因为芯片编程能力而彻底改变,我们将进入下一个编程革命:生命软件时代。

Mar Gonzalez Franco微软研究院新体验与新技术部研究员

  • 2017年,虚拟现实领域将有哪些重大进展?

2017年,我们将看到拥有更好的人体追踪技术的虚拟现实设备出现。其积极的结果就是能够从第一人称的视角体验到虚拟化身。

  • 2027年,虚拟现实领域的重大进展或热门话题将是什么?

到2027年,虚拟现实系统将无处不在,并且能够提供丰富的多种感官的体验,从而产生融合或改变“感知现实”的幻觉。利用这一技术,人类将重新训练、调整并改进其感知系统。与目前只能刺激视觉和听觉感官的虚拟现实系统相比,未来虚拟现实的体验将扩展到其它感官——其中包括通过触觉设备而获得的触觉。

Mary L. Gray,微软新英格兰研究院资深研究员

  • 2017年,社会科学领域将有哪些重大进展和拐点?

社会科学家和计算机科学家将一起开发一套可绘制并能够衡量文化、经济和政治“过滤泡沫”的新方法——关于来自朋友的新闻和消息——并分析它们如何影响人们的日常“线下”生活。

  • 2027年,社会科学领域的重大进展、拐点或热门话题将是什么?

到2027年,美国近30%的成年人都将从事某些形式的兼职工作——提供人工智能驱动的商品和服务,例如纳税咨询或医疗支持。消费者可能知道、也可能不知道为其提供服务的何时是人机回圈(Human-in-the-loop)中的人类。社会科学将在技术开发和公众政策制定方面发挥重要作用,创造新的“便携式福利”社交安全网,从而满足21世纪人工智能驱动的劳动力的需求。

Katja Hofmann微软剑桥研究院研究员

  • 2017年,人工智能和机器学习领域将有哪些重大进展?

2017年,计算机游戏将在人工智能开发中唱主角。基于游戏的实验平台——例如我和我的团队开发的、可在游戏《我的世界》中进行人工智能实验的Project Malmo——将能够迅速测试新理念。我对人工智能的协作潜力尤为激动。我们目前才刚刚开始了解人工智能如何向人类学习并与我们协作,以帮助我们实现目标。

  • 2017年,人工智能和机器学习领域的重大进展或热门话题将是什么?

人工智能正在快速发展。它有极大的潜力,能够让人们变得更加强大,并帮助我们解决重大的全球性挑战。对我来说,最重要的话题就是如何确保这些进展和重大潜力在2027年之前转化为人工智能技术,从而最大程度造福社会。


Nicole Immorlica,微软新英格兰研究院资深研究员

  • 2017年,经济学和(或)博弈论中将有哪些重大进展?

随着人们在大数据时代面临日益复杂的决策,想要做出最佳选择将变得更加困难。面对这种复杂性,经济学家将开发关于潜在次优行为(sub-optimal behavior)的新理论;计算机科学家将开发出自动化机器学习工具,帮助人们在这些场景下做出正确决策。

  • 2027年,经济学和(或)博弈论领域的重大进展或热点话题将是什么?

到2027年,自动化将催生新的经济——大部分人的社会贡献来自于他们日常生活中所生成的数据,而不是他们所做的工作。经济学家将探讨能够针对这些贡献而对人们进行公平补偿的各种方案。最有可能的方式就是通过税收或社保项目等机制来进行更深入的财富再分配。

Kristin Lauter,微软雷德蒙研究院首席研究员

  • 2017年,数学和密码学领域将有哪些重大进展?

支持加密数据计算的新的数学解决方案将被开发、部署以保护患者和医院的医疗数据和基因组数据隐私。而新的同态加密方案(homomorphic encryption schemes)将在保护数据的同时支持云端的计算,以便做出有用的风险预测并提供分析和提醒。同态加密将很快被部署于金融领域,以保护敏感的银行数据。

  • 2027年,数学和密码学领域的重大进展或热门话题将是什么?

数学领域的重大进步将继续作为下一代密码系统的基础。到2027年,我们将拥有至少可以打破低强度传统加密系统的量子计算机。针对长期数据保护,根据最新提出的数学难题,第一波后量子加密系统(post-quantum cryptosystems)正在研发。而随着数学技能和算法的进步,未来10年,我们将看到第二波后量子加密解决方案对当前问题所提出的新建议和斧正

Kathryn S. McKinley微软雷德蒙研究院首席研究员

  • 2017年,编程语言和软件工程领域将有哪些重大进展?

在编程语言研究领域即将出现的最具革命性的转变就是概率编程(probabilistic programming),开发者将制作可预测现实世界并明确推理数据和计算中不确定性的模型。编程语言研究社区正在持续为这样的全新软件世界奠定基础,预计在2017年底将将会涌现出全新的、激动人心的应用。。

  • 2027年,编程语言和软件工程领域的重大进步或热门话题将是什么?

到2027年,绝大多数软件工程师都可以便捷地使用编程系统,该系统可通过统计的方法来预测并制作模型。这种翻天覆地的变化将提供可无缝集成传感器、机器学习和近似算法的应用,以便通过全新、有意义且正确的方式与人类进行交互。

Cecily Morrison,微软剑桥研究院研究员

视觉障碍人士将成为个人代理技术的大规模用户和受益者,而这也将帮助技术人员把此前被外界广为宣传的概念落地成为革命性的技术。

  • 2027年,人本计算和无障碍领域的重大进展和热门话题将是什么?

所有儿童,包括残障儿童,都将拥有合适的工具来学习编程。20年之后,这些残障儿童将带来他们对世界的独特体验,从而改变技术格局。

Olya Ohrimenko,微软剑桥研究院研究员

  • 2017年,安全与隐私领域将有哪些重大进展?

可信硬件将会激发新一类的应用和工具,并把其强大的安全性作为独特的特性来吸引用户和程序员。

  • 2027年,安全与隐私领域的重大进展或热门话题将是什么?

硬件和密码学领域的进展将把数据隐私提升到一个新的高度:医疗和管理分析、机器学习算法以及我们的日常在线活动中都将只使用加密形式的个人信息。

Oriana Riva,微软雷德蒙研究院首席研究员

  • 2017年,移动计算领域将有哪些重大进展?

2017年,系统将可以更多地进行自我重建,从而即使在没有图形用户界面的情况下也能支持交互。越来越少的用户在自己的设备上安装应用,更多应用将转为通过聊天机器人和个人数字助理提供的隐藏在屏幕背后的服务。

  • 2027年,移动计算领域的重大进展或热门话题将是什么?

到2027年,移动计算将与数字世界建立更加广泛的联系,连接我们周围的所有“物”。而我们与之互动的智能和个人系统,将可以真正理解我们、值得信任并且因为足够了解我们而能够预测和服务我们的需求。

Asta Roseway,微软雷德蒙研究院首席研究设计师

  • 2017年,生态、环境与设计领域将有哪些重大进展?

2017年,我们将看到围绕农业物联网的早期努力,其中包括无处不在的传感、计算机视觉功能和云存储的融合,以期最大程度利用机器学习和分析。这些服务,再加上设计,将让农业经营者能够从微观到宏观监测、分析、理解并诊断农作物的健康状况。

  • 2027年,生态、环境与设计领域的重大进展或热门话题将是什么?

农业经营者将充分利用人工智能来保持健康的收益——无论气候如何变化,是否出现干旱或天灾。在未来,食物将依赖于我们对地球关键资源的保护及利用能力的改进,并通过改进传统耕种方式为可替代的低能耗耕种方式(例如垂直耕种和鱼菜共生)以降低土壤的过度耕种。环境与生态的重点将是利用先进的传感器和技术保护我们的森林,同时充分利用城市空间来满足的农业需求。

Karin Strauss,微软雷德蒙研究院资深研究员

  • 2017年,硬件与设备领域将有哪些重大进展?

摩尔定律已经放缓。由于成本过高,所以无法以与之前相同的速度扩展通用硅处理器以及电容式内存。因此,2017年,我们将看到一系列新的定制硬件加速器——大部分基于FPGA结构——在云中普及,以便提高性能并降低成本,而不再单纯依赖摩尔定律。当然,通用处理器将继续改进,只是速度放缓一些。最终将实现由云支持的更有吸引力、响应能力更强、更安全的服务。我们还将看到更多便宜或昂贵的虚拟现实和增强现实设备及配件面市。 这将催生一系列新应用在这些平台上进行试验,而虚拟和增强现实的内容创建(包括360度视频录制和类似设备)也将获得有趣的发展。         

  • 2027年,硬件与设备领域的重大进展或热门话题将是什么?

从现在起到2027年,我们将见证一系列违背常规芯片扩展规律的新技术取得成果。届时,碳纳米管和其它分子级制造技术、近数据处理(near data processing)等新架构,以及量子计算机和DNA存储驱动器等新的计算和存储模式将可能实现商用。低功耗人工智能和近眼显示器等技术也将得到显著改进,从而实现更加智能的设备以及质量更高的增强和虚拟现实体验。



 

研究|对偶学习:一种新的机器学习范式

$
0
0

秦涛

作者简介

秦涛博士,现任微软亚洲研究院主管研究员。他和他的小组的研究领域是机器学习和人工智能,研究重点是深度学习和强化学习的算法设计、理论分析及在实际问题中的应用。他在国际顶级会议和期刊上发表学术论文80余篇,曾任SIGIR、ACML、AAMAS领域主席,担任多个国际学术大会程序委员会成员,包括ICML、NIPS、KDD、IJCAI、AAAI、WSDM、EC、SIGIR、AAMAS、WINE,曾任多个国际学术研讨会联合主席。他是IEEE、ACM会员,中国科学技术大学兼职教授和博士生导师。


问题:如何降低对大规模标注数据的依赖性

近年来,以深度学习为代表的人工智能技术取得了长足的进步,在很多应用取得了巨大的成功。在图像识别中,深度学习已经超过了人类的水平,最近微软刚刚宣布在语音识别中也超过了人类的平均水平,在机器翻译中基于深度学习的模型也超过了以前的统计机器翻译,另外基于深度学习的阿法狗也打败了围棋世界冠军李世石。

深度学习之所以能够取得巨大的成功,一个非常重要的因素就是大数据,特别是大规模的带标签的数据。例如在图像识别中,深度神经网络使用上百万的带标签的图像进行训练,在机器翻译中我们会用上千万的双语句对进行训练,在围棋中我们会用上千万的专业棋手的落子进行训练……这种做法有两个局限性。首先,人工标注获取标签的代价很高。例如我们考虑机器翻译这个任务:现在市场人工翻译一个单词的价格差不多是5到10美分,如果一个句子的平均长度为三十个单词,那么1000万个句子人工翻译的代价差不多是7.5美分×30×1000万,约等于2200万美元。现在一个商业公司的翻译引擎通常支持上百种语言的相互翻译,为了训练这样规模的翻译模型,人工标注的代价就会达到上千亿美元。其次,在很多任务中,我们没办法收集到大规模的标注数据,例如在医疗中或在小语种的相互翻译。为了使深度学习能够取得更广泛的成功,我们需要降低其对大规模标注数据的依赖性。为了解决这个问题,我们提出了一种新的学习范式,我们把它称作对偶学习。 


另辟蹊径,将未标注数据用起来

我们注意到,很多人工智能的应用涉及两个互为对偶的任务,例如机器翻译中从中文到英文翻译和从英文到中文的翻译互为对偶、语音处理中语音识别和语音合成互为对偶、图像理解中基于图像生成文本和基于文本生成图像互为对偶、问答系统中回答问题和生成问题互为对偶,以及在搜索引擎中给检索词查找相关的网页和给网页生成关键词互为对偶。这些互为对偶的人工智能任务可以形成一个闭环,使从没有标注的数据中进行学习成为可能。

对偶学习的最关键一点在于,给定一个原始任务模型,其对偶任务的模型可以给其提供反馈;同样的,给定一个对偶任务的模型,其原始任务的模型也可以给该对偶任务的模型提供反馈;从而这两个互为对偶的任务可以相互提供反馈,相互学习、相互提高。

下面我们还是以机器翻译为例子来说明对偶学习的基本思想。

考虑一个对偶翻译游戏,里面有两个玩家小明和爱丽丝,如下图所示。小明只能讲中文,爱丽丝只会讲英文,他们两个人一起希望能够提高英文到中文的翻译模型f和中文到英文的翻译模型g。给定一个英文的句子x,爱丽丝首先通过f把这个句子翻译成中文句子y1,然后把这个中文的句子发给小明。因为没有标注,所以小明不知道正确的翻译是什么,但是小明可以知道,这个中文的句子是不是语法正确、符不符合中文的语言模型,这些信息都能帮助小明大概判断翻译模型f是不是做的好。然后小明再把这个中文的句子y1通过翻译模型g翻译成一个新的英文句子x1,并发给爱丽丝。通过比较x和x1是不是相似,爱丽丝就能够知道翻译模型f和g是不是做得好,尽管x只是一个没有标注的句子。因此,通过这样一个对偶游戏的过程,我们能够从没有标注的数据上获得反馈,从而知道如何提高机器学习模型。


实际上这个对偶游戏和强化学习的过程比较类似。在强化学习中,我们希望提高我们的策略以最大化长远的回报,但是没有标注的样本告诉我们在某个状态x哪个动作y是正确的。我们只有通过使用这个策略在不同的状态下执行不同的动作,观测该动作带来的回报,从而改善我们的策略。在以上这个翻译对偶游戏中,两个翻译模型就是我们的策略,因为没有标注的双语句对,所以我们不能直接改善它们。这个对偶游戏把一个没有标注的句子x,先翻译成另外一种语言的句子y1,再翻译回来为x1,这里x就是强化学习中的状态,y1和x1就是我们的策略所执行的动作,x和x1的相似度就是我们获得的回报。

我们可以用已有的强化学习的算法来训练我们这两个翻译模型,比如策略梯度方法。策略梯度方法的基本思想非常简单:如果我们在执行某个动作之后,观测到了一个很大的回报,我们就通过调整策略(在当前策略函数的参数上加上它的梯度)来增加这个状态下执行这个动作的概率;相反,如果我们在执行某个动作之后,观测到了一个很小的回报,甚至是负的回报,那么我们就需要调整策略(在当前策略函数的参数上减去它的梯度),以降低在这个状态下执行这个动作的概率。


实测与展望

我们在一个英语-法语翻译的公共数据集上测试了对偶学习的有效性,并和当前最好的算法(NMT,基于深度神经网络算法)进行了对比。这个数据集的训练集有1200万个英法的双语句对,NMT用了所有的1200万个双语句对训练模型。我们的对偶算法只用了不到10%的双语句对初始化两个翻译模型f和g,再用没有标注的英法语句进行训练。如下图所示,我们的对偶学习算法只用10%的标注数据就达到了和NMT用上所有标注数据而取得的相似的甚至更好的翻译准确度,也就是说我们可以把数据标注的代价从2000万美元降到200万美元左右。这个结果说明了我们提出的对偶学习方法能够非常有效地利用未标注的数据。

对偶学习的基本思想是两个对偶的任务能形成一个闭环反馈系统,使我们得以从未标注的数据上获得反馈信息,进而利用该反馈信息提高对偶任务中的两个机器学习模型。该思想具有普适性,可以扩展到多个相关任务上面,前提是只要它们能形成一个闭环反馈系统。例如,从中文翻译到英文,然后从英文翻译到日文,再从日文翻译到中文。另外一个例子是从图片转化成文字,然后从文字转成语音,再从语音转化成图片。

对偶学习(dual learning)和已有的学习范式有很大的不同。首先,监督学习(supervised learning)只能从标注的数据进行学习,只涉及一个学习任务;而对偶学习涉及至少两个学习任务,可以从未标注的数据进行学习。其次,半监督学习(semi-supervised learning)尽管可以对未标注的样本生成伪标签,但无法知道这些伪标签的好坏,而对偶学习通过对偶游戏生成的反馈(例如对偶翻译中x和x1的相似性)能知道中间过程产生的伪标签(y1)的好坏,因而可以更有效地利用未标注的数据。我们甚至可以说,对偶学习在某种程度上是把未标注的数据当作带标签的数据来使用。第三,对偶学习和多任务学习(multi-task learning)也不相同。尽管多任务学习也是同时学习多个任务共的模型,但这些任务必须共享相同的输入空间,而对偶学习对输入空间没有要求,只要这些任务能形成一个闭环系统即可。第四,对偶学习和迁移学习(transfer learning)也很不一样。迁移学习用一个或多个相关的任务来辅助主要任务的学习,而在对偶学习中,多个任务是相互帮助、相互提高,并没有主次之分。因此,对偶学习是一个全新的学习范式,我们预计其会对机器学习领域产生很大的影响,特别是考虑到以下两个点。

第一,  很多深度学习的研究人员认为人工智能和深度学习的下一个突破是从未标注的数据进行学习。由于未标注的数据没有标签信息,无监督学习主要聚焦在聚类、降维等问题,因此,如何从未标注的数据进行端到端的学习(把数据映射到标签,如分类、预测等任务)一直没有很好方法。我们提出的对偶学习提供了一个利用未标注数据进行端到端学习的有效方式。

第二,  近年来强化学习取得了很大的成功,吸引了众多的研究人员和工业界人员的关注。但是到目前为止,强化学习的成功主要是在各种游戏上,因为在游戏中规则定义得非常清楚,并且很容易通过玩大量的游戏获取回报信息(例如Atari游戏中每一步的得分,围棋中最后的输赢),从而改善游戏策略。然而在游戏以外的实际应用中并没有规范定义的规则,也很难获得回报信息(或者获取的代价很高),因而强化学习在复杂的实际应用中的成功还是比较有限。而对偶学习提供了一种为强化学习获取奖励信息的方式,并证实了强化学习在复杂应用(如翻译)中成功的可能。

更多详细信息可参见我们NIPS 2016 论文。Di He, Yingce Xia, Tao Qin, Liwei Wang, Nenghai Yu, Tie-Yan Liu, and Wei-Ying Ma, Dual Learning for Machine Translation, NIPS 2016. (https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation )




 

微软亚洲研究院首席研究员周明博士当选国际计算语言学协会主席

$
0
0

2016年12月7日 ——全球计算语言学和自然语言处理研究领域最具影响力的学术组织——计算语言学协会(ACL, Association for Computational Linguistics)日前宣布,微软亚洲研究院首席研究员周明博士当选为新一届计算语言学协会(ACL)候任主席。根据计算语言学协会的相关规定,候任主席一职由全体协会会员投票产生。候任主席逐年履行候任副主席、副主席职责,然后自动晋升为主席,随后为前任主席,并通过这一系列职责参与ACL各重大决策。


周明

周明博士现任微软亚洲研究院首席研究员,同时担任中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、以及中国中文信息学会常务理事,并且在哈尔滨工业大学、天津大学、南开大学、山东大学等多所院校兼任博士导师。他是中国第一个中英翻译系统CEMT-I(1989年于哈尔滨工业大学)、日本最著名的中日机器翻译产品J-北京(1998年于日本高电社)的研制者。多年来,周明博士在顶级学术会议及期刊上发表了100多篇论文(其中包括45篇以上的ACL论文),拥有40余项国际发明专利,并多次获得全球范围内的科研创新奖。他通过微软与中国及亚太地区的高校和学术团体在学术研究和人才培养等多方面紧密合作,对推动计算语言学和自然语言处理领域的研究在区域内的发展做出了杰出贡献。


1999年,周明博士从清华大学加入微软亚洲研究院任研究员,主要负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士带领研究团队与微软产品部门合作开发了已拥有4000万用户的 “微软小冰” 和Rinna(面向日本市场)等聊天机器人系统。


对于当选ACL主席,周明博士表示:“我十分荣幸当选为新一届ACL候任主席。这次当选体现了国际计算语言学和自然语言处理研究领域对中国最近二十年来在相关科研领域所取得的惊人进步和卓越成就的认可。此外,中国与美国、日本等国家之间的广泛合作,大大推动了亚太地区迈向计算语言学和自然语言处理领域学术研究的最前沿。”


面向未来,周明博士表示,他将认真履行主席职责,在任期内,积极推动自然语言处理研究的多样化创新,促进不同国家和地区之间的学术交流与合作,进一步推动本领域的人才培养和技术发展。


周明博士介绍

周明,微软亚洲研究院首席研究员、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事,哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。1999年加入微软亚洲研究院,不久开始负责自然语言研究组。他的团队研制了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等著名系统,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来他领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Tay(美国)等聊天机器人系统。周明博士发表了100余篇重要会议和期刊论文(包括45篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校和学术团体在学术研究和人才培养等多方面紧密合作,对推动计算语言学和自然语言处理的研究在区域内的发展做出了杰出贡献。


关于微软亚洲研究院

微软亚洲研究院是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个。微软亚洲研究院从事自然用户界面、新一代多媒体、以数字为中心的计算、互联网搜索与在线广告、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。微软亚洲研究院鼓励以实践驱动的研究,与微软产品部门紧密合作,众多创新技术转移到了微软的核心产品中,如Office、Windows、Bing、Xbox、Kinect、Azure、Windows Phone、Cortana、微软小冰等。


关于计算语言学协会(ACL)

成立于1962年的计算语言学协会(ACL)是全球范围内,在计算语言学(Computational Linguistics)和自然语言处理(Natural Language Processing)领域中首屈一指的科学研究和专业技术社团。近年来,在深度学习、大数据等技术的促进下,计算语言学研究取得了快速的普及、成长与应用,如机器翻译(MT)、问答对话系统(QnA)、聊天机器人(Chatbot)等技术机器广泛应用,为人工智能(AI)理论、技术、应用和市场,创造了无限可能。计算语言学协会(ACL)长期致力于推动自然语言理解理论、技术和方法的进步,增进国际间的学术合作,培养年轻一代优秀人才。所组织的每年一度的ACL学术大会为计算语言学和自然语言处理最重要的会议。



 

NIPS 2016:普及机器学习

$
0
0

​左起:微软研究员Robert Schapire,John Langford,Alekh Agarwal,Siddhartha Sen,Jennifer Wortman Vaughan。 摄影:John Brecher


当Robert Schapire在30年前作为研究生开始攻读理论机器学习,该领域是如此模糊,以至于现在已经跻身国际一流研讨会的NIPS,在当时只是一个小规模工作坊,连研究生都长期被排除在外。


今天,虽然机器学习仍然算不上家喻户晓的热门话题,但它已经成为计算机科学最热门的领域之一,把曾经身份模糊的学术聚会,例如正在西班牙巴塞罗那举办的神经信息处理系统年会——NIPS 2016),变成一票难求、数千名来自顶级公司和学术机构的计算机科学家争相出席的行业盛会。


微软纽约研究院首席研究员Schapire表示:“在我的有生之年看到该领域的长足发展,看到许多事情由不可能变为可能,这简直太了不起了。”Schapire的机器学习研究在该领域被广泛采用。


本周一拉开帷幕的NIPS大会之所以备受瞩目,是因为机器学习已迅速成为开发消费者和企业所需、所想、所爱的技术的不可或缺的一个工具。以机器学习为基础的技术可以做:实时语音翻译(如Skype Translator)、帮助医生读取医疗影像,甚至还能识别人的面部情绪。机器学习还能帮助你把垃圾邮件从收件箱中清除出去并提醒你完成每天的任务。


著名AI研究员——Robert Schapire。摄影:John Brecher

​​

这与Schapire早年求学时代相比大相径庭。Schapire还记得,当时类似让计算机准确读取手写数字的任务已经算是难题。Schapire表示:“从最基本的问题入手,我们一点一点从头创建这个领域 。目前机器学习已经适用于大量问题了。这确实让人惊喜。”


研究人员表示,一路走来,该领域得益于那些梦想能够获得重大突破,从而让现实世界受益的人们,例如:开发像人类一样准确地识别对话中的单词的技术。微软纽约研究院的研究员Alekh Agarwal表示:“不知道为什么,机器学习领域一直非常幸运,我们拥有杰出的理论学家,他们对事物有非常实际的观点。”


​普及机器学习

Schapire、Agarwal Agarwal、他们在微软纽约研究院的同事们以及世界各地的同行均认为,这只是开始。通过他们在NIPS以及其它场合展示的研究成果,他们正在研究用各种方式让机器学习能够被更多人所用、变得更加平易近人。


微软研究员表示,他们正站在普及机器学习的最前沿,要让没有机器学习背景的开发者和工程师都能更轻松地充分利用这些技术新突破。他们正努力寻求各种方式与大众分享这些系统的好处。


微软纽约研究院首席研究员John Langford表示:“机器学习历来是这样一个领域:如果你没有博士学位,你可能完全没头绪,然而即使你有了博士学位,你可能仍然毫无头绪。我们正在努力让那些没有太多机器学习专业知识的程序员也能充分利用这些技术。”


John Langford正在为普及机器学习而努力。摄影:John Brecher

​​机器学习之所以有用,一部分原因在于它能帮助人们对几乎任何事进行预测,从为某个任务需要部署多少台服务器到推测人们可能想要阅读哪些新闻报道无所不包。Langford最近的一个项目就是,创建能够通过应用强化学习和结构化学习而系统性消除常见数据错误的系统,进而降低多项预测的难度。


借助强化学习,研究人员希望让系统通过试错来找到完成任务的方法。例如,一个程序可能通过一遍又一遍的自我对弈学到如何在西洋双陆棋中取胜,在许多次对弈过程中分辨出有效和无效的招数。在做这些决策的过程中,该系统几乎不会获得外部指导。相反,它在初始阶段做出的决策会影响它今后如何取得成功。


强化学习对应的是监督学习,监督学习是指系统由于接收更多相关数据而得以将事情做得更好。例如,一个监督学习工具可以通过浏览一个包含大量不同面孔的训练集而学会识别照片中的面孔。


协助决策

在Langford研究的最新的强化学习方案中,该系统还能因选出部分正确的行为而得到加分,这使筛选出正确答案的过程变得更轻松。微软研究人员表示,决策服务是一个激动人心的突破,因为它能够利用上下文信息而帮助系统做出决策。


微软纽约研究院的研究员Siddhartha Sen表示:“当你做决定时,你通常已经大概知道这有多明智。现在我们有机会利用机器学习来优化这些决策。”


研究人员表示:预览版中提供的基于云的系统之所以是开创性的,部分原因是它能够应用于许多不同的情况。


例如,它可以用于想要个性化内容推荐的新闻通讯社,以及想要个性化健身活动的移动健康应用程序,或者希望优化服务器资源的云提供商。


Sen表示,测试服务的一个关键目标就是让那些可能无法自己创建这类机器学习技能的人们能够轻松方便地使用机器学习技术。


Sen表示:“普及机器学习的方式就是让它可以非常轻松地与系统对接。”Sen将在NIPS大会上主持一个题为机器学习与系统设计交集的工作坊。“我们试着隐藏所有困难的步骤。”


微软多年来一直在为诸如决策服务这样的系统开发构建块。一直致力于该领域的研究、在微软纽约研究院进行博士后研究工作的Sarah Bird表示,该系统目前的能力甚至在几年前都是无法实现的。


Sarah Bird

​​

Bird现在是微软Azure部门的技术顾问,她表示,这样的系统之所以快速发展,是因为机器学习所需的所有元素——云的计算能力、算法和数据——同时都在迅速发展。


她说:“看到我们所需的所有组件同时迈向成熟确实令人惊喜。无论对于消费者、开发者还是研究者来说,这都是个美好时代。”


快节奏变化

许多研究人员表示,强化学习有很远大的前景,因为它能够用来创建可做出足以增强和辅助人类能力的独立和复杂决策的人工智能系统,以增强和弥补人类自身的能力。


研究人员提醒,他们仍然处于寻找强化学习成功之路的早期阶段,但是他们表示到目前为止看到的状况非常有前景。


微软剑桥研究院研究员Katja Hofmann表示:“关于究竟能达成什么目标的感觉是在不断变化的,这恰是最让我感到激动之处。” Hofmann领导了Project Malmo,该项目将利用游戏《我的世界》作为一个强化学习的测试场,其成果也将在NIPS上展示。


最近,Hofmann与同事一起研究让人工智能代理做多项任务而不是一项任务的方式,同时把它们完成一个任务的经验运用于另一项任务。例如,运行在《我的世界》某个空间的人工智能系统可以学会识别熔岩,然后利用这一知识在另一个空间躲避其它熔岩。这一研究的部分成果也在欧洲强化学习研讨会(European Workshop on Reinforcement Learning)上展示,这一会议与NIPS同在西班牙举行。


机器学习新范式

除了上文提到的这些已有的机器学习范式之外,来自微软亚洲研究院的研究员还积极探索了其他的可能性。例如在Dual Learning for Machine Translation这篇论文中,研究员提出了一种新的机器学习范式:对偶学习。


对偶学习的基本思想是两个对偶的任务能形成一个闭环反馈系统,使我们得以从未标注的数据上获得反馈信息,进而利用该反馈信息提高对偶任务中的两个机器学习模型。该思想具有普适性,可以扩展到多个相关任务上面,前提是只要它们能形成一个闭环反馈系统。具体内容可见《研究|对偶学习:一种新的机器学习范式》。


了解更多微软出席NIPS的信息, 请复制链接在浏览器中打开(https://www.microsoft.com/en-us/research/event/nips-2016-microsoft-research/) ​


 

Alberto Del Bimbo:为什么说研究员要有想象力?

$
0
0

说到科研,与日本式的“工匠”精神和美国式的“创新”思维相比,欧洲式的做法有怎样一些特点,是否依然沿袭中世纪欧洲文艺复兴时期的自由浪漫风格?尤其是,当科技日新月异、速度超过以往任何一个时期,身处欧洲的科学家又有怎样的思考,他们的经历和思考可能对我们有什么启示?


带着这些问题,我们在出席今年ACM Multimedia 2016期间,访问了任教于意大利佛罗伦萨大学工程学院的Alberto Del Bimbo教授,他刚刚获得2016年度杰出贡献奖(ACM SIGMM award for Outstanding Technical Contributions)。


佛罗伦萨(Firenze),徐志摩笔下的“翡冷翠”,是世界著名的艺术文化之都。Alberto Del Bimbo教授就出生在这里,并于佛罗伦萨大学任教至今近30年,也是意大利国家级的多媒体集成与传播中心研究中心的创办者。


作为多媒体图像视频检索研究方向的先驱之一,Alberto Del Bimbo教授的工作影响了许多代的研究,他今年还被ACM多媒体兴趣组(ACM SIGMM)授予象征终身成就奖的Technical Achievement Award,以表彰他在多媒体领域的卓越贡献。


Alberto Del Bimbo教授详情可见:https://www.micc.unifi.it/delbimbo/。本文想要探讨的,是在这些职位与荣誉背后,他如何将梦想与现实结合,为什么他会认为想象力是科研人员应该具备的一项重要本事。


源自本心 (Imagine from your own expectation)

如果你也认为,意大利人热爱艺术并愿意把创意和想象力发挥到极致,强调生活的诗意品质,那么Alberto Del Bimbo教授给你的第一印象,尤其是他对科研的态度,就是一个典型的意大利人,不拘泥传统、追求自由与高品质,批量生产的产品跟水准平平的论文一样不会让他动心。


事实上,在他看来,作为一名科研人员,在寻找新的研究方向时,首先需要具备想象的能力。这不是我们第一次听科学家提到想象力的重要性,我们更在意说这话的科学家如何回答以下问题:怎样获得想象力,想象力究竟从何而来?


Alberto Del Bimbo教授回答,想象力来自生活,应该从自身出发,试着想象自己在生活中需要什么样的工具或者说技能,一个好的研究问题正是源于这些你自己想象出来的需求与愿望。


他是说到做到。比如,作为艺术之国意大利的国民,他也为本国文化和历史感到自豪,因此特别希望能将意大利博物馆的馆藏珍品更好地展示给全世界观众。但这并不仅仅只是一个梦想,恰恰相反,他在这一梦想驱使下,作为多媒体技术领域的先驱和带头人,与自己的团队从2012年开始就展开了关于文化遗产新媒体技术的研究。在今年ACM Multimedia会议上,他们团队展示了一个关于提升博物馆参观体验的演示(参见文章Real-time Wearable Computer Vision System for Improved Museum Experience),这是他们来自社交博物馆和智能旅行项目的一个工作,目的是在可穿戴传感器的环境下,通过对可穿戴传感器采集数据的内容分析,实时地对用户正在关注的艺术品进行定位、追踪和识别,为用户提供更丰富的艺术品信息来提升用户的参观体验。


培养自己的交流之道(Develop the way you show up

意大利地处南欧半岛,终年阳光充足,这孕育了意大利人开朗、乐观、热情的性格特点,而意大利人也将与人交往看作生活的重要组成部分。以至于在聊到如何成为一名优秀的研究员时,Alberto del Bimbo教授说,他判断一名研究员的优劣,一个重要标准就在于面对面交流时的表现,但在实践里这一能力往往被许多研究员忽视。


作为研究员,他认为,拥有丰富的专业知识是必要条件,但这并不足够,只有在实际交流中才能展现自己、才有机会被对方感受你是否聪明、出色和积极进取,这些实际表现比写在简历上的分数和经验更重要——他自己就是这样做的,比如我们在访问期间就观察到,在交谈中他会特意放慢语速,遇到要强调的几个关键点还会调整语调并辅以手势,这都是在交流中提醒对方注意的重要方式,也体现了他的丰富人际交流经验。


找到梦想和现实的平衡 (Dream makes you fly, but industry helps you to stand on the earth)

在进入学术圈之前,Alberto Del Bimbo教授先后在米兰、佛罗伦萨这两个城市的工业界待了10年。关于工业界与学术圈,他是这样看的:首先,他喜欢做研究,这能给自己一定的自由度,充分发挥想象力来追逐梦想。即使是在工业界的时候,他也没完全脱离学术界,而是利用周末继续做自己喜欢的研究。


其次,梦想与现实往往是有距离的,他在工业界的从业经验就是那根拉住他回到现实的绳子,而工业界也有机会让他积累管理经验,这对一个研究者迈向成熟十分重要。


Alberto Del Bimbo教授目前在佛罗伦萨大学管理一个大型研究组,同时担任国际顶尖学术期刊ACM Transactions on Multimedia Computing, Communications and Applications的主编,这都需要他在协调和管理各项事务时拿出强大的执行力和管理能力。如果没有此前在工业界的历练,他也很难成为一名出色的研究者而同时具有优秀管理者的技能,从而得以带领团队脚踏实地继续追求梦想。


了解与丰富你的想象力 (Learn and feed your imagination)

最后Alberto Del Bimbo教授还给年轻一代研究人员提出了建议,希望研究人员能重视提高自身的想象力。他认为,我们所在的数字技术行业允许人们想象一些现实中不存在的技术,但我们先得去想象,然后才有可能把它们变成现实。现实生活的经验和经历固然可能产生一些实际问题,但这些问题可以用一些简洁巧妙的方法来解决。只有当人有想象力,才有机会找到更巧妙的解决方法。


——回想伟大的科学家爱因斯坦在1931年写道,“想象力比知识更重要,因为知识是有限的,而想象力覆盖全球方方面面,能推动进步、催生革新,严格说来正是科研的一个真正因素”,Alberto Del Bimbo教授这番访谈可以视为爱因斯坦名言在八十五年后的回声,值得我们深思。


​作者介绍


甘甜 山东大学助理教授 gantian.sdu@gmail.com

梅涛 微软亚洲研究院资深研究员



 

深度神经网络中深度究竟带来了什么?

$
0
0

深度神经网络中深度究竟带来了什么?

作者:赵黎明  

导师:微软亚洲研究院主管研究员 王井东

作者简介

赵黎明

​ 微软亚洲研究院网络多媒体(IM)组的一名实习生,现在就读于浙江大学的计算机科学与技术学院。在微软实习的半年多,跟随王井东研究员从事了深度神经网络的研究及其在计算机视觉领域的应用。


缘起

人工智能近几年实现了爆炸式发展,深度学习可以说是其主要的推动力。笔者对于能来微软实习并从事深度学习方面的研究感到十分荣幸,因为微软研究院在该领域一直处于领先的地位,其优秀的人才配备和强大的计算资源都非常适合做这方面的研究。


在计算机视觉领域,大部分的问题都已经开始使用深度神经网络进行解决,也确实取得了广泛的成功。在很多视觉任务中,如图像识别、语义分割、目标检测与跟踪、图像检索等,作为提取特征的CNN网络模型往往起到了关键的作用。我们经常见到最新的方法将基础网络换一下,性能就会得到很大的提升。因此,研究并设计一个更好的网络模型变得至关重要。


基础网络模型的结构样例


最新研究进展

经典的神经网络模型主要在“宽度”与“深度”方面进行不同程度的扩增。借助于大规模数据的训练,AlexNet、VGG-16、VGG-19等经典网络通过宽度或深度增加的参数可以有效地提升其模型的表达能力。但当网络变得越来越深,其训练难度也随之相应增加,反而会导致性能的下降。最近的ResNet和Highway Networks等方法通过引入Skip跳跃结构来试图解决极深网络在优化上带来的问题。


ResNet和Highway Networks结构的简单示意图

最新的一些研究尝试从其他角度来解释Highway、ResNet和GoogLeNet等网络结构表现优异的原因。其中我在微软实习的导师王井东研究员、实习生魏祯和张婷以及曾文君研究员提出Deep Fusion (Jingdong Wang, Zhen Wei, Ting Zhang, Wenjun Zeng: Deeply-Fused Nets. CoRR abs/1605.07716 (2016))深度融合的概念,认为不同分支的网络在中间层进行融合(加和或拼接等方式)能够(1)产生很多潜在的共享参数的基础网络,(2)同时优化信息的流动,(3)从而帮助深层网络的训练过程。


Deep Fusion深度融合最简单形式的概念示意图

我们可以发现很多有代表性的网络结构基本都可以按照深度融合的概念进行理解。除去LeNet、AlexNet、VGGNet等单分支网络,近两年提出的ResNet、Highway Networks、GoogLeNet系列等网络均可以看作是不同程度上的深度融合网络。在这个概念下,我们发现今年新的Inception-v4、FractalNet、DenseNet、ResNeXt以及我们新提出的Merge-and-Run等网络结构在融合方式上进行了更多的设计和探索,使得中间的融合次数和分支数目更多,从而得到更多的基础网络和更优的信息流动,最终取得更好的性能表现。


近期一些深度神经网络模型的基本结构示意图

康奈尔大学的Serge Belongie团队也有类似的观察与发现,他们解释ResNet其实是众多相对较浅的潜在网络的一个集成。在模型的测试阶段发现将网络中的一些模块去掉,剩下的网络模型依然具有不错的表现。


将ResNet中的某些模块移除的实验示意图


最近提出的一些新的深度神经网络方法也从侧面印证了这方面的研究,如ResNet with Stochastic Depth、FractalNet和Swapout等使用Drop-path的方法与上述移除Residual模块的研究有着异曲同工之妙。ResNet of ResNet、ResNeXt、Multi-Residual Networks和DenseNet等增加分支或路径数目的方法均得到了性能上的提升,从某种程度上验证了增加基础网络数目对整体网络模型的影响。


我们的工作

我们沿着deep fusion的思路更进一步地研究了类似ResNet、Highway、Inception等结构的深度融合网络,探索了“深度”在神经网络当中究竟带来了什么。基于研究观察与分析,我们又提出了一个新的网络模型,在不同数据集上均取得了不错的表现。


Liming Zhao, Jingdong Wang, Xi Li, Zhuowen Tu, and Wenjun Zeng. "On the Connection of Deep Fusion to Ensembling." arXiv preprint arXiv:1611.07718 (2016).


一、深度融合网络剖析

首先我们从网络结构和实验分析上展示这种多分支融合的网络跟多个潜在网络集成的关系。


多分支融合的网络与集成网络的结构类似

通过上图可以发现多分支融合的网络形式可以近似很多潜在网络的集成过程,区别是没有中间的信息交互,只是他们共享对应层的网络参数。通过10组不同深度的网络结构实验发现,这样一个共享参数的集成网络与带信息交互的深度融合网络性能表现很相似。

深度融合网络与集成网络的表现类似


二、深度带来更多组成网络

下一步就可以利用集成学习中的一些思路来指导我们对该类型的深度融合网络进行剖析。首先是研究其潜在的基础网络数目,很明显上面图中融合3次的网络能够组合8个基础网络,即2^3个。那么我们可以发现增加融合次数可以提升基础网络的组合数目。那么像ResNet、Highway、Inception等形式的网络,增加“深度”带来的一个影响就是增加了其潜在基础网络的组合数目(Ensemble Size)。


不同融合次数会得到不同数目的组合网络(路径)

我们也通过实验在不同深度的网络结构上验证了:增加组合数目能像传统Ensemble理论中增加Ensemble Size一样提升整体性能。

较多的组合网络数目能够取得更好的结果

我们也通过实验在不同深度的网络结构上验证了增加组合网络数目能够提升整体性能,这也与传统Ensemble理论中增加Ensemble Size能提升性能的结论相吻合。我们可以看到ResNet在增加深度的同时,极大地增加了组合数目,这也是其性能优异的原因之一。


三、深度影响整体性能

我们继续研究每一个基础组合网络,并且探索在深度融合的过程中其相互之间会产生怎样的影响。对比每个网络单独分开训练得到的模型,我们发现,深度融合网络里较深的组合网络性能得到了提升,但较浅的组合网络性能反而下降了。我们猜想在训练过程中,由于浅层的网络容易收敛,它们能够帮助深层的网络进行优化。但深度融合网络的各个潜在的组成网络是共享参数的,极深的网络可能会影响较浅网络的求解空间与难度,从而产生相互影响性能往中间靠拢的现象。


每一个单独的组成网络行为分析

既然我们认为最终的表现是一种集成的近似,那么我们是否可以着手寻找更优的组合网络以达到整体性能的提升?通过上述组合网络之间相互影响的启发,我们认为极深的网络会产生“拖后腿”的效果,反而较深但又不是特别深的“中间”网络会对结果影响比较大。上图的实验结果也验证了我们的这个想法:(a)显示了每个组成网络由于共享参数导致的性能变化;(b)显示了每个组成网络对整体网络(ensemble)的相对贡献程度。


我们依然需要浅层网络来帮助训练较深网络,而且实际设计神经网络的时候很难做到只保留中间深度的网络结构。那么一个折中的方案是把这里面最深的组成网络去掉,这样看看对结果会产生什么影响。


去除最深的组成网络(重新训练或只是测试时候去除)

上图三个方法的实验结果表明,去除极深的组成网络不会对整体性能产生太大影响,有时候反而会提高最终结果。


去除极深的组成网络不会影响太大,大部分情况下反而会提升性能


四,提出新的方法

基于上述观察,我们认为一个好的网络结构应该包含如下两个特性:足够多的潜在网络数目,以及足够好的组成网络。最简单的策略是去掉“拖后腿”的极深网络,将其变成“中间”深的组成网络。下面是我们提出的方法:


基于ResNet的形式,我们提出新的网络结构(b)和(c)


基于ResNet的形式,我们提出的Inception-Like结构与Merge-and-Run结构都去除了极深的那一条线路,但是Inception-Like的组合数目比相同参数下的ResNet要少,因此我们认为Merge-and-Run形式比较符合我们的分析与观察。最终的实验结果也确实验证了这一想法,而且跟上面的实验观察相吻合:Inception-Like没有极深网络的影响,更加容易训练或收敛,比ResNet会稍好一点,与上述的Ensemble-7与Ensemble-8的实验结果相似。Merge-and-Run结构比Inception-Like的潜在网络数目多,最终结果也是比Inception-Like的表现要好。


ResNet, Inception-Like和Merge-and-Run在不同数据集上的对比


在ImageNet结果上也验证了我们前面的论述 (我们的方法用DFN-MR表示):


我们提出的DFN-MR与ResNet在ImageNet数据集上的对比


五、总结

目前一个研究热点是在深度神经网络中引入一个新的维度:潜在的组成网络数目(Ensemble Size)。可以发现像ResNet、Highway、Inception等网络增加“深度”的同时,实际增加了这个网络数目。此外,我们的工作发现极深网络除了能增加潜在网络数目外,对整体性能的贡献并不是最大的。反而会影响其它的组成网络,导致最终的结果受到影响。我们按照“不减少组成网络数目”和“避免极深组成网络”这两个原则,设计出新的网络结构,发现在不同数据集上总是表现优异。后续工作可以围绕当前分析的内容,最优化提出的设计指标与原则,得到更容易训练性能更好的网络模型。


后记:

个人感觉深度学习方法有时候对工程技术要求较高,往往方法不work的原因不是idea的问题,而是实现层面上对于细节的处理有差异,这也对我们学生在科研道路的前进造成了很大的困难。


为了方便大家在该领域的研究,我们将提出的模型和该论文实验中用到代码完全开源,目前维护在GitHub上,项目地址为: https://github.com/zlmzju/fusenet;


希望我们的工作能给大家在Deep Learning的研究上带来一些新的思考和帮助,期待更多更深入的探索和研究工作。





 

深度神经网络中深度究竟带来了什么?

$
0
0

深度神经网络中深度究竟带来了什么?

作者:赵黎明  

导师:微软亚洲研究院主管研究员 王井东

作者简介

赵黎明

​ 微软亚洲研究院网络多媒体(IM)组的一名实习生,现在就读于浙江大学的计算机科学与技术学院。在微软实习的半年多,跟随王井东研究员从事了深度神经网络的研究及其在计算机视觉领域的应用。


缘起

人工智能近几年实现了爆炸式发展,深度学习可以说是其主要的推动力。笔者对于能来微软实习并从事深度学习方面的研究感到十分荣幸,因为微软研究院在该领域一直处于领先的地位,其优秀的人才配备和强大的计算资源都非常适合做这方面的研究。


在计算机视觉领域,大部分的问题都已经开始使用深度神经网络进行解决,也确实取得了广泛的成功。在很多视觉任务中,如图像识别、语义分割、目标检测与跟踪、图像检索等,作为提取特征的CNN网络模型往往起到了关键的作用。我们经常见到最新的方法将基础网络换一下,性能就会得到很大的提升。因此,研究并设计一个更好的网络模型变得至关重要。


基础网络模型的结构样例


最新研究进展

经典的神经网络模型主要在“宽度”与“深度”方面进行不同程度的扩增。借助于大规模数据的训练,AlexNet、VGG-16、VGG-19等经典网络通过宽度或深度增加的参数可以有效地提升其模型的表达能力。但当网络变得越来越深,其训练难度也随之相应增加,反而会导致性能的下降。最近的ResNet和Highway Networks等方法通过引入Skip跳跃结构来试图解决极深网络在优化上带来的问题。


ResNet和Highway Networks结构的简单示意图

最新的一些研究尝试从其他角度来解释Highway、ResNet和GoogLeNet等网络结构表现优异的原因。其中我在微软实习的导师王井东研究员、实习生魏祯和张婷以及曾文君研究员提出Deep Fusion (Jingdong Wang, Zhen Wei, Ting Zhang, Wenjun Zeng: Deeply-Fused Nets. CoRR abs/1605.07716 (2016))深度融合的概念,认为不同分支的网络在中间层进行融合(加和或拼接等方式)能够(1)产生很多潜在的共享参数的基础网络,(2)同时优化信息的流动,(3)从而帮助深层网络的训练过程。


Deep Fusion深度融合最简单形式的概念示意图

我们可以发现很多有代表性的网络结构基本都可以按照深度融合的概念进行理解。除去LeNet、AlexNet、VGGNet等单分支网络,近两年提出的ResNet、Highway Networks、GoogLeNet系列等网络均可以看作是不同程度上的深度融合网络。在这个概念下,我们发现今年新的Inception-v4、FractalNet、DenseNet、ResNeXt以及我们新提出的Merge-and-Run等网络结构在融合方式上进行了更多的设计和探索,使得中间的融合次数和分支数目更多,从而得到更多的基础网络和更优的信息流动,最终取得更好的性能表现。


近期一些深度神经网络模型的基本结构示意图

康奈尔大学的Serge Belongie团队也有类似的观察与发现,他们解释ResNet其实是众多相对较浅的潜在网络的一个集成。在模型的测试阶段发现将网络中的一些模块去掉,剩下的网络模型依然具有不错的表现。


将ResNet中的某些模块移除的实验示意图


最近提出的一些新的深度神经网络方法也从侧面印证了这方面的研究,如ResNet with Stochastic Depth、FractalNet和Swapout等使用Drop-path的方法与上述移除Residual模块的研究有着异曲同工之妙。ResNet of ResNet、ResNeXt、Multi-Residual Networks和DenseNet等增加分支或路径数目的方法均得到了性能上的提升,从某种程度上验证了增加基础网络数目对整体网络模型的影响。


我们的工作

我们沿着deep fusion的思路更进一步地研究了类似ResNet、Highway、Inception等结构的深度融合网络,探索了“深度”在神经网络当中究竟带来了什么。基于研究观察与分析,我们又提出了一个新的网络模型,在不同数据集上均取得了不错的表现。


Liming Zhao, Jingdong Wang, Xi Li, Zhuowen Tu, and Wenjun Zeng. "On the Connection of Deep Fusion to Ensembling." arXiv preprint arXiv:1611.07718 (2016).


一、深度融合网络剖析

首先我们从网络结构和实验分析上展示这种多分支融合的网络跟多个潜在网络集成的关系。


多分支融合的网络与集成网络的结构类似

通过上图可以发现多分支融合的网络形式可以近似很多潜在网络的集成过程,区别是没有中间的信息交互,只是他们共享对应层的网络参数。通过10组不同深度的网络结构实验发现,这样一个共享参数的集成网络与带信息交互的深度融合网络性能表现很相似。

深度融合网络与集成网络的表现类似


二、深度带来更多组成网络

下一步就可以利用集成学习中的一些思路来指导我们对该类型的深度融合网络进行剖析。首先是研究其潜在的基础网络数目,很明显上面图中融合3次的网络能够组合8个基础网络,即2^3个。那么我们可以发现增加融合次数可以提升基础网络的组合数目。那么像ResNet、Highway、Inception等形式的网络,增加“深度”带来的一个影响就是增加了其潜在基础网络的组合数目(Ensemble Size)。


不同融合次数会得到不同数目的组合网络(路径)

我们也通过实验在不同深度的网络结构上验证了:增加组合数目能像传统Ensemble理论中增加Ensemble Size一样提升整体性能。

较多的组合网络数目能够取得更好的结果

我们也通过实验在不同深度的网络结构上验证了增加组合网络数目能够提升整体性能,这也与传统Ensemble理论中增加Ensemble Size能提升性能的结论相吻合。我们可以看到ResNet在增加深度的同时,极大地增加了组合数目,这也是其性能优异的原因之一。


三、深度影响整体性能

我们继续研究每一个基础组合网络,并且探索在深度融合的过程中其相互之间会产生怎样的影响。对比每个网络单独分开训练得到的模型,我们发现,深度融合网络里较深的组合网络性能得到了提升,但较浅的组合网络性能反而下降了。我们猜想在训练过程中,由于浅层的网络容易收敛,它们能够帮助深层的网络进行优化。但深度融合网络的各个潜在的组成网络是共享参数的,极深的网络可能会影响较浅网络的求解空间与难度,从而产生相互影响性能往中间靠拢的现象。


每一个单独的组成网络行为分析

既然我们认为最终的表现是一种集成的近似,那么我们是否可以着手寻找更优的组合网络以达到整体性能的提升?通过上述组合网络之间相互影响的启发,我们认为极深的网络会产生“拖后腿”的效果,反而较深但又不是特别深的“中间”网络会对结果影响比较大。上图的实验结果也验证了我们的这个想法:(a)显示了每个组成网络由于共享参数导致的性能变化;(b)显示了每个组成网络对整体网络(ensemble)的相对贡献程度。


我们依然需要浅层网络来帮助训练较深网络,而且实际设计神经网络的时候很难做到只保留中间深度的网络结构。那么一个折中的方案是把这里面最深的组成网络去掉,这样看看对结果会产生什么影响。


去除最深的组成网络(重新训练或只是测试时候去除)

上图三个方法的实验结果表明,去除极深的组成网络不会对整体性能产生太大影响,有时候反而会提高最终结果。


去除极深的组成网络不会影响太大,大部分情况下反而会提升性能


四,提出新的方法

基于上述观察,我们认为一个好的网络结构应该包含如下两个特性:足够多的潜在网络数目,以及足够好的组成网络。最简单的策略是去掉“拖后腿”的极深网络,将其变成“中间”深的组成网络。下面是我们提出的方法:


基于ResNet的形式,我们提出新的网络结构(b)和(c)


基于ResNet的形式,我们提出的Inception-Like结构与Merge-and-Run结构都去除了极深的那一条线路,但是Inception-Like的组合数目比相同参数下的ResNet要少,因此我们认为Merge-and-Run形式比较符合我们的分析与观察。最终的实验结果也确实验证了这一想法,而且跟上面的实验观察相吻合:Inception-Like没有极深网络的影响,更加容易训练或收敛,比ResNet会稍好一点,与上述的Ensemble-7与Ensemble-8的实验结果相似。Merge-and-Run结构比Inception-Like的潜在网络数目多,最终结果也是比Inception-Like的表现要好。


ResNet, Inception-Like和Merge-and-Run在不同数据集上的对比


在ImageNet结果上也验证了我们前面的论述 (我们的方法用DFN-MR表示):


我们提出的DFN-MR与ResNet在ImageNet数据集上的对比


五、总结

目前一个研究热点是在深度神经网络中引入一个新的维度:潜在的组成网络数目(Ensemble Size)。可以发现像ResNet、Highway、Inception等网络增加“深度”的同时,实际增加了这个网络数目。此外,我们的工作发现极深网络除了能增加潜在网络数目外,对整体性能的贡献并不是最大的。反而会影响其它的组成网络,导致最终的结果受到影响。我们按照“不减少组成网络数目”和“避免极深组成网络”这两个原则,设计出新的网络结构,发现在不同数据集上总是表现优异。后续工作可以围绕当前分析的内容,最优化提出的设计指标与原则,得到更容易训练性能更好的网络模型。


后记:

个人感觉深度学习方法有时候对工程技术要求较高,往往方法不work的原因不是idea的问题,而是实现层面上对于细节的处理有差异,这也对我们学生在科研道路的前进造成了很大的困难。


为了方便大家在该领域的研究,我们将提出的模型和该论文实验中用到代码完全开源,目前维护在GitHub上,项目地址为: https://github.com/zlmzju/fusenet;


希望我们的工作能给大家在Deep Learning的研究上带来一些新的思考和帮助,期待更多更深入的探索和研究工作。





 

一文读懂区块链上的隐私与监管问题

$
0
0


​编者按:

在不久前的文章《【研究员视角】区块链:从入门到精通》里,来自微软亚洲研究院区块链项目的研究员闫莺和陈洋以9月在上海召开的以太坊第二届开发者大会作为切入点,与我们分享了目前区块链技术的前沿趋势与动向,该文章也颇受行业研究者的好评。因此,他们又带来了他们的第二期分享,这篇文章主要探讨的是区块链近期的关注热点——它作为公开账本如何保护隐私问题。快来一览为快吧!

一文读懂区块链上的隐私与监管问题

作者:张宪 闫莺 陈洋


区块链——作为公开账本,解决了各方如何建立信任的问题,却也同时带来了一个新的问题:隐私如何得到保护?当用户的所有交易信息都暴露在大众面前,如果这些交易信息被恶意挖掘及利用,将给用户隐私带来严重的威胁。本文将就区块链技术中的隐私问题以及最前沿的解决方案给大家做一个形象的介绍和分析。


区块链的隐私问题

也许大家首先会有一个疑惑:比特币等区块链技术不是“匿名”的吗,为什么会有隐私问题?要回答这个问题,我们首先要区分“化名”和“匿名”这两个概念。化名很好理解,就是我们在网络中使用的一个与真实身份无关的身份。例如在比特币系统的交易中,使用者无需使用真名,而是采用公钥哈希值作为交易标识。在这个例子中,公钥哈希值就可以代表使用者的身份,与真名无关,因此比特币是具备化名性的。


但匿名跟化名是不同的。在计算机科学中,匿名指的是具备无关联性(unlinkability)的化名[1]。所谓无关联性,就是指站在攻击者的角度,无法将用户与系统之间的任意两次交互进行关联。在比特币中,由于用户反复使用公钥哈希值作为交易标识,交易之间显然能建立关联。因此比特币并不具备匿名性。


若单个地址进行交易并不能确保匿名性,那么多个地址又如何?答案依然是否定的:如图1所示,用户X利用多个账户在一定时间内向用户Y进行转账,攻击者可以很大概率猜测这几个地址属于同一个用户,而将这多个地址都归为一个地址簇


图1: 多账户与单一账户交易会被关联

​​

除了上述情况,零钱地址也会暴露用户地址的关联性。如图2所示,用户X向用户Y转账40,总计付款50,因此零钱返回10。攻击者会很大概率推测账户D是零钱地址,从而将账户D和E进行关联。早期的比特币类库(Bitcoin-Qt library)就存在过零钱地址总出现在输出地址第一个而带来的隐私问题(已在2012年修复)。


图2:零钱账户与其他账户会被关联

​​

在将用户多个地址归并为地址簇后,再结合现实中直接发生交易来给地址簇加上标签,就可以画出如图3的标签簇图。图中的连线表示一次交易,圆的面积大小代表交易量。虽然图中只列出了服务提供商、交易所、矿池的标签,需要说明的是,也可以利用类似的手段来获取个人用户现实生活中的身份信息。因此再结合服务提供商的地址信息及公开账本,个人用户的所有消费记录将显露无遗。这将带来严重的用户隐私问题。


图3:通过实际交易及地址簇构建标签簇[2]

如何在保障隐私(隐藏交易内容)的情况下实现区块链的特性(交易可验证,历史可查等)呢?下面我们介绍三种最典型的匿名化方案:达世币(Dash),门罗币(Monero),零钞(Zcash)。


达氏币(Dash)

达氏币使用了一种称之为合币(CoinJoin)的关键技术。简单地说,所谓合币技术就是通过一些主节点(master node)来将多个用户(至少3个)的多笔交易进行混合、形成单一交易的技术。在合币中,每个用户都会提供一个输入输出地址,然后将其送到主节点进行混合(即任意交换输入输出地址)。交易只能以规定面额(0.1, 1, 10, 100)为单位来进行,这样就增加了攻击者从数额的角度来猜测交易关联度的难度。同时,主节点要保证乱序输出。如图4所示,不同的颜色代表此金额来自不同用户,DASH是达氏币的货币标识。通过混合,黄色用户完成了对绿色用户进行转账10 DASH。而外界很难从混淆后的交易中发现这笔交易。


图4:合币技术可以将多个用户的多笔交易进行混合[3]

​​

合币中一个关键的保护隐私的角色就是主节点,因为主节点依然存在被攻击者控制的可能性。为了解决这个问题,达氏币中引入了链式混合(chaining)以及盲化(blinding)技术。所谓链式混合,就是指用户的交易会随机选择多个主节点,并在这些主节点中依次进行混合,最后输出;所谓盲化技术,就是指用户不直接将输入输出地址发送到交易池,而是随机选择一个主节点,让它将输入输出传递到一个指定的主节点,这样后一个主节点就很难获取用户的真实身份。通过这两个技术,除非攻击者控制了很多的主节点,否则几乎不可能对指定交易进行关联。


除了防范交易数额以及输入输出地址的关联攻击,达氏币还防范了交易时间上的关联攻击。每个用户往往都会具备自己的交易习惯,例如每天的交易时间段以及短时间内进行多笔交易等等。这些时间信息也会一定程度暴露用户身份。为了解决这个问题,达氏币提出了被动(passive)匿名化的方案,保证用户客户端以固定的时间间隔发起交易请求,来参与主节点的混合。


自从2014年市场化以来,达氏币就颇受市场追捧,截至2016年12月2日,其市值已超过6000万美元,在所有加密货币中排名第7;货币单价为8.85美元,在所有加密货币中排名第4[4]。


门罗币(Monero)

在达氏币中,依然存在主节点被控制以及参与混币有恶意用户的风险,这在一定程度上会导致用户隐私的泄露。为了解决这个问题,门罗币提出了一种不依赖于中心节点的加密混合方案。门罗币的关键技术有两个,一个叫做隐蔽地址(stealth address),另一个叫做环签名(ring signature)[5]。


隐蔽地址是为了解决输入输出地址关联性的问题。每当发送者要给接收者发送一笔金额的时候,他会首先通过接收者的地址(每次都重新生成),利用椭圆曲线加密算出一个一次性的公钥。然后发送者将这个公钥连同一个附加信息发送到区块链上,接收方可以根据自己的私钥来检测每个交易块,从而确定发送方是否已经发送了这笔金额。当接收方要使用这笔金额时,可以根据自己的私钥以及交易信息计算出来一个签名私钥,用这个私钥对交易进行签名即可。


隐蔽地址虽然能保证接收者地址每次都变化,从而让外部攻击者看不出地址关联性,但并不能保证发送者与接收者之间的匿名性。因此门罗币提出了一个环签名的方案——事实上,在古代就已经有类似的思想了:如图5所示,联名上书的时候,上书人的名字可以写成一个环形,由于环中各个名字的地位看上去彼此相等,因此外界很难猜测发起人是谁。


图5:古代联名上书时利用环状签名来保护发起人信息[6]

​​

那在门罗币中环签名又是如何实现的呢?如图6所示,每当发送者要建立一笔交易的时候,他会使用自己的私钥加上从其他用户的公钥中随机选出的若干公钥来对交易进行签名。验证签名的时候,也需要使用其他人的公钥 以及签名中的参数。同时,发送者签名的同时还要提供钥匙映像(key image)来提供身份的证明。私钥和钥匙映像都是一次一密的,来保证不可追踪性(untracability)。


图6:环状签名可以隐藏交易发起人的信息

​​

除了交易地址,交易金额也会暴露部分隐私。门罗币还提供了一种叫做环状保密交易(RingCT)的技术来同时隐藏交易地址以及交易金额。这项技术正在逐步部署来达到真正的匿名。这项技术采用了多层连接自发匿名组签名(Multi-layered Linkable Spontaneous Anonymous Group signature)的协议。限于篇幅,感兴趣的读者可以参考原论文[7]。


门罗币目前的市值超过一亿美元,排名第5;单价为8.21美元,排名第6。


零钞(Zcash)

门罗币的方案看似已经接近完美,但依然存在一个可能的问题:环签名中依旧需要与其他用户的公钥进行混合,因此可能会遭遇恶意用户从而暴露隐私。零钞利用零知识证明避免了这个问题,让用户只是通过和加密货币本身进行交互来隐藏交易信息,做到了“所有货币生来平等”[8]。

首先给大家简要介绍一下什么是零知识证明(zero knowledge proof)。如图7的左图所示,北分支和南分支中间有一扇门,老王宣称自己能打开这扇门,如何在不给大家看开门细节的情况下让大家相信这件事呢?假设我们采用交互式的零知识证明,那么老王可以自己选择一个分支进入,如图中蓝色点(哪个分支可以不让验证者知道)。然后验证者(图中红色点)随机指定老王从哪个分支出来。如果老王打不开门,那么老王只有二分之一的概率达到要求。N次重复这个过程,如果老王不能打开门,那么老王N次都能从指定分支出来的概率为 (1/2) ^N。因此足够次数下,如果老王都能完成任务,可以认为老王能打开门。这样带来的一个问题就是交互成本太高。一个改进的方案是图7的右图,假设这儿有100条路,如果验证者随机指定100条路中的一条,老王能从该分支出现,那么老王不能开门的概率为1/100。这显著提高了交互的效率。


图7:零知识证明的一个简单例子。左图代表交互式证明,右图代表非交互式证明


在零钞的设计中,就采用了一种叫做zk-SNARK的非交互式的零知识证明。在这里我们并不深入zk-SNARK的细节,只是大致描述一下零钞中是如何使用这项技术的。首先我们看一个最简单的情形,假设零钞中的币值都是确定的,例如1BTC。那么铸币过程相当于是用户向某个托管池(escrow pool)注入1BTC,然后向一个列表中写入一个承诺(commitment) 。其中承诺必须由一个序列号以及用户私钥才能计算得到,并且是单向的。当用户想要花这个币的时候,需要做两件事:(1)给出序列号,以及 (2)利用zk-SNARK证明自己知道生成这个承诺的用户私钥。这样,用户就可以在完全不暴露身份的情况下,花出这个币。并且序列号的唯一性可以保证没有双花的情况。

以上的简单情形有三个问题:(1)币值固定很不方便, (2)发送方可以通过序列号来判断接收方正在花钱,(3)接收方必须马上花掉得到的币否则可能被发送方提取。为了解决这三个问题,零钞中提出了一种浇铸(pour)的操作来花销钱币。简单地讲,浇铸操作就是通过一系列零知识证明,将一个币铸造成多个币,且输入输出的总和相等。每个新币都有自己的密钥、数额、序列号等等,从而解决了以上三个问题。与此同时,零钞还采用了一系列的优化措施来提高整个运行系统的性能。

零钞在现目前所有的密码学货币中是匿名性最好的,因此受到过市场狂热的追捧,在2016年10月底发行前后,单币价格估值曾高达几千个比特币。现目前币值稳定后,零钞的市值大约为800万美元。单币价格为62美元,仅次于比特币。


小结

区块链技术中的隐私问题一直以来都是饱受诟病的,一方面普通用户在区块链上的交易隐私应该得到保护,另一方面又应该防止恶意用户将其用作非法交易的平台。现目前的匿名化技术也还不能完美地保证匿名,比如像零钞,也必须依赖于初始化时的一些秘密参数(掌握在几个人手中)。这也会给用户带来交易与隐私上的风险。除了交易隐私,诸如以太坊等区块链技术中的智能合约隐私也是一个很值得关注的问题,目前也已经有一些工作开展起来。希望在不久的将来,区块链能做到在保证隐私的同时,为数字世界提供一个公开可信的技术支撑。


参考文献

[1]  Arvind Narayanan, et al. “Bitcoin and Cryptocurrency Technologies: A Comprehensive Introduction”,2016

[2]  Meiklejohn, Sarah, et al. "A fistful of bitcoins: characterizing payments among men with no names." Proceedings of the 2013 conference on Internet measurement conference. ACM, 2013.

[3]  https://github.com/dashpay/dash/wiki/

Whitepaper

[4]  https://coinmarketcap.com/

[5]  https://getmonero.org/home

[6]  http://www.nihonkoenmura.jp/theme3/

takarabito07.htm

[7]  Noether, Shen. "Ring signature confidential transactions for monero."

[8]  https://z.cash/


​作者简介

张宪


张宪

微软亚洲研究院智能区块链实验室实习生(研究院导师:闫莺),现就读于北京大学信息科学技术学院。研究兴趣包括密码学以及可信计算。实习期间从事区块链隐私保护的相关研究。

闫莺

 闫莺

微软亚洲研究院智能区块链实验室主管研究员,从事区块链技术、大数据分析和挖掘、数据库应用的研究。

陈洋

​​

陈洋

微软亚洲研究院智能区块链实验室研究员,从事区块链、云计算平台架构、大数据系统、编译研究。


最后是福利区:

在微软亚洲研究院,智能区块链实验室(北京)开放了多个区块链实习职位。有区块链、分布式系统、分布式数据库或者分布式理论背景,并且能够来北京实习6个月以上的同学,如果感兴趣请发简历到 iblockchain-hiring@microsoft.com,并在邮件主题注明“区块链实习”。


 

Microsoft Translator:消除面对面交流的语言障碍

$
0
0

James Simmonds-Read在伦敦的儿童福利会工作,他的工作是向移民和难民提供帮助,而他工作对象中的大多是贩卖人口罪行的年轻受害者。对于James Simmonds-Read而言,克服语言障碍是至关重要的。

“他们都是来寻求避难的,其中相当多数人都面临语言障碍,”他说。“我们不得不频繁借助翻译。”然而,人工翻译的介入又带来了额外的挑战,因为它意味着这些年轻人必须面对第三方译员说出一些敏感信息。

最近,儿童福利会找到了一个更好的解决方案。他们开始使用Microsoft Translator的现场翻译功能(Live Feature),可借助已联网的智能手机、平板电脑和个人计算机等设备为多人、多语言、面对面交谈提供现场翻译。

Simmonds-Read说,这项技术让他不再需要第三方译员就可以与儿童福利会所服务的年轻人直接沟通。

支持多人、多语言、跨设备的现场翻译技术由位于华盛顿州微软雷德蒙研究院机器翻译组开发。这项技术提供了丰富多样的使用场景,解决了用户在面对面时由于语言不通而导致交流不畅的痛点。例如帮助身处异国的旅行者更方便地与酒店前台、出租车司机和博物馆导游等进行交流。教师也可借助该项技术与只会说其他语言的学生家长进行沟通。在纽约市的一个试点项目中,这项技术还被用于帮助非英语人群申请由州政府颁发的身份证。



微软研究院Microsoft Translator产品战略总监Olivier Fontana说:“我们的终极目标是打破语言障碍。”这项技术适用于一对一交谈(例如旅行者向酒店前台问询)、一对多互动(例如一名导游与一群游客交谈)以及多对多沟通(例如多语言的商务会议和学术讨论)。只需要每个人在手机上打开Microsoft Translator移动端的App,扫描二维码并进入聊天界面,就可以开始交流了。



个人通用翻译器

这一功能以Microsoft Translator语音翻译技术为基础,该技术已先用于Skype Translator,后者让使用不同语言的人群能在网上进行实时交流。

“Skype Translator能让被地区和语言阻隔的人顺畅交流,“但它不能满足面对面交谈的需求,”微软人工智能及微软研究事业部机器翻译组研究经理Arul Menezes说。他和他的同事们都认为, 面对面跨语种交流所要用到的技术,应该更接近于《星际迷航》和其他科幻作品中随处可见的“通用翻译器”。

对于“个人通用翻译器”,团队决定利用业已广泛采用的移动设备,而不再开发专用的翻译硬件。Microsoft Translator团队项目经理Tanvi Surti说:“眼下,智能手机随处可见,几乎人手一只。”Surti负责领导Microsoft Translator现场翻译功能的开发。

该团队开发了一项技术,让现有的Microsoft Translator 手机应用与网站形成了一个整体。“我们花了很多时间思考用户体验设计,”Surti说。“比如我们俩说着两种不同的语言,我们如何做到快速对接以便有更多的时间和注意力用于考虑交谈内容?”

新功能使用起来非常简单。首先,用户通过手机端应用或网站登录这项服务,选择自己的语言并发起新会话。这一过程将生成一个代码以及一个二维码,其他参与者可以输入这代码或扫描二维码加入,然后选择自己的语言,谈话就可以开始了。


交谈一方在发言时要按下键盘空格键或屏幕上的虚拟按钮,就像使用对讲机一样。几秒钟后,他们所说话语的翻译文本就出现在其他对话参与者的设备屏幕上,当然是以其各自的母语呈现。对于部分语言,系统还提供有声的语音翻译。

与大多数尖端前沿技术类似,它目前还不够完美。

“毫无疑问,目前该技术的应用在质量和设置上都有很多提升的空间。但毫无疑问的是,一旦你完成设置,就能在多人使用多种语言面对面交谈的过程中获得‘通用翻译器’体验,”Fontana说。


深层神经网络

机器翻译技术本身是由运行在云中的算法所驱动的,通过使用基于深层神经网络的翻译技术,与先前所谓的“统计型机器翻译”相比,它能够提供更流畅、听起来更有“人味”的翻译。

两种方法都涉及根据早前经专业人士翻译的文档文本数据对算法进行训练,以便让系统了解一种语言中的单词和短语如何用另一种语言来表达。然而,统计型方法局限在由一两个邻近词语形成的上下文范围内对某个单词进行翻译,这可能会导致翻译出来的语句笨拙而迂回。

“神经网络”受到了掌握多门语言的人类在翻译过程中大脑中发生的模式识别过程的启发,实现了更自然的语音翻译。

例如,在非神经世界中,“一群猫”和“一只猫”被视为不同的实体;而人类大脑以及神经网络则把这两者视为密切相关的词。神经网络也可以解析“住宿”和“星宿”两个词中“宿”字的含义区别。Menezes解释说:“单词已经不再被视为它所代表的事物,而是一个包含500个维度的向量,其本质是500组数字,而每一个数字都反映了这个单词的某一个方面。”

神经网络在开始翻译之前,首先用1000个维度的向量对每个单词在整个句子语境下的含义进行建模,无论这句话有5个词还是20个词都是这样处理的。这一包含1000个维度的模型(而非单词)随后被翻译成另一种语言。

此外,Fontana表示,随着该技术被使用的次数越多,翻译的质量也会不断提高。他希望看到Microsoft Translator能被包括旅行者、导游、教师和社会工作者在内的广泛的用户群体所采用。

在儿童福利会供职的Simmonds-Read说,他已经可以预见到这项技术的多种用途,包括陪同非英语移民和难民一道参加与政府官员和潜在雇主的会面等。


“人们在不能沟通的时候几乎是被隔绝的,”他说。


触手可及

Microsoft Translator凝聚了微软研究院20多年自然语言处理领域的研究成果,汇集了机器学习(特别是深度学习人工智能)、大数据、 语言学、云计算等几种前沿技术。Microsoft Translator目前支持包括中文普通话在内的9种语言的语音输入,近60种语言的文字翻译。而且这个数量还在不断增加。目前全球已有数千间企业在使用微软自动翻译技术,提高业务效率和服务质量。


支持多人、多语言、跨设备的现场翻译功能已通过现有的Microsoft Translator App更新发布,包括Windows, iOS和Android 版本。你可以在相应的应用商店搜索“微软翻译”或“Microsoft Translator”下载。交谈发起者将获取的交谈专属二维码分享给其他参与者就可以交流了。

Windows版



iOS版

Android版(Google Play)


 

微软人工智能愿景:根植于研发 寄望于“对话”

$
0
0


过去25年来,微软公司持续投入人工智能的发展愿景。现在,借助全新发布的聊天机器人Zo、Cortana Devices SDK和智能套件、以及扩展智能工具,这一愿景即将成为现实。


12月13日,在旧金山的一次小聚会上,微软全球执行副总裁、人工智能与研发集团负责人沈向洋博士表示:“根据多个行业标准,我们的计算机视觉算法已经超过了行业内的其他竞争者——甚至是人类自身。更让我兴奋的是,我们在计算机视觉领域的技术成果已被用于HoloLens全息眼镜等产品,甚至应用到了客户的产品(如Uber开发的程序)中。”


1991年,当比尔·盖茨创建微软研究院时,曾提出过一个愿景:让计算机能看会听,并可理解人类的想法。这一理念一度吸引了许多顶尖天才加入微软研究院。


今年10月,微软成为业内第一家实现了对话语音识别技术达到人类专业水平的公司。Skype Translator获得了突破性进展,现已支持9种语言的互译,这是微软加速从技术研究到产品落地的一个实证。通过Skype Translator,微软可以让世界各国的人在交流时能即时了解对方的意图,但面对面实时翻译的梦想是否真能实现呢?基于微软新的智能语言和语音识别技术,Microsoft Translator现在可以实现现场实时翻译多钟语言,在人与人之间建立联系,破除语言的藩篱。


微软还建立了或许是全球最大的知识图谱(Knowledge Graph)。这要归功于必应搜索引擎与Office 365,是它们使得了解数十亿“人、地点、事物”成为可能。现在,我们有机会将“世界知识”与人类的“工作知识”联系起来。

微软的愿景极具勇气且涵盖甚广——构建跨越媒介、应用、服务与基础架构的真正的人工智能系统。这一愿景还有着很强的包容性。微软旨在面向所有人和组织普及人工智能,无论消费者、商家还是开发者,都能从人工智能获益。


“我们一直在努力普及技术全民化。有了人工智能,我们便可以通过以下两种方式来实现这个目标:一种是将其融入像Office 365这样的产品中,另一种是构筑一个平台,让其他人也能在此平台上开发产品和不断创新。” 沈向洋博士说。他称自己即是由“研究员转型为产品经理”的典型。


这个平台被称为“微软认知服务” ——它包含了25个应用程序接口(API),可以提供诸如语音、语言、知识和搜索之类的智能功能。


微软的新一轮创新要想取得成果,还需要与合作伙伴进行深度合作。


“几周前,就在这个房间,我和Sam Altman一起宣布了与‘AI开放联盟’(OpenAI)的协作计划。与其他人合作,在其他人工作的基础上继续前进,这是一件很美妙的事。”沈向洋说。


当前,我们正处于向计算领域下一代主流平台进军的早期阶段。借由人工智能领域所取得的一系列重大进展, 新一代平台将以“对话”这一人类最自然的行为为核心来构建。新的时代已呼之欲出——数字体验映射出人们互动的方式,我们从人类学着了解计算机操作的时代进入到另一个时代——让计算机了解人类和人类的动机,并积极予以回应。

Zo 正式发布


“对话计算”(Conversational Computing)一体两面——一面是强调完成任务、提升生产力;另一面是情感连接。要想真正实现人工智能的梦想,就必须从两个方面同时发力。


微软的长远战略是,像Cortana这样的应用不但要有智商(IQ),还要有情商(EQ)。基于这一理念,微软在聊天机器人领域屡屡斩获重大的且具开创性的研究成果。


这一革命的下一幕就是Zo。


Zo是一款社交聊天机器人,她是基于微软在中国和日本大获成功的人工智能社交聊天机器人小冰与凛菜而打造。现在,你可以在Kik社交平台上与她交谈,就像和人类朋友聊天一样。未来, 微软计划将Zo扩展到其他社交平台,例如Skype和Facebook Messenger。


Zo是利用海量互联网社交内容构建而成的。她从人类互动行为中学习,以便从情感与智能角度做出响应,提供独特的观点,并懂得礼节与表达情感。但是她同样还有强大的核对与平衡机制,以保护自己免遭不当利用。

微软聊天机器人的开发历程始于2014年5月,当时,微软在中国推出了小冰。如今,她已拥有超过4000万用户,比整个加州的总人口还多。她与用户的平均对话轮数为23次,是行业平均值的十倍还多。小冰还是第一个在东方卫视承担主播职责的人工智能聊天机器人——东方卫视是中国上海最大的电视台,拥有逾8亿观众。继小冰在中国获得成功后,2015年7月,微软又在日本推出了凛菜(Rinna)。时至今日,大约相当于全国20%人口的日本用户经常和凛菜交流。


在美国,Zo 已与超过 10 万人交谈过。迄今为止,有超过 5000 名用户与 Zo 有过超过 1 小时的交谈。最长的单人单次对话则创下1229轮、持续9小时53分钟的新纪录。


“这是一种非常个性化的体验,”沈向洋说,“我们正在真实地经历从‘让人类了解计算机’到‘让计算机了解人类’的时代转变,也就是从以机器为中心转向以人类为中心,从感知到认知,从理性转向感性。”


在机器人框架下构建


微软已经推出了机器人框架(Bot Framework),以及相关的工具、服务和数据,以方便规模大小不一的各类开发者和企业用户都可以使用微软技术来进行构建和实验。


微软认识到,企业用户希望打造出先进的机器人,来简化流程,更好地为他们的客户提供服务。例如The bank of Kochi in Japan正在开发一种机器人接待员;Rockwell Automation想要开发一种用于生产自动化的机器人; the Department of Health Services in Australia想要开发一种机器人,帮助改善与客户互动关系。


“我们讨论的是机器人大脑的概念,从各个层面来说,这都应该算是今后十年里软件开发领域的一个重大挑战。”杰出工程师、微软FUSE实验室总经理Lili Cheng说:“我们的机器人框架(Bot Framework)及其开发服务并不止是为了让人们能在这一领域更轻松地起步,我们还希望这些充满未来色彩的场景能够早日实现。”


超过67,000名开发人员目前正在使用微软的机器人框架(Bot Framework)及认知服务。未来的更新将包括服务于微软Teams与Cortana Bing Location的机器人连接,以及新的QnA Maker服务,此项服务可以处理商家收到的最常见问题,甚至可以让非开发人员都能轻松构建自己的机器人来回答问题。


“利用微软机器人框架(Bot Framework)工具和微软知识图谱,我们正在为客户创造崭新的个人生活与工作环境应用场景,”Skpye全球资深副总裁Amritansh Raghav说,“这些创新将用于各种应用程序、电子邮件、聊天平台、移动设备以及连接设备。”

客户如果想要充分利用这些机器人所带来的机遇,一个可以取得成功的途径就是利用 Skype 与 微软Teams 之类应用程序的体验。利用使用广泛的Skype调用应用程序接口,Skype现在提供交谈机器人服务,并为合作伙伴提供构建富媒体卡片的工具,允许用户将视频、动画GIF和音频添加至此类机器人中。


合作伙伴对于帮助构建富有吸引力的全新客户体验至关重要,Hipmunk是微软最早的合作伙伴之一,去年春天发布了构建于 Skype 之上的机器人。


“我们存在的意义就是让旅行不再痛苦不堪,”Hipmunk联合创始人兼首席执行官 Adam Goldstein 说,“我们认为虚拟助手是这一服务的自然延伸——迄今为止这看起来是帮助人们轻松规划和预订旅行的最佳方式。可发现性至关重要,Skype 的机器人目录让那些想要让旅行生活变得轻松有条理的人能够很快找到机器人。”


一个智能助理解决一切


微软在描摹人工智能与对话计算的前景时,还有一个很重要的部分是应用所扮演的角色,比如Cortana。现在,在全球13个国家和地区,有超过1.45亿人正在使用Cortana。Cortana可以没有限制地跨平台,跨各种连接设备使用。


每个人都应该拥有自己的个人助理,以便在我们奋力打拼的同时,帮我们处理好一切问题。


“要实现这样的目标,我们需要先关注一下个人助理可以帮助你分担哪些工作。我们当中有一半人会通过电子邮件,定期为自己发送任务或提醒。许多人会使用任务清单。我就曾在办公室的墙壁上贴便笺,”微软合作伙伴群组计划经理Marcus Ash说,“所以,我们正在想方设法,把那些影响用户掌控全局的问题清除掉。”


Cortana可在多种移动平台上使用。目前已在电子邮件中,以Calendar.help新服务形式出现;在旅游行业,以Expedia的新技能形式出现;在银行业,以Capital One的新服务形式出现。下一步就是让所有的计算机与设备制造商都能够使用Cortana,以便在所有平台上构建更智能、更有用的设备。这就是微软推出Cortana Devices SDK的目的所在。


微软正在和众多设备领域的合作伙伴合作,以将Cortana集成至他们的连接设备中。Devices SDK可将Cortana技能应用到生产、音乐、家用自动化和设备控制等领域。


很快,Cortana会以一种全新的方式出现在千家万户,这要归功于微软的合作伙伴——高端音频设备制造商哈曼卡顿(Harman Kardon)。


微软的下一步


微软认为,开创性技术必须来源于不间断的尝试、无畏的探索,以及对创新的长期投入。


虽然取得了诸多成果,然而在人工智能发展的进程中,仍有许多亟待解决的棘手问题。在此前一波又一波新技术(例如互联网、移动、APP应用)面世的早期阶段,都曾感受过成长的烦恼。人工智能也不例外。


“探索与学习,无远弗界。”沈向洋博士说,“我们将会和整个行业分享我们学到的知识,我们将推动人工智能技术的全民化普及,加快人工智能惠及社会的步伐。”


 

智慧医疗,需要的不只是大数据

$
0
0

本月初,由微软亚洲研究院和中文信息学会语言与知识计算专业委员会联合主办,成都市青羊区人民政府提供支持的 “知识图谱与智慧医疗(成都)论坛” 在成都举行。论坛共分为“知识图谱与智慧医疗学术论坛”、“智慧医疗产业与市场论坛”和“行业专家座谈”三个环节,分别邀请了人工智能学术专家、临床医学专家、智慧医疗行业专家、投资机构及政府相关职能部门进行深入交流。


此次论坛从学术研究、政府政策和医疗产业多方面着重探讨了知识图谱和人工智能在医疗领域应用的构想、资源、技术、方案、策略以及待研究的问题和挑战,以此促成医学界、学术届和产业界之间的学术交流,探索未来在医疗领域大规模应用人工智能的合作模式。本文节选了本次论坛部分内容与大家进行分享。想了解论坛全部内容请点击阅读原文,或直接访问网址:http://www.msra.cn/zh-cn/research/healthcare/chengdu-healthcare-forum/


从精准医学大数据到智能医疗

在上午的“知识图谱与智慧医疗学术论坛”上,来自复旦大学生物医学研究院的刘雷教授带来了题为“从精准医学大数据到智能医疗”的主题演讲。


科学家们已经逐步发现,针对遗传学和基因的研究能够更好地指导我们的医疗发展:对不同个体使用不同药物和采取不同的治疗方法很可能产生不同的结果,那么,如何确保为每一个病人找到最优的治疗方案、针对病人的个性化特征来决定治疗方案?这些问题的答案很可能就写在每个人的基因里。


精准医学指的是基于大样本研究获得疾病分子机制的知识体系,依据组学数据和患者的个体特征,借助现代遗传学、分子影像学、生物信息学和临床医学等知识来实现疾病的精准预防、精准诊断和精准治疗,因人而异确定治疗方案和药物的用法用量,从而达到提高医疗的有效性、减少治疗方案副作用的目标 。刘雷教授以“美国精准医学计划”作为开场,介绍了国内外主要的“精准医学”研究方案。毫无疑问,精准医学集成了现代医学科技发展的知识与技术体系,体现了医学科学的发展趋势,也代表了临床实践的发展方向。


从上图可以看出,精准医学的实现主要分为四个阶段,目前每一阶段都还有很长的路要走。而针对目标3,知识图谱技术可以很好地解决精准医疗大数据的资源整合、存储、利用与共享平台建设,即疾病研究精准医学知识库构建。


建立知识库在精准医学研究中的重要性不言而喻,这恰恰也是现阶段研究热点所在。而在大数据的背景下,知识库的建立在技术上仍然面临多重难点。例如,如何将不同层次的知识(包括分子层面、药物、临床体征、疾病以及环境等这些不同层次)进行整合,或者是基础概念的整合,又或是概念之间关系的整合等。


作为总结,刘雷教授表示,如今我们看到计算机技术在医疗上的应用越来越广泛,而这背后始终坚持的是从数据到信息再到知识的“中心法则”,正因如此,计算机技术才能造福更多人。


知识挖掘对分级诊疗的智能辅助



在下午的智慧医疗产业与市场论坛环节,来自微软亚洲研究院数据挖掘与企业智能化组的研究员纪蕾与大家分享了“知识挖掘对分级诊疗的智能辅助”问题。相关内容在《培养一个人类医生至少需要八年,那么人工智能呢?》中也有介绍。


目前,微软亚洲研究院已经与国内多家医院和医疗机构合作进行试点,基于微软提供的Azure云服务,为医生打造人工智能医生助手,帮助提高基层医生的工作能力、提升工作效率。现阶段,该项目由微软亚洲研究院提供算法和解决方案,对接医院需求,医生与研究员共同从事临床试验。研究员们为每个医生搭建了属于他们自己的人工智能医生助手,医生助手会以微信服务号等多种不同的形式协助医生,并且这一协助将贯穿在治疗前、治疗中和治疗后的整个就医体验中。


那么,这样一个人工智能的医生助手都能做些什么呢?其中包括知识库辅助学习(帮助基层医生培训)、知识库辅助问诊(辅助基层医生临床)、常识型问题自动回复和自动随访(包括人文关怀和异常提醒)等功能。


不久前,微软亚洲研究院数据挖掘与企业智能化组发布了Microsoft Concept Graph和Microsoft Concept Tagging模型,力图从大数据中挖掘知识,用于帮助机器更好地理解人类交流并且进行语义计算。在这项研究的基础上,微软亚洲研究院的研究组利用知识挖掘的API针对医疗数据,包括海量的医学文献、匿名诊疗记录等进行数据挖掘,建立医疗知识库,使得不同的医疗问题都有对应的专业解答。与此同时,研究员们还针对互联网搜索数据建立了用户搜索意图的知识库。例如在病人提出“糖尿病不应该吃什么?”和“糖尿病的饮食”这类问题的时候,知识库能准确将这类问题映射到“糖尿病应遵循的饮食习惯”上来。通过结合医疗知识库和用户意图的知识库,两者可以互相学习、形成闭环。


在整个系统流程中,从知识库建立,到实体识别与链接和知识计算,虽然研究面临着诸多技术挑战,但研究员们仍希望,这样一套人工智能医生助手能够真正帮助医生提高效率、改善医患关系,让人们获得更好的诊疗体验。


知识图谱与智慧医疗

活动最后的“行业专家座谈”环节,由微软亚洲研究院数据挖掘与企业智能化组资深研究经理闫峻主持,四位嘉宾参与,嘉宾分别是武汉大学俞思伟教授、哈尔滨工业大学汤步洲教授、大数医达邓侃博士和万方数据程煜华博士,这些嘉宾从自己的专业背景出发分享了他们对知识图谱与智慧医疗的见解。 


知识图谱是如何推动智慧医疗发展的呢?这背后有着算法层面、数据层面和应用层面的多重原因。从算法层面来说,深层神经网络技术不仅在图像和语音识别领域有着显著的帮助,用在自然语言处理等文本分析问题上也有同样让人欣喜的表现,因此基于深层神经网络技术的知识图谱在数据挖掘的质量上也有着不断的提高 。其次是数据,数据对知识图谱的构建至关重要,海量的数据能让知识图谱积累更多的知识,从而构建更完整的知识图谱。最后从应用层面来说,近年来随着人工智能技术的发展,聊天机器人(chatbot)这种人机交互方式日益普及,让研究者们看到了更多知识图谱应用的空间。只要拥有各种垂直领域的知识,聊天机器人就能更好地帮助人们完成某些具体的任务。因此,知识图谱与医疗垂直信息的结合,让人们有机会一窥智慧医疗的身影。


除了知识图谱本身,智慧医疗还有很大的发展空间,而计算机与医疗的结合,同样还有着丰富的无限可能。


智慧医疗狭义的定义是CDSS (clinical decision support systems),通过输入病情描述,包括症状和化验指标等,输出诊断结果。输出的诊断结果分为两个不同的阶段,首先是根据有限的结果给出可能的疾病判断,第二步是删选掉不太靠谱的疾病,进一步提高诊断准确性,从而解决下一步的路径的问题,例如还需要做什么化验和检查等。而从在线预约挂号,到智能分诊等种种就医过程的改善,则都可以被视为广义的智慧医疗——为人们提供更多更便捷的医疗服务。此外还涉及到医疗的信息化问题。因为即使到今天为止,医生也很难将自己看过的所有病人的记录进行整理。而对病人来说,也鲜有完整的从出生到现在的诊疗记录。由于这些信息上的局限,医生在科研方面也备受限制。从这些角度来讲,智慧医疗还有很长的路要走。知识图谱只是一小步,前面还有很多步等着计算机技术携手医疗一起前进。


 

NIPS 2016:机器学习的盛典

$
0
0

NIPS大会总览:

神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),简称NIPS,是一个关于机器学习和计算神经科学领域的顶级国际会议。该会议固定在每年12月举行,由NIPS基金会主办。今年第30届的NIPS可谓火爆异常,初期就有2500篇投稿,涉及3000多位审稿人,最终录取568篇,总体接收率23%,其中包含深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多领域的文章。



本次NIPS大会在巴塞罗那举行。巴塞罗那(Barcelona)位于伊比利亚半岛东北部,濒临地中海,是西班牙第二大城市,也是加泰罗尼亚自治区首府,以及巴塞罗那省(隶属于加泰罗尼亚自治区)的省会。巴塞罗那是加泰罗尼亚的港口城市,是享誉世界的地中海风光旅游目的地和世界著名的历史文化名城,也是西班牙最重要的贸易、工业和金融基地。巴塞罗那气候宜人、风光旖旎、古迹遍布,素有“伊比利亚半岛的明珠”之称,是西班牙最著名的旅游胜地。当然,巴塞罗那还有更加世界闻名的足球俱乐部:巴萨。想必广大球迷都曾经被煤球王(梅西)和巴萨的颠覆时代所深深折服。


2016年的NIPS大会于12月5日至12月10日在巴塞罗那国际会议中心举行。大会获得了包括微软在内的多家知名IT企业的大力赞助,各大赞助商的总数接近上百个。今年共有5800多名来自世界各地的研究人员和机器学习实践者注册并参加了会议,这个注册数量创造了历届之最,而且相比于往年有近乎指数级增长的趋势。




大会主要分为4个部分,包括一天的教程(tutorials)、 3天的大会会议(conference sessions)、一天的专题研讨会(symposia)和两天的研讨会(workshops)四个部分。因为参与人数众多,偌大的会场也被挤得水泄不通。


周一的教程覆盖了机器学习领域的各个研究热点,如深度增强学习(DRL)、生成式对抗网络(GAN)、大规模优化、变分推断、众包、自然语言处理、非平稳时间序列、精准医疗及医疗保健、如何在实际中构建深度学习AI系统。


周二至周四的大会会议包含了口头报告(oral presentation)、海报展示(poster session),并在中间穿插了特邀报告(invited talk)。卷积神经网络的发明人Yann Lecun在他的特邀报告中依然大力推动predictive learning(可理解为一种更广义的无监督学习),希望广大的学者不断探索从未标注的数据中学习的边界。DL(深度学习)以及与深度学习紧密相关的技术如GAN(生成式对抗网络)、DRL(深度增强学习)等依然是本届大会最热的话题和关注点。今年NIPS评选的最佳论文是 《Value Iteration Networks》,由加州大学伯克利分校 Aviv Tamar、吴翼等人完成的。这篇论文介绍了一个新的不是基于模型的(model-free)强化学习观。在文章中,区别于传统的深度强化学习采用神经网络学习一个从状态(state)到决策(action)的直接映射,他们引入了在当前环境下做长远的规划(learn to plan)的机制,并利用长远的规划辅助神经网络做出更好的决策。最佳学生论文是《Matrix Completion has No Spurious Local Minimum》,由Rong Ge、Jason D. Lee、Tengyu Ma完成。这篇论文证明了半正定矩阵补全问题中的目标优化函数没有局部极值点,也就是说所有的局部极值点都是全局极值点,因此很多广泛使用的优化方法例如随即梯度下降方法从任意初始点出发都可以在多项式时间找到该问题的最优解。


本次大会还有一大学习理念被多次提及:Meta-learning。Meta-learning这个概念在很早的时候就已经有了,随着深度学习、增强学习技术全新的发展,这个概念也再一次地得到了升华。它的核心思想就是利用一个小的子学习过程来辅助主学习目标,例如learning to learn以及Fast Reinforcement Learning via Slow Reinforcement Learning都是核心代表作。


NIPS今年有3个专题研讨会(symposia)和52个研讨会(workshops)。由于其对机器学习各领域覆盖的广泛性以及对每一个专题讨论的深入性,吸引了众多人员的参与。NIPS一个很重要的特色就是workshop甚至比大会更受欢迎,实际上,workshop的注册人数也要多于大会的注册人数。无论你是做机器学习的哪一个方面,相信你都会找到你感兴趣的研讨会。另外,很多研讨会都有视频录像,应该会在近期放在网上,感兴趣的读者可以自行搜索观看。



微软在NIPS

本次微软在NIPS的表现非常亮眼,参与组织了9个研讨会,并在大会发表了超过20篇论文。其中,我们微软亚洲研究院的机器学习组共有3篇不同方向的论文入选。其中一篇工作提出了一种新的学习范式:对偶学习,并将其成功应用于机器翻译的任务上;另一篇工作关于如何通过分布式投票减少直方图的传输,从而实现高效的并行GBDT训练,是LightGBM开源工具的一部分;还有一篇就是我在微软亚洲研究院秦涛导师的指导下完成的关于轻量级递归神经网络LightRNN,通过引入行列共享表示(row-column shared embedding)同时做到大大缩小模型的计算和存储复杂度而又保证其性能。下面我们就依次介绍一下这三篇工作:


Dual Learning for Machine Translation:


对偶学习(dual learning)是一种新的学习范式,它和已有的学习范式监督学习(supervised learning)、半监督学习(semi-supervised learning)、多任务学习(multi-task learning)、迁移学习(transfer learning)有很大的不同。它有两个核心要点:1. 对偶学习作用在一个闭环的平行的学习任务之上,我们同时学习AàB和BàA的映射并且两个任务相辅相成;2. 通过对偶学习,能够将大量的未标注的数据利用起来,使我们得以从未标注的数据上获得反馈信息,进而利用该反馈信息提高对偶任务中的两个机器学习模型。


具体到翻译模型的问题上来,考虑一个对偶翻译游戏,里面有两个玩家小明和爱丽丝,如下图所示。小明只能讲中文,爱丽丝只会讲英文,他们两个人一起希望能够提高英文到中文的翻译模型f和中文到英文的翻译模型g。给定一个英文的句子x,爱丽丝首先通过f把这个句子翻译成中文句子y1,然后把这个中文的句子发给小明。因为没有标注,所以小明不知道正确的翻译是什么,但是小明可以知道,这个中文的句子是不是语法正确、符不符合中文的语言模型,这些信息都能帮助小明大概判断翻译模型f是不是做的好。然后小明再把这个中文的句子y1通过翻译模型g翻译成一个新的英文句子x1,并发给爱丽丝。通过比较x和x1是不是相似,爱丽丝就能够知道翻译模型f和g是不是做得好,尽管x只是一个没有标注的句子。因此,通过这样一个对偶游戏的过程,我们能够从没有标注的数据上获得反馈,从而知道如何提高机器学习模型。



在论文中,我们通过对偶学习仅使用了原训练语料10%的数据,然后利用大量未标注的数据,就达到甚至超过了原来的神经网络翻译模型(NMT)使用100%训练语料的最好结果。(详情请戳:研究|对偶学习:一种新的机器学习范式。


A Communication-Efficient Parallel Algorithm for Decision Tree:


决策树是一种被广泛应用的机器学习算法。由于数据量的增大,为了提高训练效率,并行决策树算法的研究是十分有必要的。现有的并行决策树算法通讯代价通常较大。我们提出了一种基于投票的并行决策树算法pv-tree 算法(parallel voting tree),能够在保证准确率的前提下,有效降低通讯代价。


pv-tree 算法采用数据并行,每台机器存储一部分数据本地训练,用直方图来记录不同特征的信息量以及最佳分裂点。然后选出k个信息量最大的特征。然后在所有local的k个特征中根据majority vote选出2k个特征。对这2k个特征合并直方图,计算准确的信息量,而后选出最优的分裂特征以及其分裂点。所有机器用最优分裂特征继续训练。


投票的方法与无损的并行方法相比大大减少通讯,我们对投票方法的准确率进行了理论刻画,证明了以高概率pv-tree可以选到最优的特征。实验效果也很好的验证了pv-tree算法是准确、高效的算法。我们团队还开源了世界上最为快速、准确的分布式决策树算法lightGBM,大家可以从github上使用和开发。我们会在新版的lightGBM上加入pv-tree的特性,让算法变得更加高效。




LightRNN: Memory and Computation-Efficient Recurrent Neural Networks


我们的研究主要解决递归神经网络(RNN)应用于自然语言处理任务中面对的一个巨大挑战:当应用于大词汇的文本语料库时,模型的体量将变得非常大。比如说,当使用 RNN 进行语言建模时,词首先需要通过输入矩阵(input-embedding matrix)从 one-hot 向量(其维度与词汇表大小相同)映射到词向量。然后为了预测下一词的概率,通过输出矩阵(output-embedding matrix)将隐藏层投射到词汇表中所有词的概率分布。当该词汇表包含数千万个不同的词时(这在 Web 语料库中很常见),这两个矩阵就会包含数百亿个不同的元素,这会使得 RNN 模型变得过大,从而无法装载进 GPU 设备的显存进行训练。


​解决这一问题最核心的思想就是参数共享(parameter sharing)。我们所研究的这一解决方案是通过引入一个二维词表来处理的。我们将词汇表中的每一个词都分配到一个格子中,其中每一行都关联了一个行向量,每一列则关联了一个列向量。根据一个词在表中的位置,该词可由行向量和列向量联合表示。因为该表中同一行具有相同的行向量,同一列具有相同的列向量,所以我们仅仅需要2√|V|个向量来表示带有|V|个词的词汇表,这远远少于现有的方法所需要的向量数|V|。如下图左边,根据二维词表我们实现了一种新的LightRNN结构,它区别于传统的RNN结构(见右边)。




同时我们的算法也是迭代优化的。(1)首先随机初始化词在二维词表中的分配(word allocation),并训练 LightRNN 模型。(2)固定训练后的向量,然后细化分配来最小化训练损失,这一步可以被转化为一个图论(graph theory)最小权重完美匹配问题,能够被有效地解决。(3)重复第二步,直到满足一定的终止标准。


最终我们在非常多语料的标准的数据集上对语言模型做了评估。我们发现,LightRNN相比于以前的模型减少了参数大小高达百倍,同时得到了无损甚至更好的精度。





下图是我们在参与poster讲解的现场。


曲折的探索

回忆当初开展这项研究的几个月,那真是一段曲折而难忘的过程。刚开始我们就确定了利用二维词汇表做参数共享的思路,但是最开始设计的网络一直无法达到正常的测试结果,性能表现异常的差。根据最初的构想,有一个非常直观的方式就是利用行共享向量和列共享向量直接连接作用于输入和输出,然后实验发现网络根本没法训动。在导师的指导之下,尝试使用递归神经网络RNN中的信息流链接,增加行与行、列与列之间的关系,可是效果也一直不太满意。围绕这些想法开展了将近一个月的实验,始终没有起色。于是开始进入大脑风暴状态,将导师和我的讨论不断汇总、打磨、不分昼夜的思索,终于从序列性原理的角度取得了突破。最终,我们采用行列交替的方式,不打破序列的连续性而同时能够得到更好的训练和测试性能。



作者简介



我叫李翔,曾是微软亚洲研究院的一名实习生,就读于南京理工大学,攻读人工智能博士学位。我的研究兴趣是数据挖掘和基于深度学习的自然语言处理与计算机视觉。


在微软亚洲研究院接近一年的实习经历让我收获颇丰。在这里,不仅有认真负责的导师,和导师们的一次次细节的探讨和摸索中不断总结出问题的本质,还有充满天赋和干劲的实习生们,我们一起组织饭团,一起畅想学术方向,一起研究和讨论新的方案。在导师和同学们身上,我学到了很多,关于如何寻找具有影响力的学术方向、如何把握问题的关键点、如何将研究上升到方法论的高度以及如何进行团队合作、论文撰写等等、等等。另外,MSRA丰富的paper reading和高水平学术报告也极大地拓展了我的学术视野,让我们思考问题的角度更加多元化。感谢导师们,感谢同学们,感谢MSRA,期待在未来充满新冒险的探索之旅继续一起披荆斩棘、迈向世界级研究的新高峰!



 

微软发布MS MARCO数据集,提高计算机阅读理解能力

$
0
0

本文译自:Microsoft dataset aims to help researchers create tools to answer questions as well as people

10月16日,微软发布了一套由10万个问答组成的数据集,人工智能领域的研究人员可用它来构建能够与真人相媲美的问答系统。这套数据集被称为MS MARCO(Microsoft MAchine Reading COmprehension),意为“微软机器阅读理解”。其背后的研发团队表示,MS MARCO是目前同类型中最有用的数据集,因为它建立在经过匿名处理的真实世界数据基础之上。

研发团队希望通过将这套数据集免费向广大研究人员提供,推动机器阅读领域的研究也能如图像和语音识别领域一样取得突破,同时促成有助于达成“通用人工智能”这一长期目标的科技进步,让机器能像人类一样思考。

“为了实现人工智能,我们要先做到让机器能像人类一样阅读和理解文档,MS MARCO就是朝这方向迈出的一步。”微软必应搜索部合作伙伴项目经理 Rangan Majumder说,他目前正领导该研究项目。


Rangan Majumder,微软必应搜索部门合作伙伴项目经理

Majumder表示,眼下能够回答复杂问题的系统仍处于起步阶段。以必应等搜索引擎和微软小娜(Cortana)等人工智能助手为例,目前它们只能回答一些基本问题,例如“春节黄金周哪天开始?”或者“2,000乘以43得多少?”等。

但多数情况下,Majumder指出,搜索引擎和人工智能助手只能向用户提供一组搜索结果。用户固然可以据此获取所需信息,但前提是他们仍需自己动手再从搜索结果进行筛选,并在网页上找到答案。

为了优化自动问答系统,研究人员需要海量的“训练数据”。这些数据集可用于教会人工智能系统识别问题并制定答案,最终有望创建一套系统,届时哪怕遇到以前从未遇到过的独特问题,系统也能给出自己的回答。


Majumder的团队中还包含了微软研究院的研究员和来自微软产品部门的研发人员,他们表示,MS MARCO数据集之所以特别有效,是因为这些问题全都基于来自微软必应搜索引擎和微软小娜人工智能助手的已匿名处理的真实查询。团队从他们认为研究人员可能更感兴趣的查询,选出了置于MS MARCO数据集的匿名问题。此外,相关回答是由真人参考真实网页编写的,并对其准确性进行了验证。

研究人员表示,通过提供现实世界的问题和回答,他们可以训练系统更好地处理普通人会实际问到的琐碎而复杂的问题,包括很多并无明确答案或存在多个可能答案的查询。例如,数据集包含“古希腊人吃什么食物?”这个问题,为了提供正确的回答,研究人员翻阅了来自多个文档或文本的信息节选,找出谷物、蛋糕、牛奶、橄榄、鱼类、大蒜和卷心菜等食物作为答案。

微软深度学习技术中心的合作研究经理邓力博士说,先前的数据集在设计上有一定的限制或约束,便于研究人员更容易创建解决方案,即构建机器学习研究人员所说的“分类问题”,而不是试图理解问题中实际包含的文字。他说,MS MARCO的设计目的在于让研究人员有机会用更先进的深度学习模型做试验,从而推动人工智能研究进一步发展。“我们的数据集不仅使用真实数据,而且消除了设计上的这些限制,这样新一代深度学习模型能够首先理解数据,然后回答问题。


邓力博士,微软深度学习技术中心合作研究经理

Majumder指出,系统具备回答复杂问题的能力就能帮助人们更有效地获得信息,由此增强人类的能力。假设一名加拿大学生想知道自己是否有资格申请某项贷款。搜索引擎或许能够将该用户引向一组网站,但这名学生必须自行阅读其中的数据并自己找出答案。如果使用更好的工具,虚拟人工智能个人助手就可以代替这名学生扫描信息,并快速提供一个更细致甚至个性化的回答。

“由于世界上许多知识都是以书面形式记录的,如果我们能让机器像人一样善于阅读和理解文档,我们就可以‘解锁’所有这些应用场景。”Majumder说。


长期目标:“通用人工智能”

至少在目前,研究人员仍然未能创建出能真正了解或理解人类所说、所见或所写内容的系统,后者被许多人称为“通用人工智能”。

但在过去几年间,微软和其他机构的机器学习和人工智能研究人员在创建能识别对话里的词汇以及图像中的元素的系统方面取得了长足的进步。“微软在语音识别和图像识别领域均处于领先地位,眼下我们也希望能在阅​​读理解研究方面担当引路人,”Majumder说。但是Majumder也指出,这不是任何一家公司能够单枪匹马解决的问题。他所领导的团队愿意公开发布数据集,原因之一就是希望能与领域内的其他同行合作。

MS MARCO的训练数据集与促成机器学习与人工智能在其他领域取得突破的训练数据集类似, 包括ImageNet数据库,它被公认为用于测试图像识别先进性的首选数据集。来自微软亚洲研究院的视觉计算组正是使用了ImageNet对自己的首个深层残差网络加以测试,结果在图像识别准确性方面实现了重大提升。

MS MARCO团队还计划效法ImageNet,创建一个排行榜,展示哪些研究团队取得了最好的结果。最终有望沿袭ImageNet年度图像识别挑战赛而形成一项更加正规的赛事。

研究人员可免费下载MS MARCO数据集,但仅限于非商业目的应用。下载链接请点击http://www.msmarco.org/dataset.aspx


 

徐迎庆:针对视觉受损人群的触觉认知研究

$
0
0

11月14日,微软亚洲研究院院友会成立,下午举行了“让世界充满AI:人工智能研讨会”,新老院友同台分享来自各自领域的洞见。以下是第二篇,来自清华大学信息艺术设计系主任、信息艺术设计系X工作室主任徐迎庆教授,他在1999年至2011年期间曾就职于微软亚洲研究院。由雷锋网整理并授权转载。

​有关院友会报道请戳:

这里是你们永远的家——写在微软亚洲研究院院友会成立日

洪小文|流动的盛宴——致微软亚洲研究院的“成年礼”

演讲|首席研究员童欣:从交互到智能的网络图形


这个项目在微软期间就开始了,大概做了7年。我想做的是针对视觉受损人群的触觉研究。


从WHO(World Health Organization)的数字来看,全球有2.85亿人是视觉严重受损,这个数字是可怕的。我们曾经在盲人学校看到,同学们虽然视力严重受损,但是有的同学每天把头贴在屏幕上,渴望着与外界的沟通。记得几年前我们开始这个项目的时候,有一个研究生去了盲人学校回来之后感动得热泪盈眶,她说这些孩子特别了不起,一定要为他们做一点事情。


从那时起,清华大学鲁晓波教授、史元春教授、和我本人就共同发起了这个项目至今。我们希望通过触觉和触觉交互的设计,结合语音等多通道的沉浸认知让盲人通过触摸学习更丰富的知识,比如复杂的图形图像的理解。目前国际上这是一个前沿的研究热点。针对盲人的交互研究有很多的工作已经做了,比如可穿戴移动互联网辅助设备、智能导航盲杖、盲人手表、移动PDA等等,包括各种各样的语音识别软件。这里顺便说一下,如果你们看过盲人用语音聊天,你会感觉非常惊讶,我们现在的语速加速3倍、5倍以后是他们语音的聊天,他们能听得懂,我们跟不上。触觉图像的大幅面、高精度研究,美国、欧洲很多实验室都做过尝试。在多通道方面,我们过去几年一直在开展这个工作。


什么是触觉图像?

触觉图像就是通过实体表面的凸凹理解图像,为用户提供直接的触觉体验,可以触觉渲染,也可以视觉渲染。另外制作出这些图像有很多种方法,比如热塑、微囊纸、热敏纸、触点打印等等,这些设备相对来说制作起来不方便,而且相对没有那么多,还有点贵。同时带来一个问题,打了很多纸,纸很厚,有凸凹点,不容易存放和运输,而且只能显示静态的东西。


大家知道互联网的发展,在互联网上除了文字更多的是图形、图像、视频,这样发展的趋势把盲人朋友放在了互联网之外,他们如果没有一个好的工具,就更没有办法理解这个东西,这是一个非常大的挑战。尽管现在有盲人图书、盲人打字机甚至盲人点显器,但是怎么帮助他们学习图形图像抽象的东西,以及获取互联网的信息,这不仅是挑战,而是全人类面临的义务和责任。


触觉图像显示器市场上大尺寸非常贵,而且大尺寸也不是大家想象的那么大,这个就是比较大的了。太小的尺寸,由于分辨率的问题认知效果就大打折扣。即便这样一个小的现在提高价格差不多5.5万欧元,将近40万人民币左右。


针对这样的问题,我们从几方面下手。首先是沉浸认识,要做触觉的东西,从认知的角度,什么是他们能够接受,他们习惯的以及他们能够真正通过触觉来理解的图像。另一方面仅仅是触觉,大家知道盲人的听觉也非常的发达,从听觉的角度来说,触觉和听觉的多通道怎么融合,开发多通道的沉浸的体验,同时我们希望能够开发一款相对低成本的触觉图像显示器。


问题有哪些?


比如如何提高盲人图形图像的认知和交互体验,如何设计触觉图形。如果把普通的图像简单地提取一个边缘的话,从触觉人质的角度来看是很难理解的,必须有一套相对来说经过改进的图像便于触觉理解。如何设计既有高精度、大幅面又低成本的图像显示器,以及在更多的场景下如何融入触听觉沉浸式信息的获取。


我们非常幸运有很多的合作伙伴,例如:北京盲人学校、北京联合大学特殊教育学院,我们和这些专家们探讨如何探索图形库的内容的框架。


中国盲校的教学材料

这是盲文,中国的盲人是基于汉语拼音的。而且还不仅仅是文字,很多盲人音乐家非常厉害,这是他们学习音乐课的基本乐符。而学习物理课的公式和一些图形表达,物理化学课的内容,怎么通过这样一些图形来让他们上课。包括化学分子式,他们用的纸都是这样,小时候总是捐画报纸,当时不理解,后来才知道这是盲人同学用它扎字、做记录,我们的同学也自己去学习如何用盲文记录,这是非常有意义的体验过程。


用户体验研究

我们为测试做了很多的图形准备,这些是从标准的图形库中拿出来的,然后进行很多筛选和用户访谈,包括来主动、被动的使得图形能够更加有效的被识别。这个过程中我们发现了很多与我们的假设完全不一样的事情,比如我们一直认为一个后天的盲人和先天的盲人同样接触识别一组图形的时候,应该是后天的识别的更好,因为他有过经验。但我们的实验表明,先天的盲人表现更好。后来才发现,这些后天盲人的先天经验干扰了他们对正确结果的判断,这些是完全和我们的想象不一样的。还有一个问题是,发生在什么时候。我们每周都在做用户体验的设计,包括主动和被动的。和他们一起讨论,什么样的图形是合适的,怎么提取这里面的关键内容。


同样我们也提出了一套触听觉多通道的交互模型,希望能够从认知能力上,不同的通道能够占用不同的脑力资源,能够从交互界面上触觉和听觉的信息分别占据不同的传输空间,使得干扰最小、融合最大。这个项目本身也是多学科的融合,除了我,还有清华大学美术院系鲁晓波教授、计算机系史元春教授,清华医学院的洪波教授,还有中科院心理所的刘烨研究员、以及我们的研究生焦阳、龚江涛等等。


通过大家的努力,我们得到非常有意思的数据。我们能够看到听觉区域两个方面都是差不多的,而在大脑的结构上盲人的视觉区域小于明眼人的视觉区域。盲人触摸东西非常快,那个速度让我们惊呆了。但是通过脑核磁脑的成像,盲人与明眼人手部运动在脑的成像是差不多的,这个让我们体会到其实我们闭上眼睛经过一但时间训练也可以达到,有些东西是由后天训练确定的。所以当时的一些假设,比如盲人的视觉区域比正常人小,fmRI结果支持了第一个假设,但是我们觉得盲人的手的运动区域要大,但是在实验中没有支持这个假设。这是多学科交叉和融合的工作。  


Graille

我们对这样的一个设备做了功能的设计,比如我们希望它有这样的一些功能,能够支持、学习、社交、分享。我们提出的技术指标,渲染幅面大于120×60点,现在有7200点,如何在这么小的空间上控制7200点,能够真正实时的显示出来,这并不是简单的事情。这个工作为什么这么困难做了这么多年。这么小的结构,直径1毫米,这样的结构上,我们在这上面设计了几套机械联动装置。 


再谈一下产业化的东西,首先如为盲人朋友提供更好的服务是各国政府关心的问题。中国政府也非常关注这个事情,我们也拿到了国家的重大专项的支持,同时联合国儿童基金会,中国残疾人协会等也一直关心相关的研究。我们也在和百度合作,这个项目如果做出来原型,我们会和百度做盲人搜索平台,盲人用这样的设备来搜索、购物,做力所能及的事情。刚开始可能不能什么都做,但是万水千山第一步总是要迈出去。


进一步的研究

除了给盲人用以外,我们在计算机视觉上也提出了一些新的挑战。比如什么是图像语义特征,什么是触觉图像的语义特征,如何提取这种图像。例如,简单的阈值计算或者提取边缘并不能够使得盲人能够理解这样的图像,只有真的有语义的、精炼的表达出来才有可能对图像压缩、编码、传输真正起到帮助作用。借这个机会,我也特别感谢微软研究院曾经给过很大的支持,现在一直也在关注和关心这个项目。同时,也有很多单位给了这个项目很大的支持和赞助,比如微软亚洲研究院、Intel中国研究院、百度公司、国家自然科学基金、国家重大专项研究计划、北京盲人学校、北京联合大学特殊教育专业、中科院软件所、中科院心理所、联合国儿童基金会、清华大学美术学院、计算机系、医学院、心理学系等等。衷心感谢团队中的每一位成员的努力!





 

寻找人工智能研究中的结构洞

$
0
0


​ 在社会学中有一个著名的理论叫“结构洞理论(structural holes theory)”[1]。对这个理论不了解的读者可以先看看下面这两张图(来自维基百科)。


想象这是两个社交网络,网络中每个节点是一个人,每条边代表两人之间存在的朋友关系。在左边这张图,节点A链接了三个群体,而这三个群体之间不存在其它的链接,因此,如果A消失了,那么这张图也将分裂成三个互不连通的子图。在右边这张图就不存在这样一个节点,比如节点B虽然和A一样,也有自己的三个朋友,但如果把B移走,这张图的连通性完全不会受影响。提出结构洞理论的芝加哥大学教授Ronald Burt认为, 与B相比,A在社交网络中具有显著的位置优势,A不仅可以在不同的群体之间传递信息,还有机会结合来自不同群体的想法以产生自己的创新。


我们能不能将这个理论应用于自己的工作呢?


其实这也不是什么全新的概念,因为在历史上经常可以看到学科之间发生交叉,从事交叉学科研究的学者就像图中的A,在学术网络中占据了一个有利的位置,他们做出的研究工作也往往具有较大的影响力,甚至能开创一个全新的领域。当然,随着研究的深入,曾经的结构洞可能会逐渐消失、节点A演化为节点B,但同样可以预见的是,这时一定会出现新的结构洞和新的节点A。


近年来人工智能的发展如日中天。作为人工智能的早期开拓者之一,Herbert A. Simon(中文名是司马贺)就是一个著名的跨界学者,他的研究工作横跨了心理学、认知科学、计算机科学、经济学和社会学等众多领域。深度学习的知名学者Geoffrey E. Hinton同时也是一位心理学家。


回到我们自己的研究。在过去十年,我的团队一直在计算机科学、社会学、心理学、地理学和经济学等领域的交叉地带展开研究。这一方面是研究兴趣所致,另一方面也是由于计算和数据技术的高速发展给整个社会带来了巨大的变化,计算机科学通过和传统学科交叉产生了大量新的研究课题。


从2015年底开始,我们就频频和心理学家接触,这并不是我的同事们发生了心理问题,而是我们最近几年一直在做用户画像的研究[2],做着做着我们发现,若要深入的理解一个人,还是要去请教心理学家。


通过用户产生的大数据,我们可以去猜测一个人的年龄、职业、兴趣爱好,也可以去描绘一群人的生活规律和移动模式,那我们能不能进一步走到人的内心深处,去了解他们的性格和情感呢?这些问题在心理学领域已经被思考了上千年,但我们发现计算机科学和心理学的联系非常少,这就像前面描绘那样,存在一个结构洞。



为了更深入地理解心理学领域的研究成果,我们邀请了剑桥大学心理学系博士生陈彦桦(Fiona Chan)来我们组实习,她对心理测量和人格心理学的深刻理解让我们受益匪浅。我们还拜访了著名的心理学家、目前任香港中文大学副校长的张妙清教授,她在1996年提出了针对中国人特点的中国人个性量表(CPAI, The Chinese Personality Assessment Inventory)。


基于和心理学家的合作讨论,我们组里的同事张富峥从猎奇心理、消费者冲动性到大五人格,做了一系列研究,研究成果连续发表在WWW 、UbiComp和WSDM 等顶级会议上。在他最新的WSDM 2017工作[3]里,他提出了一个异构信息集成学习框架,通过综合头像照片、语言使用习惯、表情符使用习惯和回应模式等多元数据,来预测用户的性格,将准确性提高到0.75。(这个研究的详情可以参见张富铮撰写的《也许没有人比人工智能更懂你?》一文,即将在本平台发布。)


在人工智能领域,聊天机器人是一个很火的应用,微软也提出了“Conversation as a Platform(对话即平台)”的概念,认为未来所有人机界面都将转变为对话界面。联想到两年前我看过一部电视剧,至今记忆犹新,是英剧“黑镜(Black Mirror)”第二季第一集“be right back”[4]。这部电视剧描述了一家人工智能公司,能够通过一个人的社交媒体和在线聊天数据合成一个虚拟人,而这个虚拟人可以模仿那个人的性格特点和他的女友进行对话。这看起来很科幻,但实际上离我们已经并不遥远:2016年10月一篇新闻报道[5]中就提到,来自俄罗斯的创业者Kuyda为了纪念去世的朋友Roman,用他的8000条短信数据训练了一个聊天机器人,并于2016年5月正式发布。


不过,尽管技术已经前进了一大步,但就算是目前最好的聊天机器人也还无法让人感觉他是一个具有稳定性格和情感、活生生的人。类似“黑镜”里提到的技术是否能在近期实现,这就涉及到如何让机器人的语言和行为更具有个性。


这样的研究在过去是很难开展的,主要的瓶颈是缺乏用于训练的数据。现在,随着社交网络盛行,带有用户标签的语言数据变得容易获取。就像前面提到的新闻报道描述一样,如果我们有足够的关于某个人的数据,就有可能训练出一个和他个性一样的聊天机器人。当然,我们还可以通过一群人,例如儿童、学生、甚至诗人的数据来训练出具有一类人特点的机器人。但是,随着研究的深入,我相信最终我们还会遇到瓶颈,例如到底如何才能让机器人具备更加真实的人类性格与情感,这还是需要和心理学家合作。


我们组的另一位同事宋睿华就在这个方向进行研究。最近,她已经通过让聊天机器人学习大量文学作品,成功地让机器人的语言更像诗人,甚至武侠小说作家。(接下来她也会在这个平台分享她的研究心得,题为《好玩的文本生成》。)


我们还在想,聊天机器人是否有能力最终演变成为一个心理学家,至少是接近一个心理咨询师?这就有了我们的DiPsy项目[6]。这个项目的目标是让机器人能够和人聊天,帮助他们克服心理上的问题。在这个项目中,我们借鉴了心理咨询中常用的认知行为疗法(Cognitive Behavior Therapy) 和正念疗法(Mindfulness)。在2016年初的微软技术节上,我们展示了DiPsy的原型。在未来,我们期待这个项目能帮助解决实际的社会问题,例如农村留守儿童的心理疏导。


此外,在最近举办的微软亚太教育峰会2016 上,我们组织了一个分会,专门探讨人工智能与心理学的交叉合作。在这个分会中,我们邀请了三位年轻的研究员来介绍他们正在从事的跨界研究工作,分别是:来自南开大学社会心理学系的陈浩,具有心理学背景而从事社交网络数据挖掘的研究;来自“中央研究院”的杨得年,具有电子工程背景,目前在研究心理疾病检测与治疗的问题;以及来自中科院心理所的朱廷劭,毕业于中科院计算所,正宗的计算机专业博士,却在心理所担任研究员。在这次研讨会上,他们都从自己的研究项目出发,和听众分享了如何在人工智能与心理学的交叉地带开展研究。对这次研讨会内容感兴趣的读者可以去访问我们在微软网站上分享的视频[7]。


总体而言,这些研究项目很多都还在起步阶段,期待各位看完这篇文章以后,也能发现更多人工智能研究中的结构洞,从中找到适合自己的课题,做出有影响力的学术成果。最后,我想提一下微软的普及人工智能(Democratizing AI)战略,这一战略致力于开发更好用的产品,让更多人能轻松使用人工智能技术,以更好地解决我们共同面临的各种严峻的社会和经济问题——从某种角度来看,这也是在帮助更多人能站到本文最开始图中的节点A位置上来。


[1] Ronald S. Burt. Structural Holes: The Social Structure of Competition. Harvard University Press. 1995.

[2] LifeSpec: Learning the Spectrum of Urban Lifestyles, https://www.microsoft.com/en-us/research/project/lifespec-learning-spectrum-urban-lifestyles-2/

[3] Honghao Wei, Fuzheng Zhang, Nicholas Jing Yuan, Chuan Cao, Hao Fu, Xing Xie, Yong Rui, and Wei-Ying Ma, Beyond the Words: Predicting User Personality from Heterogeneous Information, the 10th ACM International Conference on Web Search and Data Mining (WSDM 2017), Cambridge, UK, Feb. 2017

[4] https://en.wikipedia.org/wiki/Be_Right_Back

[5] http://www.theverge.com/a/luka-artificial-intelligence-memorial-roman-mazurenko-bot

[6] DiPsy: A digital psychologist, https://www.microsoft.com/en-us/research/project/dipsy-digital-psychologist/

[7] https://www.microsoft.com/en-us/research/video/asia-faculty-summit-2016-ai-psychology/ 


作者简介

谢幸

谢幸博士于2001年7月加入微软亚洲研究院,现任社会计算组高级主任研究员,并任中国科技大学兼职博士生导师。他分别于1996年和2001年在中国科技大学获得计算机软件专业学士和博士学位。他在国际会议和学术期刊上发表了200余篇学术论文,并拥有50余项专利。他是ACM、IEEE高级会员和计算机学会杰出会员。他参与创立了ACM SIGSPATIAL中国分会,并曾担任ACM UbiComp 2011大会程序委员会联合主席。





 

刘铁岩:对偶学习推动人工智能的新浪潮

$
0
0

12 月 17 日,中国人工智能学会、中国工程院战略咨询中心主办,今日头条、IEEE《计算科学评论》协办的2016机器智能前沿论坛暨2016 BYTE CUP 国际机器学习竞赛颁奖仪式在中国工程院举办,论坛邀请到今日头条、微软、IBM 等业界科学家以及清华大学、北京大学、Santa Fe 研究所、Georgia Institute of Technology(佐治亚理工)等国内外知名院校学者共同探讨了机器学习的研究现状、前沿创新及应用发展等问题。微软亚洲研究院首席研究员刘铁岩博士受邀发表演讲。本文由机器之心授权转载。


对偶学习推动人工智能的新浪潮

刘铁岩


谢谢大家,感谢组委会的邀请,让我有这个机会与大家分享我们的研究工作。我刚才坐在台下聆听了孙茂松老师和 David 的报告,都获益匪浅。首先,老师非常全面的回顾了机器翻译的历史,又有高屋建瓴的讨论,让我们从中学到了很多的东西。其次,很荣幸我的报告排在 David 之后,做优化和机器学习的同事们应该都非常熟悉 David 的 No Free Lunch Theory,尤其在今天全世界都希望用神经网络这「一招鲜」来解决所有问题的时候,更应该仔细琢磨一下这个定理,对大家会有很大的启示。


今天我分享的主题是对偶学习。在对这个主题进行深入讨论之前,我想同大家一起回顾一下最近这段时间人工智能领域的一些飞速发展。我举几个例子,首先是语音识别。


可能很多同学都看到过这则新闻,微软研究院在语音识别方面取得了重大突破,第一次机器学习算法在日常对话场景下取得了和人一样好的语音识别能力,词错误率降低至 5.9%


第二个例子是有关图像识别和物体分割,在这方面微软研究院同样也有世界领先的研究成果


2015 年,我们研究院发明的 ResNet 算法在 ImageNet 比赛中力拔头筹,超过了人类的识别水平。人眼辨识图像的错误率大概为 5.1%,而 ResNet 的错误率低至 3.5%。今年,在 COCO 物体分割竞赛中,我们研究院同样获得了第一名,和第二名拉开了很大的差距。物体分割比图像分类更难,不但要识别出图片里有什么,还要能够把它的轮廓勾勒出来。


第三个例子是机器翻译,最近相关产业界的发展突飞猛进。这一方向微软同样有着世界领先的技术。


比如在微软的 Skype Translator 软件里,对话双方可以用不同语言进行交流,系统实现实时语音翻译。如果今天会场上大家使用 Skype Translator 的话,可能就不需要聘请同声传译公司了。


第四个例子,最近这段时间人工智能之所以吸引了那么多的眼球,一个重要原因就是它在一些需要极高智商的比赛中取得了关键性胜利。比如 AlphaGo 4:1 战胜了围棋世界冠军李世石。在这场人机大战之后,DeepMind 的科学家没有停止他们的训练,据说今天的 AlphaGo 已经达到了人类专业围棋十三段的水平,十三段对决九段那简直就是秒杀。



人工智能的这些成果非常令人振奋,那么这些成果背后又是怎样的技术呢?这就不得不提到深度学习和增强学习。


深度学习使用的是非常复杂,层次很深,容量很大的非线性模型,如深层神经网络,这样的模型可以很好的拟合大量的训练数据,从而在很多识别任务中表现突出。增强学习是一种持续学习技术,它不断地和环境进行交互,根据环境的反馈更新模型。这两种技术还可以相互结合,我们称之为深度增强学习。AlphaGo 背后的核心技术就是深度增强学习。那么,到底深度学习和增强学习是不是真的已经非常完美,可以解决我们面临的所有人工智能问题呢?


其实答案是否定的。仔细分析一下,就会发现这两项技术都存在本质的弱点。首先,目前深度学习的成功离不开大量的有标签训练数据。但是获得海量有标签数据的代价是非常高的,在某些特定的邻域甚至是不可能完成的任务。比如医疗领域的疑难杂症,本身样本就非常少,有钱也无法取得大量的有标签数据。正所谓成也萧何,败也萧何,大数据推动了深度学习的成功,但也成为了深度学习进一步发展的瓶颈。其次,增强学习虽然不需要利用传统意义上的有标签数据,但是它的学习效率并不高,需要跟环境进行大量交互从而获得反馈用以更新模型。然而,有时和环境的频繁交互并不现实。比如,在我们学开车的时候,依赖于频繁地和环境(周围的路况,其他的车辆)进行交互是很危险的,可能还没学会开车就已经发生交通事故了。这就解释了为什么增强学习取得成功的领域很多都是模拟环境,比如说打电子游戏、下围棋等等,它们规则明确,可以无限次重复。但当把增强学习应用到一些实际场景里,需要和实际用户进行交互,还可能带有无法挽回的风险,是不是还能取得同样的效果呢?目前还没有被证实。


了解了深度学习和增强学习的弱点以后,我们不禁要问:有没有一种新的学习范式可以克服他们的弱点?能否可以不依赖于那么多有标签的数据,能否不需要跟真实环境做那么多次交互,就可以学到有效的模型?为了回答这个问题,我们首先来对现有的人工智能任务做一个仔细的分析。


通过分析,我们发现了一个非常重要的现象:现实中,有意义、有实用价值的人工智能任务,往往是成对出现的。比如在做机器翻译的时候,我们关心从英语翻译到汉语,我们同样也关心从汉语翻译回英语。再比如,在语音领域,我们既关心语音识别的问题,也关心语音合成的问题(TTS)。图像领域,我们既关心图像识别,也关心图像生成。类似这样的对偶任务还有很多,比如在对话引擎、搜索引擎等场景中都有对偶任务。这种现象给了我们什么启示呢?


第一点,由于存在特殊的对偶结构,两个任务可以互相提供反馈信息,而这些反馈信息可以用来训练深度学习模型。也就是说,即便没有人为标注的数据,有了对偶结构,我们也可以做深度学习了。第二,这两个对偶任务,可以互相充当对方的环境,这样我们就不必跟真实的环境做交互,这两个对偶任务之间的交互就可以产生有效的反馈信号了。总而言之,如果我们能充分地利用对偶结构,就有望解决刚才提到的深度学习和增强学习的瓶颈——训练数据从哪里来、和环境的交互怎么持续进行下去。


基于以上的思考,我们提出了一个新的学习范式,叫做对偶学习。它的思路非常简单。我们假设学习过程中有两个智能体,其中一个智能体从事的是原任务,就是从 X 到 Y 的学习任务;而另外一个智能体从事的是对偶任务,也就是从 Y 到 X 的学习任务。假如我们把 X 用第一个智能体的模型 F 映射成 Y,再利用第二个智能体的模型 G 把它反映射成 X’。通过比较 X 和 X'我们其实就可以获得非常有用的反馈信号。

其实这个做法在刚才孙茂松老师的演讲中已经提到过,有人曾经用这种翻过去再翻回来的方式判断机器翻译模型的好坏。如果 X 和 X'的差异很大,就说明这个翻译系统不靠谱,说明模型 F 和 G 至少有一个不好;如果 X 和 X'很接近,就给了我们一个利好的消息,就是这两个模型都不错。除了比较 X 和 X'的差异,其实还有很多其他的反馈信息可以被利用。下面我们以机器翻译为例,做个详细的说明。 


假设我们有一个英文的句子 X,通过翻译模型 F 的作用,得到一个中文句子 Y。那么 Y 作为一个中文句子是不是符合语法,是不是顺畅,X 到 Y 之间的关系是否和英汉词典一致等等,都可以作为反馈信息。同样,当我们用模型 G 把 Y 再变成英文句子 X'以后,也可以去衡量 X'是不是符合语法,是否顺畅、X'与 Y 的关系是否与英汉词典一致,以及 X'和 X 是否相似等等,都可以作为反馈信息。利用这些反馈信息,我们可以使用包括 Policy Gradient 在内的方法,来一轮一轮地更新我们的模型,直到最终得到两个满意的模型。


上面的这个过程可以无限循环下去,每次随机地抽选一个单语语句,做对偶学习,更新模型,然后再抽选下一个单语语句,进行对偶学习。那么这个过程会不会收敛呢?其答案是肯定的,以机器翻译为例,我们可以证明,只要机器翻译模型 F 和 G 的解码部分都使用的是随机算法,比如 beam search,这个对偶学习过程就一定是收敛的,也就是说你最终会学到两个稳定的模型 F 和 G。


那么接下来,我们就来看看这样的稳定模型是否有效。我们对比的算法是一个非常经典的神经机器翻译方法,而且用的是他们自己开源的代码。为了训练这个对比算法,我们使用了全部的双语标注数据。而我们自己提出的对偶学习算法并不需要双语标注数据,用单语数据就可以进行学习和迭代了。不过万事开头难,我们还是要给这个学习过程一个初始化。在初始化过程中,我们使用了 10% 的双语语料训练了一个相对比较弱的模型,然后用对偶学习的迭代过程不断提高它。也就是说,在初始化完成之后,我们就不再使用任何双语的标注语料了,而是靠两个对偶任务互相提供反馈信息进行模型训练。好,那我们来看看实验结果如何。


这两张图展示了法英和英法翻译的实验结果。以第一张图为例,最左边这根柱子对应的是用 10% 双语语料训练的初始模型;最右边这根柱子对应的是用 100% 双语语料训练的翻译模型。可以看出,初始模型确实比较弱。当我们使用对偶学习的方法,虽然不再利用任何有标注的双语数据,我们仍可以很快的接近甚至超过用百分之百的双语语料训练出来的模型。这个结果非常令人振奋。不仅如此,我们的实验发现,对偶学习更不容易饱和,因为无标签的单语数据非常丰富、非常多样化,因此通过不断调节单语数据源和调整反馈信息,可以持续提高模型的有效性。相反,使用双语语料比较容易饱和,过几遍数据以后,当信息被挖掘得足够充分,想要再提升模型精度就变得非常困难了。


如上这种振奋人心的结果是否只局限在机器翻译领域呢?其他领域是否也可以使用类似的方法得到提升呢?答案是肯定的,前面我提到的很多人工智能的任务都具有对偶结构,因此都可以用对偶学习来解决。


​ 这张 PPT 展示了在语音识别和语音合成方面如何定义反馈信号,从而进行对偶学习。


同样,这张 PPT 展示了在图像识别和图像生成方面如何定义反馈信号,从而进行对偶学习。


而这张 PPT 则展示了在对话引擎方面如何定义反馈信号,从而进行对偶学习。


说到这里,可能很多人会有疑问,虽然我们说对偶学习应用很宽泛,但是我们举的例子都有一个共同特点,就是真实的物理世界里确实存在两个对偶的任务。那么,如果我们要解决的问题并不存在一个天然的对偶任务怎么办?其实这个也没关系,即使没有物理上的对偶性,也可以通过虚拟的对偶性来完成对偶学习。我举两个例子。第一个是在深度神经网络领域常用的 Auto Encoder,仔细分析一下,它其实是对偶学习的一个特例。


Auto Encoder 原本的任务是要学习从输入层到隐层的一个映射(即编码),为了有效地学习这种映射,我们人为添加了一个虚拟任务:就是从隐层到输入层的逆映射(即解码,请注意图中的输出跟输入是一样的数据),这样就形成了机器学习的闭环。如果用对偶学习的语言描述一下,就是这张图:通过人为增加解码回路,使虚拟的对偶性得以成立,从而实现对偶学习。不过需要指出的是,Auto Encoder 和对偶学习有一些小差别,Auto Encoder 只关心单边任务的模型(也就是编码器),而在标准的对偶学习中,我们同时关心两个模型,想把它们都学好。


另一个例子是最近这两年特别火的——Generative Adversarial Nets(GAN)。它的目标是学习一个图像生成器,为此通过一个鉴别器不断给生成器提供反馈信息(也就是判别生成器生成的东西是真是假)。这样的博弈过程可以获得一个非常有效的图像生成器,用它可以自动制造训练样本来进行深度学习。很显然,GAN 也可以用对偶学习的语言进行描述,并且它也只是对偶学习的一个特例:它只关心单边生成器的有效性,而标准的对偶学习会同时关心生成器和鉴别器的有效性。


到此为止,无论是天然的对偶学习,还是虚拟的对偶学习,都是用来解决无监督学习问题的。那么,如果实际中我们的训练数据已经非常多了,对偶学习的思想还有用吗?我们的答案是:有用,而且非常有用。


让我们来看一下监督学习的例子。我们有一个样本 X,原任务是要预测它的标签 Y。为此,我们可以使用已有的很多监督学习技术加以实现。但如果我们再给它人为增加一条对偶回路会怎样呢?假设存在一个对偶任务,是从标签 Y 到 X 的预测。那么原任务和对偶任务其实存在着非常内在的联系。利用全概率公式和贝叶斯公式我们可以很容易知道,这两个任务背后的条件概率是互相约束的,利用这一点可以构造一个非常强的正则项来提高模型的学习效率。我们在机器翻译上的实验表明,加入这个对偶正则项,翻译模型的 BLEU score 有大幅度的提升。


同样的道理,对偶学习的思想甚至可以提高 inference 的性能。假设我们的模型已经训练好了,原任务是要用它来做预测。传统的做法是,给定一个样本 X,基于已有模型,寻找能够使其条件概率 P(Y|X) 最大化的 Y 作为 inference 的结果。如果我们运用对偶学习的思想,就会发现问题还可以反过来看。从对偶任务的模型出发,利用贝叶斯公式,同样也可以导出条件概率 P(Y|X) 来。按理说这两个条件概率应该是一致的,但是因为原任务和对偶任务是独立进行的,实际中它们可能并不完全一致,那么如果综合考虑这两个条件概率,我们的置信度会得到提升。相应地,inference 的结果也会得到明显的提升。



到此为止我们介绍了对偶学习在无监督学习上的应用、在没有天然对偶结构时如何使用虚拟回路实现对偶学习、以及如何把对偶学习的思想延展到有监督学习和 inference 之中。



事实上,对偶学习是一个新的学习范式,而不单是一个技巧。它和我们熟知的很多学习范式,如无监督学习、半监督学习、co-training、多任务学习、迁移学习都有联系,又有显著不同。它提供了一个看待这个世界的不同视角,对很多难题提供了新的解题思路。我们非常有信心对偶学习在更多的领域将会取得成功。我们组的同事们正在这个方向上积极探索,也希望在座的各位能够加入我们,一起去推动对偶学习的发展,掀起人工智能的新浪潮,谢谢大家!


作者简介

刘铁岩博士

刘铁岩,微软亚洲研究院首席研究员,美国卡内基-梅隆大学(CMU)客座教授、英国诺丁汉大学荣誉教授、中国科技大学、中山大学、南开大学兼职博导。刘博士的研究兴趣包括:人工智能、机器学习、信息检索、数据挖掘等。他的先锋性工作促进了机器学习与信息检索之间的融合,被国际学术界公认为“排序学习”领域的代表人物,他在该领域的学术论文已被引用近万次,并受斯普林格出版社之邀撰写了该领域的首部学术专著(并成为斯普林格计算机领域华人作者的十大畅销书之一)。近年来,刘博士在博弈机器学习、深度学习、分布式机器学习等方面也颇有建树,他的研究工作多次获得最佳论文奖、最高引用论文奖、研究突破奖,并被广泛应用在微软的产品和在线服务中。他曾受邀担任了包括SIGIR、WWW、KDD、NIPS、AAAI在内的顶级国际会议的组委会主席、程序委员会主席、或领域主席;以及包括ACM TOIS、ACM TWEB、Neurocomputing在内的国际期刊的副主编。他是国际电子电气工程师学会(IEEE)院士,美国计算机学会(ACM)杰出会员,中国计算机学会(CCF)高级会员、杰出演讲者、学术工委,中文信息学会信息检索专委会副主任。


 

宋睿华:好玩的文本生成

$
0
0

文本生成是比较学术的说法,通常在媒体上见到的“机器人写作”、“人工智能写作”、“自动对话生成”、“机器人写古诗”等,都属于文本生成的范畴。


二零一六年里,关于文本生成有许多的新闻事件,引起了学术界以外对这一话题的广泛关注。


  • 2016年3月3日,MIT CSAIL【1】报道了,MIT计算机科学与人工智能实验室的一位博士后开发了一款推特机器人,叫DeepDrumpf,它可以模仿当时的美国总统候选人Donald Trump来发文。


  • 2016年3月22日,日本共同社报道,由人工智能创作的小说作品《机器人写小说的那一天》入围了第三届星新一文学奖的初审。这一奖项以被誉为“日本微型小说之父”的科幻作家星新一命名。提交小说的是“任性的人工智能之我是作家”(简称“我是作家”)团队【2】。


  • 2016年5月,美国多家媒体【3】【4】报道,谷歌的人工智能项目在学习了上千本浪漫小说之后写出后现代风格的诗歌。


基于人工智能的文本生成真的已经达到媒体宣传的水平了吗?这些事件背后是怎样的人工智能技术?关于机器人写小说的工作,我们会在另一篇文章《会有那么一天,机器人可以写小说吗?》里进行深入的讨论,他们的工作更多的是基于模板的生成。在这篇文章里,我们主要想通过三篇文章介绍另一大类方法,即基于统计的文本生成。


第一篇  令人吃惊的Char-RNN


关于基于深度学习的文本生成,最入门级的读物包括Andrej Karpathy这篇博客【5】。他使用例子生动讲解了Char-RNN(Character based Recurrent Neural Network)如何用于从文本数据集里学习,然后自动生成像模像样的文本。


图一直观展示了Char-RNN的原理。以要让模型学习写出“hello”为例,Char-RNN的输入输出层都是以字符为单位。输入“h”,应该输出“e”;输入“e”,则应该输出后续的“l”。输入层我们可以用只有一个元素为1的向量来编码不同的字符,例如,h被编码为“1000”、“e”被编码为“0100”,而“l”被编码为“0010”。使用RNN的学习目标是,可以让生成的下一个字符尽量与训练样本里的目标输出一致。在图一的例子中,根据前两个字符产生的状态和第三个输入“l”预测出的下一个字符的向量为<0.1, 0.5, 1.9, -1.1>,最大的一维是第三维,对应的字符则为“0010”,正好是“l”。这就是一个正确的预测。但从第一个“h”得到的输出向量是第四维最大,对应的并不是“e”,这样就产生代价。学习的过程就是不断降低这个代价。学习到的模型,对任何输入字符可以很好地不断预测下一个字符,如此一来就能生成句子或段落。


Andrej Karpathy还共享了代码【6】,感兴趣的同学不妨下载来试试,效果会让你震惊。Andrej Karpathy在底层使用的RNN的具体实现是LSTM(Long-Short Term Memory),想了解LSTM可以阅读【7】,讲得再清楚不过。   

研究人员用Char-RNN做了很多有趣的尝试,例如,用莎士比亚的作品来做训练,模型就能生成出类似莎士比亚的句子;利用金庸的小说来做训练,模型就能生成武侠小说式的句子;利用汪峰的歌词做训练,模型也能生成类似歌词的句子来。


在本文一开始提到的【1】,MIT计算机科学与人工智能实验室的博士后Bradley Hayes也正是利用类似的方法开发了一款模仿候任美国总统Donald Trump的推特机器人,叫DeepDrumpf。例如,图二中,这个机器人说,“我就是伊斯兰国不需要的。”


据作者介绍,他受到一篇模拟莎士比亚的论文启发,以Donald Trump的演讲和辩论(时常大约几个小时)的字幕作为训练语料,使用深度神经网络学习去训练Trump的模型。他也声称,因为有一篇文章调侃Trump的发言只有小学四年级的水平,因而想到用Trump的语料可能是最容易控制的。


这是一个有趣的应用,记者评论称这个机器人也并不是总能写出好的句子,但至少部分是通顺的。其实,风格并不是很难学到,只要使用的训练语料来自同一个人,而这个人的写作或者发言具有辨识度高的特点。


第二篇  深度学习生成对话


推荐阅读的第二篇文章是诺亚方舟实验室的尚利峰、吕正东和李航在2015年ACL大会上发表的“Neural Responding Machine for Short-Text Conversation” 【9】。大家也许听说过微软小冰,它因为开创性的主要做闲聊(即以娱乐为目的的聊天)式对话,被哈尔滨工业大学的刘挺教授誉为是第二波人机对话的浪潮的代表【8】。小冰的出现也影响到了学术界。除了原来做知识性的问答,一些研究也开始关注闲聊,让机器人和人类搭话,这方面诺亚方舟实验室发表了一系列有影响力的文章。今天介绍的这篇文章在Arxiv.org上发布短短一年时间,已经有67次的引用。


【9】这篇文章尝试用encoder-decoder(编码-解码)的框架解决短文本对话(Short Text Conversation,缩写为STC)的问题。虽然encoder-decoder框架已经被成功应用在机器翻译的任务中,但是对话与翻译不同,对应一个输入文本(post)往往有多种不同的应答(responses)。文中举了一个例子,一个人说“刚刚我吃了一个吞拿鱼三明治”,不同的应答可以是“天哪,才早晨11点”、“看起来很美味哟”或是“在哪里吃的”。这种一对多的情况在对话中很普遍也很自然。的确,不同的人会对同一句话做出不同的反应,即使是同一个人,如果每次回答都一模一样也是很无趣的。


针对这一特点,作者们提出Neural Responding Machine(简称NRM,见图三)框架来解决短文本对话的问题。他们尝试了全局编码和局部编码,最终发现先分别训练,再用图四的结构来做微调训练,效果最佳。全局编码的优点是能够获得全局信息,同样的词在不同情境下会有不同的意义,全局信息可以部分解决这类情况;缺点是,它供给解码的输入比较固定。局部编码利用局部信息,比较灵活多样,刚好可以缓解全局编码的弱点。




这篇论文的另一大贡献是构建了一个比较大的数据集和标注来评价不同的方法。通过对比,所提出的混合全局和局部的方法比以往基于搜索的方法和机器翻译的方法都要好很多。机器翻译的方法生成的句子往往不通顺,得分最低。能比基于搜索的方法好很多也非常不容易,因为基于搜索的方法得到的已经是人使用过的应答,不会不通顺。大家可以在图五的实例中直接感受一下生成的效果。NRM-glo是全局编码的模型,NRM-loc是局部编码的模型,NRM-hyb是混合了全局和局部的模型,Rtr.-based则是基于搜索的方法。


2015到2016年,这篇论文的作者组织了NTCIR-12 STC任务【10】,公开他们的数据集,并提供公共评测。有16个大学或研究机构参加了中文短文本对话任务的评测。2017年,他们将会继续组织NTCIR-13 STC【11】,现已开放注册【12】。除了上一届的基于搜索的子任务,这一次还设立了生成应答的子任务。我们预计今年的结果会更精彩。


第三篇  被媒体误解的谷歌人工智能写诗


第三篇文章是Samuel Bowman等发表在Arxiv.org上的名为“Generating Sentences from a Continuous Space”的文章【13】。作者分别来自斯坦福大学、马萨诸塞大学阿姆斯特分校以及谷歌大脑部门,工作是在谷歌完成的。


这一工作曾被媒体广泛报道,但我发现很多报道(例如【3】【4】)都对论文的工作有一些误解。一些记者将图六所示的文字误认为是机器人写出来的后现代风格的诗歌,其实不然。这只是作者在展示他们的方法可以让句子级别的编码解码更连续。具体而言,在他们学习到的空间中,每个点可以对应一个句子,任意选定两个点,例如在图六中,一对点对应的句子分别是“i want to talk to you.”和“she didn’t want to be with him”,两点之间的连线上可以找出间隔均匀的几个点,将它们也解码成句子,会发现,这些句子好像是从第一句逐渐变化成了最后一句。




得到这样的结果实属不易。在文章的一开始,作者就给出了一个例子,来说明传统的自动解码并不能很好地编码完整的句子。如图七所示,从句子“i went to the store to buy some groceries”到句子“horses are my favorite animals”,中间取的点经过解码得到的句子呈现在它们之间。可以发现,这些句子未必是符合语法的英文句子。与之相比,图六呈现的句子质量要好很多,不仅语法正确,主题和句法也一致。



这篇文章的想法非常有意思,他们想使用VAE(varationalautoencoder的简称)学习到一个更连续的句子空间。如图八所示,作者使用了单层的LSTM 模型作为encoder(编码器)和decoder(解码器),并使用高斯先验作为regularizer(正规化项),形成一个序列的自动编码器。比起一般的编码解码框架得到的句子编码往往只会记住一些孤立的点,VAE框架学到的可以想象成是一个椭圆形区域,这样可以更好地充满整个空间。我的理解是,VAE框架将贝叶斯理论与深度神经网络相结合,在优化生成下一个词的目标的同时,也优化了跟先验有关的一些目标(例如KL cost和crossentropy两项,细节请参考论文),使对一个整句的表达更好。


当然,为了实现这一想法,作者做了很多尝试。首先,对图八所展示的结构做一些变形并没有带来明显的区别。但在优化时,使用退火的技巧来降低KL cost和训练时把适当比例的词变为未知词(即word dropout)这两项技术就非常有效。


作者们通过两个有意思的实验来展示了他们的结果。一个是做填空题,如图九所示,隐藏句子的后20%,让模型来生成后面的部分。从几个例子看,VAE的方法比RNN语言模型(简称RNNLM)更加通顺和有信息量。第二个实验就是在两个句子之间做轮移(Homotopy,也就是线性插值),对比图六和图七,可以看出VAE给出的句子更平滑而且正确,这一点可以间接说明学习到的句子空间更好地被充满。


当然,作者们还给出了一些定量的比较结果。在比较填空结果时,他们使用了adversarial evaluation(对抗评价)。具体的做法是,他们取样50%的完整句子作为正例,再拿50%的由模型填空完成的句子作为负例。然后训练一个分类器,如果一个模型填的越难与正例分开,就说明这种模型的生成效果更好,更具欺骗性。因此,可以认为这一模型在填空任务上更出色。实验的结果也支持VAE比RNNLM更好。


问题与难点


人工智能真的会创作吗?使用深度学习技术写出的文章或者对话,的确是会出现训练集合里未见过的句子。例如,一个原句的前半段可能会跟上另一个原句的后半段;也可能除了词,搭配组合都是训练集里没有的。这看起来有些创作的意味,但是细究起来,往往是原句的部分更为通顺和有意义。目前的技术可以拼凑,偶尔出现一两个好玩的点,但是写得长了,读起来会觉得没头没脑,这是因为没有统领全篇的精神,跟人类的作家比当然还是相差很远。


机器学习到的还只是文字表面,没有具备人要写文章的内在动因。人写文章表达的是自己的思想和感受,这是机器所没有的。因此,即使是机器写文章,具体想要表达什么,似乎还要由人来控制。但如果控制得太多,看起来又不那么智能,少了些趣味。我认为,要想让机器更自由地写出合乎逻辑的话来,我们还需要类似VAE那篇文章一样更深入的研究,对句子甚至段落的内在逻辑进行学习。


另外,人在写一篇文章的时候,很容易自我衡量语句是否通顺、思想是否表达清楚以及文章的结构是否清晰有趣,机器却很难做到。因此,优化的目标很难与真正的质量相一致。目前的自然语言理解技术对于判断句法语法是否正确可能还有些办法,但要想判断内容和逻辑上是否顺畅,恐怕还需要常识和推理的帮助,这些部分暂时还比较薄弱。但也并非毫无办法,我相信未来对文本生成的研究一定会涉及这些方面。


期待更多的人来研究如此好玩的文本生成。


参考文献


【1】http://www.csail.mit.edu/deepdrumpf

【2】http://kotoba.nuee.nagoya-u.ac.jp/sc/gw/doc/20160321f.pdf

【3】https://www.theguardian.com/technology/2016/may/17/googles-ai-write-poetry-stark-dramatic-vogons

【4】http://www.androidauthority.com/google-ai-poetry-692231/

【5】http://karpathy.github.io/2015/05/21/rnn-effectiveness/

【6】https://github.com/karpathy/char-rnn

【7】http://colah.github.io/posts/2015-08-Understanding-LSTMs/

【8】刘挺,人机对话浪潮:语音助手、聊天机器人、机器伴侣,中国计算机学会通讯,2015年第10期,2015

【9】Lifeng Shang, Zhengdong Lu, Hang Li. Neural Responding Machine for Short Text Conversation. Proceedings of the 53th Annual Meeting of Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (ACL-IJCNLP'15), 1577-1586, 2015. 

【10】http://ntcir12.noahlab.com.hk/stc.htm

【11】http://ntcirstc.noahlab.com.hk/STC2/stc-cn.htm

【12】http://research.nii.ac.jp/ntcir/ntcir-13/howto.html

【13】Samuel R. Bowman, Luke Vilnis, Oriol Vinyals, Andrew M. Dai, Rafal Jozefowicz, Samy Bengio. Generating Sentences from a Continuous Space. arXiv preprint, arXiv:1511.06349, 2015.


作者简介


宋睿华博士


宋睿华博士现任微软亚洲研究院主管研究员,从事信息检索、数据挖掘和人工智能方面的研究。她的研究兴趣包括互联网搜索与评价、数据抽取和挖掘、社交和移动数据挖掘、以及基于人工智能技术的文本生成。近期特别对个性化文本对话以及人工智能写作感兴趣。宋睿华博士在国内外顶级会议和杂志上发表论文40余篇,并曾任SIGIR、SIGKDD、CIKM、WWW、WSDM等国际会议和TKDE、TOIS、Information Retrieval等国际杂志的评审委员。她是EVIA2013和2014的主席。她还提出并组织了NTCIR Intent tasks。


宋睿华于2000年和2003年在清华计算接科学与技术系获得学士和硕士学位。之后,加入微软亚洲研究院工作至今。工作的同时,她于2010年取得了上海交通大学计算机系博士学位。





 

LightRNN:深度学习之以小见大

$
0
0

LightRNN:深度学习之以小见大

秦涛

微软亚洲研究院


历经沉浮,AI终去颓势,一扫六合,雄踞当今IT江湖之巅,江湖帮派无论大小皆以AI为荣。然帮派虽众,论及武功秘籍,江湖中只有一个传说,“深度学习,AI至尊,号令天下,莫敢不从,RL不出,谁与争锋”。江湖公认,深度学习,无他,唯大尔。深度学习之大,境界有三重,大数据、大模型、大计算,传言唯有修至三重境者,方能领会深度学习之真谛。然成也萧何、败也萧何,深度学习,因大而崛起闻名于江湖,亦因大而阻碍其一统江湖的步伐:唯有大型帮派,方有财力人力体会三重境之美妙,而限于财力人力小门小派往往不能承受深度学习之大。所幸江湖儿女多豪杰,我辈AI中人多志士,诸多英雄好汉前赴后继,不断钻研,力图以小见大,使得深度学习之大能够返璞归真。本文所要讲述的正是发生在M帮AI部门亚洲分舵的一小段故事。


话说M帮是个超大型帮派,帮众甚多,直接服务IT江湖的产品部门和分舵也众多。听闻循环神经网络(RNN)乃武功秘籍深度学习中的一大绝招,横扫很多应用,包括语言建模、机器翻译、聊天机器人、看图说话(Image captioning)等等,很多分舵尝试把该绝招应用到产品中。然而尽管前途光明,但道路总是曲折的。大家很快发现RNN应用于自然语言处理任务中面临着一个巨大挑战:当语料库词表很大时,模型的体量将变得非常大。例如,当使用 RNN 进行语言建模(language modeling)时,每个词首先需要通过一个输入嵌入矩阵(input-embedding matrix)从 one-hot 向量(其维度与词汇表大小相同)映射到一个词向量。然后为了预测下一词的概率,通过输出嵌入矩阵(output-embedding matrix)将隐藏层映射到词汇表中每个词的概率。当词表包含上千万个不同的词时(这在 Web 语料库中很常见),如果每个词用一个1024维的嵌入向量表示,这两个矩阵就会包含数百亿(10Million×1024×2=20Billion)个不同的元素,这会使 RNN 模型变得过大(超过80GB),而当今江湖深度学习的独门武器GPU的内存最大也只有24GB——很显然,RNN模型之大已超出了深度武器的能力,从而阻碍了RNN在实际中的应用。


解决这一问题的一种思路是阵法。阵法可以使多个GPU组成阵列,从而应对大数据大模型的挑战。这种思路的本质是以力服人、一力降十会,你有大数据大模型,我有大计算。一般来说,阵法非常有效,然而其带来的一个问题就是进一步加剧了对计算资源的需求,这与以小见大的目标背道相驰。为此,M帮AI部门亚洲分舵一小撮帮众聚集在一起,对RNN这一深度学习的绝招做出精巧的改进,其本质是四两拨千斤,将标准的RNN提升到新的一种境界,即LightRNN:标准的RNN模型之所以大,是因为每个词都有一个单独的嵌入向量表达。LightRNN的解决方案是引入一个二维词表,其每一行关联了一个行向量(上图中的二维词表的第一行对应的行向量是x₁),每一列关联了一个列向量(上图中的二维词表的第一列对应的列向量是y₁)。然后把语料库里的每一个词放到二维词表的一个表格,根据一个词在二维表中的位置,该词可由行向量和列向量联合表示(上图中,January的表达为(x₁,y₁), two的向量表达为(x₂,y₂))。因为该表中同一行里的所有词共享相同的行向量,同一列的所有词共享相同的列向量,所以LightRNN仅仅需要2√|V|个向量来表示有|V|个词的词汇表,远远少于标准的RNN所需要的向量数|V|。这种词嵌入的做法被称做两部共享嵌入。


因为在LightRNN中每个词由两部分表达,所以在语言模型中为了预测下一个词,LightRNN需要首先基于前面所有的词预测其行向量,然后基于前面所有的词和已经预测出来的行向量预测其列向量。LightRNN的网络结构具体如下图左边所示,它区别于标准RNN结构(见右边)的地方在于,在标准的RNN中一次预测即可以找出下一个词。在某种程度上来说,LightRNN相当于把句子的长度增加了一倍,把对每个词的预测变成了两次预测。有人可能会问,LightRNN会不会效率变低,训练和测试时间变长。实际情况恰好相反,LightRNN会减少训练和测试时间,原因在于每次预测的复杂度降低:如果语料库词表有一百万个词,标准的RNN为了预测下一个词,需要对这一百万个词每个都打分计算概率,然后选择概率最大的词,因此复杂度是一百万;而LightRNN的二维词表只有一千行一千列,对行做预测时只需要对一千行打分计算概率选择概率最大的行,然后再对一千列打分计算概率选择概率最大的列,因此LightRNN预测一个词的复杂度是两千,远小于标准的RNN。


在公共数据集上测试的结果表明,LightRNN能够大大降低模型的大小,同时还达到了无损甚至更好的精度。如下表所示,在BillionW这个数据集(词表大小接近一百万)上,传统算法及标准的RNN的模型参数个数为16-41亿,而LightRNN的模型参数个数仅为4千万,达到了40-100倍的压缩比。并且随着词表的变大,LightRNN的压缩比会进一步的提高。下表中的PPL反映了语言模型的精度,PPL越小,精度越高。


有读者可能会好奇,为什么在减小模型的同时,LightRNN还能达到更好的精度。原因在于共享嵌入。标准RNN假设每个词都有一个独立的向量表达;LightRNN中很多词会共享行或者列向量,二维词表的行列向量都是从数据里学习得到的,并且哪些词在同一行或同一列也是学习得到的,因此LightRNN能够发现词表中的一些语义。如下表所示,通过训练,LightRNN把很多有语义关联的词放在同一行,如832行都是地名,852行都是数字,861行都是数字 单位,872行都是被动分词,877行都是动词第三人称单数形式,等等。也就是说,LightRNN的二维词表的共享行列向量比标准RNN的独立向量更能发现词之间的语义关联。其次,通过让有语义关联的词共享行或列向量,可以使低频的词的向量表达得到更充分的训练。例如44kg这个词在语料库里出现的次数较少,在标准RNN里它的嵌入向量学习不充分,而在LightRNN里,这个词的行向量由同一行的所有词共同训练,它的列向量也由同一列的所有词共同训练,相当于增加了这个词的训练数据,因此能够提高语言模型的精度。


总结而言,LightRNN有以下优势。


第一,它使单GPU训练大词表的语料库成为现实。有人可能会问,实际中有没有必要用非常大的词表,比如说1百万个词的词表,因为实际常用汉字或者英文单词也就3、5千。答案是非常肯定的,现在很多输入法里都把人名地名以及每天不断涌现的新的网络词汇放到词表里以提高输入法的准确度,这会极大地增大词表的大小。另外,在语音识别里,如果某个人名或地名不在词表里,任何语音识别算法基本上都不可能正确识别该人名或地名。这些应用里在计算资源能够容纳的条件下,词表是越大越好。


其次,因为LightRNN极大地压缩了模型的大小,它对并行机器学习也非常有用。考虑用多GPU分布式训练一个语言模型,标准RNN的模型大小为数GB,这样不同机器之间的模型同步就非常耗时,使通讯时间超过计算时间而成为瓶颈;相比之下LightRNN的模型大小仅为几十MB,非常容易在机器之间传输,通讯代价非常小,从而大大提高并行训练的效率。


第三,考虑到功耗和可定制性,现在很多公司都尝试在FPGA上开发深度学习算法和平台。由于FPGA的内存较小(相对于GPU而言),很多深度学习算法很难在FPGA上实现。 LightRNN因为其模型的极度紧致,为FPGA上的RNN的实现提供一种可能。


第四,现在移动设备在人们的日常生活中扮演着不可或缺的角色。尽管深度学习日益普及,但是在移动设备上的应用始终非常受限,例如当前不可能在手机输入法里使用一个2-4GB大小的语言模型,尽管它的准确度可能很高。LightRNN的模型大小仅为几十MB,非常适合在移动设备上使用,因此LightRNN为深度学习在移动场景中的普及提供了一个可行的方案。


如前文所述,RNN乃是序列建模的绝招,适合非常多的应用,包括语言建模、机器翻译、聊天机器人、看图说话(Image captioning)、图像生成、语音识别等等。相应的,LightRNN通过以小见大、返璞归真,推动深度学习在在这些问题、场景里的实用化。我们相信,LightRNN会进一步提升深度学习在AI的江湖地位,并促进AI普及化进程(Democratizing AI,参见“萨提亚·纳德拉:面向每个人和每个组织 普及人工智能”),而不是让AI或深度学习发展成为大型帮派的特权。


更多详细信息参见我们NIPS 2016 论文。


Xiang Li, Tao Qin, Jian Yang, and Tie-Yan Liu, LightRNN: Memory and Computation-Efficient Recurrent Neural Networks, NIPS 2016. http://papers.nips.cc/paper/6512-lightrnn-memory-and-computation-efficient-recurrent-neural-networks  

作者简介


秦涛博士


秦涛博士,现任微软亚洲研究院主管研究员。他和他的小组的研究领域是机器学习和人工智能,研究重点是深度学习和强化学习的算法设计、理论分析及在实际问题中的应用。他在国际顶级会议和期刊上发表学术论文80余篇,曾任SIGIR、ACML、AAMAS领域主席,担任多个国际学术大会程序委员会成员,包括ICML、NIPS、KDD、IJCAI、AAAI、WSDM、EC、SIGIR、AAMAS、WINE,曾任多个国际学术研讨会联合主席。他是IEEE、ACM会员,中国科学技术大学兼职教授和博士生导师。



 
Viewing all 620 articles
Browse latest View live