Quantcast
Channel: 微软亚洲研究院
Viewing all 620 articles
Browse latest View live

“二十一世纪的计算”大会网络直播

$
0
0

“二十一世纪的计算”学术研讨会是微软亚洲研究院自成立之初便开始举办的年度学术盛会。作为中国及亚太地区规模最大、最具影响力的计算机科学教育与研究盛会之一,迄今为止该大会已在中国、日本、韩国、新加坡等多个国家和地区成功举办了17届,参会人数累计超过40,000人。

今年,以“Human and Machine Working as a Team”(人机协作)为主题的第18届“二十一世纪的计算”大型国际学术研讨会将于11月3日来到韩国首尔举行。

本次大会上,微软亚洲研究院的研究人员将与包括2002年图灵奖获得者Adi Shamir、微软全球资深副总裁Peter Lee、微软全球资深副总裁,微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士等在内的众多计算机领域顶级大师,将分享他们各自独特且深远的见解,并深入探讨在人工智能与人类智慧的结合下,改变社会的无限潜能。

下面福利来了:

为了让更多人工智能的爱好者们可以聆听大师们的分享以获得更多启发,微软亚洲研究院将首次以微信群分享的方式对大会进行直播,并邀请微软亚洲研究院首席研究员刘铁岩博士担任此次分享的主讲人,从专家的角度为大家解读本届大会。

​​计算机科学的持续演进以及社交网络、智能移动终端与物联网的兴起,使得人工智能技术正在加速发展。这让冰冷的机器变得越来越“聪明”,并为人类的工作和生活提供了越来越大的帮助,很多曾经只存在于科幻小说或电影中的技术都在逐步变成现实。而随着人工智能技术所涉及领域的不断扩大,未来人类与机器之间的关系成为值得我们思考和探讨的一大课题。

面对这个问题,大师们会带来什么样的观点与发现?他们之间又会碰撞出什么样灵感的火花?让我们共同期待!

本届大会的主题演讲及演讲者如下:


​ (注:刘铁岩博士将着重和大家分享上图标注环节。)


演讲英文主题一览:

Chasing the Next Big Thing: Why Top Companies are Betting on Research

演讲人:Peter Lee,微软全球资深副总裁,美国计算机协会(ACM)院士

 IoT: The Insecurity of Things

演讲人:Adi Shamir,2002年图灵奖获得者,魏茨曼科学研究学院计算机系教授

Learning at Scale as a Driver of Innovation

演讲人:Marti A. Hearst,加州大学伯克利分校信息及、电气工程与计算机科学系教授,美国计算机协会(ACM )院士                  

 A Science of Cyber – Security?

——演讲人:Fred Schneider,康奈尔大学Samuel B. Eckert讲席教授兼计算机系主席,美国计算机协会(ACM)、电气电子工程师学会(IEEE)院士

Democratizing Urban Data Analysis

演讲人:Juliana Freire,纽约大学计算机科学工程与数据科学教授,美国计算机协会(ACM)院士

Co-Evolution of Artificial Intelligence and Human Intelligence

演讲人:洪小文,微软全球资深副总裁,微软亚太研发集团主席兼微软亚洲院院长,电气电子工程师学会(IEEE)院士


除开上述主题演讲外,大会还特设讨论环节。微软亚洲研究院常务副院长郭百宁:韩国人工智能协会主席、高丽大学教授、电气电子工程师学会院士Seong-Whan Lee;韩国人工智能研究院CEO、韩国科学技术院计算机科学系荣誉教授、韩国国家开放数据战略协会会长Jin Hyung Kim;庆应义塾大学媒体与公共治理研究生院、环境情报学部教授德田英幸将一同就人类与机器之间如何协作来创造未来进行探讨。

探究人工智能的潜能与人类科技的未来,关注“二十一世纪的计算”大会,让计算机领域的顶级大师微软带你领略科技的瑰丽与神奇!


 

大牛带你读论文|自然语言处理

$
0
0

【在千呼万唤下,首期微软亚洲研究院官方微信群分享活动正式启动啦!11月3日,微软亚洲研究院首席研究员神秘加盟,从专家视角为我们直播#21世纪的计算大会#。点击此处了解更多信息!】


【编者按】阅读和浏览论文,可能是微软亚洲研究院研究员每天都要做的事情。我们会不定期邀请研究员分享他们近期阅读的论文。本期由专注自然语言处理技术的崔磊研究员介绍他在ACL 2016大会上留意的五篇论文,这些论文涉及机器学习、深度神经网络与自然语言处理技术,也是微软亚洲研究院的研究前沿方向。

ACL大会的全称是国际计算机语言学大会,属于计算机语言学和自然语言处理领域的顶尖会议。ACL 2016大会于今年8月在德国举行,微软有20多位研究员参加,错过了前期报道的同学请点击《计算语言学思想碰撞的浪潮:ACL 2016》。

第一篇是UC San Diego和MIT的语言学方面的研究工作,题目是“FindingNon-Arbitrary Form-Meaning Systematicity Using String-Metric Learning forKernel Regression”,这篇文章是2016年ACL会议的最佳论文,主要探讨了自然语言中“符号任意性”(arbitrariness of the sign)的问题。

所谓“符号任意性”,指的是文字的字面形式与其含义无关。举一个简单的例子:上学的时候大家都背英文单词,一种直觉认为单词拼写相似的时候,含义往往有一定关联,以“gl”开头的单词很多于视觉相关,比如“glow, glint, glaze, gleam”。近年的主流语言学研究对于“符号任意性”有两种不同的看法,一种认为行为和语料库研究认为字面形式和其含义的关联只存在于有限词表中,一种认为字面形式和其含义的关联广泛存在于全部词表中。这篇论文的主要贡献在于,作者利用一种统计的核回归方法(kernelregression)来判断语言中的字面语义关联,通过字面形式的关系可以推断出词汇之间的分布语义(Distributional Semantics)关系。研究结果表明,英文词汇的字面语义关联远比我们通常认为的要广泛,而且这种关联往往体现在局部的字面形式。文章的实验设置很清晰,并不复杂,有兴趣的同学可以自行实现作者的方法。

第二篇是Universityof Cambridge对话系统方面的研究工作,题目是“On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems”,这篇文章是2016年ACL会议的最佳学生论文,主要探讨了对话系统中的强化学习(Deep Reinforcement Learning)问题。强化学习是近年来人们探讨和研究很热的一个方向,著名的阿尔法围棋算法(AlphaGo)便是采用了强化学习算法,使得程序之间可以相互博弈以提高自身的能力。在强化学习的研究中,如何定义和学习奖励机制(reward)是十分重要的,然而,传统的用户反馈的方法开销很大,在实用系统中无法承受。文章提出一种在线学习的框架,首先通过循环神经网络生成对话表示,进而利用基于高斯过程的主动学习机制大大降低了人工标注的代价。University of Cambridge这个研究组在对话系统方面有着长期深入的研究工作,建议感兴趣的同学可以多关注这方面的工作。

第三篇来自Stanford University机器阅读理解方面的研究工作,题目是“A Thorough Examination ofthe CNN/Daily Mail Reading Comprehension Task”。说到“阅读理解”,顾名思义,就是给定一篇文章或者一段文字,人们在阅读之后回答与文字相关的问题,这项任务在英文考试中经常出现。机器阅读理解指的是让机器模拟人来完成这项任务,与其他机器学习任务相比,机器阅读理解目前遇到的最大问题是缺乏高质量的人工标注数据。2015年,Hermann等人通过挖掘CNN和DailyMail网站的新闻数据制作了目前较大的一个机器阅读理解数据集。文章基于这个数据集,提出了两种基于分类的方法,分别是传统的分类器LambdaMART和基于神经网络的分类器,其中基于神经网络分类器的结果在两个数据集的分类准确率在73.6%和76.6%,多个模型的集成进一步将准确率提升至77.6%和79.2%。阅读理解任务是目前问答研究非常火的一个领域,近来Stanford University也发布了SQuAD数据集(The Stanford Question Answering Dataset),人工标注了500多篇文档,总结出100,000多个问题答案对,为阅读理解的研究提供了更多的数据,也有越来越多的研究人员开始从事机器阅读理解方面的工作。

第四篇工作关于华为诺亚方舟实验室神经网络机器翻译方面的研究工作,题目是“Modeling Coverage for Neural Machine Translation”。多年来,机器翻译研究的热点集中在以IBM 模型演化而来的统计机器翻译,随着数据规模的增长,在过去的十多年中,统计机器翻译的性能取得了大幅度的提升,各种模型算法也层出不穷。近年来,神经网络深度学习的发展逐渐成熟,在语音图像文本的处理中大行其道,也取得了长足的进步。相比于传统的统计机器翻译,神经网络机器翻译无需考虑两种语言的词汇对齐,同时将翻译模型、语言模型、调序模型等统一整合至基于循环神经网络的Encoder-Decoder框架当中,直接端到端(end-to-end)生成翻译结果,做到了语言无关,优势明显。目前,虽然神经网络机器翻译系统的水平已经超越了传统统计机器翻译,但其本身仍然存在一些问题需要解决,例如过度翻译(over-translation)和翻译不足 (under-translation)的问题。这是由于目前的神经网络机器翻译系统采用了基于注意力(attention)机制的循环神经网络,在翻译的过程中历史的注意力信息往往被忽略。文章的主要贡献在于设计了一种循环神经网络的注意力覆盖向量(coveragevector),用于记录翻译过程中的历史信息,帮助翻译过程根据源语言更好的生成翻译结果。实验表明,这种添加了覆盖向量的模型在翻译质量上超越了传统的神经机器翻译方法。

第五篇是加拿大蒙特利尔大学和IBM T. J Watson Research深度学习方面的研究,题目是"Pointing the Unknown Words”。熟悉深度学习在自然语言处理领域应用的人都知道,当前由于深度学习计算的时间与空间,以及自然语言处理本身的特性,大多数的自然语言处理的模型都面临着未登录词(OOV)的问题。这篇文章针对Sequence-to-Sequence生成中未登录词的问题,提出一种基于注意力机制(attention)的神经网络结构,用以解决深度学习中低频词的处理。具体来讲,作者利用两个Softmax层预测语言模型中的下一个词,其中一个Softmax层用于预测Seq2Seq源端词的位置,另一个Softmax层用于预测Seq2Seq目标端候选名单中的词。在神经网络计算的每一个时刻,通过将上下文信息(content)输入另一个多层感知机网络(MLP)来决定具体使用哪个Softmax来产生结果。作者在英法机器翻译和自动摘要两个任务上测试了该方法,模型的性能都得到了稳定的提升。近来人们对于处理深度学习中未登录词的问题十分关注,在ACL2016会议中,还有多篇文章涉及到这个话题,例如华为诺亚方舟实验室的“Incorporating Copying Mechanism in Sequence-to-Sequence Learning”和爱丁堡大学的“Neural Summarization by Extracting Sentences and Words”,感兴趣的同学可以关注一下。

最后一篇文章来自微软亚洲研究院自动聊天机器人方面的研究,题目是“DocChat: An Information Retrieval Approach forChatbot Engines Using Unstructured Documents”。提到聊天机器人,大家可能会想到非常火的一款聊天机器人产品“微软小冰”,“微软小冰”通过在大数据、自然语义分析、机器学习和深度神经网络方面的技术积累,通过理解对话的语境与语义,实现了超越简单人机问答的自然交互。目前自动聊天机器人的训练数据绝大多数来自互联网社区和社交网络中的公开数据(问题答案或者聊天回复),虽然规模很大,但是形式较为单一。文章的主要贡献在于通过挖掘分析大规模非结构化文档,利用文档中的内容与用户进行聊天交互,这样一来大大突破了传统聊天机器人可利用的数据边界,极大地丰富了聊天内容库。作者通过抽取不同粒度的特征用以表示用户所说的话与机器人回复之间的相关性,同时利用机器学习中的经典算法排序学习(Learningto Rank)对不同特征予以整合。实验结果表明,这种方法在英文和中文的测试中都表现出很好的效果,可以与传统自动聊天机器人进行有机结合,提供更好地聊天回复。

原文链接

Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric Learning for Kernel Regression:

http://www.cogsci.ucsd.edu/~bkbergen/papers/smlkr_final.pdf

On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems:

 https://arxiv.org/abs/1605.07669

A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task:

https://arxiv.org/abs/1606.02858

Modeling Coverage for Neural Machine Translation:

https://arxiv.org/abs/1601.04811

Pointing the Unknown Words: 

https://arxiv.org/abs/1603.08148

DocChat: An Information Retrieval Approach for Chatbot Engines Using Unstructured Documents: 

http://aclweb.org/anthology/P16-1049


作者简介


 

对话|首席研究员童欣:从长远看,AR的应用范围远比VR广泛

$
0
0


​童欣博士现任微软亚洲研究院网络图形组首席研究员。1993年毕业于浙江大学计算机系,获工学学士学位;1996年获浙江大学计算机系硕士学位;1999年获清华大学计算机系博士学位,同年加入微软亚洲研究院。目前主要从事计算机图形学方面的研究。


记者:您是研究图形学的,您最早开始接触VR(虚拟现实)和MR(混合现实)是在什么时候?为什么20世纪6-70年代就有VR这概念,但一直没有发展起来,这中间技术的掣肘点在哪里?

童欣:早在图形学开始发展之初,VR和AR(增强现实)这些概念就已经存在了。1990年代初,图形学里高端的VR系统叫做CAVE System,由EVL研发,由几个显示屏组成屋子的墙,提供一个沉浸的环境,每个屏幕后面有图形能力很强的图形工作站。用户戴上立体眼镜,通过一些穿戴上的跟踪设备和数据手套,就可以在里面自由地走动,旁边的内容会随着交互而改变。这在当时是一个非常高端、售价非常昂贵的系统。那时VR更多还是面向工业应用(比如美国的航天系统)或者是军事应用。PC出现之后,大家开始用PC代替原来的超级计算机,用PC把所有显示屏搭起来就能做成一个CAVE系统。这是VR发展的一条线索。另一条线索则是供单个人使用的头戴显示器这样的VR系统。

AR方面也很早,但主要还是面向非常专门的工业应用。一是军工。比如说,一家军工厂需要修理一颗导弹,有了AR就可以知道先打开什么地方、需要执行什么样的操作,极大地提高效率,减少失误。对军工来说,只要能提高效率,这成本就是值当的。一个是飞机制造和维修。波音公司很早就采用了AR的系统,就是小的半透明显示器置于眼睛前面,显示的内容叠加在真实场景中——无论是装配飞机或者是修理飞机,都是非常高难度和复杂的任务,需要借助维修指南,哪怕只是显示你在手册上需要查哪儿,这显示器的用处也很大。

至于最近这一波VR/AR浪潮的兴起,一个原因是手机产业过去这几年的发展,让所有的传感器和显示器小型化,且价格真的能让大家接受,同时,随着个人计算机计算能力的增长和图形处理器的发展,使内容显示的计算能力跟得上。所有这些条件结合在一起,终于可以用一个普通用户也能接受的价格为大家提供比较好的VR体验。

VR其实一直都在,但之前很小众、很昂贵,现在慢慢终于发展到了可以面向普通用户的时候。

记者:在这一波VR/AR浪潮里,计算图形学、人机交互和传感有什么技术突破?

童欣:有几个最重要的进步。首先,在硬件上,过去的传感器已经非常精确,但售价非常昂贵。智能手机普及后,传感器大量生产,价格变得非常便宜,传感器的发展也让很多定位技术有所进步。GPU的发展也很快,在这么高的分辨率下,能做到非常真实的显示——当然,在这所有的背后,还要有很多实时算法进行支持,能结合传感器数据进行实时的定位,同时把真实感很强的内容显示出来。另方面是交互技术的进展。目前在VR中,大家的交互基本上还是依靠设备,现在可以通过传感器帮助用户确定在虚拟环境中的位置和头的朝向,还有输入,用游戏手柄或者依靠语音、手势进行,提供很好的自然的交互体验。这也是一个很大的突破。

以微软的HoloLens为例,微软一直在自然交互,VR和AR领域中进行重点投入和研发。在真实感实时现实方面,微软研发了很多算法并通过Direct3D提供给用户,与GPU的发展相互推动,带给用户更真实的内容体验。自然交互方面是Kinect,这是第一次把很自然的体感交互体验推给用户,用价格便宜的深度摄像头,结合最新的算法,来达到用户姿势的实时识别和跟踪。近来推出的全息眼镜HoloLens就是把所有的交互、显示的最新技术与硬件集大成了。不仅仅是硬件上的波导显示、全息处理器(简称HPU,Holographic Processing Unit),以及整个计算平台的可穿戴化和小型化,更有软件上的实时定位与场景重建技术、语音识别和手势识别的技术……所有这些组合在一起才能让混合现实的技术真正落地和活起来,才能给用户带来全新的体验。

记者:透过HoloLens可以看到近几年技术发展的哪些层面?

童欣:我觉得其实很多。首先是硬件层面,这么小的重量却要包括一台头戴显示器。HoloLens就做到了,配备一个See-Through屏幕,半透的,能看清外面,同时内容要显示在上面,分辨率要足够高。另方面,HoloLens就是一台头戴式的计算机,所有的计算单元包括电池都集成在上面,这些并不是理所当然地往里塞,而要平衡很多方面。硬件集成进去,需要保证它高质量地工作,续航能坚持足够长的时间,比如说3到4个小时……所有这些都依赖于硬件的进步和工艺的进步。有了这些还不够,还要有最基础的软件去支撑硬件。对混合现实来讲,最核心的技术叫做SLAM(Simultaneous Localization and Mapping),就是实时定位和场景建模的技术。这是什么意思呢?当我做VR的时候,由于整个视野沉浸在虚拟环境中,我只需要根据计算的位置,显示整个虚拟的场景。现在我在一个真实的世界里,虚拟的东西可以按照我计算的视点移动,但真实环境的物体并不会。所以我要知道你的头在真实世界中的精确位置,这样,虚拟的东西和真实的东西混合才会真实。

比如,我想显示一个虚拟的杯子在桌子角上,我现在一转头再看回来,真实世界的桌子和杯子还在那儿,但如果我的计算位置不精确,虚拟的杯子的位置就移动了。但在虚拟的世界中,我怎么知道你看的是原来的位置,我应该把这个东西显示出来在原来的位置呢?这就要求计算机必须知道在真实的世界中,我现在在哪儿、我在看哪儿,这个东西必须要实时算出来,同时必须非常稳定、不能有扰动,不然用户就会觉得显示的内容在空中飘……这个挑战是非常大的。微软通过HoloLens上的摄像头和非常先进的算法,包括专用的HPU来进行所有的计算,把所有的位置信息能实时地提供给你。这些东西是所有做增强现实,特别是混合现实(MR)最关键的技术。

同时,我们也认识到混合现实这一全新体验背后需要一系列的技术做支撑,无论是内容生成方面、智能交互方面,还是最上面的内容的智能理解交互方面,都需要专业的算法,门槛很高。如果只有几个大公司做内容、做开发,可能还是不能满足大家的需要。最好的办法就是我们建立一个生态系统,我们不仅提供像HoloLens这样一个标杆的硬件,而且提供Holographic这样一个软件平台,通过把不同的算法和服务变成普通用户都能用的API,想开发某些应用的人就能用我们的工具和服务来开发应用,最后可以做到HoloLens上去,也可以用到其他虚拟现实、增强现实设备上去。

记者:虚拟现实和混合现实开启了一个沉浸式的三维图形显示的时代,在三维图形领域,还有哪些问题是需要解决的?

童欣:光影技术在图形学里叫“绘制技术”,实时的、光影真实的三维场景绘制技术一直是研究的热点。在微软研究院,我们第一次尝试用机器学习的方法处理这一问题,第一次把一些原来非常难做到的复杂光影效果做成实时。我们相信,随着这些技术的发展,会有更多的酷炫的光影效果,可以在VR和MR中呈献给大家。

还有一个问题在于怎么更方便地产生更真实的三维场景和交互内容。传统上我们需要艺术家去造型,但另一个方法是从真实世界中直接拍摄捕捉。比如,我想做一个咖啡馆,以前艺术家要用三维造型软件手工去做,包括所有细节,这是一种方法。还有一种方法,是拿一个深度相机或普通相机,把一个咖啡馆里所有的桌子和墙的几何形状、材质完全捕捉下来,把它放在三维场景里,真实感一下就提高了,所有桌面的材质都会很真实。有了这个技术,艺术家就不是无中生有了,他可以在这个场景的基础上把材质改改,比如让桌子生点锈,把它变得更有质感。因此内容捕捉技术是非常重要的技术路径。微软研究院在这个方向做了非常多的研究工作,我们的目标也是希望通过我们的推动,能让普通的用户享受这项技术,通过比如Kinect这样的深度相机,甚至像手机或者是普通相机拍摄的东西,把用户感兴趣的三维物体和几何形状表面的丰富材质、光影效果都捕捉下来,完美再现在虚拟的世界里。一旦这个问题解决了,所有普通用户都能产生高质量的三维内容,那虚拟世界、混合现实的世界就会变得丰富多彩,用户的体验也会提升一个数量级。

记者:混合现实真的要变得实用,还需要解决哪些问题?

童欣:首先从交互的角度来讲,要有定位,要有语音和手势、表情等自然的交互方式,这方面技术还需要进一步成熟。如果高质量的输出和用户的输入方式不匹配,用户就会觉得这个东西不好用、不自然。一个常被大家忽略的问题出在智能感知层面,为了让混合现实的体验变得更好,我们需要有更好的下一步的人工智能技术和识别技术。

比如说,在一个场景中,当我戴上AR眼镜想操作这个东西。定位技术告诉计算机我在盯着这个东西,可是这个东西是什么呢?可能需要通过识别技术“知道”这是一个遥控器。然后系统知道用户想使用遥控器了,把遥控器的操作信息从数据库中拿出来传递给用户,变成一些可视的指南,交给用户说,你先按这个键吧,根据用户操作的手势和出现的问题,再给用户进一步指南——你可以看到,在这个简单的例子里,自然交互,显示,识别,所有这些都要加在一起,这个场景才行得通。如果里面缺任何一样,最后都会变成,听起来很美好,用户刚开始也觉得很新鲜,但很快会发现,操作比原有的设备和方法更费事,那么自然带来用户期望和实际效果之间的巨大落差。所以微软希望能从各个层面开展研究,提供解决方案,缩小落差,让混合现实变成对用户真正有用的东西。

长远看,从应用范围来讲,AR远比VR广泛得多,将来会渗透到生活各个方面。当你戴上VR的时候,你看不到真实环境,完全是在虚拟世界的体验。混合现实更多地可以想象成视觉助手一样的东西,极大增强和方便你在真实世界的生活。但是AR技术的门槛更高,因此大家觉得AR的普及可能会比VR晚很多。以前大家会说AR怎么也得等10年,我个人乐观估计可能会来得更快。原因有两个:第一,AR很多基础层的智能感知技术,其成熟速度比我们以前想的要快;第二,随着AI技术的成熟,识别感知层成熟得更快,比如说物体识别的技术就在日新月异地发展。这些技术的进步能对AR的场景产生非常大的推动作用。这些东西如果比以前成熟得快,AR的场景应用就会更快地来到,但具体的时间我觉得很难预测,因为技术的发展真的是太快了。


 

对话|俞栋:在人工智能的很多应用场景,语音识别是一个入口

$
0
0


​俞栋博士1998 年加入微软公司,现任微软研究院首席研究员,兼任浙江大学兼职教授和中科大客座教授。语音识别和深度学习方向的资深专家,出版了两本专著,发表了 160 多篇论文,是 60 余项专利的发明人及深度学习开源软件 CNTK(现已更名为微软认知工具包)的发起人和主要作者之一。曾获 2013 年 IEEE 信号处理协会最佳论文奖。现任 IEEE 语音语言处理专业委员会委员,曾任 IEEE/ACM 音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。


记者:请俞老师先介绍一下目前语音识别方面最值得关注的一些方向。

俞栋:在安静环境下并使用近距麦克风的场合,语音识别的识别率已越过了实用的门槛;但是在某些场景下效果还不是那么好,这就是我们这个领域的前沿。现在大家主攻几点:

首先,能不能进一步提升在远场识别尤其是有人声干扰情况下的识别率。目前一般远场识别的错误率是近场识别错误率的两倍左右,所以在很多情况下语音识别系统还不尽如人意。远场识别至少目前还不能单靠后端的模型加强来解决。现在大家的研究集中在结合多通道信号处理(例如麦克风阵列)和后端处理从拾音源头到识别系统全程优化来增强整个系统的表现。

另外,大家还在研究更好的识别算法。这个“更好”有几个方面:一个方面是能不能更简单。现在的模型训练过程还是比较复杂的,需要经过很多步骤。如果没有 HTK 和 Kaldi 这样的开源软件和 recipe 的话,很多团队都要用很长时间才能搭建一个还 OK 的系统,即使 DNN 的使用已经大幅降低了门槛。现在因为有了开源软件和 recipe,包括像 CNTK 这样的深度学习工具包,事情已经容易多了,但还有继续简化的空间。这方面有很多的工作正在做,包括如何才能不需要 alignment ,或者不需要 dictionary。现在的研究主要还是基于 端到端的方法,就是把中间的一些以前需要人工做的步骤或者需要预处理的部分去掉。虽然目前效果还不能超越传统的 hybrid system,但是已经接近 hybrid system 的 performance 了。

另一方面,最近几年大家已经从一开始使用简单的 DNN 发展到后来相对复杂的 LSTM 和 Deep CNN 这样的模型,但在很多情况下这些模型表现得还不够好。所以,一个研究方向是寻找一些特殊的网络结构,能把我们想要 model 的那些东西都放在里面。我们之前做过一些尝试,比如说人在跟另外一个人对话的过程中,他会一直做预计,这预计包括很多东西,不单是包括你下一句想要说什么话,还包括根据你的口音来判断你下面说的话会是怎样等等。我们曾尝试把这些现象建在模型里以期提升识别性能。很多的研究人员也在往这个方向走。

还有一个方向是快速自适应的方法,就是快速的不需要人工干预的自适应方法(unsupervised adaptation)。现在虽然已经有一些自适应的算法,但是它们相对来说自适应的速度比较慢,或者需要较多的数据。有没有办法做到更快的自适应?就好像第一次跟一个口音很重的人说话的时候,你可能开始听不懂,但两三句话后你就可以听懂了。大家也在寻找像这种非常快且能保证良好性能的自适应方法。快速自适应从实用的角度来讲还是蛮重要的。因为自适应确实在很多情况下能够提升识别率。

从识别来讲,我觉得目前主要是这些方向。

记者:Google DeepMind 最近提出了一种通过学习合成波形的方式生成语音的技术 WaveNet,据说可以生成感觉更自然的语音,微软在这方面有什么研究项目?

俞栋:微软也在做类似的工作,但是因为合成的研究团队和工程团队都在中国,我对他们具体到哪个地步不是特别清楚。有一些信息我也不能直接披露,所以就不详细讲了。

记者:深度学习已经在语音识别得到了非常出色的表现,您觉得未来语音识别还能在深度学习的哪些方面实现突破?

俞栋:刚才我讲了,其中的一个可能性就是通过各种类型的预计和自适应使得深度学习模型表现更出色,这是有可能继续提升的地方。另外就是端到端建模。

还有,像我们最近也在做一些特殊环境中的语音识别,比如说在高噪音环境下,或者你说话的时候有背景的音乐,或者是会议室里面有多个人同时说话——这些情况下现在的语音识别效果是很差的。所以我们也在研究如何用深度学习的方法在比如多说话人的情况下做得比原来传统的方法好。我们现在已经在 arXiv 上面发布了一个早期结果的预印本(Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation,论文链接:https://arxiv.org/abs/1607.00325v1),含有更多实验结果的正式版本现在正在审稿中。我们这一称为 Permutation Invariant Training 的方法主要用于语音分离。用这种方法整个过程比较简单而效果很好。在这些方面深度学习都能带来一定的突破。当然,我前面也讲了,完全解决这些问题需要软硬结合,从拾音到前端和后端需要系统性优化。

记者:在类似汉语这种多音字、多音词比较多的语言中,语音识别方面有什么和英语这样的拼音语言不一样的地方?

俞栋从语音识别的技术角度来讲没有太大的区别,因为最终都是要将语音信号,即 waveform sequence,变成字或者词的 sequence多音字和多音词只是词表里对应的字或词有多个发音规则而已,这在其他语言比如英语中也很常见。

但中文作为一个有音调的语言,音调对字和词的识别是有影响的。如果音调信息用好了,就有可能提升识别率。不过大家发现 deep learning 模型有很强的非线性映射功能,很多音调里的信息可以被模型自动学到,不需要特别处理。

唯一可能不一样的地方是如果你用端到端系统,中英文的建模单元会不一样因为在英语里面你一般会选用字母、音素、或音节作为建模单元,而不会选用词作为建模单元。但在中文里面你可以直接用汉字作为建模单元。所以建模单元的选择上可能会不太一样。除此之外,基本上没有太大区别。

记者:技术上没有太大区别?

俞栋:没有太大区别。

记者:具体来说,您觉得自然语言处理能够给语音识别带来哪些帮助?

俞栋:目前来讲,自然语言处理对语音识别本身的帮助还不是很大。要说帮助比较大的方面,如果语言模型(language model)算做自然语言处理的话,语言模型还是起到了很大作用的,尤其是在有噪音的环境下,如果没有语言模型来做约束,效果一般来说都比较差。但是除此之外,现在的 NLP (自然语言处理)技术对语音识别没有起到很大的作用。大家尝试过很多用自然语言处理技术提升识别率的方法,效果都不理想。

但从理论上来讲自然语言处理应该可以起到作用。因为我们能理解句子含义,我们就能发现有一些语音识别结果是说不通的,比如说前面的主语跟后面的宾语根本就不搭,在这种情况下识别系统应该选择其他的 hypothesis,对话系统则应该寻求澄清,但现有系统没有这么做。没有这么做的原因在于它其实不理解到底用户说了什么,也没能充分利用远距离的 dependency 信息。这样的错误,有可能通过自然语言处理的技术发现并得到更正但语义分析是个难题,怎么做还是一个未知数。

记者:刚才我们讲到在噪音环境下,包括远距离环境下的识别,此外还有多个说话人一起说话的情况下的语音识别。在这三方面,您觉得现在和未来可以通过什么样的方式来解决这个问题?

俞栋:前面提过,解决远距离识别很重要的一点是要有硬件的支持。至少以目前的技术,仅仅通过后端处理效果还不够好。因为信号在传输过程衰减很厉害,距离越远衰减越厉害,信噪比就越差。所以远距离识别一般都需要做增强比较好的增强需要硬件支持,比如说麦克风阵列。深度学习方法也能提供一些帮助。当你有多通道信息的时候,深度学习方法还可以做自动的信息融合以提升远距离语音识别的性能。

多通道信号处理,比如麦克风阵列,对分离含噪语音和多人混合语音也至关重要。另外,深度学习方法,比如我刚才提到的 Permutation Invariant 训练方法,也可以解决一部分语音分离问题,是整体解决方案中的重要一环。分离后的结果可以送到后端做识别。后端的识别结果反馈回来也能帮助提升分离和说话人跟踪的效果。所以最终的系统应该是前端的分离跟后端的识别融合互助的系统。

记者:从您和邓力老师的《Automatic Speech Recognition: A Deep Learning Approach》出版到现在,您认为期间深度学习有了什么新的研究成果? 哪些研究成果您认为是很重大的?

俞栋:我们写这本书的时候,LSTM这样的模型才刚刚开始成功应用于语音识别。当时大家对其中的很多技巧还没有很好的了解。所以训练出来的模型效果还不是那么好。最近,我的同事 Jasha Droppo博士花了很多时间在 LSTM模型上面,提出了一种很有意思的基于smoothing的 regularization 方法,使得 LSTM 模型的性能有了很大的提升。他的 smoothing 方法的基本思想在我们的 human parity 文章中有介绍(论文链接:https://arxiv.org/abs/1610.05256)。

另外一个比较大的进展是 Deep CNN。最近两年里,很多研究组都发现或证实使用小Kernel的 Deep CNN比我们之前在书里面提到的使用大kernel的CNN方法效果更好。Deep CNN跟LSTM 比有一个好处:用 LSTM 的话,一般你需要用双向的 LSTM 效果才比较好,但是双向 LSTM会引入很长的时延,因为必须要在整个句子说完之后,识别才能开始。 Deep CNN的时延相对短很多,所以在实时系统里面我们会更倾向于用 Deep CNN 而不是双向 LSTM。

还有就是端到端的训练方式也是在我们的书完成后才取得进展的。这方面现在大家的研究工作主要集中在两类模型上。一类就是 CTC 模型,包括 Johns Hopkins 大学的 Dan Povey 博士从 CTC 发展出来的 lattice-free MMI;还有一类是 attention-based sequence to sequence model。这些模型在我们的书里面都没有描述,因为当时还没有做成功。即便今天它们的表现也还是比 hybrid model 逊色,训练的稳定性也更差,但是这些模型有比较大的 潜力,如果继续研究有可能取得突破。

另外一个进展是单通道语音分离,尤其是多人混合语音的分离。这方面有两项有趣的工作。一个是 MERL 三菱电机研究实验室的John Hershey 博士提出的 Deep Clustering 方法,另外一个是我们提出的 Permutation Invariant Training。实现上,Permutation Invariant Training 更简单。John Hershey 认为有迹象表明 deep clustering 是 permutation invariant training 的一个特例。

这些都是在我们完书之后最近两年里比较有意义的进展。

记者:也是在这个月,Google 发了神经网络翻译系统(GNMT),您对这个系统有什么看法?微软在这方面有没有这样的研究?

俞栋:微软很早以前就在做类似的工作了。你可能知道微软有个基于文本的翻译系统,在 Skype 上也有一个 speech to speech translation system。在这些系统里我们已经用到了 neural machine translation 的一些东西。不过翻译主要是由另外的团队在做,我在这里面涉及比较少。

记者:语音特征参数提取与鲁棒性语音识别与合成的关键因素,特征参数在不利的噪声环境下鲁棒性都会急剧下降。目前有什么新的研究可以在特征提取中保持语音信号的最重要参数吗?

俞栋:目前一个方法是用信号处理技术对输入信号进行分离和增强。另一个方法是用深度学习取代人工从 waveform 直接提取特征。只要训练数据的coverage 足够大,各种各样场景的训练数据都有,模型的结构设计合理,那么模型的泛化能力和鲁棒性就能得到提升。两种方式结合可以得到更好结果。不过,泛化是机器学习一个未解决的基本问题,更好的解决方案有待机器学习理论的进展

记者:微软在语音识别上如何解决方言带来的口音问题,比如说“le”和“ne”?针对方言,微软的语料库是从何而来的?

俞栋:一个简单的方法是增加带口音的训练语料。如何有效利用这些语料有些讲究。大概 3、4 年前,我们发过一篇文章,研究怎么样在 deep learning model 上做自适应。带口音的识别问题可以看作一个自适应的问题假设你已经有标准语音的模型,带口音的语音可以看成标准语音的某种偏离。所以我们的解决方法是做自适应。做自适应的时候,我们可以把有类似口音的语料聚合在一起以增加训练数据。我们发现这样做效果挺不错。如果已经有系统上线,收集带口音的语料并不困难。如果你用过 Windows Phone,你就知道 Windows Phone 的 Cortana 里面有个选项,问你想用标准的识别模型还是想用含口音的模型,用户可以选择。

记者:今年,微软发布了 CNTK。您能说一下 CNTK 跟 Theano、TensorFlow、Torch、Caffe 这些工具的区别吗?以及在微软语音系统上是怎么样应用 CNTK 的?

俞栋:所有的这些开源工具现在都做得相当好了,都能够满足一般的研究或者是工程的需要。但是每一个开源工具都有自己的长处和弱点。CNTK 是唯一一个对 Windows 和 Linux 都有比较好的支持的深度学习工具。对比其他工具,CNTK 对多 GPU 并行训练有更好的支持, 不仅并行效率高,而且简单易用。CNTK 对 C 的支持也是最全面的,你可以完全使用 C 来构建、训练、修改、和解码模型。CNTK 版本 1 对 Python binding 支持比较弱。但是刚刚发布的版本 2.0 提供了非常强大的 Python binding。另外,CNTK 提供了许多运行效率很高的并行文件阅读模块,大大提升了并行效率。这里我想提一下,我的很多同事都对 CNTK 2.0 有很大贡献。尤其值得一提的是 Amit Agarwal,他是我见过的非常难得的优秀软件工程师和架构师,他主导设计了 CNTK2.0 的主要 API。我在他身上学到很多东西,我非常享受与他讨论的时间。

我和几个同事刚开始写 CNTK1.0 的时候,主要用户是语音识别研究员和工程师,所以 CNTK 对语音相关的模型、数据结构、和文件格式支持得相对比较好。因为语音识别系统训练数据很大,我们很早就在 CNTK 中实现了并行训练的算法。目前,微软产品线所有的语音识别模型都是用 CNTK 训练的。最近我们的语音识别系统在 SWB 数据集上能做到比专业转录员错误率还低, CNTK 对缩短我们达到这一里程碑所需的时间有很大贡献。

后排左起:Wayne Xiong, Geoffrey Zweig, Frank Seide;前排左起:黄学东, Dong Yu, Mike Seltzer, Jasha Droppo,Andreas Stolcke;摄影:Dan DeLong

记者:您曾说过,人工智能的成功在于将多种方法的整合到一个系统。在你们最近发表的论文中,我们看到目前最新的语音识别的研究用到了多任务优化(Multitask Joint learning)以及多种模型混合(ensembles of models)的方法,能谈谈各自的优势吗?

俞栋:相对来说,语音识别是一个任务比较单一而非通用的人工智能系统语音识别的问题定义得也比较清晰。在这样的系统里面,把深度学习模型与其他模型进行整合的重要性相对来说比较小。这也就是为什么只要你有足够的数据和运算能力,即便是完全的 deep learning end-to-end system 表现也不错。不过目前来讲,深度学习和 HMM 相结合的混合模型在大多数场景下仍然表现最佳。

语音识别中使用多任务优化的主要目的,是增加模型的泛化能力或利用一些不能直接利用的辅助信息,而多种模型混合(ensembles of models)的主要目的是利用模型间的差异来增强混合后模型的表现。值得指出的是,由于深度学习模型属于非线性非凸的优化问题,当初始模型不同时,最后的模型也不同。尽管这些模型的平均表现很接近,但因为它们收敛到的点不一样,模型之间仍有差异,融合这些模型也能提升一些性能。

更通用的人工智能系统还需要能做决策(decision-making)、要做推理、要能理解。对于这样的系统来说,单靠深度学习方法远远不够,而要结合过去几十年里人工智能其他分支取得的一些进展比如说增强学习、逻辑推理、知识表达以及最优和次优搜索。还有,如果我们想让一群人工智能系统自己从与环境的交互中快速寻找答案,那么诸如蚁群算法和遗传算法一类的算法就变得很重要了。

记者:今年您觉得在语音识别方面有哪些比较重量级的论文值得关注?

俞栋:除了前面提到的 LF-MMI 、 Deep CNN(包括我们最近发表的 LACE 模型)和 Permutation Invariant Training,另外一个比较有意思的论文是 MERL 在 arXiv 上发表的一篇文章。他们结合了 CTC 和 attention-based model,利用这两个模型各自的长处来克服对方的弱点。

记者:您是怎么看待监督学习、半监督学习和无监督学习这三个学习方式呢?

俞栋:监督学习是比较 well-defined,有比较明确的任务。目前来讲,深度学习对这一类问题效果比较好。

无监督学习的目的是要寻找数据中的潜在规律。很多情况下,它试图寻找某种特征变换和相对应的生成模型来表达原始数据。但无监督学习不仅本身困难,对无监督学习系统的评价也很难。原因是通过无监督学习找到的规律不一定对你将来的任务有帮助,或者它对某一任务有帮助,换一个任务就没有帮助了。当然,如果你的目标仅仅是数据压缩,评价还是容易的,但我们使用无监督学习压缩本身往往不是主要目的。

记者:那半监督学习呢?

俞栋:半监督学习介于两者中间。因为你已经有一部分标注信息了,所以你的任务是明确的,不存在不知如何评估的问题。半监督学习在实用系统里还是有一定作用的。比如说我们需要标注大量数据来训练语音识别系统,但人工标注既花时间又花钱,于是你往往有比标注数据多得多的未标注数据。没标注过的数据,也有很多可以利用的信息,虽然它们的价值远远小于标注的数据。半监督学习对我们的系统性能有一定的提升。

记者:最后一个问题,在整个人工智能的布局上,您认为语音识别是一个怎样的定位?

俞栋:在很多应用场合,语音识别是一个入口。没有这个入口的话,大家都会觉得这个智能机器不够智能或者与这个智能机器交互会有困难。在人机交互中语音识别是第一步如果语音识别做得不够好,那后期的自然语言理解等的错误率就会大幅上升。这也是为什么语音到语音的翻译要比文本到文本的翻译难很多,因为在语音对语音的翻译系统里语音识别产生的错误会在后面翻译的过程中放大

同样,从历史上看,语音识别也为机器学习和人工智能提供了很多新的方法和解决方案。比如语音识别里的关键模型 Hidden Markov Model 对后来机器学习的很多分支都有帮助。深度学习也是先在语音识别上取得成功,然后才在图像识别和其他领域取得成功的。


 

【HI AI:人机协同 赋能未来系列】计算机是最好的左脑

$
0
0

编者按:

计算机领域的热点总是在不断更替,从大数据到云计算再到人工智能,这些热点的背后离不开专家学者们在这些领域一点一滴聚沙成塔的技术突破。关于人工智能,我们见证了近年来它从默默无闻到炙手可热的过程。继去年 《我们需要什么样的机器人》之后,微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文再一次亲手撰写文章,与我们进一步分享了他对人工智能的见解与洞察,归纳起来就是《HI AI:人机协同 赋能未来》系列。在这一系列三篇文章里,洪小文博士将与读者交流AlphaGo战胜李世石这一标志性事件背后的意义,深入浅出地与我们探讨了人类智能与人工智能的区分与联系,以及我们应当如何看待人类与人工智能的关系。

《计算机是最好的左脑》是《HI AI:人机协同 赋能未来》三篇系列文章的中篇。在本文中,洪小文博士从高斯发明求和公式谈起,说明了人脑的创造力与独创性,而计算机,则可能是人类发明的最好用的左脑。


理科生大抵都听过德国天才数学家高斯(Johann Carl Friedrich Gauss)童年时的传奇故事:刚刚十岁的高斯正在读小学,有一次,数学老师出了一道对幼童而言可谓有点难度的题,要求孩子们把从1到100的整数依次相加求和。就在其他同学都在奋笔演算时,高斯只用了“几秒钟”便得出了答案——他的天才体现在,他没有使用逐个数字相加的笨办法,而是想出了一个公式,也就是今天很多人都熟悉的“1 2 3 … n=(n 1)n/2”高斯求和公式。我们可以说,解题的这两种方法——逐个相加的笨办法和高斯想出的求和公式——就是两种算法。

这故事对我们厘清人与机器的关系有些启发。今天的机器,运算性能和效率绝非人脑可比。在做同样一道题时,即便是计算机使用笨办法来求和,速度也一定比我们人类使用高斯求和公式更快。然而,在没有人工干预的前提下,机器却缺乏发明出这种简洁又高效的算法的能力。

什么是算法?算法就是能以创新的思路解决以前无法解决的问题,或是给已解决的问题一套更好的方法。其实,解决任何问题都需要算法和计算。回到AlphaGo的例子,它的算法不是自行生成的,而是来自于背后的科学家(包括Reinforcement Learning增强学习算法等)。它的计算有着一个庞大的云计算网络在做计算支撑。而李世石——也包括下一位人类守擂者——却只是一个人孤军奋战,他们下棋时所需要的算法以及同时需要进行的计算都是由棋手自己完成的。在这种情况下,他仍获得了一场比赛的胜利,且在其他几场比赛中也有获胜的机会。由此可见,人类棋手的算法还是在某种程度上优于AlphaGo,否则根本就不可能与后者抗衡。如果有一天,计算机可以自行产生新的算法并且还能自己编程的话,那才是人们应该忧虑的时候。

我们经常看到媒体报道称,某个大学的研究者或某家公司成功开发出了一种能大大提升机器学习效率的算法,但从没听说过哪台超级计算机已经聪明和强大到可以自己开发新算法、同时也可以自己编程的程度。算法总是在人类的大脑里萌芽,而机器所执行的,则是根据人类输入的算法去运算的过程。没有机器能凭空生成自己的算法。就这个意义而言,即便此刻世界上最先进的计算机,本质上和十多个世纪前人类发明的算盘是一样的东西。

运算能力令人类瞠目难及的机器无力开发出创造性的新算法,这首先展现了机器与人的合理分工,其次也彰显了现阶段热得发烫的人工智能相关研究的局限性(也可说是“天花板”)。

在我看来,用人类左右脑分工协同的概念来解释机器与人各自的长短板是很合适的。在脑科学领域,左脑又被视为逻辑脑、科学脑,右脑则是艺术脑和创造脑。用一张图来表示就是:

人类大脑

不同的分区所分管、所擅长的事项很多,但若挑重点说,那就是左脑强在逻辑、数字信息、目标和方向、理性、数学和科学,而右脑擅长于直觉、模拟信息、创新、感性、艺术和诗歌。大胆假设是右脑,小心求证是左脑。我认为,机器进化至今,已堪称无人能匹敌的“最强左脑”,可是机器也有着明显的极限和天花板,那便是它们从未发展出右脑能力——至少截至目前,没有任何迹象显示,机器能以某种形式像人类右脑那样进行创新和创造。

中文里“认知”这个词很好。对人而言是先认之而后知之,对机器来说却是能认之而未必知之。认是辨认,知是了解、明白。人脑认知后通常会举一反三,而机器虽能下棋,却不知道每步棋的意义,能赢棋却不知道赢棋的感觉。图像识别、语音识别也是一样。机器能分辨猫和狗,能根据用户语音指令查询天气、订购外卖,但这并不意味着,机器就懂得猫的慵懒和优雅、狗的驯顺和忠诚,又或是理解用户语音以外的深意和情绪。

对人类来说,完全没必要因为左脑技能赶不上机器而感到沮丧,因为我们自出生之日起,便习惯了左右脑协同工作、处理各种事项。就记忆能力和读取效率而言,明显是机器强得多,然而,有时我们对于某件事的记忆被埋藏在大脑深处,平时无法调取,却在偶然间由于听到一段音乐、闻到某种味道、看到一幅影像,记忆就被突然激活。这种隐匿于右脑中的记忆触点、这种因左右脑协同而来的直觉和感悟,正是人有别于机器的温度,也是生命才有的温度。

此前,在《我们需要什么样的机器人》一文中,我曾指出,机器或者说人们日常依赖的工具的能力质变大概有四级台阶。第一级是功能(Capability),第二级是智能(Intelligence),第三级是智力(Intellect),第四级是智慧(Wisdom)。今天,最强大的机器、最先进的人工智能也就停留在第二级“智能”的层次,即根据人类创造的算法持续提升任务执行效率的层次,至于第三级和第四级能力,很大程度上来自于右脑——智力必须包含判断力、创造力,而智慧意味着深刻洞察和思想火种。在我看来,机器再进化,也很难达到这两个层次。正因如此,我想人们完全没必要害怕尚未进化出右脑能力的机器(甚至有可能永远也不会出现这样的机器)。

如果遇到未解的命题,通常人类会怎样应对?方法大致可以划分为两类:第一类就是穷举法,但有些问题的维度由于过于庞大,人类可能耗尽一生都无法列出解决问题的所有可能性,于是便会选择第二类方法——试错,也可以说是大胆假设。比如,不期而遇的灵感或直觉告诉我们某个问题可以先从某个角度入手去解决,这正是我们通常所说的创造力。那么,这些从天而降的神来之笔到底是从哪里来的,人类的创造力又是如何产生的?这问题连我们自己都还没头绪,而只要人类一天尚未找到诀窍、可以系统化地传授创造力的产生过程,我们就没有办法通过编程让机器也具备创造力。

一旦决定遵循“灵感”去探索问题的解,我们会通过一次次的实验来验证这个解的正确性,这过程可以说是左右脑配合、“大胆假设,小心求证”的过程。拥有强大计算能力的计算机可以在求证的过程给予我们更高效、更精准的支持与帮助,而我们在求证过程中或许还会获得新的灵感……因此,人机协同、各展所长,才是人类以及人工智能的未来之路。

总之,人类发明的计算机可以成为最好的左脑,而人类自身则继续保有最好的右脑。机器没可能也没必要取代人类,因此,HI AI(也就是人类智能 人工智能)、创新算法 计算才是潜力无限的组合,才是人工智能走向更强之路的最佳途径——无论是机器战胜人类围棋冠军,还是空间探测器驶向更远的宇宙处女地,实际上都是人机协同的结果。在每个学科领域,我们都曾遇到过看似无解或难解的问题,但通过不断创造新的算法,我们攻克了一座座难关……这旅程是无止境的,展望未来,我们所做的更多伟大的事业,也都将得益于HI AI、得益于人机协同。(未完待续)


HI AI,意味着人类智能与人工智能的和谐合作。但还有一种声音不绝于耳:人工智能真的会像人一样产生自主意识吗?在下一期《机器会产生自我意识吗?》的分享中,洪小文博士给出了他的观点。我们将持续连载《HI AI:人机协同 赋能未来》的系列文章,敬请期待。


 

为什么顶级公司都关注研究?

$
0
0


“21世纪的计算“大会

“二十一世纪的计算”学术研讨会是微软亚洲研究院自成立之初便开始举办的年度学术盛会。作为中国及亚太地区规模最大、最具影响力的计算机科学教育与研究盛会之一,迄今为止该大会已在中国、日本、韩国、新加坡等多个国家和地区成功举办了17届,参会人数累计超过40,000人。

11月3日,以“Human and Machine Working as a Team”(人机协作)为主题的第18届“二十一世纪的计算”学术研讨会于韩国首尔举行,包括2002年图灵奖获得者Adi Shamir、微软全球资深副总裁Peter Lee、微软全球资深副总裁,微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士在内的众多计算机领域顶级大师,分享了他们各自独特且深远的见解。

以下是微软全球资深副总裁Peter Lee的演讲精选,由微软亚洲研究院首席研究员刘铁岩博士担任现场点评。其他演讲亦将陆续发布,敬请期待。

演讲者简介

作为微软全球资深副总裁,Peter Lee博士负责微软研究院新体验与新技术部门(New Experiences and Technologies, 简称MSR NExT)。NExT汇集世界顶尖研究者、工程师和设计师,致力于为微软和世界创造颠覆性创新技术。NExT不仅将持续推动计算机科学领域的前沿技术发展,对学术界产生深刻影响,更将通过技术研发助力微软公司长远发展并惠及全世界。

作为NExT的负责人,Peter Lee全面负责微软亚洲研究院、微软研究院新技术部(MSR Technologies)、FUSE实验室、微软研究院特别项目部(MSR Special Projects)以及多个孵化项目团队。

点评人简介

刘铁岩博士,微软亚洲研究院首席研究员,美国卡内基梅隆大学(CMU)客座教授、英国诺丁汉大学荣誉教授、中国科技大学、中山大学、南开大学博士生导师。刘博士的研究兴趣包括:人工智能、机器学习、信息检索、数据挖掘等。他的先锋性工作促进了机器学习与信息检索之间的融合,被国际学术界公认为“排序学习”领域的代表人物,他在该领域的学术论文已被引用万余次,并受Springer出版社之邀撰写了该领域的首部学术专著(并成为Springer计算机领域华人作者的十大畅销书之一)。

近年来,刘博士在博弈机器学习、深度学习、分布式机器学习等方面也颇有建树,他的研究工作多次获得最佳论文奖、最高引用论文奖、研究突破奖,被广泛应用在微软的产品和在线服务中,并通过DMTK、Graph Engine等项目开源。他曾受邀担任了包括SIGIR、WWW、NIPS、KDD、AAAI、WINE等在内的十余个顶级国际会议的组委会主席、程序委员会主席或领域主席;以及若干顶级国际期刊的副主编。他是美国计算机学会(ACM)杰出科学家、国际电子电气工程师学会(IEEE)和中国计算机学会(CCF)的高级会员,中国计算机学会的杰出演讲者和学术工委。



很高兴有机会在这么多聪明的学生面前发言,谈谈研究这件事,哪怕要说清楚到底什么是研究其实并不容易。

爱因斯坦说过,“如果我们知道自己在做什么,这事就不会被称为研究,对不对?“

聪明如爱因斯坦也觉得解释什么是研究并不容易。

但我可以试试在这次演讲中,说说我为什么认为研究是如此令人兴奋,以及为什么说我们正处在计算机科学研究的“黄金时代”。

今天的计算机研究每天都在发现新的东西,而这些东西往往是一些精彩的理论。但与此同时这些研究也非常实用,最终都将帮人们过上更好的生活。因此,一个有趣的现象是世界各地的大学和顶尖公司都在投入大量的人力物力从事计算机的基础研究。

像苹果、Facebook这样的大型科技公司正在建立大型研究实验室。甚至像Uber这样的初创公司在逐步变大时,也会在研究上投入金钱,物力。而在不断涌现的科技进步中,我认为有三点特别重要,分别是超大规模的计算能力、无处不在的大数据、机器学习,尤其是深度学习算法和理论的发展,即将催生一种人工智能能力。

结果是科技产业比以往更离不开研究。科技产业对研究的投入比以往任何时候都大。这到底是什么情况,为什么会出现这种情况?这就是我今天演讲的主题。

计算对我们生活的影响正在迅速增长。它也发生得很自然,有时我们甚至没有注意到。

上面这张图,这位女士正带着一台小型计算机Microsoft Band,上面有十几台传感器。在她运动的过程中,这些传感器在测量她的心率、跟踪她的路线等等……海量的数据由此产生。

而当这台设备与她的手机等其他设备进行同步,在云端可能有更多设备在为她服务,这就是云计算。

云计算的能力包括核心CPU、内存、存储和网络,通常位于大型数据中心,这些数据中心基本上是包含大量计算设备的大型建筑,具有高度优化和精心管理的电源和冷却功能。

微软在世界各地拥有超过110个数据中心,我们的客户对我们的数据中心的使用正以每年一倍的速度增长。我们每个月都要向我们的数据中心添加更多计算机。这是我们一个数据中心的航拍照片:

涉及到数据中心这种大规模的工程背后还有许多棘手的科学问题有待解决,网络、分布式计算、容错、资源分配和调度,以及一系列基本算法问题等。所以,实现超大规模的计算能力是微软等顶尖公司的研究目标。

摩尔定律如今正在接近一些物理的限制,若要保持这一部分的增长,就必须为数据中心找到新的增长方法来提高计算能力。

今天,在微软的数据中心,我们正在部署基于现场可编程门阵列FPGA的新处理元件,以期实现人工智能超级计算机的计算需求。

此外,我们还在努力研究如何以环境可持续的方式驱动数据中心。

我们做了一些有趣的早期试验。

刘铁岩博士:Peter提到,为了推动计算机行业的持续高速发展,不仅要从事软件研究,也要反思硬件的局限性,发明更新型的硬件体系结构。这几年,微软在硬件方面的投入很多,包括用FPGA武装云计算的数据中心。FPGA是一种非常灵活的低功耗硬件,可以适应丰富的计算需求。我们研究院最近做了很多关于如何利用FPGA来加速深度学习的工作,让硬件的研究和人工智能研究无缝接轨。

数据中心的维护费用耗资巨大,如何降低服务器降温过程中的能耗问题十分关键。微软研究院的Project Natick项目创新地把数据中心置入大海,利用寒冷的海水冷却服务器,并用海浪为之提供电能,还可能减少近海大城市数据传输的延迟。

除了云计算之外,大数据和算法的进步也格外重要。特别是机器学习算法对人工智能的推动作用。

微软水下数据中心

这张图我们显示了机器学习的简化流程图。机器学习的一个应用方向是赋予机器理解人类语言的能力。我们搜集了大量音频数据及对应的文本数据作为训练数据,输入到机器学习算法中。该算法将“学习”训练数据中的模式,并从中创建称为“模型“的新算法,最终将该算法投入语音作为输入的系统中实用,并输出对应的语音翻译。    

目前,这一技术已经成功应用在了微软实时语音翻译Skype Translator上了,目前已支持8种语言的实时语音翻译和50种语言的文本翻译。

刘铁岩博士:利用深度学习技术,微软研究院最近在语音识别上有了新的突破,识别了已经超过了人类的水平。而且也在积极推动这项技术的产业化。

“神经语音识别 神经机器翻译”是Skype   Translator背后的秘密武器。我们亚洲研究院的自然语言处理组在神经机器翻译方面做了非常前沿的工作,也把翻译的范围拓展到了包括粤语在内的相对小的语种之中。我所在的机器学习组最近也在关注神经机器翻译,我们在今年的NIPS上发表了一篇通过增强学习(reinforcement learning)技术、从无标签数据中自动获得翻译能力的论文,它利用了机器翻译的对偶结构,取得了非常好的翻译精度。我们把这项技术成为Dual   learning(对偶学习)。有兴趣的同学们可以关注一下。

刘铁岩博士:现场在放一个视频,关于Skype Translator如何帮助有听力障碍的孩子进行交流。当Skype Translator把世界两端、从前几乎无法交流的人实时链接在一起、进行几乎无缝的交谈时,确实有一种科幻小说的即视感。

Skype Translator来啦

英语里有一个单词Serendipity,意思是偶然发生的快乐事件。这对于研究来说是时常发生的。当你开始研究一些东西,最终很有可能得到一些意想不到的精彩,这意味着我们需要对意想不到的事件保持开放心态。

刘铁岩博士:Peter在展示使用微软的WordFlow技术,如何在手机上仅用十几秒钟,输入一段非常复杂的文字。 

机器学习也正在为计算机赋予“看”的能力。只需要访问https://www.captionbot.ai/   上传照片,我们的系统就能“看到”并向你“解释”看到了什么。

微软在计算机视觉方面有着非常领先的技术。大家应该都知道获得去年ImageNet比赛5项冠军的ResNet吧?今年我们研究院的小伙伴再接再厉,又取得了COCO比赛中物体分割的冠军。

机器学习也给予计算机“看”的能力。

深度神经网络的进步越来越大,加上越来越多的训练数据和更好和更好的算法,让机器有能力“理解”一张照片。

这意味着我们越来越好。

大家可以从这些图像看到物体锁定和识别的能力有多大。

如果你想试用我们的计算机视觉DNN,只要拿起你的智能手机,去captionbot.ai,就可以用您的相机,让我们的系统“看到”和“解释”您正在看的是什么……

对许多人来说,言语和视觉是非常有趣的,因为它们是人类可以做的事情。但我认为机器学习和AI会为我们做的很多事情将更加“隐形”。

举例:这是一个演示视频,我们称为“全息传输”。你在这张图片中看到的是我们一位前研究者,叫Shahram Izadi。围绕他的是几个特殊的用于捕获3D图像的相机。来自这8个摄像机的3D信息是一大份数据,大约每秒2G规模,为在互联网上做到实时传输数据,我们必须做大比例的数据压缩。如果这能做到,就可以创造惊人的体验。

刘铁岩博士:现在,Peter通过视频向大家展示了HoloLens的“全息传输”技术,这也是机器学习能力的另一个体现。视频在此:

实时虚拟3D传送 Skype Translator来啦

刘铁岩博士:最后,Peter Lee博士向现场在座的大学生分享了一些想法,指导大家如何参与到人工智能的大潮中。最重要的是努力学习。微软也为大家提供了Microsoft   Cognitive Services(微软认知服务)和Microsoft Cognitive   Toolkit(微软认知工具包),这是用于人工智能非常强大的工具。这种有趣的人脸识别应用就是基于微软认知服务开发的:http://how-old.net/  

Microsoft Cognitive Toolkit (微软认知工具包)链接:

https://www.microsoft.com/en-us/research/product/cognitive-toolkit/       

最后,我想说说今天的研究对这世界是多么重要。

人类历史上有过一个相似的时代:大约在1450年,约翰内斯·古登堡印了一本圣经,后来称为古登堡圣经。当时,全欧洲大约有30000本书,外加一台活字印刷机。

但随着活字印刷机日益普及,50多年后,出现了超过1200万册书籍和1000多台活字印刷机。

这实际上是一个中世纪的摩尔定律。

你会看到,活字印刷机就是最终普及图书、从而普及知识的强大力量。

今天,我们从不断提升的计算能力看到了与印刷机同样重要、具有颠覆意义并最终能让人类变得更强大的力量。

作为研究人员,我们当然想用这些能力来做伟大的事情。

但作为研究人员,我们也要努力让能量巨大的计算和算法得以普及。

我们必须普及AI。

我们必须共同努力,确保人类和机器可以协同工作。

我们必须让地球上的每一个人、每一个组织变得更强大。

我代表微软每个人保证这就是我们的目标。

谢谢大家。

刘铁岩博士:总结一下,Peter在演讲里提到了推动人工智能研究和产业发展的三个重要因素:超大规模的计算能力、无处不在的大数据、机器学习尤其是深度学习算法和理论的发展。可以说,我们这一代研究人员站在了一个难得的历史机遇面前,希望我们能够借力于这些因素,把人工智能推向一个新的高度。               

展望人工智能进一步的发展,其实还有很长的路要走。有很多高级的人工智能问题,包括语义理解、无监督学习,都不是简单地使用更多计算资源、从更大的数据中学习更复杂的深度神经网络,就能解决的。这些应用呼唤着新的创新破土而出。   我们研究院最近有几个工作,正是沿着这样的研究思路开展。比如我们刚刚发表在NIPS上的Dual Learning方法,就是利用AI任务之间的内在关系为无监督数据创造有效的反馈闭环,从而实现有效的学习;另外一篇同样发表在NIPS上的LightRNN算法,就是要告诉大家有时精巧的算法设计可能会带来比蛮力并行训练更大的收益。我们最近在整理一套轻量级的快速有效的机器学习算法,其中包括去年发表的LightLDA算法,今年发表的LightRNN和LightGBM等,这些算法都会陆续开源到微软机器学习工具包DMTK里,欢迎大家试用,也欢迎大家加入到四两拨千斤的人工智能研发中来。





 

【HI AI:人机协同 赋能未来系列】机器会产生自我意识吗?

$
0
0


​​编者按:

计算机领域的热点总是在不断更替,从大数据到云计算再到人工智能,这些热点的背后离不开专家学者们在这些领域一点一滴聚沙成塔的技术突破。关于人工智能,我们见证了近年来它从默默无闻到炙手可热的过程。继去年《我们需要什么样的机器人》之后,微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文再一次亲手撰写文章,与我们进一步分享了他对人工智能的见解与洞察,归纳起来就是《HI AI:人机协同 赋能未来》系列。在这一系列三篇文章里,洪小文博士将与读者交流AlphaGo战胜李世石这一标志性事件背后的意义,深入浅出地与我们探讨了人类智能与人工智能的区分与联系,以及我们应当如何看待人类与人工智能的关系。

《机器会产生自我意识吗?》是《HI AI:人机协同 赋能未来》三篇系列文章的下篇。在本文中,洪小文博士以“中文房间”为例子告诉我们,现阶段的人工智能还很弱,离实现强人工智能还很远,而在眼下,HI AI、人类创意无限的右脑 机器的最强左脑才是赋能未来的最佳路径,最终实现人类与机器的Co-Evolution。


大脑(Brain)、心灵(Mind)、意识(Consciousness),这是一回事吗?

我认为不是。

在我看来,大脑是一种物理存在,心灵和意识则看不见、摸不着,只能自我感知。

“我”这个词来自于心灵对自身的一种定位和认同,心灵决定了“我”是怎样一个人、为什么和别人会有不一样的反应,意识则像时刻都在流动的运算程序,具有工具性质,它们都寄存在大脑和神经等物理存在里。

关键是,即使今天我们已经有本事上天下海、还能教机器学会很多事情,我们对人类自身的心灵和意识的了解却依然有限,未解之谜还有很多。比如,当医生把一个人的大脑和身体分开,这个人的心灵和意识会有什么变化吗?如果把这个人的大脑移植给另一个人呢?——在后者的“新”大脑里储存的那个“我”,究竟是谁?

又比如,当我们处在睡梦中,意识却可能继续剧烈活动,梦中的“我”甚至登上了火星,这时候,我们的意识是留存在大脑里,还是真的光速般去了火星?……

纽约州立大学心理学家小戈登·盖洛普(Gordon Gallup Jr.)主持的“镜子测试”表明,猩猩、大象和海豚似乎能认出镜中映像是自己,这说明这些动物已聪明到具有自我意识,那它们也有心灵吗,也有坚定不移的“我”的定义吗?有没有虔诚的信念和顽固的怀疑?相比之下更加常见的猫和狗平素也有相当不俗的智力表现,却常常搞不清镜中映像究竟是不是外来动物而把自己吓一跳,如果不能确定它们是否也有明确的自我意识,它们又是怎样界定自身和主人的相对关系呢?

最近我在工作之余拜读了耶鲁大学计算机科学教授大卫·格兰特(David Gelernter)的新书《心灵潮汐:揭示意识光谱》(The Tides of Mind: Uncovering the Spectrum of Consciousness),感悟颇深。在书中,格兰特教授援引了马塞尔·普鲁斯特、弗兰兹·卡夫卡、弗拉基米尔·纳博科夫、欧内斯特·海明威等许多作家的故事为例证,解析了创造力的潮汐状周期性特征:当人们处在光谱的上端,也就是意识的高潮期,就会聚焦于外部世界、侧重逻辑推理和经验记忆,而当人们落在光谱的下端,即意识的低潮期,就会偏向于内视心灵、在交叉混乱的叙事脉络与梦境漫游般的狂欢中捕捉创意的火花。

创造力确实并不仅仅在专注和冷静的状态下爆发。杜甫在《饮中八仙歌》里说:“……李白斗酒诗百篇,长安市上酒家眠……张旭三杯草圣传,脱帽露顶王公前,挥毫落纸如云烟。”若照常理判断,喝酒会影响诗人与书法家的创作状态,但在现实中,诗仙和草圣却因为饮酒而进入到光谱下端,实现了创意的超常发挥。

这样的案例还有很多:在完全失聪的情况下,贝多芬创作出不朽的经典《第九交响曲》;深陷精神失常的痛苦深渊,梵高创作出《向日葵》、《星月夜》等传世名作。1864年冬,潜心研究苯结构而没有进展的德国化学家凯库勒在对着炉火打盹时,梦见咬着自己尾巴的蛇在他眼前转动。醒来后,他写出了苯的结构式,恰恰就是首尾相连一个环……可见,在受到某些特定因素影响时,大脑——特别是右脑——活动很不寻常,这当然不一定都有助于创意的发挥(更多时候应该只是胡思乱想),却也有可能迸发出一些在正常情况下藏得很深、从未闪现的灵感。

我们当然可以好像很科学地说,当某些看似完全无关、并不搭界的思维被人的脑桥意外接在一起,创造力也由此而来。但这“科学”程度也只是好像而已,人类的精神世界到目前为止仍是一片远在我们掌握之外而因此继续值得我们保持敬畏的领域。

无所不在的创造力使人们无论在意识的高潮期或是意识的低潮期常常都能有所发现而收之桑榆,人类教师在传道授业解惑之际也会注意因才施教,遇到某位学生不太能理解自己讲授的知识就会考虑换一种教法,设法让学生达至豁然开朗之境界。若是换成机器来教课,恐怕只能依循预设的程序来“灌输”信息,至于随机应变、触类旁通、举一反三的能力,那是没有的。

继续推论——首先,今天的人工智能仍旧很弱。“中文房间”(The Chinese room argument)是上世纪八十年代由美国哲学家约翰·塞尔(John Searle)提出的一项思维实验。假设在一个密闭的房间里有一个人,只会中文的你仅能通过小纸条和房间里的人交流。当你发现传回来的纸条上,你的每个问题都得到了语意确切的中文回复,这时你还会怀疑房间里的人是否懂中文吗?事实却是,房间里的人根本不懂中文,他拥有的不过是一套假设涵盖了所有中文问答的工具,包括中文字条(数据库)和如何使用这些字条的手册(程序),通过这套工具就能正确找到你要的回答而“回应”你的问题,却同时对谈话内容一无所知。

“中文房间”实验很好地说明了计算机的工具性本质:计算机虽能完成一些特定的任务,但并不代表计算机就能理解这些任务——今天的AI几乎都属于这一类。

中文房间视频

更直白地说,无论是Skype Translator实时语音翻译,还是Watson,归根结底都属于弱人工智能(Weak AI)范畴,不是基于对信号和数据意义的理解而生——它们就像“中文房间”中拥有工具的人,只是信息的处理者,却无法真正理解接收到的信息,更谈不上拥有发展出意识的潜能。

对弱人工智能有两种定义,一是聚焦单一任务本身——所以它又称为狭义的人工智能(Narrow AI),二是只有结果没有理解。不过,弱人工智能其实并不弱,它也是很有价值、有益于用户的。若能与传感器网络、大数据等、云计算等技术结合,弱人工智能还是可以具备超越人类的某些能力,因为它本身就是一个专家系统,实际上在经济、科技、民生等各领域都大有可为。

其二,目前看来,强人工智能仍旧遥不可及。我在卡内基梅隆大学的导师罗杰·瑞迪(Dabbala Rajagopal “Raj” Reddy)曾任卡内基梅隆机器人研究所创始主任和美国人工智能协会主席,主攻人工智能和机器交互研究,开发出全球第一台具有连续语音识别能力的系统,因在大规模人工智能系统之设计与构建的先驱性贡献而于1994年获得图灵奖。

瑞迪教授的老师是约翰·麦卡锡(John Mc Carthy)——1956年,在美国新罕布夏州的达特茅斯学院举办的一场学术会议上,约翰·麦卡锡首次提出了人工智能(Artificial Intelligence)的概念,因而被后辈学者尊称为“人工智能之父”。

我的两位老师都认为,今天业界所做的“人工智能”研究与当年他们的创新思路是有分歧的。若按当前的主流路线,弱人工智能只能在专用的、受限制的轨道上越走越远,若要人工智能由弱变强,还得回到认知论的经典道路上。

与弱人工智能相比,强人工智能(Strong AI)是真的能够理解信号与数据的意义,并由此具备人类所有或大多数的能力。但是这种通用的智能其实也可能很弱,就像人类很难同时对所有的事情都精通,也不可能一直保持着意识的高潮,通用人工智能可能具备很多能力,但每一样都很弱。但另一方面,正是因为这些不完美而让人类的存在如此微妙,并在不完美中迸发出各种奇思妙想。

有人问过约翰·麦卡锡,强人工智能何时才能成真,他的回答很耐人寻味:也许5年,也许500年——我的看法是,在理论基础尚不完备、对人的意识和创造力尚未充分了解的前提下,在架构与平台暂无标准、应用探索刚刚开始的前提下,恐怕真需要等上500年,强人工智能的萌芽才会钻出土壤。

毕竟,人的大脑、心灵、意识是如此的玄妙,以至于人类自己或许永远也搞不清楚,更何况是无机体的机器呢?

对此,大卫·格兰特的观点是,计算机可以模拟理性思考,但很难具备真正的意识,意识不属于计算机,只属于有机体。我认同这个观点。心灵、意识和创造力有极大的关系,很多人的创新来自激情而不是理性。这就意味着我们几乎不可能造出拟人的、有意识的机器。从算法、意识到创意,人工智能若要向更高的智力与智慧阶梯跃进,就要踏踏实实一步步跨越这些障碍。

其三,人工智能并不可怕。计算机是有史以来人类最伟大的发明创造之一,它可以被赋予人类发明的不同算法,进而不断掌握新的能力——很强大不是吗?但更强大的人类创造物也还有一些,比如核武器和航天飞机。所有这些机器都可以被人类利用做各种不同的事,至于究竟是好事还是坏事,只由其使用者的心灵和意识决定——科幻小说作家阿西莫夫提出的“机器人三定律”,从表面上看像是用来约束未来的人工智能机器人,但究其实质,每一条何尝不是对人类创造者的警示?

我们应该担心的,不是人工智能将会强大到颠覆人类统治的地步,而是即便人工智能被越来越多业界领袖企业寄予厚望、不吝资源而加速研发,但迄今为止相关领域的技术进步仍不足以孵化出真正拥有创造力、能够通过自我学习解决未知问题、提出新思维的机器。不过,令人欣慰的是,人工智能正在与机器学习和大数据构成一个足以改变未来的技术“铁三角”;随着我们的探索趋向纵深,在不久的将来,这个“铁三角”将有可能像PC 互联网那样彻底改变人类的生活格局和商业版图。

总而言之,人类创意无限的右脑 机器的最强左脑,这才是赋能未来的最佳路径。唯有潜力无穷尽的人脑才能催生出更先进的算法和能力进化更快的“聪明机器”,人类也因为有了聪明机器的帮助而不断进化,加深着对自身的了解、对计算机技术的理解,以及对更多未知领域的探索,从而实现人类与机器的共进化(Co-Evolution)。


 

大会聚焦 | ACM Multimedia 2016

$
0
0

ACMMM2016

当多媒体会议遇上多元化魅力阿姆斯特丹

会议简介

第24届ACM国际多媒体会议(ACM International Conference on Multimedia, 简称ACMMM)于2016年10月15日至19日在荷兰阿姆斯特丹隆重举行。阿姆斯特丹这个城市以富有包容力著称,拥有丰富的历史积淀和高度多样化的社群。今年ACM会议特地把主会场设在全球最美剧院之一,1921年开业的荷兰Pathé Tuschinski电影院。

自1993年首次召开以来,ACMMM每年召开一次,已经成为多媒体领域顶级会议,也是中国计算机学会推荐的A类国际学术会议,今年吸引了来自全球各地的学术界、工业界多媒体方向的570多名专家、学生以及从业者,前来展示自己的科学成果和工业创新产品。巧合的是,今年的欧洲顶级计算视觉会议,European Conference on Computer Vision(简称ECCV),也选在10月8日至16日于阿姆斯特丹举行,两大会议同城相遇,大大促进了交流与合作。


ACMMM2016会议主会场,荷兰PathéTuschinski影院。它结合了新艺术年轻风、新艺术主义和装饰派艺术,被誉为全球最美剧院之一。

研究领域和热点

本次会议共收到248篇长论文和425篇短论文,最终录用了52篇长论文(接收率为22.2%)和127篇短论文(接收率为30.3%)。下图显示了15个不同研究领域的长、短论文投稿量。

从图中可见,多媒体与视觉(Multimedia and Vision)、多媒体搜索与推荐(Multimedia Search and Recommendation)和多媒体深度学习(Deep Learning for Multimedia)是投稿量最大的三个领域。

除此之外,多模态分析和描述(Multimodal Analysis and Description)也较为突出。

对于投稿量的领域分布,大会也进行了讨论,认为多媒体作为一个综合性强、包容性强的方向,鼓励不同领域的交叉融合,希望以后各个领域的投稿更加平衡,促进会议进一步全方面发展。

ACMMM2016会议长短论文投稿量统计

和去年一样,今年15个领域的文章被合并为4个主题,分别是系统(System)、体验(Experience)、理解(Understanding)和参与(Engagement)。

从下图可见,关键字video和image出现频率最高,证明它们就是多媒体领域最主要的数据形式。第二梯队的关键字networks、deep和learning,体现了神经网络与深度学习今年继续备受关注,而第三梯队的关键词recognition、detection和retrieval,则反映这三个多媒体方向的传统任务依然很有分量。

ACMMM2016会议论文关键字统计

在本届会议上,中国内地学者作为第一作者共发表了18篇长文、41篇短文,分别来自中国科学院、清华大学、北京大学、中国科学技术大学、中国人民大学、浙江大学等研究机构和高校。

今年ACMMM的最佳论文是中国科学院自动化研究所的钱胜胜、张天柱和徐常胜的"Multi-modal Multi-view Topic-opinion Mining for Social Event Analysis",最佳学生论文是香港城市大学的Jingjing Chen和Chong-Wah Ngo的"Deep-based Ingredient Recognition for Cooking Recipe Retrieval"。

大会同时颁发了2016 ACM Transactions on Multimedia Computing, Communications and Applications (TOMM) Nicolas D. Georganas最佳论文奖给中国科学院自动化研究所的鲍秉坤、徐常胜等人,他们的论文题为“Cross-Platform Emerging Topic Detection and Elaboration from Multimedia Streams”。

特邀教程、教学报告和专题研讨会

大会前两天安排了内容丰富和多样的特邀教程、教学报告和专题研讨会。由于今年ACMMM与ECCV同在阿姆斯特丹举办,两大会议在10月15号邀请了11位在视觉和多媒体方向的著名研究人员和教授做特邀教程,主题包括图像分割与目标跟踪、视觉识别、人工智能、深度学习、人机交互等,都是视觉和多媒体的热门方向。

University of Central Florida的Mubarak Shah教授特意绕开深度学习,重点介绍他们在传统问题Segmentation and Tracking上的最新进展;与此同时,深度学习方向先驱之一、Montreal University的Yoshua Bengio教授深入浅出地做了题为“Fundamentals of Deep Learning”的报告,并指出了他认为的深度学习的未来挑战:无监督深度学习(Unsupervised Deep Learning)和增强学习(Reinforcement Learning);Columbia University多媒体领域著名教授Shih-Fu Chang同时引用了ACMMM与ECCV的多篇文章,层层推进地介绍了视频事件(video events)分析的四个工作:事件的复杂性和多样性问题、人类判断关键证据(key evidences)的事件决策问题、事件概念发现(concept discovery)以及多模态事件的连接问题、事件在时域和空域的定位问题,同时指出一些开放性问题,比如探索多模态数据事件概念的关系、在穿戴式视频的事件检测等等;来自工业界的代表、微软亚洲研究院资深研究员梅涛将视觉的image和video数据,与语言的caption、comment、alignment和sentiment问题连接起来,介绍了深度学习在理解图片和视频的核心问题的应用(相关教学报告资料可以在这里下载:https://www.microsoft.com/en-us/research/publication/tutorial-bridging-video-language-deep-learning/)。

第二天,10月16号,两大会议还将教学报告和专题研讨会合并举行。这次ACMMM与ECCV共同举行的特邀教程、教学报告和专题研讨会,大大促进了来自视觉和多媒体方向的研究人员的热烈讨论和交流,场面也异常火爆。

为此,大会特意设置了一个深度学习的专家讨论项目,专家们分享了多媒体领域在深度学习中的角色与定位。他们认为,机器学习和多媒体领域各有特点,机器学习领域的研究员有更强的数学与统计背景,更擅长解决通用(general)的问题,并对所有的应用提出一个通用的解决方案。相比之下,多媒体领域的研究员更了解实际的数据,特别是多媒体的数据的结构与特性,同时,对于处理多源和多模态数据也有更多的经验与更好的方法。因此,在解决单个实际应用问题时,结合机器学习领域和多媒体领域两方面的经验与方法就变得很重要。

主题演讲与SIGMM奖项

今年主题演讲之一是计算社会学在数字世界的发展与机遇,ETH Zurich的Dirk Helbing教授用一系列的真实事例来呼吁相关研究人员采取行动,利用现在的数字革命来迎接新的数字社会的到来。另一个主题演讲是Eindhoven University of Technology的Jack van Wijk教授讨论了关于多媒体可视化的挑战与机遇。他介绍了数据可视化与视觉分析的趋势,并且展示了近年来多媒体数据分析的一些工作。

之后,ACM多媒体兴趣组(ACM Special Interest Group on Multimedia , SIGMM)颁发了2016年度杰出贡献奖(ACM SIGMM award for Outstanding Technical Contributions),获奖者是Alberto del Bimbo教授,新星奖(ACM SIGMM Rising Star Award)由Bart Thomee博士获得,杰出博士毕业论文奖(ACM SIGMM Award for Outstanding Ph.D. Thesis)则被授予Christoph Kofler博士。


2016ACM SIGMM杰出贡献奖颁奖仪式

由左至右分别为Rainer Lienhart、Albertodel Bimbo和Shih-Fu Chang

SIGMM事务会议和新星学术报告

在会议的最后一天召开了SIGMM事务会议,会议上总结了SIGMM在前一年的各项活动。除此之外,会议上还建议从2017年起,统一ACMMM会议的长文与短文(要求为同样长度:6至8页)以及评审过程。该提议已提交筹划指导委员会,在等待批准。同时,会议上也进行了2019年ACMMM大会的申办团队报告,最终是由法国尼斯团队取得主办权。

会议的最后一项是ACM SIGMM新星学术报告。报告邀请了6名新星SIGMM成员来分享他们的学术成果以及展望,并安排一名资深成员与他们讨论多媒体研究方向。值得一提的是,在这个报告中,中国人民大学李锡荣副教授分享了他的工作,题为“Tag Embedding for Multimedia Retrieval and Description”。

Microsoft Research的工作

作为ACM多媒体年会的长期赞助者,Microsoft Research(MSR,微软研究院)在这次年会上一如既往展现了其在多媒体领域的影响力。今年,来自雷德蒙的资深研究员张磊及其同事主办了图像识别大赛(MSR Image Recognition Challenge),他们提供了目前学术界最大的一个名人人脸数据库,包括10万个名人的1000万张图片。随着互联网刷脸时代开启,这一竞赛将对学术界和工业界产生深远的影响。来自亚洲研究院的资深研究员梅涛及其同事则主办了视频语言大赛(MSR Video to Language Challenge),提供了一个含有一万个视频和20万个自然语言的句子,其中每一个视频对应20种描述。由于视频描述逐渐成为学术界关注的一个前沿方向,这次竞赛吸引了来自12个国家的77个参赛队伍,其中22个队伍提交了最终结果。来自中国人民大学和卡内基梅隆大学的联合队,以及Aalto University分获Best Performance Award和Best Practice Award。

在本次大会上,来自微软亚洲研究院的研究团队以长文的方式展示了两个最新的研究成果。其中,“Share-and-Chat: Achieving Human-Level Video Commenting by Search and Multi-View Embedding”(相关报道链接:https://www.microsoft.com/en-us/research/publication/share-chat-achieving-human-level-video-commenting-search-multi-view-embedding/)一文提出了目前聊天机器人最重要的一个功能——视频聊天。微软研究院和中山大学联合培养的博士生李业豪同学在大会上描述了如何通过深度神经网络学习一种对视频的表达以及学习从视频内容到用户评论的最优embedding。中科院计算所的博士生吴波同学则报告了在社交网络中如何预测一张用户图片的流行度:大规模的实验表明,社交网络中图片的流行度与用户上载的时间和图片主题息息相关(相关报道含论文链接:https://www.microsoft.com/en-us/research/publication/time-matters-multi-scale-temporalization-social-media-popularity/)。

中山大学博士生李业豪同学在演示视频聊天技术

中科院计算所博士生吴波同学在做口头报告

在演示部分,来自微软亚洲研究院的王长虎博士展示了最新的图片描述技术,即给定一张图片,计算机自动生成一段用自然语言来描述图片内容的句子;同样来自微软亚洲研究院的姚霆博士则展示了如何针对实时传送的视频流产生文字描述和用户评论。

总结

多媒体计算的研究在近二十年不断壮大,热门方向有大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。若我们将ACM Multimedia主会(Main Conference)视为多媒体计算研究的前沿技术展示,那么,安排在本届大会最后的新星学术报告或许可以作为多媒体计算研究未来发展方向的一种探索和讨论。在新星学术报告中,过半的主题是与社会计算相关,从某种意义上来说,我们可以解读为,无论计算工具本身如何变化,多媒体计算研究的本质还是以人为中心。

多媒体计算作为一个贴近生活实际、包容并促进多学科合作的研究方向,研究人员将在其中不断探索出新的潜在应用、挖掘更多贴近实际的交叉学科研究问题,并将其影响力延伸到方方面面。与此同时,我们也发现,华人在多媒体方向扮演着越来越重要的角色,本届大会的最佳论文、最佳学生论文作者均为华人。

下一届ACM Multimedia选在美国硅谷这具有标志意义之地举行,也很让人期待,期待看到更多高科技 创造力的碰撞,闪出启迪智慧的火花。

作者简介

梅涛

微软亚洲研究院资深研究员

研究方向:多媒体分析和计算机视觉等

来自山东大学的甘甜教授和中央研究院的郑文皇博士亦对本文有所贡献。


 

洪小文|流动的盛宴——致微软亚洲研究院的“成年礼”

$
0
0

流动的盛宴——致微软亚洲研究院的“成年礼”

微软全球资深副总裁、微软亚太研发集团主席 兼 微软亚洲研究院院长 

洪小文

“假如你有幸年轻时在巴黎生活过,那么你此后一生中不论去到哪里她都与你同在,因为巴黎是一席流动的盛宴。”这句话是大作家海明威写在《流动的盛宴》一书扉页上的题献。如果把“巴黎”替换成“微软亚洲研究院”,那么这句话或许已镌刻在许多人的人生扉页上。

11月,微软亚洲研究院迎来了她18岁的“成人礼”。我们没有举办盛大的庆祝仪式,而是邀请了一群“特殊的客人”,与我们一起回忆研究院成长的点滴,检阅研究院的里程碑与新鲜成果。这些客人之所以“特殊”,是因为他们都曾是研究院的一分子。他们一度为研究院的起步与发展而竭尽心智,后来,他们或是活跃在中国IT产业的风口浪尖,领导着一支支更大的团队;或是游弋在中国计算机学术领域的前沿,教育着一批批卓越的人才:他们都在为达成事业理想而努力着。但,无论他们身处多高的位置、取得了多大的成就、培养了多少人才,直到今天,他们仍以曾在这个世界级的研究机构工作过为荣。

在不少已离开研究院却仍难舍研究院情结的老友倡议下,微软亚洲研究院院友会于11月14日正式成立。当我身处院友会活动现场,看到曾经的战友们那一张张熟悉的脸,突然感到时间过得好快。不知不觉中,研究院已从一个初生的婴儿成长为健壮的青年,而我从沈向洋博士手中接过院长的接力棒,到现在也已有九年。

成长三重奏

回顾研究院的成长历程,对我来说,最深刻的感悟有三点。

首先,最了不起的事是研究院与中国一起成长和壮大。过去十八年可说是对中国经济以及科技而言最重要的一段时间——1998年我和几位朋友回国筹建研究院时,中国GDP刚刚突破万亿美元大关;而在两年前,中国GDP已迈过10万亿美元的门槛。在此期间,中国加入了世贸组织,成功举办了史上最成功的一届奥运会,还开启了载人航天与探月的伟业。而从产业来看,十八年前IT产业在中国GDP中的比重约为4.8%,而近年来,根据工信部电信研究院发布的数据,信息经济对中国GDP的贡献率已接近60%。一批拥有国际影响力的互联网公司崛起,并跻身全球互联网公司市值排行榜的前列。在某些应用领域,中国的发展水平甚至超过很多发达国家。飞速发展的中国为研究院提供了人才的沃土、合作的平台与交流的窗口,让研究院在进行各种前沿探索时更从容、更自信。

其次,研究院成立时的初衷是,发现和培养本地优秀人才,激发他们的才智与灵感,将来自中国的研究成果带入世界级学术舞台,并通过微软的产品影响全球用户,进而打造全球顶尖的IT基础研究机构。我们实现了这个目标——尽管研究院起步时,国内IT产业才刚有了雏形,对计算机基础研究而言行业的资深领军者相对比较少。甚至在我们创院之初,并非每个人都对未来抱着绝对的信心,因为在当时的环境下从无到有建立一个世界一流的研究院,这对于我们每一个人来说都是一个艰巨的挑战。但让人欣喜的是,我们很快在全球顶级学术会议与期刊上崭露头角,并且通过与国内高校、研究机构的合作,将我们的经验、心得与他们分享,从而携手整个中国计算机学术界一起走上了国际竞技场。正因“万事开头难”,每一步都如履薄冰,后来,当我们真正被世界所承认时,所结出的果实尤为甜美。

第三,对“初心”的坚持,让研究院始终都充满了创新的激情与活力。研究院的初心是什么?筹备阶段,比尔·盖茨和里克·雷斯特(Rick Rashid)博士(微软全球研究院体系的缔造者)为我们确立的宗旨是:推动整个计算机科学领域的前沿技术发展;将最新研究成果快速转化到微软的关键产品中,以帮助用户改善计算体验;着眼于下一代革命性技术的研究,助力微软实现长远发展战略和对未来计算的美好构想。这三大宗旨意味着,研究院必须清楚地认识到自身对社会、对公司、对人才的责任,才能获得长久的生命力。十八年来,三大宗旨被研究院一支支团队不打折扣地贯彻,故事和传奇也得以延续。

在推动整个计算机科学领域的前沿技术发展方面,我们让来自中国的智慧在国际学术舞台上频频闪耀。我们也得以与政府、教育机构、产业伙伴携手,在中国与国际学术界之间搭起了一座座沟通的桥梁。研究院对于微软产品也有着深远的影响——几乎每一款产品都留有微软亚洲研究院的烙印,从早期为Windows、Office等核心产品贡献研究成果,到近年来为Kinect、Azure、Skype Translator、HoloLens、Cortana和小冰等人工智能产品输送智慧养料。基于研究院而生的微软亚太研发集团则创造了范例——一个在中国逐步建设、职能完备、分工清晰的研发基地范例。我们孵化的不仅是下一代革命性技术,更是输送了大量先进的团队与优秀的人才。如今微软亚太研发集团的研发范围涵盖软件、服务与硬件等全业务链,且在北京、上海、深圳、苏州等多地拥有分支机构,员工数量超过3000人。再加上十八年来我们构筑的生态圈伙伴,以及我们遍布世界各地、不同行业和领域的院友,可以说我们完美实现了区域、公司及人才的多赢。

在我看来,包括我在内凡是有幸在研究院工作过的人都很幸福,因为我们背靠的是有雄厚实力投入基础研究的微软——很多公司没做基础研究的原因,用老话来说就是,“非不为也,实不能也”。微软亚洲研究院建院伊始,我们所从事的便是着眼未来的工作,但这样的工作,却不是任何一家企业都有能力支持的。况且,比提供资金更重要的是提供一个自由的共享平台。今天,研究院在包括深度学习、计算机视觉、语音识别等多元学术领域所建立的权威性都要归功于公司所架设的广阔平台。

作为管理研究院时间最久的一位院长,我还体会到,成长的过程中不是只有收获,也时常伴随着“成长的烦恼”。举例来说,这几年来,随着国内的产业发展和学术研究的环境越来越好,围绕人才的竞争也变得越来越激烈。坦率地说,研究院吸引人才、留住人才的难度比初成立时大得多。然而,我想我们之所以成立研究院,是希望和国内所有的产业界和学术界的参与者一道,将中国信息经济的饼做大。起初这张饼比较小,我们所占有的比例就相对多一些。在微软亚洲研究院和中国信息经济共同腾飞的今天,这张饼已变得越来越大,我们所占的份额自然便相对减少,这是正常的、也是理想的局面。毫无保留地说,我由衷地希望微软亚洲研究院的每一位共事者都能在一个更长的周期里与微软、与中国一起成长,但对于离开研究院的校友,无论他们接下来选择了产业界还是学术界,或者去实现创业梦想,我们也会给予理解和祝福。同时,我也会从管理和文化的角度,尽最大的可能赋予研究院以更大的“磁性”,使之能够对人才发挥更大的吸引力。

激荡多元人才乐章

经常会有人问我,如何管理智商密度如此之高的研究院,可简化概括为四点:确保环境自由,鼓励跨界交流,合理评估绩效,多元与包容。

确保环境自由。能够成为研究院一员的人,都无一例外地高度痴迷于技术探索,并对技术充满乐观和信仰。他们可以为解决一个疑难、克服一个障碍而不眠不休。他们所看重的,是创新层面的“绝对自由”。我欣赏并支持这一点,不仅如此,我还会鼓励同事们去尝试更富有创造力也更有可能失败的研究,而不会因为某个课题看上去成功的希望渺茫而去叫停或否定它,因为对于基础研究而言,每一次尝试的失败也是一种收获。在研究院,没有所谓的“长官意志”,只有一个个成员的自主选择。另外,自从担任研究院院长以来,我总是很欣喜地看到团队、研究员们可以依照自己的兴趣、追随自己的理想去选择研究方向、确立研究目标。对于年轻的研究员而言,常常充满了对成功、对证明自己的渴望。从过来人的角度,我充分理解这些想法,因此我必须确保他们可以按自己的选择、在一个自由的环境下投身服从本心的研究。我会分享我的看法,但研究员有自由决定是否采纳。我很欣慰地看到,这些有天分的研究员选择来到研究院是在单纯的兴趣乃至“偏执心”的推动下,去制定他们的研究方向和工作计划。而正是因为这样,研究院才会变得更加成熟,并充满魅力。

鼓励跨界交流。我相信,科技领域的伟大创新,时常来自于所谓“门外汉”的奇思妙想。研究院一直都在吸纳许多非计算机专业的英才。比如我们的院友徐迎庆,现在是清华大学美术学院信息艺术设计系教授、系主任,他本人精通艺术、审美独到,他热衷于探索如何把艺术与技术交叉融合,因此在文化遗产保护、自然用户界面等领域取得了不凡的成绩。跨界交流往往能给研究者带来意想不到的灵感,所以我常常与同事们分享,不要闭门造车、故步自封,向不同领域的达人沟通学习,甚至是接受专业人士的批评指教,这一点非常重要。科学一定是触类旁通、越辩越明。

合理评估绩效。管理研究院最难的一点其实是评估绩效。一直以来,我们都鼓励伙伴们解放思想、挑战不可能,但多数情况下,困难的课题是一个个硬骨头,需要漫长的时间去一点点啃,而且整个过程中充满了未知数。那么怎么才能确保团队里每一个人都充分保持着不竭的驱动力呢?这就需要我们时刻关注和帮助团队里的每一个人,与他们共同探讨研究方向、仔细审验阶段性成果。当然,团队与研究员是否始终保持着积极的心态、正向的成长,也可以从产出成果的数量、成果量级、学界影响等多个维度去综合判断。

多元与包容。我知道一些企业会在新员工入职时先对他们进行规范培训,就像是打铁具要先入范那样。这或许是有道理的。但在研究院,我们却不能这样做——要求全员整齐划一的军团式管理可能适合“制造”,却绝不适合“智造”。包容、尊重多元化的性格与习惯,这对激发研究者的创造力来说至关重要。在研究院,每位研究员的学术经历不同、专精领域不同、个性不同、表达能力不同,研究的课题也不同,更不用说年龄、经验等客观因素。所以作为院长,我认为多元与包容是出成果的一个必要条件——当然,研究员充分尊重和热爱基础研究工作则是必不可少的基本原则。

最后,让我感到开心的是,刚刚“成年”的微软亚洲研究院已能够凭借我们在技术方面的领先性吸引到真正有志以研究改变世界的人才——这种领先性体现在每年计算机科技领域最顶尖的学术会议与期刊里,体现在影响亿万用户的新产品与服务中,体现在依然留在研究院的同事和已离开却从未走远的校友的记忆深处……这是我们在过去十八年里点滴积累的最大财富。微软亚洲研究院也会始终让每一位院友们引以为豪,因为这里永远都是最执着于技术的一群天才,纯粹而专注地创造更大的影响与成果。套用文章开头引述的那句话,我觉得海明威口中的“巴黎”是一个印记,代表一种影响终生的生活态度,而微软亚洲研究院于我们也是一个印记,这是一种影响终生的求知科研态度。在技术流动的盛宴上,永远充满着活力、焕发荣光、源源不绝……

下面是福利时间:

为了让更多没来得及赶到现场的微软亚洲研究院院友能够参与到这次活动,分享人工智能的前沿趋势,微软亚洲研究院将以视频直播的方式对下午的“让世界充满AI-人工智能研讨会”进行分享。下图是直播加入方式或直接戳阅读原文

​本次“让世界充满AI-人工智能研讨会”的直播安排如下:



 

这里是你们永远的家——写在微软亚洲研究院院友会成立日

$
0
0


​微软亚洲研究院院友会成立仪式,从左至右依次为洪小文、李开复、张亚勤、沈向洋

11月14日,微软亚洲研究院院友会在位于北京中关村丹棱街五号的微软大厦正式成立了。这天,曾经在微软亚洲研究院实习、工作过的近200位来自世界各地的企业界和学术界的研究院院友们齐聚这里,亿往昔、论明日,现场多种感怀的情绪相互交织,浓得化不开的感动弥漫在每一个人的心头。

关键词:院友亦战友

成立仪式开始前的签名墙,看看上面能不能找到你的老友?

大家都知道,微软亚洲研究院的英文是Microsoft Research Asia,简称是MSRA,这也是多数院友对这里的爱称。但是MSRA的含义不仅如此。2003年的一次研究院户外拓展活动中,现任微软全球执行副总裁沈向洋博士由于自己所在的队伍身穿红色的衣服,因此称为微软红军(Microsoft Red Army),这个名字也由此传开了——在沈向洋眼里,整个研究院都应该被称为Microsoft Red Army,因此MSRA更意味着微软红军,意味着一股位于中国的计算机基础领域的华人力量。

四任院长(或者四小天鹅?)

诚然,对于研究院的每一位院友,我们更可以称之为“战友”。昨天微软亚洲研究院四任院长——李开复、张亚勤、沈向洋和洪小文——相聚,他们的历史性合影刷遍了每一位院友的朋友圈,也让院友们想起了在这里如同打仗一般奋斗的日子。

微软亚洲研究院院友会常委会成员、微软亚洲研究院院长洪小文(2007年10月至今担任微软亚洲研究院院长)

如果你问微软亚洲研究院的历任院长,研究院成立18年来的成果有没有实现大家建院之初的预期?答案毫无疑问是肯定的。微软亚洲研究院现任院长洪小文博士和大家分享道:

事实上,在研究院建院之初,无论是从大洋彼岸投身回国的研究员们,还是中国成长起来的新生研究力量,并不是每个人都有着百分百的信心。很显然,如果你对一件事情有着绝对的信心,要么是你过于乐观,要么这件事情对你来说就毫无挑战性。从这个角度看,当时每一位选择回国的勇士都是冒着巨大的风险,就算现在再给他们机会,他们也不敢保证自己有十足的把握能够这么快建立一个像微软亚洲研究院一样成功的世界一流研究机构。因此从这个角度来说,是的,我们已经大大超出了建院之初的预期。

微软亚洲研究院现任院长洪小文表示,微软亚洲研究院这十八年最了不起的就是和中国一起成长,从学术、到产品、到技术,和中国一起走上国际创新舞台。

18年前,计算机对于绝大多数中国人的生活还很遥远。李开复博士还跟我们分享了他在CMU读书时他的同学沈为民全靠在纸上写代码、用脑子来运行程序的研究经历。这就意味着在中国一定还有很大一批优秀的研究学者尚未被挖掘出来。

谈到中国几年来人工智能技术的发展,李开复表示:今天中国能在人工智能上扮演重要作用,是因为研究院从很早开始就在语音识别、自然语言理解等众多人工智能核心技术进行了研究。中国今天的成就真的应该感谢微软亚洲研究院。

在研究院成立之初,似乎每一个人都憋着一口气,好像非要马上证明自己究竟能干什么:院友孙剑博士分享道,他认为在微软亚洲研究院的工作是一种“修行”,他和沈向洋等前辈们写了快一百篇论文。而在2002年,微软亚洲研究院在在全球计算机科研领域最富盛名的国际图形学年会SIGGRAPH上发表了4篇论文,成功在学术界站稳脚跟,此前在这种国际大会上一直鲜有华人的身影。他们认为,这就是他们在办公室不舍昼夜、夜不归家拼来的结果——那一年,沈向洋和同事们正自嘲“忙成了狗”,前任微软亚洲研究院常务副院长王坚路过听见,看了一眼这群胡子拉碴的理工男,说:“我看根本是猪狗不如。”众人爆笑。

微软亚洲研究院院友会名誉会长张亚勤(2000年8月至2004年1月担任微软亚洲研究院院长)在院长论坛发言中,他什么事情总爱总结成N点,你还记得吗?

张亚勤感叹道:“微软亚洲研究院做了三件了不起的事情,一个是吸引人才,一个是留住人才,更重要的是给中国培养人才。如今我们看到研究院优秀的人才在领导着各行各业。”

微软亚洲研究院院友会会长沈向洋发言中(2004年1月至2007年10月担任微软亚洲研究院院长)

正是有着这样战友一般的感情,院友们再次见面时的感情才分外真切。上午,在院友会仪式开始之前,研究院为大家设置了早餐交流环节。这些多年未见的老友也不见有丝毫的拘谨与局促,东一团、西一簇的述说衷肠。有的在用力地握手,把炙热的激动传递给对方;有的在拥抱,感受曾经并肩作战时的温度;更多的人在神采飞扬地交流,把积蓄了这么多年的思绪恨不得马上和对方分享……

早餐会上各位院友们在热情的交流近况

“好久不见了!”这是院友们交流时用得最多的开场白,我想这也是院友会成立的意义所在吧。有人称微软亚洲研究院是中国IT届的黄埔军校,确实,对于每一个曾经在这里生活和工作过的院友而言,这里不再是一个跨国公司在中国的分支,而是一个实实在在作育人才的大学,而每一位院友被我们亲切的称为“同学”,院友会成立的意义就在于将这群“同学”们联系在一起,让这群中国IT界的半壁江山能够发挥更大的力量。

墙上这些关于微软亚洲研究院的爱称,你最喜欢那个?

这张照片可能就算去了现场也不一定能看到哦~说中国IT界的半壁江山都坐在这里了绝对不为过,看看你光凭借背影能认出几个?

关键词:回忆

提起“微软亚洲研究院院友会”这个词,相信每一个院友的思绪的阀门就被悄然打开。回忆像潮水一样汹涌,裹挟着澎湃的情感让人难以招架。如果说微软亚洲研究院四任院长登台合影的那一瞬还不足以让你感动的眼泪汇聚,那么之后我们准备的老照片分享环节,才是妥妥的“回忆杀”。

被任命为微软亚洲研究院院友会秘书长的李世鹏向大家分享了过去一年来微软亚洲研究院院友会的筹备过程。他说:“院友会的宗旨是在院友和研究院间架起桥梁,鼓励大家反馈和反哺。增加院友间的联系,分享、共享院友的优质资源。院友会和院友间建立多种形式的服务平台,服务院友。在更高的层次,我们的初心就是为了中国培养顶尖创新人才,我们院友会会持续和大家一起为我们中国聚集资源,为中国培养更多的顶尖创新人才。”

今年是微软亚洲研究院创立的第18年,超过5000位院友,4800位实习生, 15位IEEE院士,超过20位中国千人计划和杰出青年人才奖获得者,80位创业公司创始人,150位顶级高校执教,无数的研究成果转化从研究院诞生,这些数字背后使用这群最优秀的中国大脑用热血书写的历史。沈向洋在席间开玩笑道:在国内如果哪家公司需要CTO了,常常会想来研究院挖人。我们输出了这么多CTO、CXO,这么多的各种主席,我们院友会是不是要像他们收一收培养费?我们再将这些院友会会费用于支持年轻院友的培养,为院友们提供资源。

中午的技术展示环节,研究员们正在向院友展示微软亚洲研究院的最新技术

上午,在四任院长分别登台致辞之后,前微软亚洲研究院常务副院长李世鹏、现任微软亚洲研究院院友会秘书长将四任院长以及前微软亚洲研究院常务副院长王坚邀请上台开启了院长论坛的讨论。院长论坛由一个轻松的老照片回忆环节开始。由微软亚洲研究院成立仪式的第一张合影开始(彼时的名字是微软中国研究院),一张张老照片被翻过,一片片回忆翻起涟漪。研究院的圣诞节派对、开复院长离开时KTV响起的送别歌声、一直延续至今的“二十一世纪的计算大会”、第一次推动的微软内部的TechFest、微软工程院的成立……当这些回忆在院友们的脑海中逐步定格成照片,将青春与热爱留给微软亚洲研究院,研究院也在这些殷切的目光中向前迈进。

18年前,微软中国研究院成立

1999年6月,我们开创了“二十一世纪的计算”大会,到今年已经18届

2000年的圣诞节,张宏江和沈向洋头上长出了角

2001年1月,微软亚洲研究院推动了第一届微软内部技术界TechFest的开始

看沈向洋和李世鹏T恤衫上的亮点!

“在微软亚洲研究院的那些年,是最好的时光。”

院长论坛环节,大家在老照片的会议下笑得格外开怀

关键词:感恩

沈向洋博士作为微软亚洲研究院院友会的会长,在发言中提到了很多值得感恩的人。

第一个值得感谢的是比尔盖茨,微软公司的创始人,为研究院的成立提供了强大的支持,也是在他的支持下,李开复回到中国创办了研究院。让这一群坚持初心的研究员能够无任何后顾之忧的坚持他们对计算机科学的热爱。

2001年10月,BillG出席在上海举办的第三届“二十一世纪的计算”大会

沈向洋在分享他内心对研究院院友会成立的感恩时,还不忘讲讲每个人当年的小段子,让大家在笑声中还不忘感动。

第二个值得感谢的是Rick Rashid。当初在他的倡议下,微软研究院得以成立,如今已有25年了。他不久前从微软光荣退休,但是他的后继者们——研究员的每一位员工都将延续他的精神继续执着于研究未来的技术。

接下来应该感谢的是李开复院长和张亚勤院长。开复首先定下了创办了微软中国研究院的目标——不做研究所、而是世界一流的研究院。而在那之后,亚勤更是将微软中国研究院更名为微软亚洲研究院。当然还有张宏江等等众多扶植研究院成长的院友们也值得我们的感谢。

微软亚洲研究院名誉会长授予仪式,从左至右依次为:微软亚洲研究院院友会沈向洋、名誉会长李开复和名誉会长张亚勤

王坚作为院友代表表示:“我觉得微软亚洲研究院在中国历史上,不只是在科技史上,一定会是个标志性的、历史性的东西。以后没有人绕开这个机构谈过去15年中国发生的事情,这是我最大的一个感触。”

其实除了他们,现在在微软担任全球执行副总裁的沈向洋博士和微软全球资深副总裁、现任院长洪小文博士的敦促下促成了研究院院友会的成立。他们接过了前人的接力棒,并在人工智能的跑道上继续引领着前进的步伐。

在院长话题环节谈到了中国的创新力量时,洪小文认为,中国最了不起的地方是改革程度,中国是唯一一个和美国一样各行各业都蓬勃发展的国家。不仅是IT界,还有各种制造业、金融业等等,中国过去二三十年已经证明了这一点。

最后,沈向洋博士还将感谢的目光回到了微软研究院大家庭。有时间最久的,从实习生到入职员工的许继征;有时间最久的应届博士毕业生入职员工童欣;有时间最久的学术界入职员工周明老师……正是有着这样一群始终谦逊、本色、自豪、骄傲的研究员们执着于技术的追求,才让研究院始终能让每一位院友们引以为豪,因为这里始终是创新的发源地,未来的发生地。

自称“中年宅男”的“微软四少”之一的童欣,在下午的人工智能研讨会环节向大家分享了这几年关于网络图形的思考

微软亚洲研究院常务副秘书长马歆。此次院友会成立仪式有一个有趣的环节:大家不需要举手投票表决,而只需要鼓掌通过就完成了院友会的各项任命。

沈向洋博士分享了一个很朴实的比喻,说看着研究员成长和离开就像含辛茹苦养大的女儿要嫁人了,做老爸的总是会觉得女婿不够好,总希望这些离开的人能去更好的地方。这也是我们对微软亚洲研究院每一位院友的期望,就算大家离开了微软亚洲研究院,我们也希望每个人能够越做越好。我们非常感谢每一位院友曾经在这里的贡献,也希能够借助院友会这个平台能够再帮助大家。

清华大学的徐迎庆教授与大家分享了他多年来在帮助视障人士的不懈努力

孙剑将在微软亚洲研究院的研究经历是一种“修行”,虽然很苦,但是也很开心,做了一些事情,也培养了一些学生

下午的论坛环节,在文继荣的主持下,大家就人工智能在学术界,工业界和创业界的发展作出了讨论。从左至右分别是余凯、吴枫、朱文武、徐一华、周明、孙剑、凌海滨和马维英

“聚是一团火,散作满天星”。对于研究院而言,我们会继续坚持在基础科研的前线、未来的前线,让研究院始终是每一个院友终身引以为豪的地方。借用作家海明威在《流动的盛宴》开篇中提到的:“假如你有幸年轻时在巴黎生活过,那么你此后一生中不论去到哪里她都与你同在,因为巴黎是一席流动的盛宴。”愿微软亚洲研究院就是每一位院友心中的“巴黎”,也愿研究院始终与你同在。

院长论坛结束后,大家都冲到前台合影自拍,不知道是不是把每个人都拍下了~


 

沈向洋|微软携手 OpenAI 进一步履行普及且全民化人工智能的使命

$
0
0

作者简介

沈向洋,微软全球执行副总裁,微软人工智能及微软研究事业部负责人

我们正处于技术发展历程中的关键时刻。

云计算的强大计算能力、先进的算法及海量的数据,都推动了人工智能(AI)领域呈现出爆炸式发展。所有这些,都帮助计算机科学家们创造了新的技术,在短短几年前,这些技术还仅仅是我们的梦想。

如今,通过深度学习,计算机通过对话内容来识别文字的能力已经达到了人类的水平,而且能够提供实时翻译。随着强化学习等领域的技术进步,我们在构建真正的智能系统方面,取得了显著的成果。

在微软,我们深信,每个人都理应可以在工作和个人生活中,受益于这些突破性技术。

简而言之,我们致力于向全球的每一个人普及且全民化人工智能。

这是我们与 OpenAI 共同的愿景。OpenAI 是由伊隆·马斯克(Elon Musk )、萨姆·阿尔特曼(Sam Altman)、格雷格·布莱克曼(Greg Brockman)和伊利娅·苏特斯科娃(Ilya Sutskever)联合成立的非营利性人工智能研究机构。

今天,我们很荣幸地宣布与 OpenAI 建立新的合作关系。这一合作将致力于在人工智能领域取得更多成果,实现我们与 OpenAI 的共同目标。我们与 OpenAI 都希望通过人工智能技术解决一些世界上最具挑战性的问题。

我们也很荣幸 OpenAI 能够选择 Microsoft Azure 作为他们的首选云平台,并以此为基础,推进其研究工作,打造只有在 Microsoft Azure 适用的全新工具和技术。这一合作的达成离不开我们对深度学习研究的长期投入和普及且全民化人工智能的承诺。Azure 对开源技术的支持,以及高性能计算、大数据和包括 Azure Batch、Azure 机器学习和微软认知工具包(原名为深度学习工具包,CNTK)等在内的智能技术在 Azure 上的集成也是促成这一合作的重要因素。

OpenAI 是我们将于 12 月发布的 Azure N-系列虚拟机的先期使用者之一。这些虚拟机专为计算密集型工作而设计,提供的服务包括深度学习、模拟、神经网络渲染和训练等。它同时也可以为工作站和流媒体应用在 Azure 中利用 NVIDIA GRID 提供高端虚拟化功能。

除了 OpenAI,像 Esri 和 Jellyfish Pictures 这样的公司也在采用 Azure N 系列产品。Esri 已在其测绘软件中采用 N 系列 GPU 功能 ,Jellyfish Pictures 工作室也在利用这一产品,大规模渲染逼真的视觉效果和动画效果。

随着客户计算需求的迅猛增长,我们正在与像 NVIDIA 这样的合作伙伴密切协作,以满足这些需求。昨天,我们宣布了可以在 Azure N 系列虚拟机和 NVIDIA Tesla GPU 上进行操作的升级版微软认知计算工具包。不久的将来,我们将与更多合作伙伴一道,推出下一代以 Azure 为载体的、基于 Pascal 的硬件创新 GPU。

我们也推出了 Azure Bot Service,开业界先河。借助这种新服务,开发人员可通过采用 Microsoft Bot Framework 加速聊天机器人的开发,并在基于 Azure 的无服务器环境中进行轻松部署和管理。在 Azure 平台上,只需支付一定的成本,这些聊天机器人就可以按需升级扩展。我们今天发布的 Azure Functions,能够以较低的成本,最大程度地提高几乎所有应用与服务的开发速度和运行效率。

我们最近还推出了多种旨在推进人工智能发展的 Azure 产品。50,000 多名开发人员已经在采用 Microsoft Bot Framework 打造聊天机器人。许多公司,例如 Lowe’s、Uber、DutchCrafters 和 AllRecipes.com 也正在借助 Cortana 智能和 Azure 来实现其业务转型。

过去五年来,我们已在人工智能领域取得了长足的进步,许多重大成就令许多毕生致力于人工智能的业内人士感到难以置信。现在,我们有机会帮助合作伙伴和客户,利用这些突破性的技术来实现他们自己的目标。

欲了解有关如何构建智能应用的详细信息,欢迎收看Connect 大会直播,北京时间 11月16日 23:00,B站。通过链接:http://live.bilibili.com/1804697 即可参与直播。



 

演讲实录|首席研究员童欣:从交互到智能的网络图形

$
0
0

11月14日,微软亚洲研究院院友会成立,下午举行了“让世界充满AI:人工智能研讨会”,新老院友同台分享来自各自领域的洞见。以下是第一篇,来自微软亚洲研究院网络图形组首席研究员童欣。有关院友会报道请戳:

这里是你们永远的家——写在微软亚洲研究院院友会成立日。

主持人马歆:各位院友好。我现在的身份是微软亚洲研究院院友会常务副秘书长。正式开始今天下午让世界充满AI:人工智能研讨会。

下面请我的同事童欣,他是1999年毕业直接加入微软亚洲研究院,目前担任微软亚洲研究院网络图形组首席研究员。他主要研究方向为计算机图形学和计算机视觉。

童欣:谢谢马歆的介绍,谢谢各位院友。几天前我得到通知要在这里做一个报告,我非常焦虑和紧张。上次这么紧张还是第一次在SIGGRAPH报告论文的时候。我想了很久,决定了这个题目,“网络图形:从交互到智能”,我想把过去几年来的一些想法作一个思想汇报,请各位院友指正、批评、提出建议。

事情要从15年前说起,2001年的时候,Harry(沈向洋)和百宁(郭百宁)决定要成立一个新的图形组,那么就需要有一个很酷的组名,于是他们决定叫做“互联网图形组”。名字起得很好,问题也马上来了:基本上每个见到我们的人都问什么是Internet  Graphics。为了回答这个问题,在2001年的时候我们集中全组的力量做了第一个项目,Game  Download & Play,这项目我们想把游戏图形的数据、几何、纹理做一些压缩,那么通过互联网下载的时候,大家就不用等那么长的下载时间了,很快把一部分数据下载到本地之后,大家就可以开始玩游戏了。这项目可以说非常成功。这之后我们顺利地开始做SIGGRAPH……转眼到了2010年,百宁把接力棒交给我,让我慢慢开始负责整个图形组,那么我要怎样激励大家、我们组里应该有什么样的愿景。我也开始思考这些问题,重新在问自己到底什么是互联网图形?

如果我们看看周围,可以看到很多成功的例子。互联网加文字,有网络文学、微博,维基百科。加图片就有美图秀秀、Instgram等等。互联网加视频也很好,有Youtube、爱奇艺等很多国内网站,还有网络直播,还有了网红。回头再看看Graphics,却好像什么都没发生,就这样过了十年,那么到底出了什么问题呢?——有传言说,如果你站在风口,就算你是一头猪也能飞起来。可是我这么瘦的一个人,站了这么久,怎么还没飞起来,这到底出了什么问题?

我做了一些粗浅的研究,认真想了一想。我发现,飞起来这件事,不是什么都可以,要满足两个条件:第一,要Everyone,就是内容最好是每一个人都能产生、都能创造,那么有了网络大家就可以互相交流,你的内容就会有海量增长。第二,要Everywhere,随着移动平台的发展,如果你这个内容的产生和消费能互联到每一个平台上,让大家在任何地方都能生产消费,这时候你就真的飞起来了。


那么我们看看图形学到底是个什么状况?答案很悲惨:在Everyone方面,三维内容的生产,对普通用户而言还是非常难的任务。最左边大家可以看到传统的造型动画软件,界面很复杂,即使是艺术家也需要好几年的学习才能做好一个模型。另一方面,虽然我们有一些设备帮助大家来做三维内容的捕捉,比如三维扫描仪、光穹、动捕等等,但这些设备都非常昂贵,每个要几百万,还需要专门的场地和专业的操作,普通用户享受不到。


我们再看看Everywhere,发展了这么多年,所有三维图形的内容都是通过一个二维的屏幕来传递给大家的——某种意义上来讲,我们的内容和2D的视频就没有太大的区别。我们的交互就不用提了,我们还得通过鼠标、键盘或者gamepad进行交互,这些交互跟我们在真实三维世界中所做的交互是非常不同的。由于这些限制,大家就会发现,到现在为止,图形的生产和消费基本和互联网无关,基本的方式还是少数的艺术家,他们组织在一起,经过艰苦的奋斗,做了一些游戏、电影,然后把东西通过市场分发给成千上万的消费者进行消费。一切还是停留在传统的模式。


基于这样的想法,我们就提出了我们互联网图形组的愿景,这就是,我们希望做一些图形学的工具和系统,能帮助每个人很方便地产生、观看和分享一些三维内容。同时,我们希望能在自然世界和虚拟世界间提供更自然的界面和交互的方式,另外我们还想在可视的和不可视的抽象信息之间提供一些自然的界面,把抽象的信息变成可视的展现出来。


过去五年我们为了这一愿景做了很多不同方面的研究,慢慢意识到也许基于智能或者数据的方法是个很好的解决方案。原因有下面几个:第一,我们已经有了一些昂贵的设备,这些设备帮助我们捕捉了大量高质量的数据。第二,我们也有了比较便宜的设备,这些设备可以为我们的系统提供一个初始的输入,不用从零开始了。最后,是一些关于机器学习方面的技术进展可以让我们把这些技术用到图形学的问题里。


那么也许一个比较好的解决方案是通过低价普及的设备,比如普通相机和深度相机,加上智能的算法,再有些时候需要一些简单的用户输入,来方便地产生三维的内容。关于智能算法,我们希望它能做两件事,一是希望能够利用到所有三维数据的本征特性,用这些帮助我们产生内容; 二是可以用机器学习来进行端到端的学习,在输入和输出之间直接建立一些联系。

下面我用我们组研究的一个研究课题三维物体的数字化来进一步说明举例。

三维物体数字化的目标是希望将一个真实世界的三维物体,完美地传递扫描进一个虚拟世界。为做到这一点,我们不仅仅要捕捉三维物体的几何形状,还要重现它的材质信息。注意,有了几何信息虽然可以知道物体形状,却不知道这个物体是什么,只有有了物体材质表面反射属性以后,我们才能在三维世界中真正栩栩如生地体现出来,大家就会的清楚知道这是真实世界的一个啤酒瓶,上面有一个纸标签,标签上有烫金字……我想我不需要再说明这样一个工具对VR/AR内容的产生、或者对虚拟购物等应用是多么重要。


那么我们看看现在的解决方案是什么。基本上我们可以发现这流水线还是非常长的,首先用设备扫描三维几何形状,但是扫描得到的这些几何形状在大部分情况下非常糟糕,需要大量人工交互工作来去除噪声、平滑三维模型。材质捕捉就更麻烦了,我们需要把物体挪到专用的捕捉室,放在专用的设备上,捕捉物体在各种光照、各种视点下的外观,有了这些才能采集出真正的物体形状和材质。大家可以发现这样一个基本的任务还是有很多障碍,首先去噪方面需要很多手工交互工作,其次材质捕捉设备很昂贵,另外这个流水线很长,需要分开的步骤去先捕捉几何,再用另外的设备捕捉材质。


那么我们看看我们用一些智能的算法能帮我们做什么事情:第一个要介绍给大家的是我们去年研发出来的一个数据驱动的模型去噪算法。这里要做的是希望有个自动的算法,帮我们除去扫描模型上的噪音,同时保留模型上面所有的几何细节,并且算法对不同设备扫描出来的模型都能很好的处理。我们的算法通过收集带噪声的扫描模型和对应的基本没有噪声的高质量模型,先去学习训练这些几何之间的对应关系。基于这个对应关系,我们就可以将一个带有噪声的扫描模型直接对应生成它的没有噪声的模型,从而实现去噪的效果。这是我们组的刘洋研究员带领实习生完成的工作


我们这个算法在训练好了以后,用户在用的时候是全自动的。更了不起的是,我们的算法在我们所有的测试模型上去噪效果都超过了所有目前已有的模型去噪算法。同时我们的算法还比所有已知算法都要快。我们很快会把我们的算法源代码和数据公布在网上,希望其他研究人员都可以在基础上继续研究,同时很多用户也可以直接使用我们的算法。

下面我们来看一些实验结果。左边是输入一个扫描模型,有很多的噪声,右边是Ground  Truth,右边第二个是我们算法得到的结果。

这是另一个例子,扫描模型的噪音非常大,以前的算法只能除掉一些噪音,或者会抹去很多模型上的集合细节。我们的算法可以比较好地去掉模型上的噪声,同时比较好地保留它的几何细节。


我们再看看材质捕捉方面,刚才我们说材质捕捉设备很昂贵,捕捉过程很麻烦。有什么更好的做法来做呢?我们在两年前做了世界上第一个不需要任何特殊设备和光照,只从自然未知光照下拍摄的物体视频出发进行材质捕捉的算法。这是我们团队的董悦研究员带领实习生完成的工作。输入就是大家看到的左边的视频序列,右边是输出的材质捕捉的结果,最后我们把它放在一个新的光照下,物体可以栩栩如生地再现出来。


这个算法的关键是我们要从视频中同时估计物体的光照和材质属性。我们发现自然环境中的光照和材质本身具有不同的属性,可以用这些属性很巧妙地从观察的数据最终把二者分分离开来。

这里显示了我们算法所恢复的物体的材质效果,不论是啤酒瓶上印刷的标签,还是光滑的瓷器,还是带有铁锈的金属,我们的算法都能自动地从一些视频序列中把高质量的材质重构出来。


有了这些工作,上面的流水线变得简单自动了很多,但还是要经过两步。有没有可能一步就把所有事情搞定?去年我们在这方面做了一些研究,做了世界上第一个从视频中同时恢复物体的几何形状和表面材质的算法。这个方法只是用了视频而不再需要任何的深度相机捕捉的数据。同样,我们的算法不需要知道光照信息。左边是我们算法输入的视频,右边是捕捉的物体和材质在新的光照环境下绘制的结果。

这是我们捕捉到的几何和材质和真实照片的对比,你可以看到所有的几何细节、表面反光和材质属性都被很好的重建出来了。在不同的光照下看,所有物体都像真实物体一样得到真实再现。


基于这一结果,我们把做的结果放到HoloLens,并和我们周围的真实光照结合在一起,可以生成非常真实的效果。

刚才我们以物体的数字化为例说明了如何采用智能的算法帮助我们简化建模过程,方便普通用户捕捉三维内容。总结一下,在过去几年中我们在智能算法方面做了很多努力,我们逐渐认识到,智能算法也许是能够实现普通用户产生三维内容的一个最终解决方案。

最后,我也想分享一下我在这个过程中所得到的经验或者教训:我总结为三个D。首先是Open-minded。我们要积极地学习借鉴其他领域的方法算法,比如现在我们也在学习和深度学习相关的东西。第二是Concentrated。第一条就像吸星大法,把别人的东西都吸过来了,但还不够,还要易筋经,把东西化成自己的,要知道自己拿到这个工具是要解决自己的问题的,聚焦于自己的问题,把那些东西为你所用。最后是End  to  end,我们并不想发了一篇论文然后研究就结束了,论文更多的是一个交流表达的手段,关键是把问题真正给解决掉,最后给用户提供一个真正的端到端的解决方案。

展望未来,可以说我们才刚刚起步,前面还有很长的路要走。这也许是个坏消息,但对我来说这其实也是好消息。因为这意味着前面还有很多不确定性、很多挑战。作为一个研究人员来说,这些困难、挑战也正是我们最终的乐趣所在,虽千万人,吾往矣。

谢谢大家。


 

微软宣布其所有语音翻译服务已全部使用深层神经网络技术

$
0
0


近日,在微软Connect();//2016大会上,Microsoft Translator宣布所有微软语音翻译服务已全部使用最先进的深层神经网络技术,其中,包括如 Skype Translator实时语音翻译和Microsoft Translator移动端应用等使用微软语音翻译服务的应用程序。不仅如此,所有开发人员和用户都可以通过Microsoft Translator 所提供的语音翻译API(Speech API)将该技术集成到他们的应用程序和服务中。

除Microsoft Translator语音翻译API已经支持的九种语言——阿拉伯文、中文、英文、法文、德语、意大利语、巴西葡萄牙语、俄语和西班牙语,目前深层神经网络技术还支持日语的文本翻译。这10种语言涵盖了Microsoft Translator每天超过80% 的翻译量。

在过去的几年间,深层神经网络技术已经成功地运用在了人工智能的多个领域,如语音和图像处理等,用户可以通过 微软认知服务体验这些强大的功能。而今,神经网络技术正在影响着机器翻译领域,基于深层神经网络(LSTM)技术的翻译质量比当前行业主流的基于统计的机器翻译(SMT)技术有显著提升。神经网络可以更好的获取和理解上下文及完整的句子,从而输出更高质量且更自然的翻译结果。

尽管目前在使用神经网络进行语音和文本翻译上仍处于早期阶段,但它已经能够提供明显优于传统统计机器翻译(SMT)技术所提供的翻译结果。如任何新兴技术一样 (我们正处在所谓S曲线的上升阶段 ),对于未来的提升,我们清楚地知道目前的翻译质量改进仅是迈出的第一步。

通过大规模部署和使用微软的人工智能超级计算机微软认知工具包,微软才能够同时发布对10种不同语言的支持,而随着时间的推移,未来微软将为更多语言提供基于神经网络技术的语言翻译支持。

所发布的基于神经网络的10种语言现已全部投入大规模运营中,用户现在就可以在Window桌面、Windows 10中的Skype预览应用、iOS安卓版Microsoft Translator移动端应用等以及翻译Skype通话时进行体验。想迅速感受并比较深层神经网络技术所带来的翻译质量提升?请点击测试链接:http://translator.microsoft.com/neural

另外,使用Microsoft Translator API的开发者和企业用户可以通过Azure 门户网站测试并购买基于新技术的订阅服务。了解如何开始使用Microsoft Translator API的Azure订阅请点击这里。如果您已经订阅了Microsoft Translator服务,并希望了解如何将订阅迁移到 Azure,请点击这里

无论是语音翻译还是文本翻译,开发人员都可以使用基于神经网络的模型进行开发:

  •  现在所有语音翻译API的调用都通过神经网络。
  • 单独使用文本翻译API时,可以使用 "generalnn” 作为类别ID,从而通过神经网络实现上述10种语言之间的翻译。了解更多请点击这里。 


更多信息:



 

大会聚焦|CIKM 2016:大数据科学的前沿与应用

$
0
0

编者按:信息检索、知识管理和数据库领域中的顶级ACM会议CIKM于今年10月末在美国印第安纳波利斯举行。本次我们邀请到了微软亚洲研究院数据挖掘与企业智能组(DMEI)实习生、华南理工大学和微软亚洲研究院联合培养项目博士生王鹏伟同学与我们分享他眼中的CIKM大会。大会反映出了业界目前哪些研究热点?大数据科学领域又有哪些最新的发展前沿趋势?下面让我们跟随王同学的脚步一起来了解本次大会。

会议简介

CIKM是信息检索、知识管理和数据库领域中顶级的ACM会议。

自1992年以来,CIKM成功汇聚上述三个领域的一流研究人员和开发人员,为交流有关信息与知识管理研究、数据和知识库的最新发展提供了一个国际论坛。大会的目的在于明确未来知识与信息系统发展将面临的挑战和问题,并通过征集和评估应用性和理论性强的高质量研究成果以确定未来的研究方向。

2016年的CIKM大会于10月24日至10月28日在印第安纳州的印第安纳波利斯举行。

印第安纳波利斯位于印第安纳州的中央,跨怀特河两岸,是印第安纳州最大城市和首府,历史上因其工业(特别是制造业)闻名,也是体验美国独特赛车文化的去处。在印第安纳波利斯赛道上举办的比赛不计其数,但要说最知名和最重要的,那还要数“印第安纳波利斯500英里大奖赛”。而在主会第二天晚上正好赶上印第安纳步行者队和达拉斯小牛队的篮球比赛,对于篮球爱好者来说没有什么比亲临现场呐喊助威更让人感到精神振奋了。

即使对这些激烈运动都不感冒,你也会发现,印第安纳波利斯是一座喧嚣而又不失宁静的城市,高耸巍峨的士兵与水手纪念碑、庄严雄伟的世界战争纪念馆、安静祥和的Canal Walk以及散发着运动气息的NCAA冠军堂,俯拾皆风景,沿着美丽的Canal Walk走一圈,心中即使有再多的烦恼也会烟消云散……

海纳百川 有容乃大

CIKM-2016继续注重满足用户拥有统一的可访问的结构化和非结构化系统的需求:处于数据库、信息检索以及知识管理的交汇点,CIKM-2016大会着重强调大数据科学的前沿与应用,洞察大数据科学领域中的最新动态。

本次会议由大会主席翟成祥教授致开幕词,并介绍本次会议的投稿、审议标准和论文录用等情况,这也拉开了CIKM-2016大会的帷幕。今年大会日程包括专题报告(Tutorials)、大会主会议(Main Conference)和研讨会(Workshops)三大部分。在研究性领域(Research Track)中一共收到701篇长文(10页)和234篇短文(4页)的投稿,其中160篇长文被录取,录取率为23%。同时,今年为挽留一部分被淘汰的长文,主办方给予其作者修改为扩充版短文(6页)的机会,最终54篇扩充版短文(6页)和55篇短文(4页)被录取,录取率为24%。在工业性领域(Industry Track)当中一共收到111篇长文(10页)、26篇短文(4页)以及58篇demo论文的投稿,最终22篇长文、7篇短文以及20篇demo论文被录取,录取率分别为19.8%、26.9%和34.5%。本次会议首次尝试将工业论文扩展到10页。在这两百多篇研究性论文中,论文方向极其多样化,下图所示为录取论文方向分类以及论文内容字符云图。在本次大会中,所有的长文均获得了宝贵的20分钟口头报告的机会,短文则以海报展示为主。下图(左)所示为不同领域的投稿量,从图中可见图模型、分类任务、学习排序、信息检索以及知识库仍然是投稿量最大的5个领域。下图(右)为本次会议论文字符云图,其中Data、Learning以及Search等关键词出现频率较高,这也很好地吻合了本届CIKM的主题“Big Data”。

下图为本届CIKM会议的参会注册人数比例统计图,显示来自中国参会的学者比例居于第一。

深入浅出,全面剖析

在CIKM-2016大会的第一天总共有8场专题报告(Tutorials),每场将近持续3个小时,中途有半个小时的茶歇休息时间,很多与会人员会利用这段时间和主讲人仔细探讨交流。8场专题报告虽然各自主讲的领域不同,但是基本上全部围绕在数据(data)这一核心上。例如,由IBM的Ping Zhang带来的“Big data science in drug discovery and development”的专题报告中,将数据挖掘方法应用在医学数据上,自动地从文本中提取药物名称以及加快药物研发速度,降低研发成本以及时间;James G. Shanahan带来的“Large scale distributed data science using Apache Spark 2.0”的专题报告中,系统讲述了如何在Apache Spark 2.0平台上处理大规模数据集。通过听取这些详细的专题报告,即使没有相关的专业背景,也能快速对一个领域有一个宏观的认识。

除了专题报告,CIKM-2016还举办了多场特邀报告,其中包括3个学术性特邀报告以及4个工业性特邀报告,主讲人来自五湖四海,既有来自于高校的著名教授,也有来自于企业界的主要负责人。比起主题讲座,特邀报告内容则更加全面细致,基本可以涵盖这一领域的历史发展,同时也给出该领域的展望以及预测。下图为3个学术性特邀报告的主讲人。

Rakesh Agrawal教授的报告题为“Toward Data-Driven Education”,提出并给出如何将日常学习教育抽象成一个知识图谱,其中每一个节点均是一个学习单元,再根据这样一个构建好的知识图谱,使用数据挖掘技术来提高整体的学习目标。这就给出了一个很好的将学术(知识图谱以及数据挖掘)与产业(学习教育)相结合的例子,非常有创意,感兴趣的读者可以复制以下链接以下载Rakesh Agrawal教授本次讲义(https://aminer.org/archive/5807c78232917761ff2bf3ae)。

Susan Dumais教授的报告题为“Personalized Search: Potential and Pitfalls”:传统的搜索引擎对不同用户提出的同一问题返回的搜索结果是相同的,然而有时不同的人对同一个提问会有不同的意图,这造就了个性化搜索的诞生,Susan Dumais提出了一个统一的框架,将个人信息融合到搜索引擎中,最终达到个性化搜索的要求。读者可在此下载讲义(https://cn.aminer.org/archive/573697446e3b12023e631cd5)。

Andrei Broder教授的报告题为“A Personal Perspective and Retrospective on Web Search Technology” ,通过回顾自己近20年中关于互联网搜索以及预测的工作,指出了在这20年的成果中,哪些取得让人满意的结果,而哪些方法又会产生不好的结果。

奇思妙想,别出心裁

本次大会的最佳论文奖颁给了“ Vandalism Detection in Wikidata” (doi>10.1145/2983323.2983740),最佳学生论文奖颁给了“Medical Question Answering for Clinical Decision Support” (doi>10.1145/2983323.2983819)和“Constructing Reliable Gradient Exploration for Online Learning to Rank” (doi>10.1145/2983323.2983774)两篇论文,最佳展示奖颁给了“ Inferring Traffic Incident Start Time with Loop Sensor Data” (doi>10.1145/2983323.2983339).

以下简单介绍一下这几篇优秀论文(更多优秀会议论文分析,敬请期待)。

Medical Question Answering for Clinical Decision Support”:这篇论文属于自动问答系统研究范畴,首先从大量电子医疗文档(EMRs)建立好一个非常大的概率性医疗知识图谱,然后根据知识图谱以及给定的医疗案例topic(包含该医疗案例的描述性片段、医疗案例总结以及该医疗案例问题),提出三种答案生成的方法,最后用已生成的答案将相关的科学文献排序。

Constructing Reliable Gradient Exploration for Online Learning to Rank”:这篇论文提出两种方法来改进现有的在信息检索系统中使用的在线学习排序(OLR)算法。第一种为DP-DBGD, 该方法是从DBGD方法扩展而来,通过使用两组随机相反的梯度探测方向取代随机单方向梯度探测来减少梯度逼近的差异。第二种为MP-DGD,不同于之前使用随机向量构建无偏梯度估计的OLR算法,该方法通过一系列标准单位基向量来构建一个确定性的梯度估计。该论文最后还提出一种利用历史探索得到的先验知识使多个检索结果融合为一个交叉结果的算法CI。

Vandalism Detection in Wikidata”:这篇论文提出了一种新的机器学习方法来自动检测Wikidata中的恶意修改。该文从内容信息和上下文信息角度提出了47个特征。基于内容信息的特征集合主要包含字符级特征集合、词级特征集合、句子级特征集合以及陈述级特征集合。基于上下文信息的特征集合主要包含用户级特征集合、条目级特征集合以及修正级特征集合。根据上述特征集合,使用随机森林作为分类器进行分类。

至于我们团队的论文。“Learning to Extract Conditional Knowledge for Question Answering using Dialogue”,则是一篇关于知识库搭建的文章。在现实生活中,很多人机对话往往由于条件不足而引起,比如在预订车票的对话中,常常由于用户在发起订票命令时缺少“时间”,“地点”,“人名”等条件,导致智能助手会主动提问,从而产生了长对话。类似的应用场景还有预定会议室、购买手机等场合。然而在目前的对话系统中,这些所谓的条件往往都是人工提前设定好的,只要系统检测到用户没有提供这个条件就会主动发问。然后每个场景的条件往往很不相同,这就需要大量的人力来手动提取条件。基于此,我们提出从问答语料库中自动抽取条件性知识库用以支撑人机对话。传统的知识库或知识图谱以三元组形式保存,即(主语,谓词,宾语)。本文提出的条件性知识库的形式为(主语,谓词,宾语|条件),其意义在于在给定主语和谓词不变前提下,宾语会根据条件的不同而不同。在抽取得到的条件性知识库后,用户输入一个问题,我们的系统首先会检测用户问题是否缺少条件,如果缺少就反问用户并让用户补全条件,最后系统返回正确的答案。

CIKM 25周年庆典

CIKM大会从1992年开始至今已经走过了25年,今年的大会特别回忆了起步之初的情景:第一届会议在Radisson Lord Baltimore酒店举行(如今已破产),当时大家对于互联网还是特别新鲜。Tamer Ozsu和Ed Fox关于DBMS和IR讲了一整天的专题报告,而Bruce Croft则给出了CIKM史上第一个邀请报告。当年参与过第一届会议的学者如果亲临现场肯定会有往事历历在目之感,而现场也邀请了前几届大会主席依次上台回顾CIKM这25年的历程。

谢乐星教授给出了CIKM从1992起到2015年这24年里论文的引用统计图表(更多内容参见http://cm.cecs.anu.edu.au/citation/CIKM/)。从下面两图均可看到,就引用和被引用的比例而言,CIKM和COLING、WSDM、ICDM、EMNLP、ACL、WWW、AAAI、SIGIR、KDD等国际顶尖会议的互相引用比例相近。从CIKM引用其他会议或期刊比例来看,SIGIR、WWW、KDD、VLDB以及SIGMOD居于前五位。从CIKM被其他会议或期刊引用比例来看,SIGIR、WWW、KDD、ECIR、TKDE居于前五位。谢教授根据CIKM近24年的引用统计图表,给出了一个有意思的结论:科学想法来自何方,又去到何方?

同时谢教授又给出了一个关于“在CIKM发表的文章,最多能持续多长时间被引用”的统计,结果基本成线性递减。基于此,谢教授也给出了一个很有意思的话题:经过5年、10年、20年,哪些论文是最容易忘记的,哪些论文会一直被研究者牢记?

立足今日,展望未来

本次CIKM在展示相关领域最新研究动态的同时,也对信息检索以及知识挖掘的下一步发展有启示意义。

深度学习在信息检索中进一步应用。此前深度学习在图像和语音领域中取得了巨大的成功,但是在信息检索中效果不尽如人意。究其原因主要在于图像语音和文本有很大的本质区别,将适用于图像和语音的深度模型直接移植用于文本往往效果不会好,应根据文本自身性质来改变网络结构。

半监督学习的应用。由于近年来数据量急剧增大,人工标注已然不现实,既浪费人力、财力,又浪费时间。近年来很多研究员着手研究利用半监督算法或者类半监督算法来充分利用没有标记过的数据或者其他任务中标记过的数据,比如多视图学习(multi-view learning)、主动学习(active learning)、多任务学习(multi-task learning)、迁移学习(transfer learning)以及终身学习(lifelong learning)等算法。

个性化服务的搭建。随着人类需求多样性的增加,用户对传统的智能服务要求也是越来越复杂,对用户最为贴心的当属个性化服务,比如个性化搜索以及个性化智能助手等服务。然而个人文件和外部数据比起来,数据量非常之少,因此,如何将个人文件等小数据融合到外部的大数据,并且个人文件小数据也会影响最终的结果,是一个非常有挑战的任务。

CIKM大会至今已经成功举办25届,每一届均吸引着无数的科技界与企业界研究人员参加,会议的研究领域也在不断拓宽。本届会议主题聚焦大数据科学,无论是特邀报告、专题报告还是会议论文报告,都是一场巨大的文化盛宴。总的来说,这次参加CIKM-2016大会让我收获良多。CIKM作为信息检索、知识管理和数据库的一个综合性会议,使我在认识更多优秀同行的同时,也能洞察目前最新研究的发展及动态。

CIKM 2017将在新加坡举行,届时会有哪些文化与科技的碰撞?让我们拭目以待。

作者简介

王鹏伟

微软亚洲研究院数据挖掘与企业智能组(DMEI)的一名实习生,现在就读于华南理工大学电子与信息学院,同时也是一名华南理工大学和微软亚洲研究院联合培养的博士生,主要研究方向为数据挖掘、知识抽取、自然语言处理以及人工智能。


 

如何在NLP领域第一次做成一件事

$
0
0


微软亚洲研究院首席研究员 周明

作者简介

周明,微软亚洲研究院首席研究员、ACL候任主席(president)、中国计算机学会中文信息技术专委会主任、中国中文信息学会常务理事、哈工大、天津大学、南开大学、山东大学等多所学校博士导师。1985年毕业于重庆大学,1991年获哈工大博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司主持中日机器翻译研究。他是中国第一个中英翻译系统、日本最有名的中日机器翻译产品J-北京的发明人。1999年加入微软研究院并随后负责自然语言研究组,主持研制了微软输入法、对联、英库词典、中英翻译等著名系统。近年来与微软产品组合作开发了小冰(中国)、Rinna(日本)等聊天机器人系统。他发表了100余篇重要会议和期刊论文。拥有国际发明专利40余项。

自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:

1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。

2. 信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。

3.文本挖掘(或者文本数据挖掘):包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。

4.机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。

5.信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可利用1,2,3的技术来建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。

6.问答系统: 对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。

7.对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。同时,为了体现个性化,要开发用户画像以及基于用户画像的个性化回复。

随着深度学习在图像识别、语音识别领域的大放异彩,人们对深度学习在NLP的价值也寄予厚望。再加上AlphaGo的成功,人工智能的研究和应用变得炙手可热。自然语言处理作为人工智能领域的认知智能,成为目前大家关注的焦点。很多研究生都在进入自然语言领域,寄望未来在人工智能方向大展身手。但是,大家常常遇到一些问题。俗话说,万事开头难。如果第一件事情成功了,学生就能建立信心,找到窍门,今后越做越好。否则,也可能就灰心丧气,甚至离开这个领域。这里针对给出我个人的建议,希望我的这些粗浅观点能够引起大家更深层次的讨论。

建议1:如何在NLP领域快速学会第一个技能?

我的建议是:找到一个开源项目,比如机器翻译或者深度学习的项目。理解开源项目的任务,编译通过该项目发布的示范程序,得到与项目示范程序一致的结果。然后再深入理解开源项目示范程序的算法。自己编程实现一下这个示范程序的算法。再按照项目提供的标准测试集测试自己实现的程序。如果输出的结果与项目中出现的结果不一致,就要仔细查验自己的程序,反复修改,直到结果与示范程序基本一致。如果还是不行,就大胆给项目的作者写信请教。在此基础上,再看看自己能否进一步完善算法或者实现,取得比示范程序更好的结果。

建议2:如何选择第一个好题目?

工程型研究生,选题很多都是老师给定的。需要采取比较实用的方法,扎扎实实地动手实现。可能不需要多少理论创新,但是需要较强的实现能力和综合创新能力。而学术型研究生需要取得一流的研究成果,因此选题需要有一定的创新。我这里给出如下的几点建议。

  • 先找到自己喜欢的研究领域。你找到一本最近的ACL会议论文集, 从中找到一个你比较喜欢的领域。在选题的时候,多注意选择蓝海的领域。这是因为蓝海的领域,相对比较新,容易出成果。
  • 充分调研这个领域目前的发展状况。包括如下几个方面的调研:方法方面,是否有一套比较清晰的数学体系和机器学习体系;数据方面,有没有一个大家公认的标准训练集和测试集;研究团队,是否有著名团队和人士参加。如果以上几个方面的调研结论不是太清晰,作为初学者可能不要轻易进入。
  • 在确认进入一个领域之后,按照建议一所述,需要找到本领域的开源项目或者工具,仔细研究一遍现有的主要流派和方法,先入门。
  • 反复阅读本领域最新发表的文章,多阅读本领域牛人发表的文章。在深入了解已有工作的基础上,探讨还有没有一些地方可以推翻、改进、综合、迁移。注意做实验的时候,不要贪多,每次实验只需要验证一个想法。每次实验之后,必须要进行分析存在的错误,找出原因。
  • 对成功的实验,进一步探讨如何改进算法。注意实验数据必须是业界公认的数据。
  • 与已有的算法进行比较,体会能够得出比较一般性的结论。如果有,则去写一篇文章,否则,应该换一个新的选题。

建议3:如何写出第一篇论文?

接上一个问题,如果想法不错,且被实验所证明,就可开始写第一篇论文了。

  • 确定论文的题目。在定题目的时候,一般不要“…系统”、“…研究与实践”,要避免太长的题目,因为不好体现要点。题目要具体,有深度,突出算法。
  • 写论文摘要。要突出本文针对什么重要问题,提出了什么方法,跟已有工作相比,具有什么优势。实验结果表明,达到了什么水准,解决了什么问题。
  • 写引言。首先讲出本项工作的背景,这个问题的定义,它具有什么重要性。然后介绍对这个问题,现有的方法是什么,有什么优点。但是(注意但是)现有的方法仍然有很多缺陷或者挑战。比如(注意比如),有什么问题。本文针对这个问题,受什么方法(谁的工作)之启发,提出了什么新的方法并做了如下几个方面的研究。然后对每个方面分门别类加以叙述,最后说明实验的结论。再说本文有几条贡献,一般写三条足矣。然后说说文章的章节组织,以及本文的重点。有的时候东西太多,篇幅有限,只能介绍最重要的部分,不需要面面俱到。
  • 相关工作。对相关工作做一个梳理,按照流派划分,对主要的最多三个流派做一个简单介绍。介绍其原理,然后说明其局限性。
  • 然后可设立两个章节介绍自己的工作。第一个章节是算法描述。包括问题定义,数学符号,算法描述。文章的主要公式基本都在这里。有时候要给出简明的推导过程。如果借鉴了别人的理论和算法,要给出清晰的引文信息。在此基础上,由于一般是基于机器学习或者深度学习的方法,要介绍你的模型训练方法和解码方法。第二章就是实验环节。一般要给出实验的目的,要检验什么,实验的方法,数据从哪里来,多大规模。最好数据是用公开评测数据,便于别人重复你的工作。然后对每个实验给出所需的技术参数,并报告实验结果。同时为了与已有工作比较,需要引用已有工作的结果,必要的时候需要重现重要的工作并报告结果。用实验数据说话,说明你比人家的方法要好。要对实验结果好好分析你的工作与别人的工作的不同及各自利弊,并说明其原因。对于目前尚不太好的地方,要分析问题之所在,并将其列为未来的工作。
  • 结论。对本文的贡献再一次总结。既要从理论、方法上加以总结和提炼,也要说明在实验上的贡献和结论。所做的结论,要让读者感到信服,同时指出未来的研究方向。
  • 参考文献。给出所有重要相关工作的论文。记住,漏掉了一篇重要的参考文献(或者牛人的工作),基本上就没有被录取的希望了。
  • 写完第一稿,然后就是再改三遍。
  • 把文章交给同一个项目组的人士,请他们从算法新颖度、创新性和实验规模和结论方面,以挑剔的眼光,审核你的文章。自己针对薄弱环节,进一步改进,重点加强算法深度和工作创新性。
  • 然后请不同项目组的人士审阅。如果他们看不明白,说明文章的可读性不够。你需要修改篇章结构、进行文字润色,增加文章可读性。
  • 如投ACL等国际会议,最好再请英文专业或者母语人士提炼文字。



 

精选|CIKM 2016会议论文选读

$
0
0

作者简介

王鹏伟

微软亚洲研究院数据挖掘与企业智能组(DMEI)的一名实习生,现在就读于华南理工大学电子与信息学院,同时也是一名华南理工大学和微软亚洲研究院联合培养的博士生,主要研究方向为数据挖掘、知识抽取、自然语言处理以及人工智能。


笔者上一篇文章主要对CIKM 2016会议做了一个概括性描述,本次CIKM会议研究领域总共录取了160篇长文,录取率为23%,109篇短文其中包括54篇扩充版短文(6页)和55篇短文(4页),录取率为24%。本文主要介绍几篇会议上值得留意的长文和短文。

● 本次大会的最佳论文奖颁给了“ Vandalism Detection in Wikidata” (doi>10.1145/2983323.2983740)。

● 最佳学生论文奖颁给了“Medical Question Answering for Clinical Decision Support” (doi>10.1145/2983323.2983819)和“Constructing Reliable Gradient Exploration for Online Learning to Rank” (doi>10.1145/2983323.2983774)两篇论文。

● 最佳Demonstration奖颁给了“ Inferring Traffic Incident Start Time with Loop Sensor Data” (doi>10.1145/2983323.2983339) 。

下面着重介绍一下医疗问答的这篇文章。

Medical Question Answering for Clinical Decision Support

这篇论文属于自动问答系统研究范畴,该文章首先从大量电子医疗文档(EMRs)建立好一个非常大的概率性医疗知识图谱。知识图谱中节点的种类包括症状、诊断、测试以及治疗。然后根据知识图谱以及给定的医疗案例主题(包含该医疗案例的描述性片段,医疗案例总结,以及该医疗案例的问题),该文章提出了三种生成答案的方法,最后用已生成的答案根据其与科学文献的相关度对科学文献进行排序,其整体框架以及实验结果如下图所示。之前解决该任务的方法基本上分为两步:1)根据每个主题的其他信息(描述性片段,医疗案例总结)对问题进行拓展;2)用已拓展的问题根据其与科学文献的相关度对科学文献进行排序。该文独特之处在于用知识图谱首先推理问题答案,再用答案代替问题直接和科学文献进行匹配。本任务最初的目的是希望找到对应的文献来回答每个主题的问题,所以用答案对文献进行排序的结果在理想状态下会优于用问题对文献进行排序的结果。研究医疗自动问答的读者可以仔细阅读一下全文。

在今年的CIKM会议上,我们团队的一篇论文“Learning to Extract Conditional Knowledge for Question Answering using Dialogue”以长文的形式被录取。这是一篇关于条件性知识库搭建并用于驱动自动对话系统的文章。选题之初我们发现现实生活中很多人机对话往往是由于条件不足而引起的,比如在预订车票的对话中,常常会因为用户在发起订票命令时,缺少“时间”,“地点”,“人名”等条件,因此智能助手会主动提问,从而导致长对话的产生。相同的应用场景还有预定会议室、购买手机等场景。然而在目前的对话系统中,这些所谓的条件往往都是人工提前设定好的,只要系统检测到用户没有提供这个条件就会主动发问。然后每个场景的条件往往很不相同,这就会需要大量的人力来手动提取条件。

基于此,我们提出从问答语料库中自动抽取条件性知识库用以支撑人机对话。传统的知识库或知识图谱以三元组形式保存,即(主语,谓词,宾语)。本文提出的条件性知识库的形式为(主语,谓词,宾语|条件),其意义在于在给定主语和谓词不变前提下,宾语会根据条件的不同而不同,下图为我们运行实例框架图(图中假设选定windows 10为主语),抽取条件性知识库的整个框架主要由四部分组成:

模板挖掘(pattern mining)。这一步目的是从大量的问题答案对中抽取模板(pattern)。一开始我们项目处理的数据是整个开放的数据集,后来发现后续处理难度实在太大了。最后我们采取复杂问题简单化,先选取“how to”等简单句型进行处理,扩展到更多的句型乃至整个数据集是我们下一步的计划。

条件以及模板表示学习(condition and pattern representation learning)。这一步表示学习是为了给下一步聚类做准备。

条件以及模板聚类。一开始我们采用最简单的k-means方法聚类,但是发现结果非常不好,但是我们发现条件和模板共同出现的现象,最后我们提出一种新的基于表示的联合聚类(Embedding based Co-clustering)的方法聚类, 该方法融合了之前学习到的条件以及模板向量表示,同时在模板和条件两个角度上聚类。

基于聚类结果,搭建条件性知识库。在得到条件性知识库后,用户输入一个问题,我们的系统首先会检测用户问题是否缺少条件,如果缺少就反问用户并让用户补全条件,最后系统返回正确的答案。

除了获奖的三篇最佳论文,大会上还有很多质量高的报告,尤为印象深刻的便是Deep Learning Application Session,整个报告厅座无虚席,会场后面很多站立的听众也是兴致勃勃。在这个Session中总共讲了四篇论文,分别为:

“LICON: A Linear Weighting Scheme for the Contribution of Input Variables in Deep Artificial Neural Networks”

“A Deep Relevance Matching Model for Ad-hoc Retrieval”

“A Neural Network Approach to Quote Recommendation in Writings”

“Retweet Prediction with Attention-based Deep Neural Network”

下面我们简单分析一下第二篇关于信息检索的论文。

A Deep Relevance Matching Model for Ad-hoc Retrieval

文中提出一种新的深度网络模型(DRMM)来解决Ad-hoc信息检索任务,计算query和文档(document)的相关度在信息检索中非常重要。该文对比了在计算相关度中有用到的两种深度网络结构:Representation-focused模型和Interaction-focused模型。Representation-focused模型中具有代表意义的模型有DSSM、 CDSSM以及ARC-I;Interaction-focused模型中具有代表意义的模型有ARC-II。该论文是在Interaction-focused模型基础之上进行修改,得到一个新的网络模型DRMM。之前的基于Interaction-focused的模型保留了位置信息,比如ARC-II中生成的交互矩阵,然后在此之上构建前向网络。但是在实际情况中,query中的词和文档中的词不具有位置上的对应关系。基于此,该文提出的DRMM是基于值的大小对matrix中的单元重新分类(即该文中所提到的直方图)。该文首先用query中的每个单词和文档的每个单词构建成为一个词对(word pair),再基于词向量,将一个词对映射到一个局部交互空间(local interactions,该文用了余弦相似度)。然后将每一个局部交互空间映射到长度固定的匹配直方图中。引用文中的例子,将相似度[-1, 1]分为五个区间{[-1,-0.5), [-0.5,-0), [0,0.5), [0.5,1), [1,1]} 。给定query中的一个词“car”以及一篇文档(car, rent, truck, bump, injunction, runway), 得到对应的局部交互空间为(1, 0.2, 0.7, 0.3, -0.1, 0.1),最后我们用基于计数的直方图方法得到的直方图为[0, 1, 3, 1, 1]。对于每一个query的词得到一个直方图分布后,在此之上构建一个前向匹配网络并且产生query和文档的匹配分值,最后在将query中所有词合并的时候加入gating参数(比较类似于attention机制),整个框架图以及实验结果如下图所示。研究信息检索的读者可以仔细阅读一下全文。

另外Question Answering Session中也有两篇高质量的论文,一篇即为获奖论文(医疗问答),下面简单介绍一下另一篇。

aNMM: Ranking Short Answer Texts with Attention-Based Neural Matching Model

文中提出了一种新的attention机制的神经网络模型aNMM来对答案进行排序。在aNMM模型中,主要引入了两个创新:1)使用值共享权重(value-shared weights)代替卷积网络中的位置共享权重(position-shared weights); 2) 在最后的全连接层中使用attention机制来给问题中不同单词进行加权,不太重要的词权重会很小,重要的词权重会很大。该文的value-shared weight方法和上一篇信息检索论文的原理上一致,均认为position-based的方法不太适合QA或者IR。不同之处为上一篇文章引入了直方图,而该文直接对普通CNN的卷积模板进行改造,词对的值在同一区间的权重共享,同时该文给出了aNMM的两个变种模型,一是aNMM-1, 二是aNMM-2。aNMM-1只是用了一组共享权重,而aNMM-2使用多组共享权重,整个框架图以及实验结果如下图所示。研究自动问答的读者可以仔细阅读一下全文。

Better Search Session中有一篇文章值得留意:

Learning Latent Vector Spaces for Product Search

文中提到在电子商务中商品搜索在如今线上购物网站中起重要作用,即用户通过输入一个短句子来搜索其想要购买的商品。为此文中提出了一种新的向量空间模型(latent vector space model),同时学习词向量和商品向量。其中词向量和商品向量分别处在不同的向量空间中,用户每次输入的句子首先会被映射到商品向量空间中,然后在商品向量空间中通过计算相似度来搜索对应的商品。其每条训练数据格式为(商品-文档),这里的文档包括商品的描述以及用户对该商品的评价。训练方法如下图所示。

其中w是句子中的一个词,x是一个商品,w先通过一个词嵌入矩阵Wv来得到其在词向量空间的词向量,之后通过一个非线性操作映射到商品向量空间中。最后在商品向量空间中计算词w和商品x的相似度。句子的向量是通过对其中所有词向量平均而得到的。该文通过(商品-文档)的相似度比(商品-其他随机文档)的相似度更相似的原理来构建目标函数。其实验结果如下图所示:

大会论文中也不乏一些有趣的文章,比如以下两篇文章:

Using Prerequisites to Extract Concept Maps from Textbooks”文中提出一种新的框架来从学习文档中抽取一种特殊的知识图谱——概念图(concept map)。不同于已有的知识图谱,该文的概念图中的节点代表的是科学概念或者数学概念而非人名、地名、组织名,同时节点之间的关系为“先决条件关系”(prerequisite relationship)而非“is-a”或“part-of”关系。先决条件关系代表着在学习一个高级概念时,有必要先把其基本概念搞清楚。比如在学习“L1正则化”时有必要先把“正则化”了解清楚。之前的工作经常将概念抽取和关系分类看作是两个独立的任务进行优化。本文通过自定义的五条规则来同时对关键概念抽取以及关系分类进行建模。

Finding News Citations for Wikipedia”一文主要解决给维基百科中词条描述寻找新的引用。目前大量的词条描述缺少引用或者引用过时,该文通过以下步骤来解决此问题,首先使用监督训练方法对词条描述进行分类,其中类别包括“是否需要一条新的引用”以及其他类别,然后分类完之后,通过信息检索的方法来检索一些和词条描述相关的引用文章,最后再通过一个分类器对检索出来的引用文献进行分类,确定其是否是正确的引用。

此外,本次大会还设了论文讨论环节,大家可以为喜欢的论文点赞,在官网(http://www.cikm2016.org/) Program-Paper Discussion Forum中仍然可以观看到投票结果。在本次讨论当中可以就喜欢的论文进行多人讨论。

会议海报环节

本次大会的海报环节场面也是相当火爆,整个环节持续一个半小时,可以随时随地和作者进行交流。海报环节也不乏有趣的文章。

Skipping Word: A Character-Sequential Representation based Framework for Question Answering”一文提出直接使用字符级表示来构建句子表示。近来字符级表示(character representation)已经在很多任务上被验证能够有效的提高性能,但是本篇文章与之前的工作不同的地方在于,之前的方法在构建句子的时候均为字符-词-句子的方式构建,而该文直接由字符-句子的方式构建。通过字符级表示得到句子表示之后,对其进行卷积以及采样。最后通过构建一个二分类任务进行训练,即问题和答案相关或者不相关。

Incorporate Group Information to Enhance Network Embedding”一文提出将组的信息考虑到Network Embedding学习中。之前基本上所有的Network Embedding方法只考虑了网络的节点以及节点与节点之间的边。但是在很多社交网络中(比如YouTube和FaceBook),用户可以自行建组,别人也可以选择加入他人建立的组中。同一组的节点即使直接没有边,一般也会存在一些内在关系。所以该文考虑将组的信息加入到Network Embedding中。该文的思想比较简单,每个相同的组也会学到一个向量表示,组向量有两个用处:1)在利用周围节点预测中心节点时,组向量也会加入预测; 2)组向量也会预测组中的其他节点。最后目标函数是将上述两项相加而成,得到令人满意的实验结果。

Distilling Word Embeddings: An Encoding Approach”一文中提出通过提取高维的词向量中的知识,并蒸馏(distilling)到低维的词向量中,在保证一定的准确率的前提下来提高运行效率。该文首先训练得到一个高维的词向量,之后在其上加一层非线性变化(单程全连接)得到一个低维的词向量,非线性变化的参数由最后的任务 (比如用低维词向量用作情感分析或者分类的输入)训练数据更新得到。最后实验结果表明,该文提出的方法优于直接在原始语料库中训练一个低维的词向量,同时准确率最高的结果是由高维词向量得到,但是低维词向量的耗时是高维词向量耗时的0.04倍。

Learning to Rank System Configurations”一文中通过使用学习排序的方法来自动配置任务算法中的参数。在实际模型中,比如信息检索模型以及拓展模型,经常包含很多种不同的特征,每一维的特征经常不是独立的,所以手工去调节这些参数将要花费大量的时间。该文中提出用最新的学习排序的方法来同时自动配置所有的特征。在实验中进行了多项任务,每项任务都事先给出一系列特征,最后的实验结果优于BM25和网格搜索(Grid Search)的结果。

通过这次会议论文分析,可以看出信息检索和自动问答系统在科学研究和现实生活中非常受欢迎,在解决信息检索任务时,既有传统的学习排序方法,也有目前火热的深度学习算法。但是目前很多深度学习算法在信息检索或其他自然语言处理任务中效果仍然不及其在图像上应用的结果,究其原因主要在于图像和文本有很大的本质区别,将适用于图像的深度模型直接移植用于文本往往效果不会好,应根据文本自身性质来改变网络结构,比如上述提到的value-based的方法。深度学习继续在信息检索和自动问答系统如何发力?让我们拭目以待。

如果读者对信息检索或者数据挖掘领域感兴趣,也欢迎大家随时和笔者互动,让我们在工作、学习中彼此交流与分享(笔者邮箱:eepwwang@163.com)。




 

微软发力量子计算

$
0
0


微软资深高管 Todd Holmdahl 将带领科学家、工程师团队,打造量子计算机的软硬件

微软在量子计算领域不断发力,有望利用“拓扑量子比特”研制出可扩展量子计算机。

这一项目的负责人是微软公司副总裁 Todd Holmdahl。他曾成功地将微软的多个重要的研究成果实现产品化,这其中就包括 Xbox、Kinect 和 HoloLens。这次,Todd 将带领一个由科学家和工程师组成的团队,为量子计算机打造软件和硬件。

“我们正在从基础研究向工程开发迈进。”Todd 介绍说。

尽管谁也无法保证在探索未知的道路上永远一帆风顺,但他认为公司在量子计算方面的长期研究已取得了丰硕成果,并在研制可扩展量子计算机方面思路清晰。

“一旦研制成功,它将对世界产生巨大的影响。因此适当的冒险是值得的。而且我认为现在也是正当其时。”

微软已聘请了量子计算界两位领袖人物,Leo Kouwenhoven 和 Charles Marcus,另两位业界大牛 Matthias Troyer 和 David Reilly 也将很快加入该团队。

Marcus 是丹麦哥本哈根大学尼尔斯·玻尔研究所的教授,并在丹麦国家研究基金会支持的量子设备中心担任中心主任。

Kouwenhoven 是荷兰代尔夫特理工大学的杰出教授,并兼任量子技术高级研究中心(QuTech)的创始主任。


2014 年,Leo Kouwenhoven(左)和 Charles Marcus(右)在加州圣芭芭拉微软 Station Q 大会上的合影

Marcus 和 Kouwenhoven 已与微软量子计算项目团队合作多年。加入微软后,他们仍将保留大学的学术职务,并继续各自的课题研究,同时参与微软在这两所大学建立专门量子实验室的工作。

两位研究员都认为,加入微软是他们将研究成果运用于可扩展量子计算机研制的最佳途径。

“这太令人激动了。”Kouwenhoven 说,“我读书时就在研究量子计算,那时我们对它到底能有什么实际应用还一无所知。”

Kouwenhoven 与微软的合作开始于一次偶然的机会。一次参观完微软位于加州圣芭芭拉的实验室后,他与实验室主任、拓扑数学家 Michael Freedman 在海边散步。当时的谈话非常令人振奋。

经过多年的研究合作,Kouwenhoven 说,他们现在需要工程师的参与,以帮助项目真正落地。

“到目前阶段,工程开发对推进项目的科学研究会有重要帮助。” Kouwenhoven 说。

因为微软要研制的绝不是一台实验室环境下的量子计算机。

微软希望创造出可靠工具,让那些非量子计算领域的专家也可以用它来解决今天最棘手的问题。可以预期,它所引发的“量子经济”将带动医药和材料科学等行业的变革。

Marcus 与微软的合作开始得更为偶然。几年前的一次宴会上,他恰好坐在 Freedman 旁边,那次的交流让他意识到只有科学家与工程师更紧密地合作,量子经济才有可能实现。

Marcus 说:“我知道要克服所有困难,制造出前所未有的机器,我们必须改变做事方式。我们需要有科学家、工程师、技师、程序员共同组成的团队。”

Troyer 目前是全球著名学府瑞士苏黎世联邦理工学院的计算机物理学教授。他的研究领域包括量子材料模拟、量子设备测试、量子算法优化和量子计算机的软件开发。

实验物理学家 Reilly 是澳大利亚悉尼大学量子机中心的教授兼中心主任。他领导的物理学家和工程师团队正在致力于量子系统的扩展。

研制量子计算机的构建基块

微软研制量子计算机的方法基于一种被称为“拓扑量子比特”的量子信息单位。

量子比特是研制量子计算机的关键构建基块。研究员们认为利用量子比特,计算机可以快速并行处理多个解决方案,而不是逐个为之。

但挡在实用性量子计算机研制工作前面的巨大障碍之一是量子比特非常不稳定。只有处于一个零干扰的环境,量子系统才能保持其工作状态,因此,量子计算机必须被放置在超低温的独特环境下。

微软团队相信拓扑量子比特能够更好地应对温度、电噪声等因素的干扰,使它们能够长时间保持量子状态,让它们更具实用性,更有效地工作。

Holmdahl 说:“拓扑设计受环境变化的影响较小。”

在研制量子计算机样机的同时,微软还开始研发相应的量子计算软件,以便在系统开始运行的第一天就能高效地解决复杂问题。

“这就好像传统的高性能计算,我们不仅需要硬件,还需要软件。”Troyer 解释说。

这对于项目团队来说也再合理不过:两个系统能共同解决问题,各自的研究工作还可以相互促进。

“量子计算机远不止量子比特。”Reilly 解释道,“它还包括硬件系统,和连接外部世界的各种接口。”

更智能的云和解决棘手问题的能力

专家们说他们可以通过量子硬件和软件,创造出强大的计算能力,解决从气候变化、饥饿到众多疾病等世界上最紧迫的问题。

原因之一是这些计算机能模拟物理系统,加速药物开发或提升我们对植物的认知。研究员们认为智能云的计算能力将因此而呈指数级递增,就相当于将移动电话演变为智能手机。

Holmdahl 说:“这是一个将量子计算机应用于材料学的真正机会。很多今天的计算机还束手无策的问题,我们相信量子计算机能在相当短的时间里找到答案。”

Kouwenhoven 认为这也适用于量子物理领域的研究,例如暗物质研究和宇宙认知等最基础的问题,“如果能用量子计算机解决这些量子问题,那一定会很有趣。”他说。

晶体管和烟灰缸

未来会怎样无人知晓。计算机科学家常说,第一个晶体管刚被发明时,它的创造者们根本无法想象智能手机会由此而生。

“我猜(上世纪)40、50 年代他们琢磨第一个晶体管时,肯定不知道人们将如何使用它。我想我们现在就是这种感觉。”Holmdahl 说。

晶体管的发明者之一 Walter Brattain 来自于华盛顿州 Tonasket 小镇,是 Holmdahl 的同乡。作为一个科技历史爱好者,Holmdahl 一直对 Brattain 的一生很着迷。

凭借量子计算,Holmdahl 认为自己将有机会成为 Brattain 追随者中的一员。

“有机会开创下一代晶体管倒并不至于让我飘飘然、迷失自我。” Holmdahl 说。

踏上这一岗位,Holmdahl 还是得到了他 20 岁儿子的启发:如果你发现自己是这张桌上最聪明的一个人,你就该找张新桌子了。

“这对我来说绝对是一张新桌子。” Holmdahl 说,这位斯坦福大学毕业的工程师现在会利用空余时间阅读有关量子物理学和量子纠缠的资料。

当谈及量子计算机的发展前景,Marcus 常常谈起家里曾经的一辆汽车。买的时候,那辆汽车有当时最好的配置,仪表盘上甚至还装了一个能把烟灰直接从香烟上吸走的烟灰缸。

马库斯常想当时一定有不少人认为这种烟灰缸就是汽车技术发展的巅峰。

他说:“他们设计这种烟灰缸时,一定想不到还会有无人驾驶汽车。”

同样的事也会发生在计算能力上。


 

萨提亚•纳德拉:微软变革者

$
0
0

都柏林一个狂风呼啸的秋日下午, 位于康德拉区的圣帕特里克学院图书馆大厅里,一些学生在摆弄着智能手机。还有几名老师和管理员静静地坐在他们身边,一起在等待着微软CEO萨提亚·纳德拉的到来。

玻璃门被推开了,纳德拉带领一众高管走了进来。他同几位管理员和老师握手后,便径直走向学生们。他坐下来,与几名10岁出头的学生攀谈起来。一个塞着耳机听Robert Plant歌曲的孩子指着平板电脑,一边试图解释自己正在《我的世界》里构建的三维世界,这一游戏是纳德拉出任微软CEO后第一单重大收购。和学生们讨论《我的世界》的编码难点,并非只是礼节性的寒暄,他是希望从用户处收集对微软产品的反馈。即使对象只是十来岁的小学生。随后纳德拉站了起来又走向另一名学生。他身高六英尺,长跑运动员般精健的体形和剃得光光的脑袋都突出了他结实干练的特质。纳德拉每天晨跑30分钟,考虑到要爱护自己49岁的膝盖,他更喜欢在跑步机而非混凝土场地上跑步,他非常珍惜这一时刻,在精打细算的每一天里,这是他难得的与自己的思绪独处的少数时刻之一。


纳德拉一直愿意留出与儿童交谈的时间——部分原因在于儿童是下一代客户,这将在一定程度上能让他更接地气。这时,纳德拉将注意力转向一位盲人中学生,这位年轻女孩在用微软的智能语音助手小娜构建无障碍工具。只见她微笑着读出菜单选项。尽管横跨大西洋的旅行有时差反应需要克服,这一幕还是让纳德拉看得入了神。“这真是太棒了。”他说,“你在挑战自己能力的极限,这真是太棒了。”他向她由衷地表示了称赞。

“我对无障碍功能抱有特别的热情,对此我付出了相当多的时间。”纳德拉后来告诉我。他有两个女儿和一个儿子,这个儿子就有特殊的需求。“她刚刚让我看到的,是作为一名开发者,如何帮助每一个人构建每天都会用到的工具,让生活和工作变得更加便捷和有效率的意义所在。看到微软的技术和产品能够帮助到每一个人,我们感到非常欣慰。”

这位首席执行官与每一组孩子交谈的时间只有几分钟。等到圣帕特里克学院附近的大学生意识到有一位重要人物曾经造访他们的学校时,纳德拉一行已经抵达这次旋风式访问的另一个国家、另一个城市、另一个教室,在那短短四天里他造访了欧洲大陆,走遍了微软最大的几个市场。

 2014年2月,当纳德拉接替斯蒂夫·鲍尔默担任微软首席执行官时,他要接手应对的是要帮助公司解决所面临的“增长危机”。“微软似乎在与新一代用户交流时越来越困难。”全球股市研究所分析师特里普·乔杜里在2010年一份研究简报中评价道。

那时微软及其巨无霸产品Windows和Office都正迈向40周年,公司拥有企业领导人梦寐以求的现金储备以及商学院理论所看重的市场份额。鲍尔默任期开始之初,微软已经成为世上前所未有的最成功、最富有的桌面软件公司,而当时全球已经在转向搜索引擎、社交网络、移动设备和云计算,新产品不论是必应(Bing)搜索引擎还是Zune,Kin和Lumia等移动设备都没有取得预期的成功。

自纳德拉接管后,微软就开始推动一场势如破竹的转型。纳德拉带领公司专注于更加个性化的个人计算体验,以及可以提升生产力和流程的企业级业务以及更加智能的云计算能力。在过去三年里,它投入了数十亿美元建设遍及全球的数据中心以支持现在的云服务。微软还彻底转变了其软件业务的收费模式,从用户一次性购买变为订阅式。

纳德拉甚至达成过一项大胆的交易,以262亿美元收购了领英公司,成为了微软历史上最大的收购案。“对于微软而言,萨提亚是一位伟大的领袖。”鲍尔默称,“改善了开发者、业内人士和投资者对微软看法,做得很出色。”

截至发稿时止,微软已在纳德拉的领导下对其业务重心加以强化。微软股价在十月份飙升突破60美元的历史高位。

然而,股票价格复苏并非小事。在过去十多年间,微软的股价一直徘徊不前,现在似乎一夜之间公司就卷土重来。其掌舵人是一个精健、爱思考、经验丰富的学者,不屑于纠缠于与竞争公司开战这样的琐事。

巴黎会议中心位于巴黎第 17 郡,是一个庞大且棱角分明的20世纪70年代建筑。它建于月神公园旧址。月神公园过去是法国首都有史以来最大的游乐场。在二十世纪早期,此处是一处休闲胜地。如今它是一处贸易圣殿,有光彩夺目、超过34.4万平方英尺的八层展览空间。

在10月一个阳光灿烂的日子,微软在法国召开客户年会,会议中心聚集了数千名参会人员。色彩丰富的展台挤满了整个大厅,展示着各种最新的移动与协作技术和产品。与会者在各种开发运营的技术分享和有关数字银行的头脑风暴会议间奔走。

萨提亚·纳德拉在财富年度商业人物名单中位居第五。

通过连接可查看完整名单:http://fortune.com/businessperson-of-the-year/

在一个关于区块链的主题会议上,纳德拉站在一大群工程师中间,参观一个能源监测软件的展示,并向一名负责人连番提问。在都柏林,纳德拉认识了他的未来客户;而在巴黎,他正在把脉着未来的技术趋势。“从比尔到斯蒂夫以及我自己,我们的世界观都是‘长期的发展’。”他后来告诉我。“就像棒球比赛一样,有时可能将对手击出局,但在这种科技公司,你需要能拥有足够多的胜券,才能在各大联赛中利于不败。”

按照这位首席执行官的日程表,他要在区块链的会议上停留十几分钟,然后就要为下一个演讲做准备。他坐在一扇没有标记的门后,一边在为他的主题演讲整理装束,一边与他那挑剔的首席撰稿人凯特琳·麦凯布演练演讲要点。

他将首先引述微软的使命——“让地球上的每个人、每个组织都能成就不凡”,然后坦承自己在印度的起步显示了技术对民主化社会产生的影响。之后他会快速转到描绘植根于云的计算机技术未来。他将确认承载这一未来的多种形式——“各种小屏幕,各种大屏幕,在客厅里以及在会议室里”,并将回应世界正面临"第四次工业革命"的观点。(继机械、电气和数字之后,前三种技术的边界通过云支持的物联网而日益模糊。)因为是在数据隐私法例特别严格的欧洲,他每次演讲都会强调“信任”这个词。“用户需要的是最直截了当和诚实的反馈。”他说。

当纳德拉在为法国的主题演讲做准备时,他的幕僚长——一个可以同时兼任安全主管的、高大的普林斯顿毕业生在门外站岗。每三分钟就有一位职员前来检查他准备的进展。终于,纳德拉出现了,表情轻松。他无意中听到我的声音,停下来问我目前状态如何。我已跟随他在48小时内两次跨越国界做追踪报道,接下来还有两个国家要去。我也问他同样的问题。“已经走了一半了,不是吗?”他说,指的是他这一周的密集日程,“还早呢。”我回答。对于我们共同的旅程,他笑了,拍拍我的肩膀,然后大踏步走向会场。

从很多方面来看,在需要变革之际让纳德拉执掌微软是一次不同寻常的选择。他是在微软服务了24年的老兵,曾是一名电气工程师。

“当你在微软解释某些事情时,有两种类型的对话方式。” 布莱克·欧文说,“一种类型的人在辩论中等待机会以进行反驳,另一种人则为了学习而倾听,萨提亚就是后一种人。” 欧文与纳德拉同年加入微软,在成为GoDaddy首席执行官之前,他一直与纳德拉同在微软云计算部门工作。远在他被任命为首席执行官之前,纳德拉就可以先搁置自己的怀疑和观点,用心听取你的意见。在为了争辩的倾听与为了学习的倾听之间,其差别并不是微妙的,而是巨大的。萨提亚说话温和但精力充沛,这是一个不可思议的组合。

微软首席执行官萨提亚·纳德拉

一个说话温和的人如何在好战文化中崛起

萨提亚·纳德拉的全名为萨提亚·纳拉亚那·纳德拉,1967年出生于印度海得拉巴。他是家中的独生子,父亲Bukkapuram Yugandher曾是印度行政事务局、印度公务员机构的官员,他已故的母亲Prabhavati Yugandhar生前是一名梵语教授。在他成长的时期,被称为纳萨尔派的共产党游击队与英迪拉·甘地政府正处于冲突之中。

那时的内乱塑造了纳德拉关于如何带动变革的态度。在2015年为印度总理纳伦德拉·莫迪举行的晚宴上,他回忆道:“我看到一张照片,照片上是两位死去的革命者躺在行军床上。他们曾经教师,但后来决定不再教书。那一年是1970 年,地点是斯里卡库拉姆区。我思考了他们还有那些与他们的生命轨迹相似者的人生,如果拥有科技和其它资源所赋予的真实力量,这些人能实现怎样的成就。”在他担任首席执行官的第一个月,纳德拉送给其管理团队的每个成员一本书——《非暴力沟通》。

多年来,微软“着力培养想要独领风骚的领导者。”纳德拉说,这种情形不复存在,“要运营一个公司离不开团队合作。”

纳德拉就读于Hyderabad Public School公立学校,在那里度过了他童年的大部分时间。纳德拉在板球比赛中认识了他的妻子Anupama,两人于1992年结婚。从Hyderabad毕业后, 纳德拉从Manipal Institute of Technology获得了电气工程学士学位。随后,一丝不苟、勤奋好学的纳德拉来到美国威斯康星大学密尔沃基分校学习计算机科学。他的硕士论文是研究有关图形着色和并行算法,他同时还作为一名软件工程师在五角技术公司工作。毕业以后,纳德拉搬到了加利福尼亚,在个人电脑时代初现曙光时崭露头角的Sun公司就职。25 岁时,他被微软挖走,来到雷蒙德工作。

纳德拉那时“超年轻、不好相处、缺乏安全感,还在努力挖掘自己的潜力”,他的招聘经理Richard Tait于2014年一次采访提到。但他绝顶聪明,并对当时企业正在使用的计算机系统有深刻的理解。

直到抵达了伦敦,我才能与纳德拉一起促膝聊天。当我到达时,这位CEO几乎已经按部就班地完成了当天全部行程:政府会议、发表主题演讲、与儿童一起的教育活动。我在他离开《经济学人》杂志办公室时找到了他。这是英国首都异常温暖的一天,或许是因为归心似箭,他健步如飞。我们坐进一辆等待着的黑色面包车,他的司机开车朝着伦敦西北方向34英里处的卢顿机场飞驶而去。

我询问纳德拉此次欧洲之行在其出任首席执行官两年来所制定的总体战略中的定位。他指出了微软云战略在欧洲的重要性,并以保护数据安全为重要前提。

纳德拉对他的外交使命赋予了更为宽泛的定义。“CEO要做的是什么?你要对不确定的未来做出判断,并培育企业文化。”他说,“我感到这次旅行让我在这两方面都获益颇多”。    

这就是纳德拉的工作:他学习,并与其他人一起学习。这位CEO在他的欧洲之旅中,在开车从机场出来的路上,他收到了关于区域的业务状况的简报。在与合作伙伴就餐时,纳德拉在听取对目标市场的分析。在与官员们的闭门会议上,他了解了政府的需求。在个人演讲中,他阐明了公司对普通员工重视。

纳德拉在会议间歇欣赏巴黎商业街区全景

“说到一家跨国公司的定位。”他说,“你要有能力考虑全球化运营;如果一家以营利为目的的企业只追求利润,它就没有办法做到长期盈利。我认为那是某种商业悖论。”

我问纳德拉,作为一家业务遍布192个国家的公司的掌门人,为了促成他想要在微软看到的变化,他如何构建自己的高管团队。2015年,他将微软的工程部门整合到三名高管特里·梅迈尔森、斯科特·格思里和陆奇的管理之下(其中陆奇因健康原因已经离开了微软),他随后组建的管理团队成员大多数都是长期服务于微软的公司老兵,包括财务总监艾米•胡德和纳德拉早些时候任命接替他担任云计算和企业部门负责人的格思里。

“纳德拉在改善人们对微软的看法这方面做得很出色,他的做法有助于微软的发展。”史蒂夫·鲍尔默说。

没错,纳德拉继续营造着一种全新的企业文化。多年来,微软“着力培养想要独领风骚的领导者”的情形不复存在。“要运营一个公司离不开团队合作。这是一个截然不同的微软。这对我来说至关重要。”在纳德拉选定的高管中,他特别看重使事物条理化并提供正能量的能力。“嘿,听着,你身处的地方可能荆棘遍地,而你的工作就是要能够找到玫瑰花瓣。这就是现实,抱怨没有任何帮助。”     

他停顿了一下,“我有时觉得对事业成功的认定太狭隘了。”他说,“真正的事业成功不仅是为自己所在的核心群体创造价值,而是为社会整体创造更多的价值。这就是提高生产力,在实质上有助于社会整体经济的发展。”

截至目前纳德拉已经取得了长足进步,他设法帮助微软重获来自市场及微软员工的信心。他投入重金以推动微软将公司重点从桌面软件调整至云计算,这已被证明是目光长远之举。在其出任微软CEO三周年前夕,萨提亚·纳德拉正将微软推上快行的轨道,然而,要重新成为全球最大、最具影响力的公司,前路依然漫长而充满挑战。(来源:美国财富杂志2016年12月1日刊) 。  


 

我院四位研究员获选IEEE Fellow 和ACM Distinguished Member

$
0
0

年末将至,微软亚洲研究院喜讯连连。近日,IEEE(国际电气电子工程师学会)和ACM(美国计算机协会)先后公布了2017年度的院士名单(IEEE Fellow)和2016年度杰出会员名单(ACM Distinguished Member)。其中,微软亚洲研究院共有四名研究员获选,他们分别是:刘铁岩博士获得IEEE Fellow和ACM Distinguished Member双重荣誉,华刚博士、梅涛博士以及郑宇博士荣获ACM Distinguished Member称号。这一殊荣代表着计算机学术界对微软亚洲研究院四位研究员在各自领域所取得的卓越成就的高度肯定。正是这些优秀科学家对科研的执着、信仰和不断创新,推动着科学技术的持续发展,潜移默化地改善着我们的生活。

让我们共同祝贺四位研究员获此殊荣!

刘铁岩博士,微软亚洲研究院首席研究员

刘铁岩博士因对机器学习方法及其在网络搜索和在线广告领域应用做出的杰出贡献同时获选国际电气电子工程师学会院士(IEEE Fellow)以及ACM杰出会员(ACM Distinguished Member)。


刘铁岩博士,现任微软亚洲研究院首席研究员,领导机器学习和人工智能方面的研究工作。他的先锋性工作促进了机器学习与信息检索之间的融合,被国际学术界公认为“排序学习”领域的代表人物。刘博士发明了一系列具有高度影响力的算法和理论,包括列表级排序算法(Listwise ranking)、BrowseRank、关系排序、以及统计排序理论等等。他在该领域的学术论文已被引用近万次,并受斯普林格出版社之邀撰写了该领域的首部学术专著(并成为斯普林格计算机领域华人作者的十大畅销书)。刘博士的工作推动了排序学习成为一个重要的学术分支,并至今仍然是信息检索领域主流学术会议的核心研究方向之一。

同时刘铁岩博士在分布式机器学习方面也颇有建树。早在2005年,刘博士就开发了当时世界上最大规模的文本分类器(text classifier),它可以高效地完成超过25万个类别的分类任务。近年来,他又领导开发了包括LightLDA(目前世界上最大的主题模型,可以处理100万个主题)和LightGBM(目前世界上最高效、扩展性最好的GBDT算法)在内的大规模机器学习算法,并通过微软分布式机器学习工具包(DMTK)开源,受到了广泛关注。

刘铁岩博士在顶级学术会议和期刊上发表了数百篇论文,并多次获得最佳论文奖、最高引用论文奖、研究突破奖。他曾受邀担任了包括SIGIR、WWW、KDD、NIPS、AAAI、ICTIR在内的顶级国际会议的组委会主席、程序委员会主席、或领域主席;以及包括ACM TOIS、ACM TWEB、Neurocomputing在内的国际期刊副主编。除此之外,他还在很多学术组织中扮演着重要角色,包括中国计算机学会(CCF)学术工委,中文信息学会信息检索专委会副主任等。正是因为刘铁岩博士的杰出学术成就和社会影响力,他被聘任为美国卡内基-梅隆大学(CMU)客座教授、英国诺丁汉大学荣誉教授、以及中国科技大学、中山大学、南开大学博士生导师。

华刚博士,微软亚洲研究院资深研究员

因对多媒体和计算机视觉研究领域做出的杰出贡献,华刚博士获选ACM杰出会员(ACM Distinguished Member)。

华刚博士是微软亚洲研究院资深研究员,现任微软亚洲研究院计算视觉组负责人。他的研究重点是计算机视觉、模式识别、机器学习,人工智能,和机器人,及相关技术在云和移动智能领域的创新应用。华刚博士是通过对语境建模来使用弱监督或者无监督方法来解决无限制环境下计算机视觉问题的倡导者。其研究在学术界和工业界都产生了广泛的影响。华刚博士在2008年创立和奠基了微软的人脸识别引擎。到现在已发展成为微软认知服务(Cognitive Services)中的人脸识别应用程序接口(Face API)。

华刚博士于2011年在国际顶级期刊IEEE Trans. on Pattern Analysis and Machine Intelligence(IEEE模式分析和机器智能汇刊)上领导组织的“现实世界人脸识别”专刊对推动无限制环境下人脸识别的研究产生了深远的影响。因其在图像和视频中无限制环境人脸识别研究所做出的杰出贡献,2015年华刚博士被国际模式识别联合会(International Association on Pattern Recognition)授予”生物特征识别杰出青年研究员”。

华刚博士已在国际顶级会议和期刊上发表了120多篇同行评审论文。他将担任CVPR 2019的程序主席,以及CVPR 2017和ACM MM 2017的领域主席。华刚博士曾担任CVPR 2014、ICCV 2011、ACM MM 2011/ 2012/ 2015、ICIP 2012/ 2013/2015、ICASSP 2012/ 2013等十多个顶级学术会议的领域主席,以及IEEE Trans. on Image Processing(2010-2014)的编委。目前,华刚博士还担任着IEEE Trans. on Image Processing、IEEE Trans. onCircuits Systems and Video Technologies、IEEE Multimedia、CVIU、MVA和VCJ的编委。

梅涛博士,微软亚洲研究院资深研究员

因在大规模视频分析领域做出了杰出贡献,梅涛博士获选ACM杰出会员(ACM Distinguished Member)。

梅涛博士是微软亚洲研究院多媒体搜索与挖掘组资深研究员。他的主要研究兴趣为多媒体分析和计算机视觉,现已发表论文100余篇,先后10次荣获最佳论文奖,拥有17项美国专利,其研究成果先后十余次被转化到微软的各产品和服务中,如Office、Windows Photo、Bing、OneDrive、微软小冰等。

梅涛博士是视频内容理解和搜索的先锋者。在视频理解领域,他率先提出对视频底层视觉表示的上下文与高层语义之间的相关性分别进行建模,他还开创性的提出了基于内容搜索的视频标注方法,其相关研究先后两度荣获多媒体顶级期刊IEEE Trans. on Circuits and Systems for Video Technology(TCSVT)和IEEE Trans.on Multimedia(TMM)的年度最佳论文奖。梅涛博士的另一项创新性工作是荣获ACM多媒体年会最佳论文奖的“视觉查询推荐”,该技术可在大规模视觉搜索系统中通过提供结合文本和图像的联合查询推荐来实现高效搜索。近年来,梅涛博士还领导了视频和自然语言(Video and Language)的研究,并已将相关研究成果成功的应用到微软聊天机器人小冰的视觉聊天中

目前,梅涛博士同时担任IEEE和ACM两大多媒体顶级会刊TMM和TOMM(ACM Trans on Multimedia Computing, Communications, and Applications)的编委,他还是多个国际多媒体会议的大会主席和程序委员会主席(ACM Multimedia 2018、CBMI 2017、IEEE ICME 2015、IEEE MMSP 2015等),以及十多个国际会议的领域主席。他还同时担任中国科学技术大学和中山大学的博士生导师,以及ACM SIGMM中国分会的大会主席。

郑宇博士,微软亚洲研究院主管研究员

因推进城市计算和时空数据挖掘领域的科学研究,郑宇博士获选ACM杰出会员(ACM Distinguished Member)。

郑宇博士,微软亚洲研究院主管研究员,他的研究兴趣包括大数据分析,时空数据挖掘,人工智能和普适计算。郑宇博士是城市计算领域的先驱,他的愿景是以连接传感技术、数据管理和分析模型以及可视化方法,创造出改善城市环境、提高人们生活质量和城市运行系统的三赢解决方案。他也推进了城市计算中最常用的数据形式之一——“轨迹数据”的数据挖掘技术。

同时,郑宇博士还提出了数据融合方法,以发挥不同领域的多个时空数据集的知识力量。他的跨域数据融合方法可以通过融合其他领域的知识(如交通和气象学),来解决一个领域的挑战(例如空气质量),使人们能够利用稀疏和噪声数据来解决城市计算中的问题。

2013年,郑宇博士因在城市计算领域的贡献被MIT科技评论评为全球杰出青年创新者(MIT TR35),并作为现代创新者代表登上了美国《时代》周刊(Time Magazine)。

目前,郑宇博士是人工智能顶尖国际期刊(SCI一区)ACM Transactions on Intelligent Systems and Technology(ACM TIST)的主编以及IEEE旗舰刊物 IEEE Spectrum的顾问委员会成员。他还是IEEETransactions on Big Data和GeoInformatica的编委,以及SIGKDD中国分会创始秘书。

此外,微软亚洲研究院院友会祝贺三位院友获选2017年度IEEE Fellow!

张虹(Hong Tan),因对可穿戴触觉技术领域所做出的贡献获选

颜水城,因对子空间学习和视觉分类方面所做出的贡献获选

李航,因对信息检索和自然语言处理方面的机器学习研究所做出的贡献获选


IEEE介绍

国际电气电子工程师学会IEEE,theInstitute of Electrical and Electronics Engineers)是全球最大的非营利专业技术协会之一,一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万的会员,其院士(Fellow)是由董事会授予某些相关领域取得杰出成就的个人。每年新增的院士不超过总会员数的千分之一。作为会员的最高级别,IEEE院士在学术科技界被认定为权威的荣誉和重要的职业成就。

ACM介绍

美国计算机协会(ACM,the Association for Computing Machinery)是世界上最大的计算机领域专业性学术组织,汇集了国际计算机领域教育家,研究人员,工业界人士及学生。ACM以强大的组织架构,极高的技术规范,以及对技术创新的认同,作为其重要发展准则。目前,ACM在全世界130多个国家和地区拥有超过10万名会员,遍布工业界、学术界、及政府机构。ACM杰出会员(ACM Distinguished Member)必须是在计算机领域有15年以上从业经历并作出重大成就和影响的研究人员,每年全球范围只有数十名科学家入选。


 

微软亚洲研究院研究员获选IEEE Fellow 和ACM Distinguished Member

$
0
0

年末将至,微软亚洲研究院喜讯连连。近日,IEEE(国际电气电子工程师学会)和ACM(美国计算机协会)先后公布了2017年度的院士名单(IEEE Fellow)和2016年度杰出会员名单(ACM Distinguished Member)。其中,微软亚洲研究院共有四名研究员获选,他们分别是:刘铁岩博士获得IEEE Fellow和ACM Distinguished Member双重荣誉,华刚博士、梅涛博士以及郑宇博士荣获ACM Distinguished Member称号。这一殊荣代表着计算机学术界对微软亚洲研究院四位研究员在各自领域所取得的卓越成就的高度肯定。正是这些优秀科学家对科研的执着、信仰和不断创新,推动着科学技术的持续发展,潜移默化地改善着我们的生活。

让我们共同祝贺四位研究员获此殊荣!

刘铁岩博士,微软亚洲研究院首席研究员

刘铁岩博士因对机器学习方法及其在网络搜索和在线广告领域应用做出的杰出贡献,同时获选国际电气电子工程师学会院士(IEEE Fellow)以及ACM杰出会员(ACM Distinguished Member)。

刘铁岩博士,现任微软亚洲研究院首席研究员,领导机器学习和人工智能方面的研究工作。他的先锋性工作促进了机器学习与信息检索之间的融合,被国际学术界公认为“排序学习”领域的代表人物。刘博士发明了一系列具有高度影响力的算法和理论,包括列表级排序算法(Listwise ranking)、BrowseRank、关系排序、以及统计排序理论等等。他在该领域的学术论文已被引用近万次,并受斯普林格出版社之邀撰写了该领域的首部学术专著(并成为斯普林格计算机领域华人作者的十大畅销书)。刘博士的工作推动了排序学习成为一个重要的学术分支,并至今仍然是信息检索领域主流学术会议的核心研究方向之一。

同时刘铁岩博士在分布式机器学习方面也颇有建树。早在2005年,刘博士就开发了当时世界上最大规模的文本分类器(text classifier),它可以高效地完成超过25万个类别的分类任务。近年来,他又领导开发了包括LightLDA(目前世界上最大的主题模型,可以处理100万个主题)和LightGBM(目前世界上最高效、扩展性最好的GBDT算法)在内的大规模机器学习算法,并通过微软分布式机器学习工具包(DMTK)开源,受到了广泛关注。

刘铁岩博士在顶级学术会议和期刊上发表了数百篇论文,并多次获得最佳论文奖、最高引用论文奖、研究突破奖。他曾受邀担任了包括SIGIR、WWW、KDD、NIPS、AAAI、ICTIR在内的顶级国际会议的组委会主席、程序委员会主席、或领域主席;以及包括ACM TOIS、ACM TWEB、Neurocomputing在内的国际期刊副主编。除此之外,他还在很多学术组织中扮演着重要角色,包括中国计算机学会(CCF)学术工委,中文信息学会信息检索专委会副主任等。正是因为刘铁岩博士的杰出学术成就和社会影响力,他被聘任为美国卡内基-梅隆大学(CMU)客座教授、英国诺丁汉大学荣誉教授、以及中国科技大学、中山大学、南开大学博士生导师。

华刚博士,微软亚洲研究院资深研究员

因对多媒体和计算机视觉研究领域做出的杰出贡献,华刚博士获选ACM杰出会员(ACM Distinguished Member)。

华刚博士是微软亚洲研究院资深研究员,现任微软亚洲研究院计算视觉组负责人。他的研究重点是计算机视觉、模式识别、机器学习,人工智能,和机器人,及相关技术在云和移动智能领域的创新应用。华刚博士是通过对语境建模来使用弱监督或者无监督方法来解决无限制环境下计算机视觉问题的倡导者。其研究在学术界和工业界都产生了广泛的影响。华刚博士在2008年创立和奠基了微软的人脸识别引擎。到现在已发展成为微软认知服务(Cognitive Services)中的人脸识别应用程序接口(Face API)。

华刚博士于2011年在国际顶级期刊IEEE Trans. on Pattern Analysis and Machine Intelligence(IEEE模式分析和机器智能汇刊)上领导组织的“现实世界人脸识别”专刊对推动无限制环境下人脸识别的研究产生了深远的影响。因其在图像和视频中无限制环境人脸识别研究所做出的杰出贡献,2015年华刚博士被国际模式识别联合会(International Association on Pattern Recognition)授予”生物特征识别杰出青年研究员”。

华刚博士已在国际顶级会议和期刊上发表了120多篇同行评审论文。他将担任CVPR 2019的程序主席,以及CVPR 2017和ACM MM 2017的领域主席。华刚博士曾担任CVPR 2014、ICCV 2011、ACM MM 2011/ 2012/ 2015、ICIP 2012/ 2013/2015、ICASSP 2012/ 2013等十多个顶级学术会议的领域主席,以及IEEE Trans. on Image Processing(2010-2014)的编委。目前,华刚博士还担任着IEEE Trans. on Image Processing、IEEE Trans. onCircuits Systems and Video Technologies、IEEE Multimedia、CVIU、MVA和VCJ的编委。

梅涛博士,微软亚洲研究院资深研究员

因在大规模视频分析领域做出了杰出贡献,梅涛博士获选ACM杰出会员(ACM Distinguished Member)。

梅涛博士是微软亚洲研究院多媒体搜索与挖掘组资深研究员。他的主要研究兴趣为多媒体分析和计算机视觉,现已发表论文100余篇,先后10次荣获最佳论文奖,拥有17项美国专利,其研究成果先后十余次被转化到微软的各产品和服务中,如Office、Windows Photo、Bing、OneDrive、微软小冰等。

梅涛博士是视频内容理解和搜索的先锋者。在视频理解领域,他率先提出对视频底层视觉表示的上下文与高层语义之间的相关性分别进行建模,他还开创性的提出了基于内容搜索的视频标注方法,其相关研究先后两度荣获多媒体顶级期刊IEEE Trans. on Circuits and Systems for Video Technology(TCSVT)和IEEE Trans.on Multimedia(TMM)的年度最佳论文奖。梅涛博士的另一项创新性工作是荣获ACM多媒体年会最佳论文奖的“视觉查询推荐”,该技术可在大规模视觉搜索系统中通过提供结合文本和图像的联合查询推荐来实现高效搜索。近年来,梅涛博士还领导了视频和自然语言(Video and Language)的研究,并已将相关研究成果成功的应用到微软聊天机器人小冰的视觉聊天中。

目前,梅涛博士同时担任IEEE和ACM两大多媒体顶级会刊TMM和TOMM(ACM Trans on Multimedia Computing, Communications, and Applications)的编委,他还是多个国际多媒体会议的大会主席和程序委员会主席(ACM Multimedia 2018、CBMI 2017、IEEE ICME 2015、IEEE MMSP 2015等),以及十多个国际会议的领域主席。他还同时担任中国科学技术大学和中山大学的博士生导师,以及ACM SIGMM中国分会的大会主席。

郑宇博士,微软亚洲研究院主管研究员

因推进城市计算和时空数据挖掘领域的科学研究,郑宇博士获选ACM杰出会员(ACM Distinguished Member)。

郑宇博士,微软亚洲研究院主管研究员,他的研究兴趣包括大数据分析,时空数据挖掘,人工智能和普适计算。郑宇博士是城市计算领域的先驱,他的愿景是以连接传感技术、数据管理和分析模型以及可视化方法,创造出改善城市环境、提高人们生活质量和城市运行系统的三赢解决方案。他也推进了城市计算中最常用的数据形式之一——“轨迹数据”的数据挖掘技术。

同时,郑宇博士还提出了数据融合方法,以发挥不同领域的多个时空数据集的知识力量。他的跨域数据融合方法可以通过融合其他领域的知识(如交通和气象学),来解决一个领域的挑战(例如空气质量),使人们能够利用稀疏和噪声数据来解决城市计算中的问题。

2013年,郑宇博士因在城市计算领域的贡献被MIT科技评论评为全球杰出青年创新者(MIT TR35),并作为现代创新者代表登上了美国《时代》周刊(Time Magazine)。

目前,郑宇博士是人工智能顶尖国际期刊(SCI一区)ACM Transactions on Intelligent Systems and Technology(ACM TIST)的主编以及IEEE旗舰刊物 IEEE Spectrum的顾问委员会成员。他还是IEEETransactions on Big Data和GeoInformatica的编委,以及SIGKDD中国分会创始秘书。

此外,微软亚洲研究院院友会祝贺三位院友获选2017年度IEEE Fellow!

张虹(Hong Tan),因对可穿戴触觉技术领域所做出的贡献获选

颜水城,因对子空间学习和视觉分类方面所做出的贡献获选

李航,因对信息检索和自然语言处理方面的机器学习研究所做出的贡献获选


IEEE介绍

国际电气电子工程师学会(IEEE,theInstitute of Electrical and Electronics Engineers)是全球最大的非营利专业技术协会之一,一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万的会员,其院士(Fellow)是由董事会授予某些相关领域取得杰出成就的个人。每年新增的院士不超过总会员数的千分之一。作为会员的最高级别,IEEE院士在学术科技界被认定为权威的荣誉和重要的职业成就。

ACM介绍

美国计算机协会(ACM,the Association for Computing Machinery)是世界上最大的计算机领域专业性学术组织,汇集了国际计算机领域教育家,研究人员,工业界人士及学生。ACM以强大的组织架构,极高的技术规范,以及对技术创新的认同,作为其重要发展准则。目前,ACM在全世界130多个国家和地区拥有超过10万名会员,遍布工业界、学术界、及政府机构。ACM杰出会员(ACM Distinguished Member)必须是在计算机领域有15年以上从业经历并作出重大成就和影响的研究人员,每年全球范围只有数十名科学家入选。


 
Viewing all 620 articles
Browse latest View live