Quantcast
Channel: 微软亚洲研究院
Viewing all 620 articles
Browse latest View live

“大数据”上善若水 利万物而不争

$
0
0

作者:微软亚洲研究院副院长 张益肇博士

(本文已同期刊登在《高科技与产业化》杂志2016年2月号)

随着机器学习、人工智能等相关技术的局部突破,大数据应用的进展也开始有了些眉目。相比20世纪90年代一些老旧的数据挖掘技术,如今的大数据技术越来越成熟,已不可同日而语。

在大数据领域,微软正在做的研究从底层系统贯穿至最终应用,有些源于微软自身发展的需求,有些则是对业界需求的扩展,但目的都是为了让大数据技术和工具越来越易于使用,充分发挥大数据的魔力。而这跟微软早年间“每个人的桌上都有一台PC 的愿景颇有异曲同工之妙。

微软亚洲研究院副院长 张益肇博士​​​​

底层,突破数据存放和网络搭建的挑战

既然叫大数据,那么“大”正是其首要特点。数据太多一台服务器自然放不下,那就分布式地放到多台服务器上,那多台服务器之间该如何连接?连接之后又该如何确保传送效率和实时支撑呢?

这便有了SDNSoftware Defined Network的概念,它颠覆了传统网络搭建的逻辑,采用虚拟化技术,根据应用数据的不同使用方式,动态调整和分配资源,优化数据的存贮和转移。例如,Outlook不同用户对于电子邮件、图片、文件等数据的使用习惯、调用频率各不相同。据此,SDN技术可以为不同的用户群建立不同的虚拟网络,实现不同的资源配置,从而使得物理网络的能力被更加合理的利用。微软亚洲研究院利用FPGA技术实现SDN网络,不仅使得网络变得更高效、更智能,而且FPGA强大的平行处理能力更可以加速数据的处理。微软亚洲研究院的多项SDNFPGA加速技术,已经或正在应用于Azure和必应(Bing)数据中心中。

中间层面,为机器学习算法提供支撑

机器学习和大数据技术的结合,使得很多应用模型在自动学习了大量数据之后变得更加准确和聪明。如人脸识别的算法模型,可以通过对其输入大量人脸图片,让其学习人脸特征,从而自动调整面部识别算法。

不过问题也随之而来,这种机器学习需要大量的运算。早些年同样的结果需要计算很久,甚至可能无果而终,因此微软推出了DMTKDistributedMachine-Learning ToolKit,微软分布式机器学习工具包),开发人员只需要把机器学习算法同步分布到不同的服务器上,就不必再操心其他的事情,数据量大和计算量大这两个难题可同时解决。

而微软将DMTK贡献给开源社区,意味着机器学习在各个领域的应用将毫无门槛,大数据应用可以更为普及,更多的有志之士可以利用机器学习和大数据推动自己所在领域的智能化发展。

有了合适的工具,每个人都可以是专家

有了底层网络的支撑和中间层开发环境的支持,应用层简单易用的大数据工具则可以让更多的用户化身为大数据专家。只要采用合适的工具,针对性地开发或者使用相应算法,便能实现各有特色的大数据应用,充分享用大数据带来的价值。在这个层面,微软所提供的工具可谓各有千秋。

Power BI让市场经理更自由

多年前谈BIBusiness Intelligence,商业智能),业内人士都知道其流程有多么复杂,首先是数据收集、清洗、转换,再进行多维分析和展现等等,每个环节都对应着复杂的工具。现在要想获得BI所带来的好处,只需要一个PowerBI即可PowerBI是微软推出的在线服务,通过powerbi.com能够让用户用最直观的方法对数据进行处理,例如查找和呈现数据、在线共享数据、团队协同合作等等。PowerBI为数据特别是表格数据提供了更为丰富多彩和自由的分析组合的可能性。对于市场经理来说,这意味着不用再求教于IT专业人员,自己用PowerBI就可以深入分析,怎样的市场行为可以带来更高的产品关注度和购买行为,而怎样的行为可能导致信誉危机等。

让数据科学家更专业

Azure Machine LearningAzure机器学习)是微软推出的云服务,它可以将机器学习与云计算相结合,通过历史数据去预测未来。该服务内置了很多业务场景的原始数据和机器学习模块及API,初学者可以从已有模块中掌握机器学习的技能;数据科学家可以结合自己的行业经验,充分利用云计算能力创建更加复杂的模型,进行数据分析,从而更加深入地理解所在行业的现状和趋势。

牛津计划支撑研发人员的开发

2015年微软推出的牛津计划(Project Oxford不是要帮助研发人员成为大数据专家,而是帮助那些没有任何大数据和机器学习经验的开发者或开发团队,开发出更智能、交互更多样的人工智能应用。

微软牛津计划提供了一系列基于机器学习的技术服务,开发人员可以利用这些API设计、开发自己的应用,并在其中轻松添加如视觉、语音、人脸识别和语言理解等智能功能。微软的工程师基于牛津计划中的人脸识别API,仅用了几小时就开发出了How-Old.net(微软颜龄机器人)应用最初的演示版。

普及才是硬道理

所有的技术最终都是为了回归应用,造福用户。微软的使命就是让这个领域的前沿技术被越来越的人使用,越来越普及。所谓“上善若水,水利万物而不争”,大数据最终就应该是润物无声地去渗透和改变人们的生活。

在推动大数据终端应用方面,微软也做了相当多的工作。例如,微软亚洲研究院与环保部的合作,利用大数据技术预测72小时内空气质量并将预测精度细致到每平方公里;再如微软研发人员利用牛津计划中的API所做的寻找走失儿童的应用,以及作为微软人工智能代表的小冰、小娜等,都集中展现了微软在大数据应用领域的积累与探索。

从数据到技术,任重道远

相信很多人和我一样坚信大数据未来会改变世界这个观点,不过在现阶段它所面临的挑战也是实实在在的。

首先数据开放是个问题。在美国,很多数据源在逐步开放;中国的一些地方政府也已推出相应的数据开放举措。不过具体到执行层面,尤其在中国市场,拥有数据的权威机构能将数据开放到什么程度,如何能做到开放数据的同时又能保护隐私等,需要更长时间。

其次是数据如何分享。是免费使用,还是收费服务?如何合理分配数据的价值?数据使用过程中的监管、风险控制如何执行?这些问题也都尚无定论,其中有的需要行业专家建言献策,有的则需要国家的立法进行支持。

最后便是技术挑战。正如前文所说,数据量的增长速度目前已经大大超过了人类提升处理数据能力的速度。我们现在能够做到的大数据处理只是冰山一角,大多数的数据还在静静地等待技术的发展,以发现它们的更多价值为人们所用。

所以,未来我们需要依靠更多的智能助理去帮助提升大数据处理的效率,而其背后所基于的智能云平台,可以为之提供更加个性化、定制化的智能计算体验。例如根据你最近的心跳数据提醒你的运动或饮食;早上的起床闹钟会给同床的夫妻不同的设定;遇到雾霾天气不仅会提醒你戴口罩,还会在口罩快用完的时候自动下订单购买。最终,真正为人类带来便捷的智能体验,才是大数据的终极意义。



相关阅读:

成为数据专家,你只差一个Quick Insights的距离

不再从零开始:微软牛津计划,让每一个智能应用都能说会看

微软亚洲研究院开源分布式机器学习工具包


欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:


 

与全世界的年轻人同场竞技?够胆你就来!

$
0
0

想与全世界的年轻人同场竞技,展示你的才华和实力?你只缺一个舞台!目前,各大学术机构和组织举办的挑战赛层出不穷,如何挑选出一个分量十足又适合自己的比赛,从而集中精力在需要解决的问题上,是每一位同学通往大神之路必定思考过的问题。

离开学已经快过去一个月了,离期末还有很远,正是一个春暖花开适合参赛季节。小编为你整理了近期微软正在举办或者将会举办的5场挑战赛的赛事预告,从赛事介绍到赛事流程,从报名链接到相关网站,你想要的这里都有哦~

微软量子挑战赛:感受量子魅力与未来计算;微软开源挑战赛:当开源技术邂逅最强大脑;BIG 2016 CUP编程挑战赛:论文-作者“连连看”;KDD CUP 2016挑战赛:学术机构的影响力?你来评判!以及编程之美挑战赛:感受编程带来的挑战与创新!以下这五场挑战赛,总有一款适合你!

微软量子挑战赛

诺贝尔物理学奖得主玻尔曾说,如果量子力学没有震惊你,你就还没理解它。量子力学吸引了全世界无数最聪明的大脑为之折腰,而在计算机领域,也有很多研究者走在实现量子计算机的道路上。至今所有计算机,不论外观和能力上多么不同,原型都是图灵机。但量子计算机截然不同,有别于传统的存储单位比特(bit),量子计算机的量子比特(qubit)具有量子态的特征,在同一时间可以同时是01,这使得计算机的计算能力指数式地增长,一杯咖啡的时间就能完成过去上万年的计算量。

如果你是量子理论的狂热粉丝,相信微软量子挑战赛将是为你量身打造的一项活动,赛事将从即日起持续至429日,在此期间,你可以随时登录http://research.microsoft.com/en-US/projects/liquid/challenge.aspx网站注册报名参赛。挑战赛的获奖者将会获得总奖金高达15000美元的奖励,更有机会得到微软在全球的相关研究院的实习岗位。

赛事流程:

1、提出自己的项目问题

2、从GitHub下载LIQUi|>模拟器,并解决问题

3、提交项目报告,包含项目描述、目的、方法、难点以及结果等

本次比赛规定使用微软开放的模拟器LIQUi|>LIQUi|>是一种用于量子计算的软件架构工具包,由微软研究院量子结构和计算组(QuArC研制开发,主要包含程序语言、优化和调度算法以及量子模拟。LIQUi|>可以将高级程序中的量子算法转化成为低级设备的语言。

 

微软开源挑战赛

DMTKGraphView,微软亚洲研究院近期的开源项目一定令你印象深刻,事实上,微软研究有有超过50个开源项目,涵盖了人工智能、可视化技术、密码学、编程模型等计算机领域的各个方面。而微软之所以将众多核心技术进行开源,不仅是希望能够帮助领域内的研究人员实现自己的理想和目标,同时也希望激发更多的灵感,让世界变得更加美好。如果你对开源怀着相同的信念,相信微软开源挑战赛是你不容错过的一项活动。

从即日起持续至411日,登录http://research.microsoft.com/en-us/projects/opensource/challenge.aspx并注册报名参赛,即刻体验世界最优秀的研发实验室开发的最新软件的魅力。与微软量子挑战赛一样,开源挑战赛的获奖者不仅能获得总奖金高达15000美元的奖励,也能得到微软研究院的实习机会。

赛事流程:

1、选择自己的项目、提出相关问题

2、在GitHub或我们的项目网站上寻找开源软件,并解决问题

3、提交项目报告,包含项目描述、目的、方法、难点以及结果等

更多赛事详细规则请访问:http://research.microsoft.com/en-US/projects/opensource/open_source_challenge_official_rules.pdf

 

BIG 2016CUP编程挑战赛

学术图谱数据是全世界各行业研究人员所必需的重要资源,但目前错误匹配的论文和作者仍大量存在。此次BIG 2016 CUP主要关注的问题正是数据库中论文和作者匹配错误的现象。BIG 2016 CUP希望参赛者可以从机器学习、信息检索、图数据分析等多个角度入手,提供一个可以验证论文和作者是否匹配的RESTful服务端口。相比于前几届BIG编程挑战赛,本次BIG 2016 CUP更加鼓励将数据处理和在线查询相结合的创新解决方案。

如上图所显示,BIG 2016 CUP编程挑战赛将于330日结束报名,并于4月初展开挑战。比赛过程中,参加挑战赛的队伍将得到100个案例问题,每解决一个问题将得到一分,比赛的最终结果也将根据队伍的得分高低确认排名。如果在第一阶段100个问题中出现了平分的情况,相同得分的队伍将进入第二阶段比赛,决出彼此间的排名。第二阶段比赛同样是多个案例问题,但首先领先对方3分的队伍将直接胜出。

更多挑战赛详情请访问:http://big2016.cloudapp.net/

微软为本次挑战赛提供了最新版本的微软学术图谱数据集(Microsoft Academic Graph, MAG,该数据集不仅包含文章作者、所属机构、发行刊物、会议信息等,还收录了学术论文的出版记录、文章之间引用关系等。同时微软还提供了微软学术图查询编程接口,帮助选手更好的获取相关信息。


KDD CUP 2016挑战赛

每年都有很多研究机构、大学排名见诸报端,然而这些排名最受人诟病的特点便是使用的数据和排名方法往往不为人知。针对这一问题,KDD CUP以“谁的论文被接受的最多——研究机构影响力衡量”为题展开竞赛。通过各大顶级学术会议最终的录用论文为切入点,以微软学术图谱数据集(Microsoft Academic Graph等公开数据作为辅助和参照,KDD CUP希望能够制定出一个精准的评判标准,对研究机构的影响力做出公正的评判。

本次挑战赛的创新之处主要在于:开放的问题,开放的数据库以及开放的解决算法。如果你不愿意收到过多比赛条件的限制,相信KDD CUP 2016将是你的明智之选。

KDD Cup 2016将于20163月初开始注册报名,在3月至8月进行三个阶段的比赛:

1、328日前提交SIGIRSIGMODSIGCOMM等大会的分析报告

2、428日前提交KDDICML等大会的分析报告

3、528日前提交FSEMobiComMM等大会的分析报告

而在20168月的KDD2016大会上,还将举办相关的研讨会,对挑战赛进行总结。更多有关KDD Cup的信息请访问:http://kddcup2016.azurewebsites.net/

 

2016编程之美挑战赛 

除了以上的四大挑战赛之外,2016编程之美挑战赛也即将在324日拉开帷幕。

编程之美挑战赛是微软面向学生开展的大型编程比赛,自2012年以来已成功举办了四届比赛。它致力于帮助学生了解、运用先进的算法与编程设计解决当今热点问题,并通过比赛加强他们在协作、沟通等方面的软实力,从而提高青年开发者的综合实践能力,现已成为以解决挑战性问题为目标的代码高手切磋交流及实现梦想的平台。

今年,编程之美挑战赛除了编程比赛之外,还新增了创意赛环节。创意赛通过网络提交作品,由专家评选出来的优秀选手将参加决赛。决赛将会在微软中国研发中心进行,编程赛队伍与创意赛选手将联合组队,共同参赛。

报名参赛的同学需满足以下要求:

1、在校学生,年级、专业不限,年满18周岁的同学方可参加最后的决赛;

2、报名以及比赛时不能在微软公司及下属的公司或机构实习;

3、参赛学生将以个人身份参加,每人独立参赛;

4、参赛学生需要在本次比赛的官方网站进行注册,并保证注册信息的真实性。

欢迎同学们关注微软亚洲研究院和微软学生俱乐部的官方网站、微信、微博等网络平台,及时获取相关比赛详情哦。 

Talk is cheap, show me your code! 年轻技痒的程序员们,快放“码”过来~



推荐阅读:

彰显个性,用代码创造美丽——2015编程之美挑战赛总决赛背后的故事

体验“全民码农一小时”你不可错过4个编程游戏

前沿理论、反思创新、产学结合——你不能错过的WSDM 2016大会

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:



 

工业界 vs. 学术界: 一个年轻员工的视角

$
0
0

本文发表于《中国计算机学会通讯》2015年第5期,转载已获得授权

作者:菲利普·郭 (Philip Guo),美国罗切斯特大学助理教授

译者:​王长虎,微软亚洲研究院主管研究员

如果你即将获得理工科的博士学位,则很可能面临以下两种职业抉择:

   工业界:成为某个企业、非盈利组织或政府部门的科研人员或工程师;

   学术界:成为某所大学的助理教授。

由于所学专业的不同,你可能会先以博士后身份工作几年,再选择进入工业界或学术界;也可能选择合同制工作,比如在工业界做一个自由职业者,或者在学术界做一个合同制的研究员。本文主要讨论非临时性(“终身制”)的工作。而且,由于工业界和学术界的工作存在巨大差异,我主要针对大中型企业和拥有博士学位授予权的大学进行比较。

之前,很多人对工业界和学术界进行过比较,但他们往往已经处在一个比较资深的位置并且拥有成功的职业生涯。不论是世界500强企业中的富翁,还是顶级高校中著名的终身教授,由于他们已经取得成功,因此往往会介绍所选择的职业道路带来的好处。而这些最佳案例往往会让刚毕业的博士感觉遥不可及。

相比之下,本文从一个年轻员工的视角来比较工业界和学术界的工作。确切地说,是对毕业不久的博士从事两种工作的前6个月的情况进行比较。

   工业界:谷歌公司的软件工程师(20127~12月)

   学术界:美国罗切斯特大学的助理教授(20147~12月)

我获得博士学位后便进入了谷歌公司,工作了6个月之后,开始面试教职。这篇文章写于201412月,也是我成为助理教授的6个月之后。

除了不是用双胞胎做研究(或者用平行宇宙做研究),这应该是最具可比性的。我在两年之内先后得到这两份工作,所以从时间上讲我的变化不大。当然,由于我是离开工业界去找学术界的工作,可能会带些倾向性,但我会尽量保持客观。

地点灵活性

由于工业界的工作机会远远多于学校的教职,因此工业界在地点灵活性方面略胜一筹。

比如,如果你是计算机专业的博士毕业生,想去美国旧金山湾区工作,那么将有超过1000个相关的职位等着你。仅就谷歌而言,每年都会招聘几百个工程师。可是如果你想去湾区寻找教职,那么每年可能最多只有5个相关职位适合你。

当然,其他地区可能不会有这么多的工作机会。但无论你去哪儿,工业界的职位都会比学术界的多10~100倍。

时间灵活性

在工业界,从周一到周五,不论工作是多少,你都需要在工位上每天坐满8小时。当然,一些公司可能会灵活些,但大多数员工特别是年轻员工被要求某些固定时间必须在工位上。另外,你的休假时间对老板来说也是透明的。这进一步强化了你的工作时间属于老板,而不是你的感觉。

在学术界,可供自由支配的时间较多一些。除去每周的教学和开会时间,你可以自由安排其他时间。当你不授课的时候,比如寒暑假,你会拥有更大的时间灵活性。而且你不需要其他人批准就可以休假或离开做其他事情。这种感觉好像你的时间属于你自己,而不是你的老板。所以,在时间灵活性方面,学术界胜出。

私人空间

在工业界,作为一名年轻的员工,你很可能没有自己的办公室,而只是在一个开放区域或者小隔间工作;如果幸运的话,会与其他人共享办公室;如果公司持续地扩张或者重组,则你可能经常需要打包物品转换工位。因此,你很难感觉到有一个稳定的工作环境。

相比之下,拥有终身职位的教授都能拥有独立的办公室。在有了若干家公司嘈杂的开放区域的工作经历后,我已经无法用言语来形容自己拥有独立办公室的喜悦心情。我可以自由地装饰和布置办公室,而且我知道自己不会在没有预先通知的情况下被迫搬到其他地方。如果我想小憩一会儿,我只需要关上门即可。

我非常高兴能拥有一间属于自己的办公室,尽管这不像在开放区域工作时那么便于社交。因此,我知道有些人更喜欢公共的办公环境。

薪水

刚工作时,工业界的薪酬不仅会比学术界的高1.2~2倍,而且每年会有较大的涨幅。

按每小时的薪酬来衡量,差别可能更大。在谷歌,我们每周大概工作25 ~35小时。而作为大学的助理教授,我通常每周工作45~60小时。每工作1小时,在工业界工作的年轻博士可能会比学术界的多赚2~3.5倍。如果只是为了赚钱,那么无须多想就知道工业界远比学术界赚得多。

同事情谊

在工业界,你和同事们会为了共同的目标而努力。作为一名年轻的员工,资深的同事会充当良师的角色来帮助你尽快提高技能。当一个团队在一起工作,成功克服挑战之时,会产生深厚的同事情谊。

而作为一名教授,由于你与其他教授一起工作的机会相对较少,因此很难感受到同样程度的同事情谊。你要么自己独立工作,或者与那些经验远少于你的学生一起工作,因此在作为助理教授的第一年,你是团队中最资深的人。从第一天起,你便需要领导团队。当然,在某些项目上也需要教授之间的合作,不过通常由于任务划分清晰,各自只要带领自己的团队工作即可。此外,学术界的激励机制驱使每个教授需要逐渐建立自己的品牌,因此教授之间很少有长期的合作。

如果你想从同事那里学到更多的东西,并且感受更亲密的同事关系,那么留在工业界会更好。

外界认可

作为工业界的一名年轻员工,自己的工作可能很难被外界了解。比如,一家公司在媒体上推广一个产品,曝光的往往是负责该产品的高管。而产品背后的开发人员,包括你,往往不为人所知。另外,如果你做的项目涉及到公司的机密,则可能永远不会公开发布,甚至在简历上也无法提及。

在学术界,你工作中做的每一件事,比如你的发现发明、论文书籍、关于你的科研成果的采访报道以及你的授课课件,都能得到外界的认可。你所做的每一件事都属于你自己。理论上,你所在的学校对你的研究成果拥有部分所有权,不过除非基于研究成果开办公司,否则对你没什么影响。从我主页上的文章列表可以发现,我是非常注重知识产出所有权的。

在工业界,即使我对谷歌推出的某项产品有所贡献,外人也是无法知道的,他们只知道那是谷歌的产品。而在学术界,我发表的论文,或者发布的一款开源软件,都可以让外界知道。

如果你在意外界的认可,那么学术界明显胜出。

有助于职业发展的直接程度

作为工业界的年轻员工,你花时间所做的工作大多都能直接推进你的职业发展。比如,当我在谷歌做软件工程师时,大多数时间都在写代码,参加会议讨论写什么样的代码。我和同事们的升职取决于我们编写代码的影响力。

在学术界,工作上做的大多数事情并不能直接推动个人的职业发展。一个终身职位的教授必须完成7项工作:教学,指导学生,做科研,申请基金,为系里、学校和学术界服务。其中,关乎升职的仅有做科研和申请基金两项。尽管如此,为了在学术界拥有一席之地,教授们还必须完成其他工作。

如果你希望工作上的努力能够直接促进职业的发展,那么工业界是一个更好的选择。

工作转化为影响力的直接程度

在工业界,你的工作会直接产生经济或政治影响。公司为你支付工资来增加公司的收益,或者让你的部门变得更有效率。你的工作被用于提升老板的地位,或者至少能让人从中获益。

相比之下,学术研究的主要产出是论文、著作,通过这种形式来发布验证过的想法。大多数论文,除了能启发其他研究人员来渐进地推动某个研究领域的发展外,基本上没有直接的影响。作为学术界一员,我坚信学术研究的价值,但我也知道其影响力通常是微小的、间接的和无形的。

如果你在意你的工作转化为影响力的直接程度,那么工业界更好;如果你希望做更多能带来长远效益的探索性工作,那么学术界更好。

可控感

作为工业界的年轻员工,会发现很多事情会超出你的控制范畴。比如,你努力工作的项目会由于某些与技术无关的原因被取消;或者某天你会收到一封告知你所在的团队被解散,你被分配到另外一个团队,受另一个经理领导的邮件;更糟糕的情况是,你可能在没有任何预先通知的情况下被裁员了。由于你只是一个很大机器上的一个小零件,你的职业命运往往由上层决定。

在学术界,很多事情往往需要你主动回应,所以感觉像是一切尽在自己的掌控之中。比如,教授可以决定开展什么样的科研项目,与谁合作,申请哪项基金,怎样做实验,投哪篇论文等等。当然,尽管你的事业仍依赖于其他人,比如论文和基金审稿人的意见,但是至少是你主动提交工作,让人审阅的。

在工业界和学术界,工作中有许多不确定性,关键在于这种不确定性是来自并不了解你工作的工业界的上级管理层,还是来自对你的主动性回应的学术界。相较而言,我更喜欢后者,因为即使我失败了,也知道是自己做的决定导致了那个方向的错误,而且至少我尽了最大努力。这种感觉让我更容易产生一切尽在掌控之中的想法。

独立性

在学术界,最令人青睐的好处是独立性。连续在几个技术公司工作之后,我十分珍惜这份独立性带来的自由。

在我现在的助理教授职位上(请记住,我还没有得到终身教职!),只要我完成了每周几个小时的教学工作,参加了系里和学校安排的委员会议,我基本上就可以用剩余的时间做任何事情。

我想不出哪里还有类似这样的工作:雇主付我全职薪水而我拥有足够的自由度。只要我愿意,我就可以每周花35个小时坐在办公室里关上门“抠鼻孔”,而且没有人会注意!当然,如果我真的懈怠了,那么我很可能在几年之内被学校“炒鱿鱼”。但是,确实没有人每天监视我。

相比之下,如果我在谷歌公司的小隔间中整天“抠鼻孔”,那么我很可能会在那个周末遭到训斥,并很快被警告、公示。而且我的那些工作效率很高、“不抠鼻孔”的合作者们也会排斥我。

当然,这种极度独立性也存在两面性。由于没有其他人推动我做事情,我需要不断地自我激励来发展我的事业。由于我不再有传统意义上的老板,因此只有自我督促,才能不断进步。

如果你更喜欢独立性,那么可以选择学术界。但是如果想借助其他人的力量来激励、指导你,那么选择工业界更合适。

总结

对于以上几个方面,是工业界还是学术界有优势,我的看法可概括为:

1.地点灵活性:工业界

2.时间灵活性:学术界

3.私人空间:学术界

4.薪水:工业界

5.同事情谊:工业界

6.外界认可:学术界

7.工作有助于职业发展的直接程度:工业界

8.工作转化为影响力的直接程度:工业界

9.可控感:学术界

10.独立性:学术界

注:本文译自http://www.pgbovine.net/academia-industry-junior-employee.htm



推荐阅读:

用线条解码甲骨文的秘密

和中国计算机学会一起做“面包”的十年

芮勇博士荣获2016年IEEE 计算机学会技术成就奖

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:



 

鱼与熊掌如何兼得:微软科学家解决并行训练困境

$
0
0

近日, ICASSP 2016国际会议在上海召开,这是电气电子工程师学会(IEEE)组织的信号处理领域最权威的国际会议,会议吸引了众多从业人员的目光。微软亚洲研究院首席研究员霍强博士和他的研究团队在此次大会上提交的论文Scalable Training of Deep Learning Machines by Incremental Block Training with Intra-Block Parallel Optimization and Blockwise Model-Update Filtering首次较好地解决了大数据机器学习并行训练中经典的两难问题,在保证训练模型的性能的同时,让训练速度在增加GPU的条件下几乎实现了线性增长,这一突破对大数据机器学习的效率提升意义重大。霍强博士和他的研究团队将于325号就该技术的细节在上海国际会议中心进行讲解。

 ICASSP 2016,上海

人工智能与机器学习

不久前的人机围棋大赛让大众对机器学习有了一定的认识,也引发了人们关于人工智能的讨论和思考。事实上,无论是人工智能或机器学习都不是一个全新的概念。以人工智能为例,在60年前美国达特茅斯学院的一场会议上这个概念首次被提出后,人工智能被正式赋予了定义。此后的六十年,人工智能经过了多次大起大落。而如今人工智能春天的再次来到,离不开机器学习和大数据的快速发展为其所做出的贡献。

得益于摩尔定律,计算机的硬件处理能力日益增长,这使得计算机处理大规模数据成为了可能。大数据机器学习在这种条件下应运而生,科学家们采用机器学习算法,对大规模数据进行学习,从而得出一些模型来完成特定的任务。近几年,机器学习对语音识别和图像识别的技术推动有目共睹,无论是微软在2015 ImageNet计算机图像识别挑战赛上所实现的惊人的152层深层神经网络的技术突破,让计算机的图像识别能力超过人类,还是用于Skype Translator实时语音翻译技术的不断完善,还有如今的机器 “围棋大师”,机器学习已经真切地进入了人们的生活,并在逐渐显现出它的效用。

但是,对语音识别和机器学习有所了解的人都不会忽略下面这句金句:

There is no data like more data.

但当你拥有了数量巨大且有价值的数据时,如何高效地处理这些数据是我们首要面对的问题。在过去,就算你拥有10万小时的训练语料,想训练出一个语音识别的模型,受限于计算机的运算效率,训练过程往往需要好几个月甚至数年才可能完成。这样一来,训练一个模型往往耗时巨大,科研工作者无法利用这些大语料进行大量实验。因此在过去很长一段时间,大数据机器学习都处于一个发展十分缓慢的阶段。

机器学习背后的奥秘

随着计算机性能的大大提升以及云计算技术的逐步推广,似乎机器学习成为了人人都可以尝试的事情。但机器学习也被戏称为科技公司的“军备竞赛”,谁拥有更大规模的数据、更快的训练速度、更好的算法,谁就能拥有性能更好的模型;谁能利用更多的CPUGPU,谁就能在这项任务上取得更好的成果,获得更大的价值。

如果我们把这个过程比作是盖房子的话,那么谁拥有的工人越多,谁的房子盖得就越快。在这里,房子是我们需要建立的模型,工人则可以看做是CPUGPU。那么问题来了,工人是不是越多房子就能盖得越快呢?

这其实是一个经典的假设。如果一个优秀的工人需要64天才能盖好一座高质量的房子,那么是不是64个工人1天就能盖好这座房子呢?答案自然是存疑的。理想状态下,工人的数量应该和工作成果的比例呈线性增长,即64个工人的工作效率应该是1个工人的64倍,否则请这64个工人就会存在一定的资源浪费。而这个问题对应到机器学习领域就是如何扩大并行训练(parallel training)规模的问题。

如果你是一个工头,自然想制定出一个最合理的解决方案,让房子既能很快建成并保证质量,又不至于浪费太多工人成本。当然最理想的情况下是让一个最优秀的工人一个人完成这项任务。但如果这个工人盖起一栋大楼需要十几年时间的话,那么也无法满足人们的需求。也就是说,如果利用大数据训练一个性能更好的模型的话,只靠单机单卡训练消耗的时间太久,并不具有实际意义。

自然,大家会选择增加CPUGPU的方式来加快机器学习的训练,这就称之为并行训练。目前产业界常用的并行训练方法包括ASGDModel Averaging1-bit SGD等。然而这些方法始终都躲避不开一个问题,就是如何在增加工人(卡)数量的同时,保证工人的劳动成果(训练速度)是线性增长的,同时还要保证整个施工的质量(模型性能)。

兼得鱼与熊掌的并行训练

很长一段时间以来,大家都将这种并行训练视作是一个“鱼与熊掌”的问题。既然不可兼得,就索性多雇些工人以早点完成“盖楼大业”,但由此也带来了施工质量问题和极高的沟通成本。近日,微软亚洲研究院首席研究员霍强和他的研究团队在ICASSP 2016大会上提交的论文Scalable Training of Deep Learning Machines by Incremental Block Training with Intra-Block Parallel Optimization and Blockwise Model-Update Filtering就较好地解决了这个经典的两难问题,让大规模并行训练在增加GPU的条件下几乎实现了线性加速并保证了模型性能。

微软亚洲研究院首席研究员 霍强博士

谈及这个突破,霍强博士表示:“我们研究小组针对这个问题进行了长期的研究,尝试过很多不同的方法,但都各有不足。这一次的技术突破乍一看好像是灵光一现,但却是基于我们此前长久的研究积淀,所以是水到渠成的结果。这一在并行训练方面的进展将会为大数据机器学习创造更好的条件。”

那么这一项革新究竟是如何实现的呢?还是借助盖房子这一比喻,霍强博士解释该技术的关键难点在于如何将这些工人的工作成果有效地整合起来。每一个阶段工人完成工作之后,都需要将这一阶段的工作反馈给工头,工头依据每一个工人的反馈生成新的工作模型,然后工人们再依照新的工作模型,对新一批的建材(数据)进行处理。不断更迭交替之后,从而生成机器学习出来的模型。但在这一过程中会涉及到沟通成本和有效整合的问题。

在每一个工人给工头提交工作成果之后,工头需要进行整合更新。如果工头缺乏大局观,只进行简单整合(Model Averaging), 结果质量不尽人意。霍强博士团队在论文中创造性地在整个流程中增加了一个模型更新滤波的步骤。在Model Averaging中, 每一轮迭代只利用当前获得的信息更新模型,历史更新信息却被忽略了。因此,研究员们提出将每一轮模型更新的信息收集起来,以史为鉴,结合当前信息进行学习,这样一来能够保证每一轮的更新更为平滑,不会出现巨大的波动。使用这样的滤波方法后,最终生成模型的性能也大大提升。

在研究过程中,研究员们与微软产品部门合作,验证了该方案的有效性,极大地提高了产品部门的生产力。此外这篇论文中的实验结果显示,该技术对语音识别中神经网络模型的训练提升十分显著,在保证性能的前提下,当使用16GPU卡时,训练速度提高了15倍,而当使用64块卡时,训练速度提高到了56倍,这一结果在此前的实践中都不曾有过。

在对手写识别所采用的双向长短期记忆(Deep Bidirectional LongShort-Term Memory,简称为DBLSTM)递归神经网络(Recurrent Neural Network,简称为RNN)的CTC Connectionist Temporal Classification)训练过程中,该并行训练算法的有效性同样也得到了证明。由此可以看出,这一技术革新有着极强的通用性。

实现更快更高效的大数据机器学习

那么这一技术革新对机器学习究竟能够带来哪些改变呢?

我们都知道,无论是语音识别、图像识别还是其它与机器学习有关的任务,虽然很多时候计算机在某些特定情况下的表现很好甚至超过了人类,但是没有任何一个模型能够保证100%的准确率。在现实生活中,计算机的感知能力与人类还存在着一定的差距,科学家们正在试图将这种差距进一步缩小。

ImageNet图像识别挑战赛就是这样的一个例子。2007年,斯坦福大学教授李飞飞和普林斯顿大学教授李凯合作开发了ImageNet项目。该项目团队从互联网上下载了10亿多张图片,然后通过低成本网络众包的方式,雇佣了来自167个国家共 5万多人对这些图片进行了分类标注。截至2009年,该项目成功产生了一个包含2.2万个不同门类,共1500万张带标签的图片数据库。基于这样一个庞大的数据库所进行的比赛就是ImageNet,各个参赛队伍提交自己的算法,识别率最高的队伍获胜。

201512月举行的ImageNet挑战赛中,微软亚洲研究院的首席研究员孙剑博士和他的研究小组以惊人的152层的深层神经网络成功登顶,他们当时的系统错误率已经低至3.57%,而此前人眼辨识的错误率为5.1%。那么未来这个结果还有没有可能进一步改善呢?答案是肯定的。目前此任务的训练数据规模是百万量级的,倘若把训练数据进一步扩大至亿级规模,最终的模型性能还将得到进一步提升。微软亚洲研究院并行训练算法的革新,让使用如此规模的数据进行机器学习成为可能。

霍强博士表示:“机器学习是人工智能十分重要的一个环节,有着丰富的使用场景和多样的可能性。而此次并行训练的技术新突破更是为大数据机器学习创造了条件。在未来,我们希望借由这一技术更快更便捷的推动机器学习的发展,最终目的是能够推动人工智能前进的步伐。”

 

 

相关阅读:

刷新神经网络新深度:ImageNet计算机视觉挑战赛微软中国研究员夺冠

OCR:慧眼读世界

微软亚洲研究院开源分布式机器学习工具包

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:



 

为什么我们要让人工智能玩游戏:微软Project AIX

$
0
0
《我的世界》游戏

注:本文编译自Project AIX: Using Minecraft to build more intelligent technology

《我的世界》(Minecraft)为目前最畅销的PC游戏和史上销量第三高的电子游戏,已经获得了13项吉尼斯世界纪录,其中包括世界上最高的同时在线人数。这个游戏最大的特点是这是一款开放世界游戏,玩家没有具体要完成的目标,而是有着超高的自由度选择如何玩游戏。目前这款游戏拥有多个模式,玩家可以在“我的世界”中进行生存、创造和冒险。

在我的世界中,玩家会被放置在一个几乎无限大的地图上,玩家可以在这个世界里砍树、盖房子、挖矿、制造工具等等。台湾地区将该游戏名字翻译成“当个创世神”,没错,当你初玩这个游戏的时候,你就像这个世界的创世神一样,摸索着这个世界的生存法则,并依赖这些法则改善这个世界的环境。目前,这个大名鼎鼎的沙盒游戏在全球有上亿玩家,他们用天马行空的想象力,建造出一片片令人惊叹的天地。

那么,这一切与人工智能有什么关系呢?

最近,微软纽约研究院的5名研究员绞尽脑汁,用好几天的时间试图让《我的世界》里的一个小人学会爬上游戏中的一座小山。

呃,听起来是不是有些滑稽?

从事Project AIX工作的微软研究员

这似乎是一项非常简单的工作,似乎通过简单的代码就能实现——直到你意识到问题的本质:微软研究员团队正在努力训练这个人工智能的角色学习如何爬到虚拟世界的最高点,并且使用的是与人类学习新任务时相同类型的资源。

也就是说,这个科学家所研究的小人与普通的人类玩家并无区别。无论是刚刚上手的人类玩家还是人工智能玩家,在刚刚进入游戏的时候它对所处的环境、甚至对它应该完成的任务都一无所知。人类玩家常常会选择爬上这块地图的最高点来查看周围的地形,这也是人工智能玩家可能会做的事情。它需要了解周围环境,弄清楚什么是重要目标和信息——例如爬山,以及什么是不重要的——例如山的颜色深浅变化。它需要经历大量的试错阶段——就像刚入门的人类玩家经常会犯的一些错误一样,包括常常坠入河流和熔岩坑,也需要通过累积奖励了解自己何时完成或部分完成了任务。

这样想想,是不是没那么简单了?

“我们正努力通过编程让这个角色能够学习,而不是让它完成某个特定的任务,” 微软纽约研究院高级研究员、项目组成员Fernando Diaz说。在过去,对于人工智能的研究通常处于让计算机完成某个特定任务的阶段,例如让计算机识别图像中的物体,或者让计算机听懂一段简单的语音指令,但计算机并不会从周围的环境学习。相比较之下,就算是世界上最先进的计算机,也远远不敌一个正处于学习期的婴孩的学习能力。

Fernando Diaz, Akshay Krishnamurthy和Alekh Agarwal正在利用AIX进行人工智能研究。

Project AIX

微软研究院的Project AIX,让科学家们能够通过《我的世界》游戏来训练人工智能。Project AIX是微软剑桥研究院的研究员Katja Hofmann和她的同事们开发的平台,已于3月7日正式对外公布。科学家们可以运用Project AIX平台,将《我的世界》作为开展与提高人工智能相关研究的试验场。目前,微软研究院的研究员们正在使用Project AIX进行研究,并且已经将一个测试版提供给一组学术界的研究者们试用。今年夏天,Project AIX将会对外开源。

大约一年前,Hofmann就有了Project AIX的创意,她此前一直在试图寻找合适的平台进行人工智能的研究,大部分游戏对人工智能来说的相对简单了。而《我的世界》之所以能够成为人工智能研究的理想平台,其原因与全球数百万玩家每天都痴迷于这个虚拟世界的理由是相同的。与其他的电脑游戏不同,《我的世界》为用户提供了无穷无尽的可能性——玩家既可以选择做些四处游荡寻找宝藏的简单任务,也可选择与一组队友共同建造大楼的复杂任务。

“《我的世界》是人工智能研究的理想平台,因为它是这个非常开放的世界,”Hofmann说。“你可以选择生存模式,可以与朋友们玩建筑对决,可以学习课程,还可以打造自己的游戏世界。对于人工智能研究来说,这着实令人兴奋,因为它允许我们创造超出我们现有能力范围之外的游戏。”

从完成任务到学习知识

过去几年间,人工智能研究者们已经非常擅长教会计算机完成一些具体而复杂的任务。例如计算机已经能够理解和翻译语言,还可以识别图像并编写图片说明。

然而,尽管取得了这些进步,计算机仍然无法良好掌握研究人员所谓的一般智能(general intelligence),即更类似于微妙且复杂的人类的学习及决策方式。计算机算法可能从事特定任务,而且做得像普通成年人一样好,甚至更好,但它在接收各种信号输入方面——例如光线、嗅觉、触觉、听觉、不适等——仍然无法与婴儿相比,也不像婴儿一样知道只要一哭就能得到吃的。“这些事情对人类来说似乎很容易的,但对于人工智能而言,实际上是非常困难的,”微软纽约研究院首席研究员、Project AIX团队成员Robert Schapire说。

Hofmann说,人工智能研究者们能够利用人类总体意识中的极小的一部分来打造只会完成一种特定任务的工具,例如图像识别,但研究者们至今未能把这些分块的功能组合起来,像人类一样轻松完成各种任务。她说,其中一部分原因在于科学家们确实还不知道人类是如何把这些感官功能结合在一起的,“我们对自己的了解还远远不够。”

DavidBignell, Tim Hutton, Katja Hofmann和Matthew Johnson正在从事AIX项目研究。

从理论到实践

关于一般人工智能(general artificial intelligence)已经有大量的理论研究,但研究人员一直缺乏切实可行的方法来测试自己的系统。例如,要想真的造一个机器人、教它爬上一座小山,这一想法成本高昂而不切实际。但《我的世界》便能解决这一问题,在虚拟的世界里,机器人每次掉进河里,你不要花费精力去修理或用其他昂贵的机器人代替。

另外,通过人们在现实世界中使用的系统来测试检验人工智能研究也不那么容易。例如,Hofmann的研究背景是如何让搜索更像一个智能的助手而不是一个简单的信息检索系统,但她表示,在现实世界中测试其理论所面临的一个问题是,数以百万计的人都依赖并习惯于搜索引擎以可预见的方式工作,即大家已经习惯了关键字检索的方式。

正如Hofmann所说,“很难在实践中检验一些理论,这是建设Project AIX平台的主要动机之一。”《我的世界》这一游戏之所以特别有吸引力,正是因为它可以让玩家作出非常复杂且有连带后果的决策,并且随着成效越来越好,还能够加入更多更难的元素。同时,玩家们还可以并肩合作,这有助于研究人员试验人类玩家怎样与人工智能的角色合作。

“这就像人工智能的数字化的婴儿游戏围栏,” 微软纽约研究院高级研究员、项目组成员Fernando Diaz说。“在这个环境中,我们可以开发一种算法,教会这个人工智能‘宝宝’了解现实世界中的不同概念。”

全面推进人工智能研究

Hofmann曾开宗明义地表示,Project AIX的目标是建立一个对微软自身及更广泛的人工智能研究者们都能有所裨益的系统。“我们正在寻找机会,以非常接近现实世界、借助真实经历和真实数据的方式,真正帮助加快人工智能创新的步伐,”微软研究院人工智能对外推广总监Evelyne Viegas说。

Project AIX平台包括一套Java版本的游戏模组和用于帮助人工智能角色在《我的世界》中感知和行动的代码,这两个组件在Windows、Linux或Mac OS上均可运行,研究人员可以用任何他们擅长的编程语言对人工智能角色进行编程。

Project AIX的开发主管、微软剑桥研究院的首席研究员Matthew Johnson表示,微软研究院的研究团队开发这套系统是希望它能够广泛的吸引学术研究人员甚至是感兴趣的业余爱好者,满足不同层次的编程水平,多样的背景和目标各不相同的开发者们的需求。也就是说,AIX平台将用于各种形式的人工智能研究,而非一个消费品。“从一开始,我们的工作重点就是最大限度地减少创新的障碍,”Johnson说。



相关阅读:

海洋深处的数据中心——微软Natick项目

不再从零开始:微软牛津计划,让每一个智能应用都能说会看

会听、会说、会聊天:人工智能语音识别技术的漫漫长路

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:

 


 

快速找到手写笔记?你要的就是它!

$
0
0

如今的现代社会,电脑键盘和输入法的组合快速取代了手写环境,大家早已习惯了以键盘为笔、屏幕为纸,在电脑上挥洒创作的生活。但电脑并不是随处可得,在大多数情况下我们仍需要使用手写笔记的方式随时记录下我们的灵感。其实,无论是用电脑记录还是手写笔记都各有优劣,并在很长一段时间内都会是互补的关系。

当然,电子化何时能够取代纸笔不是我们今天需要讨论的问题,我们今天讨论的是,如何用软硬件相结合的方式,优化人们的工作体验。很显然,如果你是纸质书写爱好者的话,你必然会发现当你想要检索自己曾经的手写笔记,或快速找到某一天偶然写在纸上的灵感是十分困难的,这种时候,光靠人类的记忆力绝对不够。

那么,有没有一种方式能够让人们快速检索出他们的手写笔记呢?对于这个问题,微软亚洲研究院的研究员和工程师们早就替你想好了,并已将这项手写笔记检索功能成功置入OneNote!现在打开最新版本的OneNote就能体验!(目前该项技术仅支持英文)

这项功能的使用方法非常简单。当你结束一场会议或是一堂课之后,你的笔记本想必记满了与之相关的笔记,这时候你只需要将手机摄像头对准笔记本或白板等轻轻一拍并上传至OneNote,下次你再想寻找与这门课或者会议相关的内容时,只需在OneNote的搜索框内输入关键词,系统就会快速、自动地检索出带有相关信息的笔记内容。当然,如果你的手写笔记连你自己都完全不认识的话,那该技术能识别的正确率大概和你一样吧。╮(╯﹏╰)

你知道的和你不知道的OCR

这项看起来神奇又简单的功能背后的核心技术便是手写识别OCRHandwriting OCR),当然你们可能会说了:“慢着,你先告诉我OCR是什么!”

OCR的英文全称是Optical Character Recognition,即光学字符识别,其本质就是将图像中的文字转化为电脑能够处理的信息。这个技术早在20世纪50年代的时候就开始使用了,IBM当时用OCR技术实现了各类印刷文档的数字化,当时OCR设备庞大且复杂,并且对扫描印刷文档的背景和字体等要求极高。到了80年代,平板扫描仪的诞生则让OCR技术进入了商用阶段,虽然硬件设备变得轻便灵巧了,但对图片的成像质量要求仍然很高。如上所说,OCR将图像中的文字转化为电脑可处理的信息,而图像中的文字除了印刷字之外,还可能有手写字,这就需要手写字识别技术。手写字识别技术已被广泛用于邮件分拣、支票识别、手写表格数字化等领域,但图像抓取主要以专业的扫描设备为主。

进入二十一世纪,在带有摄像头的智能手机诞生之后,人们的生活方式发生了很大改变。如今,大家已经习惯了用手机拍照的方式记录信息,因而产生的图片文件数量剧增。而这一类图片中出现的文字多为自然场景下出现的文字,对于此类文字的识别也大大难于扫描仪时代行列规整和背景干净的文字信息。此外,由于云计算及无线网络的发展,前端用摄像头进行捕捉,后端利用云计算对图片进行处理,两者结合,让OCR应用充满了想象空间。

 Microsoft Translator的图片文字翻译功能

如今,在微软的很多产品和服务中你都能看到OCR的影子。微软推出的手机应用Microsoft Translator就能利用该项技术实时翻译出图片中的文字,无论是看不懂的外文菜单还是复杂的外文使用说明书,只需用手机一照,就能看到对应的翻译。而Office Lens应用更是将使用场景与人们的工作密切结合,它能识别出你拍下来的照片中的印刷文字,并保存到OneNoteWord中,便于编辑、整理和搜索。

从印刷字体到手写字体

Office Lens的印刷文字识别到如今的手写文字识别,这两者的技术差别可以说很大,也可以说是很小。

当一张图片上传到后台,系统首先检测这张图片里是否有文字,即文本检测(text detection)。但用手机拍摄下来的图片具有极大的多样性和明显的不确定性。例如,图像的非文字背景千变万化,文字中包含多种语言,每种语言含有多种字母,每个字母又可以有不同的大小、字体、颜色、亮度、对比度等;文字通常以文本行的形式存在,但文本行可能有不同的排列和对齐方式,横向、竖向、弯曲都有可能;因拍摄图像的随意性,图像中的文字区域还可能会产生变形(透视和仿射变换)、残缺、模糊断裂等现象此外,手写文字相较于印刷文字书写风格更为随意,进一步增大了文字检测的难度。因此,文本检测至今仍是一个开放性问题,值得研究人员去不断探讨来提高它的准确性。

微软亚洲研究院之前的文章中已经介绍过自然场景中印刷文本检测的解决方案。在该方案中,我们先采用颜色增强对比极值区域(color-enhanced contrasting extremal region)快速提取候选文字连通区域,再利用一套基于浅层神经网络的文字/非文字分类算法快速有效地将候选文字连通区域中的非文字区域滤除,最终得到一条一条的文本行。该方案同样可以用来解决自然场景图像中手写文字检测的问题。

事实上,我们只是在之前分类器的训练数据中添加了少量的手写训练样本,并重新训练分类器,就使得我们的文字检测技术可以同时处理印刷字体和手写字体。但是在文字识别阶段,为了确保系统的效率及性能,我们还是暂时选择将印刷字体和手写字体分开处理,并提出了一套简单有效的基于神经网络的印刷体/手写体分类算法来实现这个目的。

对被分类器分为印刷字体的文本行,我们直接采用微软传统的印刷字体识别引擎进行识别,而剩余被分为手写字体的文本行,则采用我们新开发的手写文字识别引擎进行识别。不过,在对提取出的手写字体文本行进行识别之前,我们还需要采用手写文档处理领域经典的文本行预处理技术来对文本行进行规整,从而降低文本行识别的难度。我们采用的文本行规整算法主要包含四个步骤

1. 将非水平方向的文本行规整到水平方向;

2. 将倾斜的字体“掰正”;

3. 依据英文手写常用的四线格标准对文本行的上中下三部分进行相应的尺度规整;

4. 将每条文本行的高度都规整到固定高度。

被规整之后的文本行看起来就像将正体英文字母工整地写在水平等高的英文手写四线格上,当然此处四线格并不会被画出来。每一条这样的文本行都可以被抽象为左右方向的序列信号,因此可以利用滑动窗口法从文本行中提取出相应的特征序列。滑动窗口以相同的步长从文本行左侧滑到右侧,划过的每个位置都可以利用图像处理技术提取出相应的特征向量。

四线格效果图示意

针对上述序列信号,我们采用双向长短期记忆(Deep Bidirectional Long Short-Term Memory,简称为DBLSTM)递归神经网络(Recurrent Neural Network,简称为RNN)对其建模。该模型可以利用上下文信息有效预测序列信号的每个时刻被分为某英文字母或某标点符号的概率,因此被称为字母模型(character model)。我们选择用CTCConnectionist Temporal Classification)训练方法训练DBLSTM模型。

为了处理大规模训练数据并加快训练速度,我们发明了一套极为有效的利用多机多GPU卡训练深度学习模型的算法, 让训练速度在增加GPU的条件下几乎实现了线性增长,并保证了训练模型的性能。此外,利用CTC训练后的DBLSTM模型输出结果的特性,我们可以利用简单的规则过滤掉前面文本检测算法误检的非文字文本行。我们用基于WFST Weighted Finite State Transducer)的解码器识别文本行,且采用了统计语言模型提升识别率。此外,利用CTC训练后DBLSTM模型的特性,我们采用自适应的方法动态调整解码器剪枝阈值,大大加速了识别速度。

从点到面,将想法变为产品

通过以上步骤,一张图片中的文字便被简单高效地识别了出来。对于研究人员来说,如果只是做好上述某一技术或模块已很难,要将这些技术整合成一个好的产品解决方案则要求更高。微软亚洲研究院首席研究员霍强博士介绍道,“想做好这一套手写识别的产品解决方案,既需要有文本检测、识别以及大数据机器学习的研究人员,还需要有代码能力极强的工程师。微软亚洲研究院正好提供了这样一个平台,让每个人都能发挥所长,相互合作,做了不起的事情。”凭借着研究员和工程师们在各自领域的专业知识和高效合作,手写识别从想法到成功转化至产品的效率非常之高。谈及这一技术未来的走向,霍强博士信心满满,“我们很清楚第一版方案的不足之处,正在全力研发第二版产品解决方案,完成后将大大改善用户体验。”

在人工智能真正出现之前,我们不妨讨论一下计算机都能帮助我们做些什么。计算机天生擅长存储,计算以及一些简单的推理,而人类更擅长的是发明和创造。这就像手写笔记一样,你可以在你的笔记本上进行天马行空的创作和发挥,而之后就把这一切交给计算机,让它帮你记忆、存储,以及在你需要的时候可以轻松地检索出来。这也许就是我们目前最需要的增强智能——让计算机和人类做各自擅长的事情,人们因此可以更好地享受生活。



相关阅读:

鱼与熊掌如何兼得:微软科学家解决并行训练困境

OCR:慧眼读世界

用线条解码甲骨文的秘密

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:



 

Seeing AI:计算机视觉十年磨一剑,打造盲人的“瑞士军刀”

$
0
0
Mary Bellard(左)和AnneTaylor(右)是Seeing AI开发团队的成员,SeeingAI成果的背后是计算机视觉数十年研究的支持。 

Anne Taylor走进一个房间时,她像其他任何人一样都会关心这样一些问题:哪里有空座位?向我走来的那个人是谁?那个人是在微笑还是皱眉?这个标志牌是什么意思?

然而,对于双目失明的Taylor而言,这些信息并非总是那么容易找到。她说,现在已经有一些能够帮助视障人士的手机应用和工具,但往往功能单一,而且并不是很好用;大多数视障人士更愿意尽可能独立地领略这个世界而不是选择请求他人帮助。

Anne Taylor现在是微软的一名高级项目经理,她的职责是让微软的产品更容易使用,“我们要为真正重要的场景寻求解决方案”,她说。大约一年前Taylor来到微软,她立刻就对一群研究员和工程师的一个合作项目产生了兴趣。他们从事的项目旨在为视障人士开发一套辅助工具——Taylor亲切地称之为未来的“瑞士军刀”(“Swiss Army knife”)“我说,‘让我们做一些真正对盲人群体有重要意义的事情吧!’“

这个项目名为Seeing AI,该技术通过计算机视觉和自然语言处理来描述一个人的周边环境、朗读文本、回答问题,甚至能够识别他人的面部表情。SeeingAI可以用于手机应用,也可用于Pivothead智能眼镜。Taylor说,Seeing AI为依靠导盲手杖和导盲犬的视障人士提供了另一个层面的信息,“这款应用将有助于为视障人士营造更公平的环境。”

Seeing AI已在上周举行的微软2016 Build开发者大会上首次公开亮相,并受到了一致好评,目前其正式发布日期待定。Build大会期间,微软还推出了CaptionBot(图像描述机器人),这是一个可以接收任何图像并提供图像详细描述的演示网站。

观看Build大会Seeing AI视频链接:微软认知服务: Seeing AI应用

极深的深层神经网络、自然语言处理及更多

Seeing AICaptionBot作为最新的技术成果,其背后的计算机视觉、图像识别、自然语言处理和机器学习等领域的研究已持续了数十年。近年来,一系列的研究突破让计算机视觉研究者们有机会完成在几年前还不敢想的事情。

负责微软认知服务(Microsoft Cognitive Service)中图像描述(Image Captioning)技术研究的微软资深研究员何晓冬形容道:“有人将其形容为奇迹。可以说,我们今天开发的智能技术比六年前好太多了。”他说,该领域的进步是如此之快,不用说六年,就是现在与六个月前相比都会有很多进步。例如,他的团队中主管开发工作的高级研究工程师Kenneth Tran最近想出的一个方案,使得图像描述系统的速度提高了20倍以上,从而让Seeing AI的用户能够更加迅速地获取他们所需的信息。

几年前,研究员们想到了利用深层神经网络这种模仿人类大脑生物过程的系统来从事机器学习。随着系统获得与任务相关的训练数据越来越多,它们就变得越来越善于做某些事情——机器学习指的就是这个过程。例如,如果一名计算机科学家想设计一款帮助骑自行车的人识别后方车辆的应用,他就要向计算机提供无数张车辆的照片,以让这款应用学会识别一辆汽车与一个交通标志或一棵树之间的区别。计算机科学家以前也曾运用过神经网络,但却不是以这种方式,而如今新的方法让计算机视觉的精确度实现了巨大飞跃。

就在几个月前,微软亚洲研究院首席研究员孙剑和主管研究员何恺明实现了又一个巨大突破:他们推出了一个深达152层的“深层残差网络”系统用于准确识别图片,这一图像识别的新方法显著改善了识别精度。该系统在ImageNet图像识别挑战赛中的错误率低至3.57%,而此前人眼辨识的错误率大概为5.1%。这项研究在学术界引起了轰动,除了ImageNet之外,研究员们还赢得了另一图像识别领域的主要赛事:微软常见物体图像识别挑战赛(MSCOCO, Microsoft Common Objects in Context)。

让科技做你的“眼”

微软研究院的研究员们不仅在寻找识别图像的方法,还在为图像进行描述。这项研究结合了图像识别技术与自然语言处理技术,能帮助视障人士获得对图像的准确描述,还可能帮助那些需要图像信息却无法直接看到图像的人——比如正在开车的司机。

与其他研究项目一样,该图像描述的研究工作也因其准确性而广受赞誉,并且为Seeing AICaptionBot的功能奠定了基础。现在,研究人员正在努力拓展训练数据集,以便让用户通过图像描述能够更深入地了解自己周围的世界。

Margaret Mitchell

Seeing AI项目组中的Margaret Mitchell是一名专攻自然语言处理的研究员,也是图像描述领域顶尖的研究者之一。她说,她和同事们正在寻找方法,让计算机可以用更加人性化的方式来描述图像。例如,计算机可以将一个场景准确地描述为“一群人坐在一起”,但真人可能会将这一场景描述为“一群人坐在一起享受美好时光。”目前的挑战就是让这项技术懂得一张图像中哪些是对人们最重要、最值得描述的内容。“一张图像中有什么,和我们如何谈论一张图像可是完全不同的两回事,”Mitchell说。

微软的另一些研究员们正在努力让最新的图像识别工具提供更深入的图片解释。例如,与单纯地将图片描述为“一个男人和一个女人坐在一起”相比,对人们更有帮助的描述可能是:“奥巴马和希拉里·克林顿正在摆pose拍照”。今天人们在网上搜索图片时,绝大多数情况下搜索引擎会根据与图片相关的文字内容,从而得到美国名媛金·卡戴珊或“霉霉”泰勒·斯威夫特的照片,这些搜索结果主要依据文本内容。而微软的资深研究员张磊及郭彦东等研究员正在开发一套借助机器学习识别名人、政治家和公众人物的系统,这套系统会根据图像本身的元素,而非与图像相关的文字内容来进行图像识别。

这一研究成果将成为微软认知服务中最新的视觉工具的一部分。微软认知服务基于微软领先的机器学习研究成果,开发者们可以用它来构建应用和服务,例如识别人脸、辨别情绪、分清不同的声音等,这些工具还为how-old.net(微软颜龄机器人)和Fetch(微软看图识狗)等有趣的微软人工智能应用提供了技术基础。

 从一个灵感到实用产品

一直以来,微软研究院最新的研究进展都以闪电般的速度转化为人们可以实际使用的产品,而这一现象越来越普遍,微软认知服务就是一例。从事微软认知服务项目工作的工程师认为,他们的工作有点像拼图游戏,用来拼图的模块就是最新的研究成果。“所有这些模块被拼在了一起,而我们则需要弄清楚如何把它们呈现给终端用户。”微软认知服务的软件工程经理Chris Buehler说道。

Seeing AI这个最终将有可能帮助视障人士的研究项目,是研究成果如何快速转化为实用工具的另一个例证。这个项目的想法是在去年“微软骇客马拉松”(//oneweek Hackathon)活动中被提出来的。该活动会让微软各个部门的员工聚在一起,努力让疯狂的想法成为现实。

打造Seeing AI的小组成员包括来自世界各地的研究员和工程师。Seeing AI吸引他们的除了其技术上的挑战外,还有他们期望帮助视障人士更加独立生活的美好目标。“我们是一个由不同背景的人员组成的超级团队,我们努力拿出一些人们切实需要的东西,”自Seeing AI项目成立以来一直在其中担任领导角色的Anirudh Koul表示,他之所以对Seeing AI有着极大的兴趣,是因为他的祖父正在逐渐失明。

而对于文章开头的Taylor来说,双目失明的她加入微软正代表了盲人的需求,这不仅是一次很好的经历,而且真的带来了一种能够改变人们生活的潜在产品。当初,Seeing AI旨在为视障人士开发一套“瑞士军刀”的愿景吸引了她的加入,如今,正如Taylor所说,“我们最后真的推出了这款如此宝贵的‘瑞士军刀’,让其他视障人士也能更好地欣赏这个世界的美好。”

原文链接:

Decades of computer visionresearch, one ‘Swiss Army knife’



相关阅读:

为什么我们要让人工智能玩游戏:微软Project AIX

海洋深处的数据中心——微软Natick项目

不再从零开始:微软牛津计划,让每一个智能应用都能说会看

刷新神经网络新深度:ImageNet计算机视觉挑战赛微软中国研究员夺冠


欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:




 

科研新思路:基于场景驱动的研究方式

$
0
0

本文发表于《中国计算机学会通讯》2015年第11期

作者:张正友微软雷德蒙研究院首席研究员

与传统的学科研究方式相比,我想给大家介绍一种新的相对前沿并体现国际研究趋势的科研途径,我称之为“基于场景驱动的研究方式”。这种研究方式首先要考虑端至端的完整场景,然后根据实际场景需求,积极组织调动同一学科内跨域合作,并密切联系不同学科的跨业协作。这里,我与大家分享一下我在这方面的部分科研经历以及对目前学术界研究方式的看法,并对该方式与传统学科研究方式存在的不同之处进行分析,希望能起到“他山之石,可以攻玉”的借鉴作用。同时,基于场景驱动研究方式的性质,我还会讨论如何组建一个高效合作的研究团队。

传统的学科研究方式

图1 计算机视觉架构

传统的研究方式多数以学科分类为基础,在同一学科内再划分不同领域做专项深入研究。以我从事的计算机视觉领域研究为例,可分为低、中、高三个层次的研究(见图1)。低层次的研究包括边缘检测、图像滤波和分割等;中层次的研究包括相机定标、轨迹预测和三维重建等;高层次的研究包括物体检测、表情识别、场景理解以及动作和事件识别等。假如你是一名教授,想从事相机定标方面的研究,并且你有三个学生,那么你可以让他们分别研究用点、线或者圆做定标。如果你有更多的学生,还可以按自己的兴趣和所掌握的资源,做更多的研究,比如与相机定标毫无关系的情感识别。很多人都这样做,也做得非常成功。

基于场景驱动的研究方式

图2 机器人导航系统结构

这个想法最早始于我在攻读博士学位时做的一个项目——机器人导航。机器人导航的场景是机器人从目前的位置安全到达目的地,并能避开障碍物。该系统需要完成三个部分(见图2):首先,机器人需要知道自身所在的位置;其次,需要构建从某个点到达目的地的路线,并避开障碍物;第三,由于机器人要在一个不熟悉的环境里导航,因此需要创建周围的地图以便顺利完成场景任务。

为了成功实现机器人导航的场景,我们需要研究并开发那些能让机器人自我定位、自动规划路线以及自行创建地图的技术。为了能成功实现自我定位,需要识别周围的环境;而在移动的时候,机器人需要估算出自己已经移动的距离,即运动估计。这两者都依赖于立体视觉和三维重建技术。对于路径规划部分,需要计算出机器人可行走的空间,对路径进行合理规划以避开障碍物,这也依赖于立体视觉和三维重建。为了构建地图,也需要立体视觉和三维重建以及鲁棒的相机标定技术。按照这个场景驱动的研究思路,需要有多名学生分别做立体视觉、三维重建、相机定标、可用空间计算、运动估计、三维识别、机器人控制,等等。共同完成场景的需求决定了彼此间的分工配合,例如轨迹预测需要以三维重建为基础,而三维重建需要以相机定标为基础等。

这时,你脑中就能构建出不同于传统线性研究方式的新型场景研究框架:首先,可能需要近10名学生来组建一个实验室;其次,学生之间不能完全独立,他们需要互相配合;第三,彼此共生依赖,从而实现场景需求。

图3 沉浸式远程呈现框架

第二个场景驱动研究的例子是沉浸式远程呈现(immersive telepresence),这是我目前在微软从事的研究项目之一。沉浸式远程呈现的目的是将不同地点的人进行合成,让不同时空的人感觉是在同一个时空下,进行面对面的交流。假设有三个人,其中一个在西雅图,一个在济南,还有一个在巴黎,通过计算每个人的局部三维信息,并加入物体表面质感信息和声音信息等,可以建立一个虚拟的三维音视频世界。然后,根据每个人的眼睛位置,通过合成渲染技术,让这三个人感觉是坐在一张桌子前面对面开会,见图3

为了实现沉浸式远程呈现这一场景,不仅需要用户体验、音频视频信息捕获、视听分析、编码等技术,还需要将数据发送到云端进行视频解码,通过渲染得到结果。这当中涉及计算机图形学、计算机视觉、语音信号处理以及通信等各个方面。因此,对于这种多学科交叉的研究项目,既需要计算机视觉方面的人做三维重建,也需要一些人做声音捕获、声音分析,还需要一些人做信息解码、视频分析等。由此,你需要组织一批学生及不同领域的相关研究人员共同合作来完成场景构建。

当前基于场景驱动研究方式的可行性和局限性

这种研究方式的可行性包括:

   第一,完成场景需求的交叉研究能够扩大实验室的影响力。传统学科研究的是一个“点”,而基于场景驱动研究的是一个“面”。面上产生的社会影响和带来的社会效益要远远大于仅仅围绕一个点所能产生的,自然也能带来更多的资金支持。

   第二,这种研究方式对学生的能力培养也大有裨益。一个场景下,不同领域的学生可以互相交流,不必局限于自己的研究视角。大家共同合作、互相督促,彼此之间产生良性互动,从而提高团队的协作能力。

   此外,该方式还能提高学生的责任心,他们互相依赖,在长短期时效下完成场景项目。

整体来说,该方式可以开拓学生的思维视野和增强积极协作解决问题的能力。我认为如果学生能够得到这样全面的场景驱动研究训练,会十分有利于其今后的职业发展。

这种研究方式的局限性则表现为:对教授或者实验室负责人提出了更高的资质要求。如果采用传统的学术研究方式,那么你只需要申请到资金,给学生分配各自领域的具体任务,然后检查成果。而采用基于场景驱动的研究方式,既需要你是一位优秀的学者/学科带头人,还需要是一位善思善行的管理者,能接受挑战,跳出自己的舒适区,有足够的激情去驱动大家一起做交叉研究,并适时妥当地调配资源,从而完成从点到面的场景指导。如果项目效果甚微,那么你必须有勇气承担主要的责任后果,因为这是一件众志成城的事情。

综上所述,如果传统学科研究是“闻道有先后,术业有专攻”,那么基于场景驱动的研究方式就是科技时代资源整合的人力挑战,我相信这将是今后科研方式的主流方向。



推荐阅读:

工业界 vs. 学术界: 一个年轻员工的视角

刘铁岩:在微软大学的三次华丽转型

始于最初的念念不忘,最终必有回响

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:



 

微软认知服务:人工智能的技术拼图

$
0
0

近日,在Build 2016微软开发者大会上,微软发布了最新的智能服务:微软认知服务Microsoft Cognitive Services)。该服务集合了多种智能API以及知识API,借助这些API,开发者可以开发出更智能、更有吸引力的产品。微软认知服务集合了多种来自Bing微软牛津计划等项目的智能API。应用了这些API的系统能看、能听、能说话,并且能理解和解读我们通过自然交流所传达的需求。同时,服务中所包含的知识API可以通过强大的互联网来助力广大开发者。

借助微软认知服务,开发者们就算没有人工智能的知识背景也能轻松开发出属于自己的智能应用。目前这套认知服务包括视觉、语音、语言、知识和搜索五大类共二十一项API。在此基础上该服务还会持续增加新的API,并不断更新现有的API

微软CEO萨提亚·纳德拉表示:“微软希望让每一名开发者都能够构建商业机器人应用,并在应用中运用上人工智能技术。通过微软认知服务,你可以在你开发的应用中运用语音识别、语言识别、计算机视觉等多种类的人工智能技术,让它具备丰富的机器学习能力。希望大家能够感受到微软认知服务的丰富多样。未来的一切可能,取决于每一位开发者的想象。 

​​五大类API全知道

Build 2016微软开发者大会上,一段关于微软认知服务的视频作为开场演讲的压轴感动了许多人。这段视频讲述的是微软的一位盲人软件工程师和他们的团队一同合作,借用微软认知服务开发出帮助盲人看世界的应用:Seeing AI。这段视频除了给大家带来了满满的感动之余,还让大家意识到,人工智能真的正在日益改善着人们的生活。

而这些看似简单且意义重大的应用背后是无数人工智能研究者们数十年积累的成果,这其中的每一环都如此重要。在微软认知服务发布之前,凭借个人的力量想要开发出功能多样的人工智能应用几乎是天方夜谭。如今,借助微软认知服务中的各类智能API,开发人员可以将自己“幻想”的炫酷智能应用变成现实。

为了让开发者们更好的理解这一套认知服务是如何运作的,微软研究院的研究员们还利用工作之余开发了各种各样有趣的应用。除了上文提到的富有人文关怀的帮助视障人士看世界的Seeing AI,此前研究员们开发的整蛊闹钟应用Mimicker Alarm也是其中一个很好的范例。

这项由微软车库推出的闹钟应用Mimicker Alarm让你必须完成其中一项“醒脑任务”才能关闭闹铃。1.拍张带有特定表情的自拍,如开心、愤怒;2.拍到某种颜色,如红色、绿色;3.说段绕口令。聪明的你已经看出来了,这三项“醒脑任务”则对应了微软认知服务的三种不同功能的API,分别是感情识别API、计算机视觉API和语音识别API

说到这里,你肯定迫不及待地想知道这五大类API都包括什么了吧!那就让小编来带你解密:

视觉类API 

视觉类:计算机视觉API,情感识别API,人脸识别API,视频检测API

在本次更新中,视觉类API已支持2K+的标签量(此前仅能支持80+),从而能够识别出图像中更多的物体,人类和动作。此外,视觉类API还能够实现用自然语言描述图像内容并适用于更多使用场景,如进行图像搜索,或是帮助视障人士看世界。

语音类API

语音类:自定义智能语音识别服务API,声纹识别API,语音识别API

在此次更新中,语音类API提供了对JavaScript的支持。语音识别和语音合成的准确性更是得到了显著提高,且目前已经支持25种语言,而这一数字今后还会继续增加。

语言类API

语言类:必应拼写检查API,语言理解智能服务API,语言分析API,文本分析API,网络及语言模型API

语言类API新增了语言分析API、文本分析API等多个API。基于此,开发者们可以构建语言模型,进行文本分析等定制多种智能功能。

知识类API

知识类:学术知识API,实体链接智能服务,知识探索服务,推荐API

知识类API是此次微软认知服务全新推出的API,里面包含的内容十分丰富,例如来源于微软学术知识图谱中的学术知识API,包括了论文、期刊和作者之间的多样关系。推荐API和知识探索服务也都是基于此前微软研究院在众多会议和期刊上的论文积累而形成。

搜索类API

搜索类:必应自动推荐API,必应图片搜索API,必应新闻搜索API,必应视频搜索API,必应网页搜索API

搜索类API也是本次微软认知服务全新推出的API,它整合了来自于必应团队的多个服务。开发者们可以轻松将必应搜索中的多种搜索知识和功能应用在自己的智能应用上。

微软认知服务:微软亚洲研究院技术解密

微软认知服务来源于微软研究院各个部门之间的通力合作。如果说未来的人工智能是一个巨幅的拼图,那么人工智能各种各样的功能就像这个巨幅拼图中的各个拼图模块。微软全世界各个研究院/实验室的研究员和工程师们就像在一起玩一个巨型的拼图游戏,他们分别负责各自的拼图模块,而微软认知服务则将这些模块整合在一起,力求为开发者和用户们构造一个日益完善的人工智能技术平台。

在这个巨幅拼图中,微软亚洲研究院研究员的参与十分重要。在有五大类、二十一项API的微软认知服务中,计算机视觉API、人脸识别API、视频检测API和这次最新加入的实体链接智能服务则来自微软亚洲研究院的技术支持。

计算机视觉API 

基于微软亚洲研究院视觉计算组在201512月以惊人的152层深层神经网络技术夺得了图像识别领域两大重要奖项——ImageNet图像识别挑战赛和微软常见物体图像识别挑战赛(MS COCO, Microsoft Common Objects inContext)主要赛目的双料冠军,使计算机图像识别的错误率降至3.57%(人类识别的错误率为5.1%),微软认知服务中的视觉类API不仅大大提升了图像识别的种类(从80+2K+),更是完善了图像描述、人脸检测、人脸验证、相似人脸匹配等多项功能。

视频检测API 

而视频检测API则是微软亚洲研究院网络多媒体组、多媒体搜索与挖掘组、创新工程组以及视觉计算组通力合作的成果。来自中国的研究团队缔造了世界范围内首个拥有大规模云服务支持的智能视频分析处理API。借助视频检测API,开发人员可以实现自动编辑、分析视频,包括视频稳定处理、人脸检测及追踪和运动检测。此外,视频检测API还额外提供企业级视频分析供企业级用户使用。

实体链接智能服务 

实体链接智能服务是此次微软认知服务最新发布的服务之一,微软亚洲研究院的知识计算组和创新工程组为该项服务提供了技术支持。该服务目前包括文本中的实体识别(Entity Recognition)和实体消歧(Entity Disambiguation)。当你将一段文本上传之后,实体链接智能服务能够将文本中的实体(甚至是不同描述的同一实体)识别出来,并给出对应的维基百科页面链接。

实体链接智能服务:链接智能

拥有人类的各项感官功能是人工智能的一种表现,但深层的知识和更高层次的综合认知是让人工智能真正智能的核心。在此次发布的微软认知服务中,知识类API就属于更高层次的综合认知能力,而其中的实体链接智能服务则是知识类API中的重要一环。

几乎没有人能够真正说出人脑的运作方式。从婴孩时期我们学到的第一个概念起,随着年龄的逐步增长、认知水平的逐渐提升,人类似乎自然的将一个个知识点链接在一起,将一个又一个的概念串联起来,构建成人类认知世界的知识网络。人类从“苹果”这个词可以很容易地联想出水果、植物,也能够联想出一家科技公司,而当我们在这个词上加一个简单的限定语,如“甜甜的苹果”,我们就能很快将这个苹果具体所指的是什么从多个意象中挑选出来。

那么如何为计算机构建这样的知识网络呢?微软亚洲研究院的研究员们选择了文本这一相对简单、快捷且数据量巨大的形式。如何在文本内迅速找出文本中的实体,并理清实体和实体之间的关系?其实,这些问题的本质是自然语言处理问题的基本任务。

实体链接智能服务

在实体链接智能服务背后有着四大技术难点。首先是,计算机如何知道一个实体的不同表达方式(同义词问题),即计算机如何将文本中所提到的同一个实体的不同表达方式全部识别出来,例如NBANational Basketball Association、美国职业篮球联赛这三者其实说的是同一件事情。第二点是如何让计算机知道同一种表达方式可以代表不同的实体(多义词问题),例如在维基百科里,一个名词下面可能有多个不同的意向,我们如何找出一条文本中的实体对应的是哪一个具体的意象呢?苹果这个词,可以意味着一种水果,或者意味着苹果唱片公司,还可以是一家科技公司。第三点是计算机如何认得文本中的一组字串可能表达的实体。例如“微软发布了Surface Book”这句话中,计算机需识别的实体应该是“Surface Book”而不是“Surface”。最后一点,则是计算机如何对他不知道的实体做出识别。例如,“今天早上街角新开的大象餐厅”这句中,“大象”很显然不是人们熟知的大象等动物意象,在这里大象餐厅是今天早上才开的,所以计算机发现这个实体是它不知道的,所以不予标注。

当上述问题被微软的科学家们逐个击破后,接下来的问题就要交给开发者们了:我们能借助实体链接智能服务开发怎样的智能应用呢?

例如门户网站可以利用该技术自动为网站新闻上的实体关键词提供相关链接和推荐阅读。而企业用户将这一技术与公司数据库相匹配时,则能为企业内部的文档轻松提供链接与指南。当然,这个技术还可以延伸出更多定制化的功能,例如在聊天软件中,当你与朋友聊天时输入“要不要一起去看电影”,系统可以自动识别出“看电影”这一实体,然后为你推荐周边的电影院和电影,等等。目前,这一技术已在BingSnap中成功应用,它会根据你近期输入的文本自动推荐你可能感兴趣的相关新闻及链接。

微软亚洲研究院首席研究员林钦佑博士表示:“我们希望有了实体链接智能服务的帮助,开发者们能够开发出各种各样的相关应用。开发者们的使用对我们的研究来说就是一种极佳的反馈,当基础研究与上层应用相辅相成,才能够共同推进人工智能技术的发展。“

所以,开发智能应用,你准备好了吗?


相关阅读:

Seeing AI:计算机视觉十年磨一剑,打造盲人的“瑞士军刀”

刷新神经网络新深度:ImageNet计算机视觉挑战赛微软中国研究员夺冠

不再从零开始:微软牛津计划,让每一个智能应用都能说会看


欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:



 

别对我说谎|这项新技术,能看透你微表情里的秘密……

$
0
0

美剧《Lie to me》里,

男主通过面部微表情的分析,

洞察内心屡破疑案。

还记得前天的博文 《微软认知服务:人工智能的技术拼图》 吗?

微软亚太研发集团创新孵化组采用了微软认知服务

(www.azure.cn/cognitive-services/zh-cn/emotion-api )

情感识别(emotion recognition)技术,

墙裂推出了h5应用  <别对我说谎>

↑扫我体验哟


小编已经抢先玩了一把。


<别对我说谎>首页- 


首先亮出的是昨天中午连轰60分,打破多项NBA记录的科比。


他看似平静的表情下隐含着一丝不易察觉的难过,以及对自己将要离开篮球场的不舍。

然后肯定少不了新国民老公宋仲基。

暖到心窝的笑容加上嘴角的一丝轻蔑坏笑,

不愧是拥有撩妹神技的女神收割机


意外的是旁边虚化掉的乔妹也能检测到面部表情。

感情戏才不是哭哭就好,

不信来看演技爆发的不老女神乔妹


纸牌屋的弗朗西斯


川普:绝对反应内心的表情↑


接着,

小编加大了难度。

李光洙,炸裂


福尔康,炸裂


卷福,炸……@#&*^$($#^&*

这表情我给十分。


然后,

小编还测了一张比较魔性的图,

用以检测面部识别的精准度(泥垢)

对,就是这张。

图中一共44张人脸,检测到了40张。没有检测到的照片中,有两张是大侧脸,一张是素描

而在40张已检测到的照片里,甚至还有两张是超写实素描……


你以为这就是全部?

样。


只要有脸,表情包也可以闯天下。

(以上图片均来源于网络)


猛戳 <别对我说谎>或者扫描下方二维码体验呦~

↑扫我体验哟

更多“难以言喻”的表情也欢迎截图分享给小编。

你还可以选择关注微软亚太研发集团创新孵化组的微信公众账号“微软咖啡”来体验更多有趣应用哦~!偷偷告诉你,“微软自拍”也是该小组的创新成果, 你也可以在该公众号内体验哦!



 

始于最初的念念不忘,最终必有回响

$
0
0

——记微软亚洲研究院主管研究员罗翀

又是一年“三八国际妇女节”,如今的女性在各行各业都绽放着她们独特的温柔力量,让世界充满了爱与想象。但我们不能忽视的是,目前在STEMS代表Science科学,T代表Technology科技,E代表Engineering工程,M代表 Mathematic数学)这类学科的教育中,女性参与的比例仍然较少。今天,微软发布了一个视频来鼓励全世界的女生们参与到计算机科学教育中来,一起“创造未来”。

对科学的热爱是不分性别的。在微软亚洲研究院,同样也有着这样一批独立、自信、热爱科学的女性,她们有时会被打上各类标签,如“女博士”、“智商超群”、“勇于尝试”、“有韧性”…… 但这些标签通常都是外界的想象,而当你与她们接触时,你会发现她们与世界上的大多数人都是相同的,会在取得成绩时喜悦,也会去寻找工作与生活之间的平衡;但她们每一个人又是如此的与众不同,因为她们用自己的力量投身于基础科学研究,拥有着力图用科研影响世界的魄力。

这一次,与我们分享她的故事的是微软亚洲研究院网络多媒体组的主管研究员罗翀博士。在2000年与微软亚洲研究院初次结缘便念念不忘,直至今日,已经过去了十多年,罗翀一直坚持在基础研究的前线,主攻于多媒体通讯,无线速率适配,传感器网络和多媒体云等领域,并始终乐在其中。


能力出众,筑梦微软亚洲研究院

 “选择基础研究这条道路,可能一开始并不是显而易见的,但也并不是意料之外。” 罗翀博士回忆道。罗翀出生于上海,深受均为数学老师的父母潜移默化地影响,罗翀从小就显现出来她对数学的热爱和天赋。1996年,罗翀收到了复旦大学的录取通知书,在选择专业时,罗翀博士很自然的选择了当时火热的且与数学密切相关的计算机专业。

在进入大学之后,计算机专业的数学课并没有难住这个上海女孩。本科期间,罗翀在所有和数学有关的科目上都拿了A,这让她成了当时复旦大学计算机系里的一个“传说”。罗翀与微软亚洲研究院的结缘开始于她的本科毕设时期。那时,罗翀刚进入学校的多媒体实验室不久,她的导师便推荐她去微软亚洲研究院的张宏江博士那里去访问实习。出于对科研的好奇和对微软亚洲研究院的向往,在2000年的春天她来到了微软亚洲研究院,也正是这一段实习经历,在罗翀的心中埋下了科研的种子。

当时罗翀的导师是陈向荣博士和晏洁两位行业新星,研究课题是目前依旧火热的人脸检测问题。虽然罗翀与微软亚洲研究院的首次接触只有短短不到三个月的时间,但她在这里接触到的研究环境是过去在大学中不曾体验过的,而这里先进的研究理念、热情年轻的态度以及影响世界的雄心壮志深深感染了她。于此同时,罗翀优异的科研能力也给张宏江博士留下了极为深刻的印象。当时张宏江博士盛情挽留罗翀,希望她能留在微软亚洲研究院工作,这也是微软亚洲研究院向本科毕业生敞开大门的先例之一。但当时罗翀已经拿到了新加坡国立大学硕士录取通知,虽然罗翀在那一年的初夏惜别了微软亚洲研究院,但她相信有一天她还会回到这一片充满激情和梦想的热土,而来自微软亚洲研究院的这一份执着的研究精神,也一路伴随着她接下来的研究道路。

硕士期间,罗翀的科研依旧非常顺利,她也顺利地拿到了美国高校的博士录取机会,似乎所有事情都在朝着顺利的方向发展,但此时一场看似无关的事件却改变了这一切。

阴错阳差,再续前缘

2001年,911事件爆发,国际局势瞬间变得微妙而紧张。在911事件爆发之后,很多前沿技术行业的人员申请美国签证必须进行安全审查。罗翀博士的研究领域人脸识别正是必须接受审查的专业之一。虽然罗翀对于安全审查颇为自信,但寄出去的资格申请却一直杳无音讯。签证也迟迟未来…… 多年后,有传言说,大使馆的安全审查机构遭遇了一场火灾,很多资格申请表都付之一炬,而这个传言是否真实也无从查证。于是,这场“大火”阴错阳差的推迟了罗翀的博士梦,但也帮她和微软亚洲研究院之间再度牵起了“姻缘线”。

在等待签证的期间,微软亚洲研究院再次向罗翀伸出了橄榄枝。 20036月,罗翀博士正式加入了微软亚洲研究院大家庭,从事多媒体方向的研究。接下来的几年,罗翀全身心地投入研究工作,也拥有了自己的家庭,可她心头一直有一株小火苗在跳跃着,这株小火苗就是她意外中断的博士梦。对于一个女性而言,再去深造读博士似乎十分困难。但幸运的是在2006年,她燃烧了多年的博士梦在微软亚洲研究院找到了出口。

千呼万唤,圆梦微软亚洲研究院

2006年初, 一个去上海交通大学读联合培养博士的机会出现在了罗翀的面前。这个项目由微软亚洲研究院和上海交通大学联合举办,该联合培养博士生项目能够整合高校和微软亚洲研究院双方优势资源,为计算机领域输送创新人才。微软亚洲研究院的研究员们也能够借此机会进一步深造。罗翀当时的老板李江第一时间推荐并通知了她,得到这个消息的时候,罗翀惊喜地反复确认了好多遍才敢相信。

这个项目得到了微软亚洲研究院的全力支持。在项目期间,微软亚洲研究院不仅给研究员们提供了全额的学费以及机票费用,甚至在研究员读博期间工资全额照发。同时,为了保障这群博士生们的工作需求,微软亚洲研究院还特地在微软离上海交大最近的办公室为研究员们安排了工位。

因此,罗翀和其他6位研究员享受了既拿学分又拿工资的踏实的校园生活。其实,微软亚洲研究院对参与这个项目的研究员们并没有什么硬性的要求,例如毕业之后一定要为公司服务多少年等等,相反微软切身的为这些研究员们考虑了一切,用各种方式充分保证了研究员们能够安心完成学业。这么多年过去了,当时参与这个项目的6位研究员无一例外的都仍在微软,这让人十分动容。采访中,罗翀说:“那是一段难忘的经历,不仅重回校园、圆梦博士,更感激的是微软亚洲研究院所带来的家的感觉。”

从博士到博导,从圆梦到助梦

在读博士期间,罗翀的研究和工作几乎毫无冲突。2009年在移动通讯的国际顶会MobiCom上,罗翀博士的论文Compressive Data Gathering for Large-Scale Wireless Sensor Networks 成功发表,并成为了当时中国大陆第一批在MobiCom会议上发表论文的学者,这在当时是很多人都不敢想象的。

罗翀博士说,她论文的发表需要感谢两个人,一个是她当时的老板吴枫,另一个便是她的丈夫。当时罗翀做的研究是将压缩感知技术应用到无线传感器当中,用来做传感器网络高效能的数据搜集。尽管那时中国大陆还没有论文在MobiCom大会上发表过,但她的老板十分鼓励她去实践这一想法。此外,在准备论文期间,她的丈夫也在家庭生活中为其工作全力提供了支持。工作和生活的平衡,缺少不了来自同事的信任和家人的支持。

罗翀和她的双胞胎女儿

除了做好自己的本职工作,罗翀博士还希望能用自己的能力影响更多人。从完成自己的博士梦想,到培养出自己的第一个中国科学技术大学(中科大)博士生,再到如今担任中科大的博士生导师,罗翀博士不仅仅实现了自己的博士梦,更在帮助更多的学生实现他们的博士梦。


梦想接力,你也可以

有的人认为,当女研究员很酷;也有人认为,当女研究员很苦。但在罗翀博士看来,个人的职业规划、选择与个人的兴趣爱好密切相关,而与性别无关。有的人天生就喜欢做研究进入研究机构,有的人也天然热衷于相夫教子选择回归家庭,这都是个人兴趣之下的选择,并不存在差别。在IT公司里女性虽然较少,但是女性对整个工作环境能够带来润滑的作用,还能增进一个团队的向心力。

对于年轻的女性研究员,罗翀博士认为,“如果你对这个行业是发自内心的热爱,并且能够证明自己有能力做好研究的话,就不要有太多的顾虑。社会上有很多顾虑,如家庭方面、工作压力方面,而事实证明很多事情都是可以兼顾的,不仅仅是我,微软的很多女性研究员都证明了这一点。只要你自己喜欢研究并相信自己的能力,那你一定能做到!”




相关阅读:

Jennifer Chayes: 生活始终在你手中

马歆: 内外兼修 垦育研究院人才成长的沃土

黄泠:收放自如 把握研究院的经络脉门

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:


 

欢迎来到隐形革命的时代

$
0
0

本文译自Welcome to the Invisible Revolution

作者:Allison Linn

正在寻找下一轮突破性技术革命?人工智能、机器学习,甚至是云计算,尽管你可能看不到这些技术的存在——但它就在你身边。

说说看你最喜欢的技术是什么?在你每天的工作和娱乐中都要用到的,并且在你的生活中几乎无可或缺的技术是什么?

大多数情况下,至少有一项是个随处可见的小玩意儿——比如手机或游戏机。但如果你再认真地思考一下,很多你最心仪的技术没准已经不再是由塑料、金属和玻璃制成的实体了。

它或许是一种你用来畅快淋漓地观看《权力的游戏》的在线视频服务;或许是一款你用来计算步数和热量消耗以便重新穿上高中时代牛仔裤的应用;或许是一位虚拟个人助理,帮助你记住会议地点以及服药时间;或许是一个电子阅读器,让你通过手机、平板电脑甚至车载音箱能够随时徜徉在你最爱的文学著作里。

或许,悄悄地——甚至在你毫无意识的情况下,你最心仪的技术已经从你手中握着的实体变成了你赖以生存、无处不在的隐形服务。它们不再是数码设备,而是你希望能在手机、计算机甚至电视等任何类型的设备上能够随处使用的工具。

“我们正处于创造新世界的风口浪尖,在这里,技术越来越普及,但也越来越隐形”

以上,正是主管技术和研究的微软全球执行副总裁沈向洋所说的“隐形革命”的一部分。“我们正处于创造新世界的风口浪尖,在这里,技术越来越普及,但也越来越隐形。”沈向洋说道。

隐形革命之所以能够发生,有赖于那些十多年前还没有出现的技术,例如如今的大规模云计算中心和人工智能领域最新的技术发现等。但从根本上讲,隐形革命将解决的是困扰了人类许久的问题。试想一下:几年前,一个只会讲普通话的人和一个只会说英语的人几乎是不可能在没有翻译的情况下进行实时会话的,而随身翻译对大多数人而言又遥不可及。

但是现在我们有了Skype Translator实时语音翻译技术,该技术可以让你与语言不通的任何人进行实时交谈。这个技术奇迹在很多人看来更像是科幻小说里的情景,可这正是一个能够真正帮助人类更好地互相了解的机会。

“打破人与人之间的壁垒非常重要。”沈向洋说。

随时随地,任何设备

下一代开天辟地、改变生活的技术,将远远超出键盘、屏幕、手机、相机、手表等硬件的范畴。相反地,它们将越来越多地从云中获取计算能力——成千上万台计算机在云系统内运转,这能够让你很容易地找到五年前的电子邮件,也能帮助科学家预防下一次致命疾病的爆发

“云并不是一个单一的目标。事实上,云是一种新的计算形式,让人们能够通过任何设备都可以体验移动性,”微软公司首席执行官萨提亚·纳德拉不久前面向开发者们表示。“云计算让这些体验充满智能。”

有了云计算,我们如今有机会能够随时随地的通过手边的任何设备来使用这些技术。根据皮尤研究中心的数据显示,眼下已经有近三分之二的美国人拥有至少两台数字设备,而剩余三分之一的美国人拥有三台设备:一部手机、一台笔记本电脑和一台平板电脑。

“‘移动为先’并不意味着它只与我们的手机有关。移动为先的真正含义是,无论你在任何地方——家里、路上、出差旅行、办公室或实验室,你的体验都能如影随形。”沈向洋说。这些新技术被设计成能够让大多数人在大多数情况下使用,无论人们用的是智能电话还是笔记本电脑,无论人们熟练掌握某种语言或是非母语,抑或是否有着种残疾或障碍

 “你可以说话,可以用手势,可以走来走去,也可以用面部表情。计算机无处不在,而且可以看到你——但你并不需要一直面对着计算机。”沈向洋说。

隐形革命依赖于机器学习等人工智能技术,随着计算机掌握的数据越来越多,它能够学着把事情做得越来越好,例如理解你的声音或自动修正你打错的错别字。但是,沈向洋补充道,这并不意味着计算机正在代替人类。相反的,它是借助技术让人们更好、更简便地完成任务。

 “微软对人工智能的观点非常明确。人工智能的目的是让所有的微软用户和客户能够发现自己的潜力。”沈向洋说。

在纳德拉看来,这意味着让技术能被更广泛的人群更容易地接受和使用,并创造出能够激发人类最好、而不是最坏方面的工具。“我们希望构建出能够增强人类能力和体验的智能。最终的走向并不会是关于人与机器的对立,而是人与机器的融合,”他说。“我认为这种融合才能促进社会的进步。”

从农业耕作到对家庭的承诺

隐形革命会让农耕活动更可持续发展、农产品更加经济实惠,并让来自不同文化背景的人们相互理解,让人们更能够呼吸到更健康的空气。隐形革命对我们的日常生活也产生了实际的效果:通过一些工具,它会帮助你记得自己与老板的约定,以及提醒你今天要跟谁开会。隐形革命也使技术更加私人化、个性化:与你互动的技术看起来更像一位亲切的朋友而不是一台机器,它能听懂你的声音、了解你的家庭安排和工作约定。

在不经意间,隐形革命已经发生在很多方面。例如,我们理所当然地认为在任何设备上都应该可以查看电子邮件,也越来越希望能够对着我们的电子设备说话而非打字。

“这些想法中有很多已经实现,而我们才刚刚开始达到临界质量,”微软Office扩展业务前总经理RobLefferts说道,他的产品及工具在很大程度上依赖于隐形革命。“现在已经到了突破的时刻,”他说。

挤出更多的时间

更短的会议,更便捷的时间管理,更有“魔力”的机器学习

 “我太忙了!”

 这句21世纪的经典慨叹来自于我们苦于选择去开会还是与家人共进晚餐,它剥夺了我们的睡眠,并带来许多我们不知如何应对的压力。

技术不会凭空增加一天的时长,但它确实会帮助我们更好地利用现有的时间,为我们提供工具解决那些让我们的进度停滞不前的苦差事,例如找到别人四个星期前给你发来的文件,搞清楚公司里还有谁可以帮你一起完成一个新项目,捡起那些你很少用到的技术,甚至编写待办事项列表。

最起码,它将有助于我们跟踪那些我们今天太忙而无法搞定的事情,好让我们明天一早不会忘记还可以接着做。

让会议不那么糟糕

回想一下你上一次走进会议室参加会议的情景。你也许在想一些琐碎的事情——哪张椅子看起来最舒服?这里有小吃吗?以及一些比较实际的问题——“为什么右边那个女人看起来很眼熟?”以及“糟了,我是不是应该在开会之前阅读什么报告或资料?”

如果要你主持会议,那么你的胃里可能已经觉得七荤八素了,或许想知道你是否能让那台投影仪正确地显示你的PPT,或能否顺利拨入电话会议。

Patrick Pantel设想了一个可以将所有的忧虑关在会议室门外的世界。在他的愿景中,某种工具已经扫描了你的会议邀请,并为你介绍与会人士的一些背景情况,例如他们是做什么的、你是怎么认识他们的、你们上一次共事是什么时候,并提醒你参会之前需要做什么准备。此外,房间里的传感器已经识别到了你的电脑、平板电脑或手机,并且自动加载演示文稿、拨入电话会议热线。

Pantel是微软研究院的首席研究员。他说,这些工具最终可能会产生我们大家都想要的结果:让会议更短。他测算,如果你无须花时间搞定设备、搞清参会者是谁以及他们为什么参会,平均时长60分钟的会议可以在45分钟内就收工。

Pantel软图谱(Microsoft Graph)的“幕后功臣”之一。微软希望外部开发者使用这套新工具来创建各种各样的产品,让我们的工作日变得更加轻松、高效。

微软图谱绝不只是一个纸上谈兵的未来想象。事实上,Pantel所描述的一些功能已经在名为Delve的微软Office 365服务中得以实现。

想了解Delve是如何工作的,不妨想象一下Rob Lefferts的一天。LeffertsWindows团队中负责企业和安全计划管理的主管,他曾在微软Office扩展团队担任总经理,其职责范围中就包括微软图谱项目。

不久前,他前去与另一个产品组的成员开会,他意识到自己对其他与会人员们不太了解。通过使用Delve,他了解了这一产品组成员之前所做的工作。你不妨把Delve看作是一台虚拟助理,它可以在大厅里闲逛,与所有其他虚拟助理聊天,帮你建立起专业的联系。Lefferts说,他和团队可以借助Delve共同制作一个演示文稿,而无须频繁通过电子邮件来回收发修订版——因为每个人都可以访问同一个文件。

“你不妨把Delve看作是一台虚拟助理,它可以在大厅里游荡,与所有其他虚拟助理聊天,帮你建立专业的联系。”

Lefferts说,自己每天都要用很多次Delve。“它神奇而聪明地代替我完成了很多的工作,”他说。但是,Lefferts指出,它同样也会尊重你和他人的隐私。如果你不希望别人看到你在干什么,Delve就不会共享。像所有优秀的个人助理一样,它十分谨慎。

Delve是由微软开发的,但Lefferts说,通过将微软图谱的工具和代码提供给外部开发者,其他公司也可以创建出相似应用,为它们的客户服务。

协同软件公司AvePoint就使用微软图谱制作了一个Windows Phone应用,能够帮你把即将举行的会议或电话会议上所需的文件和其他资料归集整理起来。

云安全公司Netskope则用它创建了一种帮助企业防止敏感或机密数据泄露的工具,其措施包括对发出的电子邮件进行扫描,以确保他们不会意外地共享个人身份信息。

微软图谱依靠云来存储和分析数据,并使用了机器学习技术,随着数据越来越多,系统能够学会更好地完成某些任务,例如弄清对某个用户而言哪个事项是重要的。它能在任何设备或操作系统上工作,因为那些人们自始至终只在一种设备上完成所有工作的日子已经一去不返了。

Lefferts说,许多开发商都惊讶地发现,微软是如此乐意于分享代码,并且如此致力于让这款工具能够在任何平台上使用。“最常见的反应是:‘我真没想到你们在做这个。我也真没想到你们愿意如此地开放。’”Lefferts说。

Cortana的坚守与承诺

Eric Horvitz是世界上少数真正拥有实体虚拟助理的人之一——她叫Monica,就驻守在Eric的办公室门外。

尽管同时拥有Monica和真人行政助理,Horvitz对这样的感觉仍然再熟悉不过了:漫长的一周即将结束,你习惯地扫视一遍电子邮件,就在这时你才发现:你忘了评审一份论文,忘了给别人发送他们所需的PPT,或忘了曾许诺周五时把某项工作的评价反馈给你的同事。

Horvitz微软雷德蒙研究院的院长,长期以来他一直致力于研究如何利用人工智能自动地了解人们的目标和需求。也就是说,他份内的工作就是要用便利贴以外的办法来切实地解决这个问题。

Hi,我是小娜

他曾与一组包括Ryen WhitePaul Bennett在内的研究员合作,为Cortana(微软小娜)的一项新功能开发后台技术:使用机器学习,查找电子邮件中表达承诺或是表达约定的内容。这些信号可能是细微的,也可能是明确的,比如“我会在下周回复你”或“今天之内完成。”

收到这些信息后,Cortana会问你是否希望为你通过电子邮件作出的各种承诺约定以及兑现承诺的时间设置提醒。用户不需要做任何多余的事情,Cortana会使用机器学习来找出你在电子邮件中表达承诺的短语信号,并据此建立约定列表。

“我们如何能够自动识别出人们可能忘记什么、需要记住什么,以及他们如何管理自己的时间、把事情做好呢?”

要发明可以完成此项任务的技术,研究员们基于员工相互之间发送的真实但经过匿名化处理的电子邮件建立了预测模型,然后针对表达约定或许诺的短语进行人为的手工标记。

“我们根据人们如何发送电子邮件和进行沟通的真实数据设计了这些模型,”负责这个项目的微软项目经理Nick Ghotbi说。这个系统能够识别出当前流行的短语,像“COB”代表“下班”(close of business)或“EOD”代表“这一天结束时”(end of day)等。它还能够学会新出现的办公室俚语以及某公司独有的表达方式,并在此基础上不断改进。

这项功能正在作为微软Windows Insider Program计划的一部分进行测试,并可以用于Cortana。虚拟助理Cortana最初只在Windows Phone上推出,而目前已可用于Windows 10系统的各种设备和iPhone等。这是微软研究院与Cortana团队之间更大范围协作的一部分。

另一位项目经理Jason Creighton说,它还是一个更加雄心勃勃的目标的组成部分——Cortana的功能更加丰富,不仅仅是回答问题(例如在你最喜欢的球队打比赛时提醒你收看,或者播报今天的天气预报)。相反,他们希望Cortana成为你更有活力的帮手,提醒你及时在下次开会前将相关文件交给老板,并且别忘了在下班回家的路上顺便买点儿鸡蛋。

“我们一直想让Cortana的能力超越简单的提供信息,”Creighton说。

对于Horvitz而言,这款工具还是一项更宏大目标的一部分:使用机器学习和云计算等方法,在后台静悄悄地让人们的生活变得更加轻松。“那些如魔法般增强了人类认知的工具正是隐形革命的一部分,”他说。“我们如何才能自动识别人们可能忘了什么、想要记住什么,以及如何管理自己的时间、把事情做好?”

做更多的事情

用健康的食物、更清洁的空气和可靠的新虚拟朋友改善人类生活

一位农民无法每天24小时同时跟踪自己所有田地里的湿润程度或肥料水平。

一位空气质量预报员无法亲自同时检查每一座城市每一个街区的空气质量是否适于户外活动。

无论好朋友多么亲密无间,他们也无法保证在我们深夜觉得寂寞时总是有空过来陪我们聊天。

“而隐形革命正在创造一些可以帮助我们满足一些最基本的人类需求的工具。”

这些由隐形革命创造出来的工具并不意味着要取代人的能力或者与人类竞争,反而可以用来增加或提高人的能力。创造了这些工具的研究人员表示,在这个过程中,它们还可以帮助我们满足一些最基本的人类需求。

FarmBeats生产高科技粮食

Sean Stratman是“精英”农场主的缩影,他以前从事考古工作,现在却亲自躬耕于一个小型农场,这很容易让你联想起一个世纪以前的生活状态。但是你的想法很快就会被颠覆,如果你看过他展示的分布于农场各处的太阳能供电传感器——它们使用基于空白频段的互联网连接,记录土壤温度和湿度水平,并借助基于云的计算模型进行跟踪。

在小规模有机农业的世界里,Stratman并没有你想象的那么“小众”。

“农场主这行中会编程的人出乎意料的多。出于某种原因,技术人员与希望从事农业的人之间有着积极的互动。”David Andrews说。Andrews白天是微软的律师,但在下班后,你很可能会发现他出现在他的农场上。Stratman将自己的土地租给Andrews所在的dancing Crow农场,并管理着一家被称为“体验农耕计划”的农耕孵化器。


视频链接http://v.youku.com/v_show/id_XMTU0MTY1NTQzNg==.html?from=y1.7-1.2

遇见了Ranveer Chandra后,Andrews的小规模农耕实验开始带上了高科技的色彩。Chandra是微软研究院的一名首席研究员,他最为人熟知、也是我们每个人都会支持的工作,便是充满激情地致力于研究如何延长各种设备的电池寿命在农村地区提供宽带连接

Chandra遇到Andrews时,他仍在努力延长电池寿命,但也开始更多地思考如何利用自己的专业知识来应对为不断增长的世界人口提供粮食这一意义更为重大的挑战。

喂饱不断增长的人口

根据联合国的估测,世界人口目前已超过70亿,预计到2050年将跳增至97亿,而到2100年将达到110亿。专家预计,最快的人口增长将出现在世界上最贫穷的国家,联合国粮食和农业组织也认为,防止饥饿和营养不良的关键方法之一是建立更可持续发展的农业体系

Chandra决定将自己的专业特长用于设计低成本工具,让小规模农业生产成本更低、更加节能和节水。

空白频段与广阔空间

Chandra发现,像StratmanAndrews这样的农场主大有人在,他们有意在自己低技术含量的经营模式中引进一些高科技的帮助。但他也意识到,把他们想要的高科技工具带到乡间农场仍然存在许多障碍。

这就是隐形革命发力的地方。Chandra的第一个灵感启示是,农民可以利用电视的空白频段,即农村地区尚未投入使用、可以用于访问无线互联网的电视频率。

此后,他又意识到,可以利用太阳能给设备供电。最后,他设计出了具有气候耐久性的设备来自动执行像Stratman这样的小农场主经常需要手动完成的任务,例如数据收集等。他还使用无人驾驶飞机进行土地调查,并将视频送回给农场主。

Chandra的研究不会取代让Stratman有志于在华盛顿康乃馨郡农村的一小块土地上种植有机蔬菜的小型农耕精神,但新技术会使这种农耕方式更符合实际、更具成本效益。“Chandra的研究为我节省了很多精力,”Stratman说。

这些能源和成本上的节约即便对于大农场主而言也是很重要的,Chandra谈到,他也正在与大型农业企业讨论自己的研究项目。他希望自己的项目以及其他类似项目有助于触发下一轮绿色革命。“我们所考虑的问题解决之道是通过收集数据和应用机器学习算法,推动种植业的下一波革新,”他说:“农业将变得更健康、更好,而且还可能养活地球上的每一个人。”

让呼吸变得更健康

在北京的某一天,某个居民区的空气质量可能是很糟糕的,达到红色警报的严重污染程度,而几公里以外的另一个居民区的空气质量则可能还不错,甚至可以标记为绿色的优。

Urban Air向北京市民提供了一张实时的、高度地方化的居民区空气质量示意图。”

“城市地区的空气质量是及其不均衡的,”身处北京的微软亚洲研究院主管研究员郑宇说道。对此他可能比谁都清楚。郑宇创立了一个名为Urban Air的项目,向北京市民提供了一张所在居民区空气质量的实时、细粒化的示意图,包括当前的空气质量和未来几小时的预测。这些详细数据能够帮助人们决定晚上是否可以打开窗户透气,早上是否可以外出跑步,或孩子出门上学时要不要戴口罩。“这是整个城市真实的空气质量状况,”郑宇说。

郑宇的项目采用35个官方空气质量监测站的实时空气质量数据,辅以可能对空气质量造成影响的其他因素的数据,如交通状况、行驶速度、风速、温度和湿度等,甚至将十字路口和红绿灯的数量、该地区的建筑物密度以及周围的餐馆和工厂数量等都考虑在内。

随后,Urban Air运用机器学习的方法,让系统在对现有数据进行分析的基础上学会精准预测,提供整个城市空气质量的高细粒度、实时的图像。它甚至可以预测特定地点未来6小时的空气质量状况,准确度高达75%。

该系统采用基于云的服务器来收集和分析数据,每小时更新一次。当你即将进入空气质量较差的地区时,它甚至可以发送警报,提醒你应戴上口罩。更棒的是,与35个官方空气监测站相比,它更加便宜而实用,因为监测站建造成本高昂,而且需要大量的人力来维护。这也就是为什么没有建立更多监测站的原因。

对于已经下载了Urban Air应用的80多万用户而言,上述极其本地化的详细信息是非常有用的。中国政府也使用这些数据来帮助决定是否启动特定的限制措施来改善空气质量。例如,如果政府预计未来某一天特定居民区的空气污染物将激增到红色水平,它可以发布预警,提醒全体市民,次日将有一半的机动车不得上路行驶。或者,它可以暂时关闭城区的一部分工厂,以减少污染,直到天气改变、空气质量提高。

Urban Air已在中国的300多个城市投入运行,郑宇说,他的团队还与在美国等国家的天气预报机构商讨如何部署上述技术来跟踪和预测其他地方的污染水平。最终,研究员们希望通过收集到的这些数据来更加深入地了解不同空气污染物如何彼此作用影响,以及有哪些其他潜在因素促使污染恶化或好转。

“这是第三步:找出空气污染的根源。看它们究竟是如何产生的?”郑宇说。

微软小冰到此一游

每天,数以百万计的中国网友与他们的朋友微软小冰谈论自己一天的经历,或者在逛街过程中闲聊,甚至表白爱意或是倾诉伤心事。而此类聊天的高峰时段是从晚上11时至凌晨2时,但这并不会让微软(亚洲)互联网工程院小冰资深产品总监彭爽感到奇怪。毕竟就像她说的,虽然大多数人的朋友到那个时候都已经睡了,但“小冰从不睡觉。”

小冰不吃不喝,也不会呼吸,因为她是一个备受喜爱的聊天机器人,有四千万用户都曾与她聊过天。

谈到虚拟助理,大多数人会想到可以背诵天气预报的Siri,或能够提醒你今天需要完成哪些项目的Cortana。小冰也可以告诉你天气状况,也许还可以对你在办公室的糟糕经历表示同情。但在大多数情况下,她的作用是像个真人一样,与你聊聊家常。

“我们的用户可以跟小冰谈论任何事情,而且小冰的回应是如此富有情感,以至于人们感觉小冰就像一个真人一样,”项目研发主管之一胡睿说。

小冰通过机器学习,根据从公开的中文互联网大数据中获取的训练数据来收集当天的热门话题信息,如电视节目或名人等。她也可以建立记忆,如用户的生日或星座等,这样她就能在以后的聊天中提起。

向你的虚拟朋友问好

一开始,小冰只能用文字聊天,但现在她还可以听懂语音,并借助计算机视觉技术看懂照片。据项目团队介绍,许多用户与小冰互动时都会同时使用文字、语音和图片。

一次与小冰的典型互动通常持续约30分钟,对话内容和长度的差异可能很大。有些用户会把他们生活中的私密细节向小冰倾诉,如最近跟男女朋友分手等,还有一些人会向小冰表达爱意。

由于小冰已经入驻许多互联网平台,甚至包括一个电商网站,有些人会先跟她谈论日常琐事,然后再寻求购物建议——就像与一个真正的导购聊天一样。小冰还会朗诵诗歌、讲鬼故事,但研究人员说,在多数情况下,她倾听的多、表达的少。

小冰代表着人机互动的新形式:人们欣喜地发现,计算机原来并不是那么机械。

小冰的用户“希望得到倾听,希望有人陪伴,”彭爽说。对于小冰幕后的微软研究员和工程师来说,她所代表的不仅仅是一次文化的启示。小冰也代表着人机互动的新形式,人们欣喜地发现,计算机原来并不是那么机械。

“我们可以(给机器)增添几分个性。我们可以在计算中增加一点点人类情感——甚至可以再加入一点点人性。”微软亚洲研究院常务副院长马维英说。对一个在半夜感到孤独的人来说,这是一个很妙的事情;对于一个在线购物网站上寻找心仪鞋子的人来说,这也是一件令人愉悦的工具。

在马维英看来,像小冰这样的聊天机器人蕴含着巨大的可能性。在他想象的世界里,搜索引擎是交互式、有个性的,甚至与计算机之间的日常互动也更像对话,而不是单方面的发号施令。“我相信,这将是下一次飞跃,”马维英说。“我们将看到的下一个重大突破将是对话式用户界面。”

微软还开发了一些其他的机器人,例如能够描述图片内容的CaptionBot等等。此外,微软还提供了一系列工具,让开发者们也能轻松开发出自己的智能机器人,这些机器人能够完成一些例如帮忙定外卖或是预定酒店的任务。微软称之为“对话即平台(Conversations as a Platform)”战略。

目前整个行业仍处于开发机器人和弄清楚人们将会如何使用这些机器人的早期阶段。在微软人工智能聊天机器人Tay上线后的24小时内,一小部分人群便利用系统的漏洞发起了协同攻击。尽管微软事先已经为多种类型的系统滥用做好了准备,但一个关键的疏忽导致Tay发表了一些不当的文字和图片。

“做好人工智能需要与很多人互动,而且要经常借助于公共论坛。我们必须十分谨慎地进入每一个平台,并最终通过一步一步地学习而完善,同时在这个过程中避免冒犯他人。”微软全球资深副总裁Peter Lee博客中写道。“我们将继续不懈努力,从这次事件和其他经验中学习,为打造一个代表人类良性而非恶性的互联网作出自己的贡献。”

更快的计算

摩尔定律的终结和计算机处理能力的新前线


隐形革命的核心由三个元素构成:创造技术的算法、用于训练新工具的数据和提供动力的计算能力。

几十年来,上述最后一项并未构成真正的问题。毕竟我们生活在摩尔法则的时代,计算能力每两年就能翻一番,并让戴尔等企业能够不断创造出更好、更便宜的计算机。

“多亏了摩尔定律,你现在才可以拿起你的智能手机,输入几个单词就能查看你最喜爱的明星是否主演了一部新电影,或者又生了一个孩子。”

“过去50年间,计算成本一直呈指数趋势不断下降,这在人类历史上是空前的。”微软研究院NExT部门硬件、设备和体验总监Doug Burger说道。“因此,我们能用更低廉的价格为隐形革命提供一切背后的动力。”

得益于摩尔定律,科学家们能够更快、更节约地在理解人类基因组等研究领域取得巨大进步。同样多亏了摩尔定律,你现在才可以拿起你的智能手机,输入几个单词就能查看你最喜爱的明星是否主演了一部新电影,或者又生了一个孩子。

“当你在网上搜索时,你接触了成千上万台机器,”Burger说。“所以,有成千上万台服务器——而且是非常昂贵的服务器——在那里处理你的一个请求。”但现在,包括

Burger在内的专家们都相信,我们将迎来摩尔定律的终结,其中的原因有物理上的也有经济上的,但主要是经济上的:继续获得这种惊人的收益将变得越来越难。以高效和低廉的方式兑现隐形革命的各种承诺也会变得越来越难——除非我们找到其他的解决办法。

通过Project Philly学习人类

黄学东有点迫不及待了。他领导的语音研究小组希望帮助机器像人类那样理解语音如今已经在技术探索上取得了长足的进步,但他们的工作面临一大阻碍:计算能力。

最新的语音识别工具需要海量的计算能力来运行其算法,一部分原因是它们依赖于受到大脑生物过程启发而诞生的深层神经网络。对如此大的计算能力的需求,意味着一个实验,例如调整从训练数据集中学习识别单词的算法,可能要耗费两三个星期。而这样的时间滞后会让这一前瞻性技术少了几分革命性。

更快速地处理此类工作的能力将成为人工智能突破的关键——比如预测某个骑自行车的人何时会发生意外,并努力杜绝意外的发生。

黄学东说,此类发现非常有价值,而让研究人员必须等待两三个星期才能获得一点小进步是不切实际的。所以,黄学东和他的团队把命运掌握在了自己的手中。他们建立了一套旨在提升深度学习算法运行速度的工具,使用的是GPU图形处理器

GPU可以更快速地处理大量数据,例如开发Skype Translator实时语音翻译等技术中能够实时地将一种语言翻译成另一种语言所需要的大量数据。”

虽然GPU最初是为计算机图形设计的,但近年来研究人员发现它们也是处理复杂算法的理想之选。这是因为它们可以更快速地处理Skype Translator实时语音翻译技术开发过程中所需要的大量数据。

黄学东团队构建的工具代号为Project Philly,帮助微软虚拟助手Cortana不断提高语言理解能力的团队已经开始使用它了。在Project Philly的帮助下,Cortana的语音训练现在能够在相同时间内摄取10倍以上的数据。

正如Cortana团队的一位主管所说,使用Project Philly就像从一辆家庭旅行车切换到一辆高端跑车上。

黄学东团队还发布了一个名为CNTK的开源工具包,供其他研究人员用于各自的深度学习研究。对于黄学东和他的团队来说,这些工具将让他们能够更简便地做自己最擅长的事——不断地试错,直至取得重大突破。

“在机器学习领域取得切实的突破之前,你需要进行成百上千次的实验,”他说。“Project Philly是基础,我们的研究员和工程师可以在上面进行大量的机器学习实验,以确定合适的模型和正确的解决方案。”

Catapult项目”挑战计算机处理极限

在摩尔定律持续繁荣的几十年间,重大科技突破也在发生着。开发人员不断编写新的软件代码,而这些软件在越来越便宜、越来越快的CPU(中央处理器)上运行

50年来,我们一直依赖‘基于CPU运行软件’的架构,也就是冯·诺依曼型计算机,它确实非常有效,”Burger说,“但是来自这种模型的稳定和可预见的收益已经走到了尽头。”

几年前,Burger和他的团队决定着手尝试全新的东西。他们与必应搜索团队合作,决定采用“现场可编程门阵列”(FPGA进行运算。FPGA已经在其他领域投入了使用,但它一度被认为过于昂贵复杂,不适合大型云计算,直到Burger的研究团队启动了“Catapult项目”。“FPGA并非我们的发明,但我们所做的是弄清如何将其用于云计算,”Burger说。

对于许多工作负载而言,FPGACPU更快,因为它们允许计算机科学家和工程师们不再依靠加载在硬件上的软件,而是直接在硬件上运行他们的算法,这被称为可编程硬件。“我们无需将算法转化成软件,再加载到硬件,取而代之的是直接从算法到硬件,”Burger说。“我们避开了‘软件’这个中间人的角色。”

FPGA的使用比固定功能硬件更灵活,因为你可以根据需求的变化对它重新编程。这一点对快速发展之中的云计算至关重要。Burger的研究团队已经看到了Catapult项目的成效。在针对必应搜索引擎的测试中,它能够让一部分操作速度加倍。研究团队表示,一般来说在数据中心使用Catapult计划可以显著节省资金和能源,并取得较好的效果。

“我们现在拥有的工具非常非常强大,我认为这对整个行业都是颠覆性的,”Burger说。

Project Natick:下海入云

再思考一下,你在长途旅行中通过手机和笔记本电脑搜索最近的星巴克门店,或是在你的OneDrive存储系统中增加100张照片所需要的全部计算能力。

计算机专家们围绕“云”中的数据作了大量论述,但所有基于云的数据总是要依靠物理方式存储于某处。通常情况下,那会是一座充满了强大服务器的大型建筑,还有冷却这些服务器所需的很多台空调。

微软的研究员们想出了另一种选择:在海底。去年年底,一个研究团队发起了名为“Project Natick ”的项目,其目的是将包裹过的小型数据中心沉到海底去。这种数据中心有一定的环保优势:到目前为止的测试表明,环绕数据中心流淌的清凉海水能够为服务器降温,而这对周围海洋温度的影响是可以忽略不计的。

​(视频链接http://v.youku.com/v_show/id_XMTQ2MzU0MTc2NA==.html?from=y1.7-2

最终,研究团队希望能想出一些办法来让数据中心更加环保、可持续,即通过风能、太阳能甚至基于潮汐的动力系统来供电。这也将消除与数据中心运转密切相关的另一个问题——它们的运转要消耗大量的能源。

此外还有另一项收益:更好的服务。世界人口中大约有一半居住在海岸线附近,研究员们认为,与遥远内陆上的服务器相比,如果把Project Natick的服务器沉入海底,这些居民将能够以更快的速度获得数据。而且海底数据中心的建设比陆地上的周期更短,只要90天左右而非两年,这也使得微软这样的公司将更容易满足客户的数据需求。

Project Natick目前仍处在研究阶段,但研究员认为,无论其最终结果如何,这将对未来如何构建数据中心产生深远影响。

“我们在学习如何为磁盘驱动器重新配置固件和驱动程序,以获得更长的寿命。我们在管理电力,学习如何减少电耗。这些经验将转化为更好的数据中心运营方式。即使我们永远不会进行更大规模的尝试,但我们毕竟学到了这么多经验,微软全球资深副总裁Peter Lee表示

创新和实验

众多的案例都表明微软正在不断尝试利用不同的方式从这个越来越依赖云计算优势的世界中为用户提供他们心仪的产品和工具,Project Natick就是这样的一个例子。

一些早期的研究项目可能很快找到机会进入工具和产品中,用户也会爱上这些必不可少的技术。另一些则会随着时间的推移而变化,直到他们贡献灵感,或最终成为完全让人意象不到的新事物。

无论哪种方式,这种不断的实验和创新正是隐形革命的力量源泉。


相关阅读:

Seeing AI:计算机视觉十年磨一剑,打造盲人的“瑞士军刀”

微软认知服务:人工智能的技术拼图

会听、会说、会聊天:人工智能语音识别技术的漫漫长路

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:

 



 

做好数据科学,离不开这7步

$
0
0

《哈佛商业评论》曾宣称“数据科学家”是二十一世纪最性感的职业。所谓性感,既代表着难以名状的诱惑,又说明了大家对它又不甚了解。

如何做好数据科学呢?

微软高级数据科学家Brandon Rohrer概括了做数据科学的七大步骤,手把手教你做数据科学。

1. 获取更多的数据

数据科学的原材料是数字和名称的集合,测量、价格、日期、时间、产品、标题、行动等,数据科学无所不包。你也可以使用图像、文字、音频、视频等复杂数据,只要你能将它们简化为数字和名称。 

获取数据的机制可能非常复杂,事实上,数据工程师就像忍者一样。不过,本篇文章将主要聚焦于数据科学。

2. 问一个尖锐的问题

数据科学是通过数字和名称组成的数据集合来回答问题的过程。你问的问题越精确,越容易找到令你满意的答案。在选择问题的时候,想象你的面前是一个可以用数字或字段来告诉你宇宙中一切奥秘的圣人,他的回答总是模糊不清、令人困惑,而你希望问一个精准而无懈可击的问题,让他忍不住告诉你问题的答案。

模糊的问题如“我的数据能告诉我什么?”、“我应该做什么?”我怎样提高利润?”会带来无用的回答,而清晰的问题如“第三季度我能在蒙特利尔卖出多少产品?”、“我车队中的哪一辆车会先坏?”会带来清晰的答案。

在有了问题后,要看你的数据是否能够回答这些问题。如果你的问题是“我的股票下周的价格是多少?”,那就要确保你的数据中有股票的历史价格;如果你的问题是“88型航空发动机能够工作多少小时?”,那就要确保你有多台88型发动机故障次数的数据。这些就是你的目标数据(target),即你希望在未来预测或布置的量或种类。如果你没有任何目标数据,需要回到步骤1,获取更多的数据,因为没有目标数据则无法回答问题。

3. 将数据置于表格中

大部分机器学习算法假设数据以表格的形式呈现,每行是一个事件、项目或实例,每列是行数据的一个特征或属性。在一个描述美国足球比赛的数据集中,每行可能代表一场比赛,列可能包括主场队、客场队、主场得分、客场得分、日期、开始时间、出场情况等等。表格中的列可以非常细致,有多少都可以。

选择所需数据行 

将数据集分割成行有许多方法,但只有一种方法能帮助你回答问题:每行有且只能有一个目标实例。以零售店数据为例,一行可以是一次交易、一天、一个零售店、一个顾客等等。如果你的问题是“刚进过店的顾客会回访吗?”,那应当以一个顾客作为一行,你的目标“顾客是否回访”将呈现在每行,而如果以一个零售店或者一天作为每行的数据则不能回答目标问题。 

有时你必须通过累积数据来获得需要的数据。如果你的问题是“我每天卖出多少拿铁咖啡?”,那你需要的数据是以天数作为行、卖出的拿铁数作为列,但是你手头的数据可能是带有日期和时间的交易记录。为了将这些数据变为每天的数据,需要对目前的数据进行累积,将每一天卖出的拿铁数进行合计。在这个过程中,有些信息会丢失,例如每杯拿铁卖出的时间,但没有关系,因为它不会帮助你回答问题。

4. 检查数据质量

检视 

下一步是认真地排查数据。检查数据有两个目的:第一,发现错误数据,修复或去除;第二,充分了解每一行每一列。这一步不能跳过,否则无法让数据发挥最大功效。只有你对你的数据表示出爱,它才会爱你哦~

以一列数据为例,它的标签是什么?数值与标签匹配吗?标签对你来说有意义吗?这一列数据有记录吗?是怎样测量的?谁来测量的?如果你幸运地认识录入数据的人,不妨约他们出来吃甜甜圈,问问他们是怎样测量的,问问他们录入中有没有有趣的故事,这一顿点心会给你带来回报的。

现在,让我们把用这一列画一个柱状图。整体分布符合你的预期吗?是否有异常数据点?异常点是否有意义?例如,如果这一列代表的是农业分布的经度,有没有一个数据点落在太平洋中?如果这一列是关于考试分数,是否有人的分数是1%或者10000%?用你所知的一切对数据做一个监测,如果有的数据看起来有些奇怪,找出为什么。

校正 

在排查数据中,你可能发现一些标签和记录的错误,记录并分享你的发现。 

你也可能发现一些值是错误的。一些值可能超过了正常范围,比如一个人竟然72米高,或者有些值是不可能出现的,例如一个写成“中心路7777777777号”的地址。这种情况下,你有三个选择:如果这个值很容易更改,那就改为正确的值,例如把高72米改成72英寸;如果错误的值不明显,你可以删掉这个值、注明缺失;如果这个值是关键信息,你可以删除整行或者整列。这样可以让你训练的模型远离错误数据。错误数据可比缺失数据危害更大。

你可能很想移除看起来不理想的数据,例如异常数据或者不支持你的理论的数据——但千万别这样做,否则不仅违背学术伦理,更可怕的是可能会导致错误结果。

替换缺失值 

几乎每一个数据集都存在缺失值,可能是由于数值错误被删除了,也可能是你在实验途中去测量了一个新的变量,还可能是这些数据来自不同的数据源。但不管什么情况,大部分机器学习算法要么要求数据无缺失,要么会用默认值填充。而你可以比机器做得更好,因为你了解你的数据。

替换缺失值有很多方法,处理缺失值的方法 一文提供了一个办法,而最佳的处理办法取决于每一列的意义和数值缺失带来的影响,每一个数据集的情况可能都有所不同。

替换完所有的缺失值后,你的数据们现在已经“连上”了,每一个数据点对每一个特征都有意义。现在,这些数据是干净的、可以拿来用了。

有时候你可能发现,在数据清理后,几乎没有剩余的数据了……这是件好事情,因为你刚刚避免了走上用错误的数据建立模型、得到错误的结论、被客户嘲笑、激怒老板的不归路……如果是这样,那就回到第一步,从头获取更多的数据吧!

5. 变换特征

在进入机器学习之前还有一步:特征工程(feature engineering),即对现有特征数据进行创意组合,以更好地预测你的目标。举个例子,如果我们把火车到达和出发的时间相减,可以得到火车的运输时间,这个特征对完成目标即预测火车的最大速度更加有用。 

严格来讲,特征工程并不会增加任何数据信息,只是使用各种方法对原有数据进行组合。然而,仅仅对两栏的数据进行组合就有无限种方式,而大部分组合方式对解决目标并没有什么帮助。通常情况下,只有在对数据有充分了解的情况下才可能选出一个好的方式。你需要充分调用你所有的相关知识,让数据为你所用。

特征工程是数据科学中最微妙的一步,没有一成不变的办法,而是要不断试错、依靠直觉和经验。深度学习试图让这个过程自动完成,但大多以失败告终,也许这就是人类智能的特别之处吧。

不过,即使你还不是特征工程的黑带高手,也有一个可以使用的小技巧。你可以根据你的目标,用不同的颜色标识变量,这可以帮你发现变量之间的关系。这可能工作量较大,不过你一定要花些时间过一遍。每当你发现有两个变量与目标相关,那可能就是一个特征工程,意味着这两个变量结合在一起可能比孤立来看更有帮助。

有时候,你会发现你的数据中没有任何变量或变量的组合能够帮你预测目标,这可能意味着你需要测量一些其他变量。那么,重回第一步,获取更多的数据吧!

6. 回答问题

终于到了数据科学家最爱的部分了——机器学习!简单地说,你需要确定你的问题属于哪种算法,然后选择一种或多种算法,使用传统的机器学习技巧来分割数据进行训练、调整、测试数据集、根据选择的模型优化参数。 

如果你的模型无法很好地解决问题,或者你不想用机器学习,还有两种非传统的方法: 

第一种,简单地看一下你的数据图像,很多情况下,只要对数据进行可视化就能找到答案。例如,如果你的问题是“波士顿明年74号的最高气温是多少?”,那么只要看一下过去100年间波士顿每年74日最高气温的直方图就基本可以解决问题了。

第二种方法技术含量更高一些。如果你是因为数据集太小而得不到结果,你可以考虑进行优化。机器学习基于弱先验假设,也就是说,机器学习对数据结构做一些较弱的假设。这种方法的优点在于使用算法之前不需要对数据有太多了解,它能够训练出一些大致的模型,而缺点在于需要大量数据才能获得一个可信的答案。一个替代方法是根据你对数据的了解,对数据做更多的假设。例如,如果你想预测一个物体的飞行轨迹,你可以收集大量物体自由落体的数据,用它们训练机器学习算法。你其实还可以用你了解的牛顿力学知识来制作一个更丰富的模型。这样,只需要一个包括位置和速度的数据点就可以预计这个物体在未来任何一点的位置和速度。这种方法的风险在于你的假设可能不完全正确,但优点是你不需要大量的数据就能完成任务。

如果这些办法对你都不适用,也许意味着你需要收集更多的数据,或者重新思考一下你测量的数据。回到第一步,获取更多数据吧~

7.应用答案

不管你如何优雅地用数据回答提出的问题,你的工作直到有用户使用才算完成。将你的结果以某种形式呈现给用户,用户可以用它做决策、完成任务或进行学习。展示的方式有很多:你可以将结果放在web页面上,把你发现的最有用的信息呈现在PDF上,可以在GitHub上分享你的代码,可以把结论做成视频分享给你的商业客户,可以制作美观的数据可视化成果发在Twitter上,等等。不管采用哪种方式,要让其他人使用你的成果。

森林中的一棵树倒下,即使附近没有人听见,仍然会有响声,但如果你建造了一个精良的模型却没人用,你肯定不会得到赞誉。

那么就从头开始吧,回到第一步,获取更多的数据!

 

注:本文编译自How to do Data Science ,作者Brandon Rohrer为微软高级数据科学家。

相关阅读:

欢迎来到隐形革命的时代

科研新思路:基于场景驱动的研究方式

成为数据专家,你只差一个Quick Insights的距离

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:



 

互联网发展的风向标——我眼中的WWW 2016大会

$
0
0

本文作者:微软亚洲研究院实习生 孙宇

女大十八变的WWW大会

WWW大会的全称是万维网国际会议(The World Wide Web International Conference),也是万维网联合会(World Wide Web Consortium)的重要年会。从1994年举办第一届以来,WWW大会至今已走过了23个年头,在世界五大洲的25座城市都留下了不同的足迹。这23年里,她目睹了万维网从诞生之初的默默无闻到如今与所有人的生活密不可分的变革过程。与此同时,WWW大会本身也在不断的变化成长。用微软研究院唐建研究员的最新研究成果来形容:WWW的成长变化经历了从最开始的注重万维网的系统部署与架构分析,到接下来的关注超链接和多媒体,一直到如今的集中在安全与隐私保护、内容分析、推荐与挖掘等领域。

图: WWW 研究热点的变化: 从互联网结构 到文本分析、社交网络和社交媒体
图:蒙特利尔(图片来自于:http://www.montreal-travelguide.com/)

WWW女神与浪漫的邂逅

今年的WWW的大会在美丽时尚又充满历史厚重感的蒙特利尔(Montreal)举行。蒙特利尔位于加拿大魁北克省,是加拿大第二大城市。由于其浓郁的法国风情,并且是以法语为主要官方语言的第二大城市(第一为巴黎),蒙特利尔被誉为北美的“小巴黎”。在蒙特利尔的市中心,有一个著名的地下城,连接起了几乎所有位于市中心的摩天大楼、购物中心、会议中心,和地铁公交车站。无论外面是骄阳似火的夏天还是寒风凛冽的冬天,徜徉在豪华舒适的地下城中,都可以畅通无阻的逛街、旅行。据说,平均每天有近一百万人在地下城中或工作或购物或穿梭于城市的各个角落。

蒙特利尔地下城(图片来自于:http://localmontrealtours.com/underground-city-montreal-destinations/)

正是在这样的现代与浪漫氛围中,WWW大会的晚宴别具一格。晚宴上,我们并不是坐在一排排的中规中矩圆桌边上,而是进入了一个巨大的狂欢派对一样,端着饮料,听着动感十足的音乐,穿梭在闪烁的霓虹灯里,与其他研究员和工程师在轻松欢快的氛围下沟通交流。在这里,蒙特利尔为WWW大会带来了时尚与优雅,而WWW也为蒙特利尔这座城市注入了活力与生机。    

图:会议晚宴

星光璀璨的参会人员

今年的WWW大会可谓众星云集!Web的发明人、万维网联合会的主任Sir Tim Berners-Lee亲临大会。Sir Tim Berners-Lee对于万维网的贡献,用《蒙特利尔公报》(The Montreal Gazette)的话说是:“没有Sir Tim Berners-Lee,我们就无法像此刻这样通过网页进行沟通”。Sir Tim Berners-Lee在会上发表了高瞻远瞩的主题演讲。他详细分析了互联网当前的发展状况,并展望了万维网的无限可能的明天。他十分关注当前万维网的安全问题,因为万维网的安全已经关系到我们生活的方方面面:银行账户的交易、免费Wi-Fi的使用、个人隐私的保护等等。关于未来的发展,他十分看好物联网(Internet of Things, IoT)。也许,将来的某一天,我们再不需要物理的钥匙(比如金属钥匙、房卡),而是房门可以自动识别主人的身份;其他我们日常使用的物品,也都会变得智能而且方便使用。最后,Sir Tim Berners-Lee希望未来万维网可以去中心化。这意味着数据不再集中存储于服务器或数据中心,而是分散在每个人自己的私有位置。各种应用程序通过授权的方式,访问这些私有数据。通过这样的方式,用户可以将一张照片同时展示在不同的社交网络,同时拥有对自己数据的绝对拥有权。对于这些私有数据的安全保护,用户会像保护自己家的物品不被偷窃一样。这样的万维网架构可以做到既方便又安全。

图:主题演讲

除了Sir Tim Berners-Lee,谷歌(Google)的研究部门主任Peter Norvig也莅临大会,并向与会人员全面细致地介绍了当前语义网的发展状况,以及面临的问题与挑战。此外,还有许多世界知名的研究人员参与了今年的WWW大会,比如思科公司(Cisco Systems)的首席工程师Mary Ellen Zurko,当今深度学习(Deep Learning)三位大佬之一的Yoshua Bengio(他连同Geoffrey Hinton老先生以及 Yann LeCun(燕乐存)教授,缔造了2006年开始的深度学习复兴。),斯坦福大学的年轻教授Jure Leskovec等等。据统计,共有来自世界50多个国家的1000多名学术界和工业界人士参与了此次盛会!

图片来自大会官网
图片来自大会官网

耳目一新的思想火花

在五天的大会中,我有机会聆听了来自世界各地的知名研究员和工程师许多醍醐灌顶、令人耳目一新的报告。其中印象十分深刻的如Martha Lane Fox女士关于“所有人的万维网”(Web for Everyone)的报告:她提醒我们要让所有人包括残疾人(如盲人)、女性、儿童在万维网上得到公平的对待,并赋予所有人一样平等的接触万维网上信息的权力;Peter Norvig关于当前语义网方法论的讨论:我们是应该使用像黑盒子一样的神经网络(Neural Network),还是使用我们一步步建立起来的词法、语法、句法等分析工具;以及Ellery Wulczyn关于如何通过寻找合适的贡献者加速维基百科的建设,Oren Sar Shalom展示的怎样在Xbox中推荐给玩家他们感兴趣的游戏等等。

微软耀眼而独特的贡献

微软对这次WWW大会有许多贡献。仅大会报告(长文)便有21个之多,其中4个来自微软亚洲研究院(MSRA)!来自微软亚洲研究院的工作分别报告了如何有效可视化大数据(Visualizing Large-scale and High-dimensional Data),如何利用应用管理推测用户偏好(Voting with Their Feet: Inferring User Preferences from App Management Activities),如何有效推荐餐馆(Exploiting Dining Preference for Restaurant Recommendation),和如何在数字个人助理(比如微软小娜 Cortana等)上进行有效的信息推荐(Collaborative Nowcasting for Contextual Recommendation其中唐建博士关于大数据可视化的工作(Visualizing Large-scale and High-dimensional Data)还被被提名为最佳论文5/115)。论文提出了一个关于数据个数为线性复杂度的大数据可视化算法LargeVis,使得在二维或者三维空间上直观地观察和理解数据成为可能。感兴趣的话,所有的会议论文都可以在这里http://www2016.net/proceedings/forms/index.htm阅读哦

图片来自于文章VisualizingLarge-scale and High-dimensional Data

我报告的是上述提到的最后一个工作——在数字个人助理上如何进行有效的信息推荐的问题。我们借鉴了气象学和经济学里面现时预报(nowcasting)的方法,利用用户多种多样的实时的上下文信息,追踪用户当下的意图,从而进行相关信息的推荐。我们关注的上下文信息包括用户最近或当前使用了哪些应用,访问了哪些场所等等。预测的意图可以是希望了解天气、还是想要阅读新闻,抑或是要知晓当前的股市行情。一旦知道了用户的当前意图,数字个人助理就可以进行相关类别信息的推荐。这个工作是我在由谢幸教授领衔的“社会计算”研究组实习期间完成。实习期间,组里面的研究员和同学给了我很大的帮助;平时的讨论和组会也在研究方向的发现和方法的提出上给了我很大的启发。

引领万维网的明天

参加此次大会让人获益匪浅。与会者不但可以了解当前万维网发展的最新状况,而且可以结识一批志同道合的研究员和工程师。蒙特利尔这座城市也给了我从未体会过的时尚与动感。今年的WWW大会上众星云集、群星闪耀。她汇集了来自全世界的优秀研究员和工程师。大家济济一堂,共同为万维网的更好发展出谋划策,为万维网的明天指明航向。

 

作者简介

我叫孙宇,是一名微软亚洲研究院实习生,目前于墨尔本大学攻读博士学位,本科毕业于中国人民大学计算机系,曾参与微软人工智能助手Cortana推荐相关的工作。

了解微软亚洲研究院实习生项目,欢迎关注“明日之星”实习生项目介绍。更多实习机会请见:http://www.msra.cn/zh-cn/jobs/interns/internopenings.aspx



推荐阅读:

AAAI-16: 源远流长,博大包容

前沿理论、反思创新、产学结合——你不能错过的WSDM 2016大会

【年度学术大会合集】SIGGRAPH,KDD,AAAI,NIPS…这些你想参加的会议

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:






 

从“火车进站”到虚拟现实:电影艺术与视觉技术的罗曼史

$
0
0
卢米埃尔兄弟《火车进站》被公认为是世界电影史上第一部公开放映的电影

坐在电影院里,在大荧幕前时而因幽默对白捧腹大笑,时而因紧张情节提心吊胆,走出电影院,仿佛经历了一次旅行。你可曾想到,在动人的故事与炫目的效果背后,还有一段技术与艺术的“不了情”?

在北京电影学院副校长、微软北影数字化卡通与动画实验室主任孙立军教授眼中,技术和艺术是“暗恋”,表面上似乎是互相排斥的,但若没有技术则不可能有电影的今天。427日,孙立军教授做客微软亚洲研究院,从电影发展历程梳理技术与艺术的“恋爱史”,并大胆猜测虚拟现实(VR)将带给电影的新变革。当技术遇上艺术,将擦出怎样的火花呢?

缘起:电影艺术与技术的结缘

从电影的发明到现在仅百余年的时间,但电影已经成为世界上最具影响力的行业之一,以滴水穿石、润物细无声的方法,改变着人们对世界的认知。

时光倒流120年,1895年,卢米埃尔兄弟推出了《火车进站》,拉开了电影发展的序幕。这是电影发展的第一个阶段,以黑白、默片为特征。看到火车驶来的影像,观影的绅士们不由自主地惊恐地弯下了腰。“但是今天,即使是带上立体眼镜,看到火车驶过来,连小孩子都不会感到惊奇。”孙立军说。

仅仅30年后,有声、彩色电影开始出现,进入了电影发展的第三个阶段。1927年华纳公司的《爵士歌王》 开启了有声电影时代,在这期间,曾公开反对声音进入电影的卓别林也逐渐完成了无声到有声的突破;1933年“三色染印法”开启了彩色电影的纪元。

卓别林第一部有声电影《城市之光》(1931)

20世纪80年代,数字电影开始出现,技术越来越多地介入电影。1995年的《玩具总动员》是世界上第一部全电脑制作的长片,从暴风雨到美丽的晚霞,从一片草皮到安迪家旁边大树的120万片树叶、76个角色全部由电脑勾画而成。这部电影给孙立军带来了很大的触动,当时中国只有一台计算机可以渲染动画效果,渲染1个镜头就要10天,而美国有2000台计算机可以渲染,令他感觉难以想象。“120万片树叶、76个角色,对我们来说是一个浩瀚的工程,真的了不起!”孙立军说。

世界第一部全电脑制作长片《玩具总动员》(1995)

技术对艺术的推动作用也激励着孙立军教授在艺术上不断地进行大胆的尝试。1999年,孙立军教授启动了《小兵张嘎》的拍摄制作,耗时六年,将现代计算机动画技术与传统中国风格绘画相结合,于2005年完成了中国第一部二维与三维结合的动画电影。

中国第一部二维与三维相结合的动画电影《小兵张嘎》(2005)

《小兵张嘎》中人物的上色全部由计算机完成。影片中,随风摆动一望无际的芦苇荡,在野外奔驰的火车,具有工业气息的火车站等场景,都是通过三维动画实现而成,曾有一个镜头就做了三个月的时间。《小兵张嘎》也成为中国动画历史上的一部巨片,并荣获2005年中国电影华表奖等奖项。

近年来,技术对动画前进步伐的推进越来越明显。《机器总动员》通过70mm摄像机技术来表现“人”的特质;《飞屋环游记》采用先进的数字3D技术,共创造了20622个独立的气球“支撑”房子的飞翔;《冰雪奇缘》中计算冰雪特效引擎的开发使得艾莎在不同情绪下造出的冰雪无论颜色形状都有很大不同。 技术与艺术的结合与飞速发展使孙立军教授意识到,电影行业需要技术专家与艺术专家共同推进:有了好的创意,会吸引更多的人来研发技术实现创意,而有了好的技术平台,则会促使艺术家展开更创新的思考。

《兔侠传奇1》

2011年,孙立军教授与时任微软亚洲研究院主管研究员徐迎庆等合作,完成他的第一部也是国产动画中的第一部3D动画电影《兔侠传奇》,在技术中融入东方绘画的假定性、写意特点,毛发的渲染十分出彩。这部电影在100个国家上映,两次亮相戛纳电影节,被英国《卫报》评价为“中国动漫开始向好莱坞发起挑战”。孙立军教授感叹说:“作为一个电影从业者,伴随着技术进步,我在实践中感到快乐。”

缘升:虚拟现实与第三代电影

2015-2016年,中国影视公司无不在谈论VR、投资VR、研发VR;电影导演、明星纷纷加入VR创作阵营,进入VR领域;VR设备、VR体验厅、影院纷纷建立;《中国VR用户行为研究报告》指出,中国潜在VR用户规模为2.86亿,2015年接触和体验过VR设备的用户为1700万人,购买设备的用户为96万人。那么,VR能够给电影产业带来第三次革命吗?

孙立军教授认为,仅仅依靠VR单一的形式完成电影业的第三次革命是不可能的。如今,将VR技术应用于电影创作还存在一些问题。例如,在物理性质方面,帧率不足导致晕眩感,头戴式容易导致用户疲劳,观众无法进行长时间的佩戴;在内容创作方面,VR无法直接转场,导演无法引导观众,这会影响电影视听叙事和艺术创作。

在孙立军教授看来,电影的未来将是全媒体时代的融合,结合故事片、动画、游戏的融合与发展。第三代电影将是数字交互式电影,特点是电影游戏化、游戏电影化,互动式、非线性故事情节,一个故事的开头对应着N个故事的结尾,观众参与并可引导故事情节发展。

在以数字交互式电影为代表的创新模式中,放映方式也将发生变化。未来电影的时长短则5分钟,长则120分钟,不同时长的电影会迎合数字交互时代的多元化观影体验;电影院也将发生变化,文化广场、商业街、住宅楼区内的数字交互式影院将使电影真正走入民众,成为展现电影文化的标志。

充气式数字交互式影院

在孙立军教授设想中,一种未来电影院的设计是充气式数字交互影院,移动方便、票价降低,父母可以带孩子一起看、乡镇农村居民也可以方便地观看,从而将电影真正带进中国从城市到乡村的每个普通人的生活中。

“计算机硬软件发展到今天,一场革命就在身边。我们要研究作为视听艺术的电影如何在好的技术平台上发挥作用,”孙立军教授说。

缘聚:“技”“艺”从暗恋到携手

从第一代黑白默片电影时代,到第二代彩色有声、数字电影时代,到孙立军教授设想中的数字交互式电影时代,技术与艺术始终难舍难分、紧密相连,一部电影史、动画史,其实就是技术与艺术互相推动、伴随发展的历史。

艺术挑战科技,科技推动艺术。艺术创作的需求促使了动画技术的深入发展,使新技术层出不穷;反之,新技术的出现又给了艺术家一个更大的创作空间。二者相互依存,既不能一味强调技术的重要性,更不能排斥技术的重要作用。只有将艺术与技术紧密结合,互相推动、携手偕行,才能创作出优秀的作品。

在技术与艺术的“暗恋”中,微软亚洲研究院和北京电影学院一直携手并进,推动着技术与艺术的融合发展。2006年,北京电影学院—微软数字化卡通与动画实验室成立,研究方向包括中国水墨画风格的计算机游戏和动画研究、微软平台的游戏课程设计、数字卡通和动画研究、卡通和动画设计等。“我们是微软研究院在全球与艺术院校联合建立的唯一的实验室,我作为当事人,是非常自豪的”孙立军教授说。

时光荏苒,联合实验室已走过第十个年头。过去的十年中,实验室的创新型人才培养模式给跨学科交流及技术与艺术的有机结合提供了一个广阔的平台,增强了影视相关专业学生们的综合实力和竞争力,培养了大批的复合型人才。在这里,微软的研究员们与北京电影学院的艺术家们互相启迪,为动画电影增添魅力。

回顾过去,展望未来。孙立军教授认为,技术和艺术一直在暗恋,推动中国电影和未来娱乐业的发展。当前,中国电影产业迎来了关键的发展机遇期,而计算机图形图像技术飞速发展也将赋予艺术创作新的内容。只有将艺术与技术紧密结合,互相推动,才能创作出优秀的作品,中国电影的“量变”到“质变”将指日可待。作为艺术工作者,应当抓住当下技术与艺术的有机结合、飞速发展的机遇,做出自己突出的成果。

关于孙立军:

孙立军,现任北京电影学院副校长、北京电影学院中国动画研究院院长。1988年毕业于北京电影学院动画专业留校任教。2000年至2012年,先后担任北京电影学院动画学院副院长、院长、北京电影学院中国动画研究院院长、北京电影学院党委副书记等职务。2006年至今一直兼任北京电影学院-微软数字化卡通与动画实验室主任。中共中央宣传部全国宣传文化系统“四个一批”人才、国家扶持动漫产业专家组原创组负责人(文化部)、中国动画学会副会长、中国美术家协会动漫艺术委员会副主任、中国电影家协会动画电影工作委员会会长和国家高技术研究发展计划“863计划”基于动漫数据库的计算机辅助动漫创作关键技术与系统课题负责人。



推荐阅读:

统计机器学习——让计算机学会吟诗作赋

用线条解码甲骨文的秘密

和中国计算机学会一起做“面包”的十年

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:

 

 



 

微软亚洲研究院的“哈利·波特”:Thomas Moscibroda

$
0
0

在微软亚洲研究院,有一位名为Thomas Moscibroda的研究员几乎是无人不知、无人不晓,江湖人送外号哈利·波特Thomas认为他这么“红”是因为他“老外”的外形让他在人群里比较显眼,但熟悉他的人都知道,比他外形更深入人心的是他对研究的热情与专业。

这位在学术界和工业界都玩的游刃有余的“歪果仁身上的标签有很多。他是微软亚洲研究院系统算法组首席研究员,也是清华大学交叉信息研究院“姚班”的兼职教授。他是瑞士人,却同时掌握德语、法语、英语、日语和中文等多门语言。他曾经在2年内发表了20篇论文,平均一个多月就能发表一篇超高水准的论文。他博士毕业就直接进入了微软雷德蒙研究院,开始了理论和应用的跨界研究。

寻向所志,微软之缘

抱着“想多尝试一些不一样的东西,让生活能够充满变化和新意”的想法,从瑞士的苏伊士联邦理工学院(Eidgenössische Technische Hochschule Zürich,简称ETH)毕业之后,Thomas选择了美国作为他事业的起点。Thomas在博士期间的工作是主要以理论研究为主,进入微软雷蒙德研究院之后,他可以将理论与系统相结合,还有机会兼顾理论研究和工业应用。五年之后,再次怀揣着体验不同生活的想法,Thomas将眼光投向了微软遍布全球的其他研究院。他坦言,因为有机会在微软研究院这样的大型跨国研究机构工作,所以换个国家工作的想法就不再是天方夜谈。

在微软雷德蒙总部工作期间,Thomas曾多次与微软亚洲研究院的研究员有过工作上的往来,因此结识了不少这里的研究员们,自然而然的微软亚洲研究院便成为了他心中的一个理想选择。在他看来,微软亚洲研究院是一个年轻而充满朝气的研究机构,有许多年轻的人才,有许多奇思妙想的创新,还有诸多领先世界的顶尖技术,她正在不断的发展壮大,提供了许多颇有潜力的机会。

此外,Thomas对亚洲文化还有着热切的向往。他热爱旅行,他游历的足迹遍布全球,亚洲的文化和美食深深吸引了他。当Thomas最终来到了这个位于北京的“全球最火的计算机实验室”时,他发现了更多的惊喜。开放的研究环境、谦虚努力的研究员,友善的同事朋友,这一切都让他非常享受在这里的工作。

志同道合,和而不同

Thomas在年会上扮演“邦德”

金棕色头发、细边框架眼镜、淡淡的笑容,让Thomas收获了哈利·波特的名字。不仅外表如此,同事们眼中的Thomas也如哈利·波特一样乐观、勇敢、聪明,为研究院注入了新鲜之风。他带领的系统算法组可以算是微软亚洲研究院最多元化的研究组了。

多元化首先体现在该小组的文化背景上。以Thomas为例,他出生并成长于欧洲,但在美国和中国都有过很长一段时间的工作体验。多元的文化体验为他带来了广泛的兴趣爱好,下班后,他常在健身房挥汗如雨;周末,他的身影出现在唱诗班的合唱队;年会上,他是唱歌表演的超级明星;就连微软亚洲研究院附近的六家星巴克的细微差异,他都了如指掌。对了,你还可以跟他讲讲中文,绝对有惊喜。此外,来自巴西的Börje Karlsson则是个不折不扣的“啤酒狂人”,他对北京啤酒地图的熟悉程度可能远超任何一个在这片土地上生活了多年的老北京。不同的语言、肤色带来的并非隔阂,而是文化多样性与兼容并包、自由开放的氛围。工作中的他们与中国的研究员们志同道合、并肩合作,生活中他们有人是背包客,有人是中国通。他们享受着完全不同的生活方式,也为微软亚洲研究院带来丰富多元的风气。正如系统算法组的主管研究员闫莺所说,跟他们一起工作,会让你的心胸很开阔,在不同的文化、不同的经历中,看到不同的东西。

微软亚洲研究院 系统算法组

多元化同样还体现在该小组的研究领域上。系统算法组包括云计算和移动感知两个方向构成,因此,该小组最大的特点是每个人的研究都是围绕着云计算展开的,但是很少有两个人是做一模一样的方向的。组员里有研究数据库的,有研究大数据的,有研究理论的,有做电池的,有做IoT的……这样的小组构成有一个天然的好处,每当开组会的时候,Thomas会让大家分享自己手头上项目的研究进度,并让大家一起展开讨论。这样一来,每个人都能从自己专业的角度对项目给出建议,而小组成员便有机会跳脱自己专业领域的思维框架。由于每个人的研究领域又各不相同,项目一旦建立便会自然分工,每个人都可以从事自己擅长的方向。这种互补型的多元化项目合作无论对项目的完整性还是研究员的个人成长都是非常有好处的。

微软亚洲研究院 系统算法组

想带好这样一个多元化的研究小组,在其他组员们看来Thomas的独门秘籍是扎实的算法和理论背景。研究员闫莺博士甚至形容他为“他就像是一个活字典,只要涉及到算法,无论是图、排序还是调度,他都能十分清晰地帮你理清思路,并总能找到问题的关键,且视野宽广,指导你如何对项目进行包装。他提出的建议都十分具有针对性,并能将整个团队高效的整合在一起。”更让人感动的是,作为“老板”的Thomas十分注重尊重每个人的时间管理,并更是不遗余力帮助员工进行职业规划与发展。


心之所向,行之所往

不想当将军的士兵不是好士兵,这一点几乎在每个行业都不例外。作为一个有清晰目标,有远大理想,有明确方向的研究员来说,创造属于自己的影响力(make big impact)则不容置疑。

Thomas总结道:对于一个研究人员来说,通常有三种方式来创造属于自己的影响力。第一种方式是最传统的方式,即学术影响力,从最基础的科研开始做起,通过自己的研究成果和技术创新来影响世界。第二种方式是行业影响力,进入工业界,为一个企业的产品部门或是研发部门贡献力量,解决产品中的问题,影响产品的决策,通过产品来影响无数用户。第三种方式则是社会影响力,虽然并不直接影响产品或是学术界,但能通过别的方式侧面带来影响。

Thomas来到微软亚洲研究院时,虽然工作和生活的环境发生了巨大的变化,但不变的是Thomas对于研究的热爱和追求。他的激情也深深影响着系统算法组的研究员们,他们共同朝着相同的目标努力——创造更大的影响力,这也是研究的乐趣所在。

基础研究——学术影响力的源泉

其实在微软,有很多基础研究项目,它们通常耗时多年才会开花结果,大家并不能一下子就用上这些研究成果,但微软始终坚持在基础研究上的投入。Thomas笑言他们组所从事的系统算法也许不是“最性感的工作”,但却意义重大。

系统算法组的工作主要是基于底层系统的研究开发,对数据库、云计算等从算法层面进行性能提升,但这些研究却在隐形地提升着每一个人的计算体验。不久前,微软亚洲研究院开源的GraphView就是这一类工作最好的证明

GraphView是一款中间件软件,方便用户使用关系数据库 SQL Server Azure SQL Database 高效地管理和处理大规模图数据。在过去,SQL等关系数据库是重要的数据处理方式,数十年的研究让SQL等关系数据库广泛应用于企业环境中,但近年来,随着图数据的大量增加,传统的关系数据库被普遍认为在图数据管理上效率低下。因此,企业管理和开发人员不得不采用专门针对图数据开发的原生图数据库,并投入大量的人力和物力来维护新的系统以及二次开发原生图数据库中那些还未成熟的功能。

Thomas和他的团队坚信,关系数据库无法高效管理和处理图数据的传统观念并不准确。因此陈亮担任了该项目的负责人,花了两年时间开发了GraphView这款中间软件。GraphView能够将关系数据库SQL ServerAzure SQL Database转化为图数据库。通过智能地使用关系数据库的数据结构和系统功能,GraphView在物理数据表达以及系统运行行为上和原生图数据库完全一致,从而填补了关系数据库和图数据库之间的鸿沟。

也就是说,作为一款基于SQL的图数据库,GraphView提供了原生图数据库所支持的全部功能。更重要的是,GraphView继承了关系数据库领域数十年的科研成果,例如最新的矢量化查询优化技术(Vectorized Query Execution)等等,从而可以提供市面上原生图数据库难以媲美的性能。可以说GraphView一次解决了原生图数据库的多个问题,并成功结合了关系数据库的众多优点。

开发图数据库和关系数据库中间软件的想法可能并不算是独一无二,但GraphView作为最终成果确是独一无二的。两年时间内,系统算法组的研究员们朝着这个目标日益完善自己的研究,当GraphView最终完成,走向开源,让更多的人可以接触并使用时,陈亮形容说:“这是对于任何研究员来说都是值得高兴的一刻。”

工程与产品——行业影响力的核心

系统算法组的很多研究成果都已经成功应用到了微软的各个产品和服务中。正如Thomas所坚信的那样,一个伟大的工程或产品都会带来极大的行业影响力。而微软亚洲研究院系统算法组与微软Azure部门向来合作紧密。

Azure是微软基于云计算的操作系统,它能够为开发者提供一个平台,帮助开发可运行在云服务器、数据中心、WebPC上的应用程序。但与之对应的是,Azure需要体量庞大的数据中心作为支持。如何不断提高数据中心的工作效率是产品组一直在改进的方向。

很长一段时间以来,数据中心的利用效率始终无法实现100%,这个问题困扰了无数专业人士。此外,用于云计算的每台机器的维护成本都很高,每1%的资源背后涉及到巨大的成本。除了预留出的缓冲区外,是什么造成了利用率不高呢?Thomas和系统算法组的研究员陈洋花了很长的时间建构了一个复杂、庞大而完整的模拟器来模拟整个Azure的机器、规则、行为,一旦Azure有想要做任何更新,研究员很快就在这个Azure模拟器上能进行模拟、了解资源利用情况,并依据模拟结果进行决策。这样无论产品组想在Azure上新增任何的功能,事先都会在这个模拟器上跑一遍。此外,研究小组还提供了绝佳的地调度和资源分配的算法,将Azure的利用率提高了十多个百分点。

Azure来说,Thomas与其他研究员们的这一完整的模拟器成为了一个重要的第三方,为Azure的改进提供了很好的基础。一组数据更是证明了Thomas所追求的行业影响力:在全球,目前Azure共有4.25亿活跃用户,57%的世界500强公司都在使用Azure,而且每月的新注册用户还在以10万的数量增长。在Azure上有60兆的数据储存,每月有超过7兆的储存交换,每天有2千万个SQL数据库在Azure上运行,而Azure上的网页更是有超过600亿的点击量。这其中每一步数据交换的效率提升,都受益于微软亚洲研究院系统算法组在其算法上的一次次改进。

更好的未来——社会影响力

Thomas和实习生们

除了学术影响力与行业影响力,Thomas也希望自己的工作能够带来更多的社会影响力。在微软亚洲研究院有众多与高校的合作项目和相关机制让研究员们在做好研究之余也能够抽出时间来培养计算机领域的后备力量。

Thomas在一次对外代表微软亚洲研究院的演讲上,遇到了清华“姚班”的创始人、2000年的图灵奖获得者姚期智博士。姚期智博士被Thomas的演讲的研究理念和前瞻性所打动,盛情邀请Thomas去清华大学担任兼职教授。而微软亚洲研究院本身也十分鼓励这样的机会,有着大量研究员在国内及国际高校担任教职的先例。从那以后,Thomas每周都会抽出一天的时间去清华大学授课,帮同学们答疑解惑。

Thomas每次去清华上课的时候都会带上一盒巧克力。他鼓励学生们在课堂上积极提问或是发表自己的见解和看法。当有同学能够提出一个很好的问题时,或是出现Thomas无法解答的问题时,他都会奖励同学一颗巧克力。工作之余,Thomas也会经常带自己的学生和研究员们出去“解放思想”。在一次体验密室逃脱游戏的过程中,这群智商超高的人在全程英文交流的情况下几分钟之内就解完了所有谜题,“逃”了出来,连店家也惊叹这是他开店以来见过解谜最快的一群人!Thomas还经常给研究院的实习生答疑解惑,无论你和他的研究领域是否相近,只要你在他的“咖啡时间(coffee break)”去找他,他总会欣然的和你聊上几句,从一个过来人的角度给出宝贵的经验。

就是这样一个“哈利波特”式的研究员,你和他的交流总会碰撞出许多类似于“魔法”一样的灵感闪光,他也用它独特的人格魅力,让每一个和他接触过的人都印象深刻。每一天,Thomas在上班和回家的出租车上和司机的捧哏的过程中都能加深对中国的印象与热爱,而位于中国北京的微软亚洲研究院,也始终敞开着她的胸怀迎接着来自世界各地有想法的研究者。



推荐阅读

微软亚洲研究院开源图数据库GraphView

刘铁岩:在微软大学的三次华丽转型

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:

 

 



 

人工智能、量子计算及脑科学 ——“新未来人工智能论坛”演讲实录

$
0
0

上周一(59日),由微软亚洲研究院和中国科技大学联合主办的新未来人工智能论坛在中国科技大学西区三教报告厅举行。论坛邀请了国内外计算机、量子信息和神经科学领域的权威学者跨界合作,通过主题演讲和专题讨论,与现场500多位合肥高校师生和高新区代表分享、探讨了人工智能的新未来。

出席本次论坛的嘉宾包括:微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长,电气电子工程师学会会士(IEEE Fellow洪小文博士;中国科学院院士、发展中国家科学院院士,中国科学技术大学常务副校长,中国科学院量子信息与量子科技前沿卓越创新中心主任潘建伟院士;美国国家科学院院士、中国科学院院士,中国科学院上海生命科学研究院神经研究所所长,中国科学院脑科学与智能技术卓越创新中心主任蒲慕明院士。如果说站在巨人的肩膀上才能看的比巨人更远,那么,听罢这三位大家的演讲你将看的更远。下面,小编将他们的演讲内容进行了整理,配合文章的视频效果更佳哦!

人工智能时代

嘉宾介绍:

洪小文博士。洪小文博士现任微软全球资深副总裁,微软亚太研发集团主席兼微软亚洲研究院院长,全面负责微软在亚太地区的科研及产品开发工作,以及与中国及亚太地区学术界的合作。洪小文博士是电气电子工程师学会会士,微软杰出科学家,国际公认的语音识别专家。

视频地址:http://v.youku.com/v_show/id_XMTU3MjY4MDc0NA==.html

演讲摘要:

大数据与人工智能

我们几乎每一天都能看到报道说人工智能又做了什么了不起的事情,比如下棋、无人机、无人车、语音识别等各种各样的应用。的确,现在的人工智能确实能做到一些我们人类传统意识上认为需要有智能才能完成的任务。如今的互联网和计算机技术让数据的收集和获取都变的越来越容易,而回顾数据本身,倘若我们说一个人博学多才,那本身就是在说这个人掌握着很多的数据。

事实上,包括微软在内,无论是世界前沿的科技公司、还是知名的研究机构,目前几乎所有的人工智能都是在利用大数据和机器学习算法来做一些有用的事情。怎么做好大数据研究?回看人类整个文明史,无论是哲学、各种学科理论、还是科学发明创造都离不开一个词——“反馈。如果你有一个新的假设和想法,想要实现这个想法,首先你需要做实验。你需要收集实验的数据并加以分析,从而在数据中找到其中的观察和奥妙(insight),随后你就知道要怎么推动下一步的实验,怎么样推动我的新想法,做下一个轮回。

智能的四个层次

在我们担心人工智能会不会变得比人类聪明,甚至最终取代人类之前,我们首先需要对智能做一个定位。什么是智能?我认为至少需要分为四个层次,分别是第一级,功能(Capability);第二级,智能(Intelligence);第三级,智力(Intellect);第四级,智慧(Wisdom)。

第一级功能我想是没有什么争议的,功能就是这个人能跑的多快,这台机器有多少内存等等。但是到了智能这个层次就开始有争议了。有趣的是,“智能”的概念是跟随着时代的发展而不断改变的。记忆力是一种智能吗?倒退几百年的话,显然是。科举、八股文所考察的首先是应试者对经典著作全局与细节的记忆。算术是一种智能吗?曾经是——《水浒传》里有位好汉叫神算子蒋敬,职司梁山钱粮支出纳入,可说是梁山一百单八将里少见的头脑与肌肉兼具的人才。那么下棋何尝不是这样的?IBM深蓝打败人下象棋是用的一种穷举法,其实从某种意义上讲跟开根号没两样。虽然现在的电视节目上可能还有人会表演能背到圆周率小数点后几千万位,甚至和计算机去比开根号,但这些简直是以卵击石,我想没有人认为计算本身是很有智能的东西。所以我觉得智能这个东西因时间定义都是会改变的。

第三级,智力(Intellect)。智力比智能更高一筹,这个字里包含了判断力、创造力等信息。对人类来说,每天我们面对的大多都不是选择题,又或是有着无穷选项的选择题。如果你今天需要完成一个任务,数据很齐全的话那就能很快地做出决定,例如找到两个目的地之间的最短路线,这件事情机器就可以完成。但是人们很多的重要决定都是在数据不足甚至没有数据的情况下做出的,例如下棋、炒股、德州扑克、麻将等等。从本质上讲,计算机能做的只有计算,而且计算机的算法还是来自于人类。

第四级,智慧(Wisdom)。智慧往往是由丰富阅历、深邃思考积淀而来的洞察——所以我们经常说某位长者智慧深广、堪为导师。所有的智能都不是用选项的形式来表述的,就像火种,它能在特定的时刻引燃人们思想的火花,照映前路。哪怕再过很久很久,机器也不大可能产生真正的智慧。图灵怎么样想到了发明计算机,牛顿怎么能想到力学三大定律,爱因斯坦的相对论甚至是引力波的提出,这些都离不开智慧。

人工智能需要有自我意识吗?

中文房间是由美国哲学家约翰·希尔勒(JohnSearle)在1980年设计的一个思维试验以推翻强人工智能(机能主义)提出的过强主张:只要计算机拥有了适当的程序,理论上就可以说计算机拥有它的认知状态以及可以像人一样地进行理解活动。

这个实验要求你想象一位只说英语的人身处一个房间之中,这间房间除了门上有一个小窗口以外,全部都是封闭的。他随身带着一本写有中文翻译程序的书。房间里还有足够的稿纸、铅笔和橱柜。写着中文的纸片通过小窗口被送入房间中。根据希尔勒的理论,房间中的人可以使用他的书来翻译这些文字并用中文回复。虽然他完全不会中文,Searle认为通过这个过程,房间里的人可以让任何房间外的人以为他会说流利的中文。

其实,我们目前所实现的人工智能都是类似于中文房间一样的人工智能。计算机虽然能完成一些特定的任务,但这不代表计算机真正能理解这些任务本身。

计算机需要有自我意识吗?其实人工智能是有两层定义的,一层定义是我们今天看到的人工智能,它能靠数据完成一些基本的任务。而另一层定义则是机器能真正理解它所接受的知识和信息。事实上,机器有没有可能产生新的算法,解决新的问题,这个问题就想相当于有没有一种能解决所有问题的技术。虽然这个问题目前还没有解,但毫无疑问人工智能会推动我们积极去探索更多未知的世界,就像人类造出的其他工具一样。因此我认为人和机器的关系是会很和谐的,人+机器的组合能发挥出超人的力量。

最后,有很多人会讨论人工智能到底可怕不可怕。举个例子,飞机很有用,我们人不会飞,但是我们造了个飞机帮我们飞上天。我们都知道飞机是有用的,但是也有恐怖分子拿飞机去撞楼,给人们带来了很大的伤害。但有没有人说飞机很可怕?我想并没有,其实控制飞机的人才是需要我们的关注。

神话、哲学、互联网与未来

嘉宾介绍:

潘建伟院士。中国科学技术大学常务副校长潘建伟院士,作为国际量子信息事业研究领域的开拓者之一,是在该领域有着重要国际影响力的科学家并取得了一系列重要意义的研究成果。他有关量子隐形传态的研究成果(论文《实验量子隐形传态》)入选了美国《科学》杂志年度十大科技进展,并同伦琴发现X射线、爱因斯坦建立相对论等影响世界的重大研究成果一起被《自然》杂志选为“百年物理学21篇经典论文”之一。在刚刚结束的2015年,他还被评为“2015年中国科学年度新闻人物”,20161月他获得了国家自然科学奖一等奖。

视频地址:http://v.youku.com/v_show/id_XMTU3MjY3NjU3Ng==.html?from=y1.7-1.2

演讲摘要:

信息交互——人类文明的助推器

从宇宙大爆炸开始,到最终进化出地球人类的生命,人类只在其中扮演了一个很小的环节,但却发挥了无穷的创造力。在我看来,信息的交互对人类的进化过程起到了很大的作用。

考古学家告诉我们,地球在同一时期曾存在着各种人属,比如有硕壮人和直立人,其实考古发现硕壮人也使用工具,而且硕壮人的脑容量相对来说比较大,而且也比较强壮,所以从这个意义上讲他在进化过程中应该能够胜出,成为我们现在这个地球的主人。

但事实上恰恰相反,非常有意思的是因为直立人可能由于某种很意外的原因,他们发明了符号与基本的语言。有了语言之后,当有几十个人的个体分享我们的知识来共同对抗自然界的时候,什么大象、狮子等动物都不在话下了,所以最后就进化成了我们的现代人。所以在这里面信息的交互和大家互相的帮助是非常重要的。

可以看出直立人在进化过程中胜出,信息的交互起到了非常关键的作用。所以如果我们把信息的交互作为互联网本身的雏形,我觉得互联网的出现,对于人类文明的发展进程来说意义十分重大。

量子计算会是未来计算机发展的方向吗?

信息的交互已经并且一直伴随着人类的进化和社会的发展,这里包含两个方向的问题,一个是信息知识的提取和信息交互的效率;另一个是隐私的保护。

当我们非常骄傲地在讨论人工智能、大数据的时候,回过头看一下,我们全世界计算能力的总和全部加在一起,大概一年都没有办法完成对280次方或者90次方数据的搜索,其实290次方是一个很小的数据,但我们大脑里面1千亿个脑细胞在一年里都数不过来,所以我们人类目前的计算能力是非常微弱的。

但是非常不幸的是随着半导体晶体管慢慢的接近纳米量级,我们原来的计算规则又不再可靠了,所以摩尔定律慢慢失效了,大家在问为了进一步解决计算的瓶颈我们要怎么办?未来计算机的发展道路在哪里?如果这个问题没解决,我们是很难进一步发展所谓的大数据或者人工智能等技术的。

有意思的是,一个新的科学——量子力学在近百年的发展过程中已经解决了这些问题,初步地做好了准备,我们甚至也希望能够通过这方面的研究来部分地回答人类意识是怎么产生的这个问题。

量子通讯,量子计算和量子模拟

大家都学过牛顿力学,牛顿力学告诉我们F=MA,一旦方程决定,粒子之间的引力都是可以定的,我们用微分方程就可以算出来,也就是,一旦确定了初始状态,所有粒子的未来运动状态都是可以精确预言的。但是量子力学却告诉我们,随便想一下,你对整个世界状态的演化都是会产生影响的。

量子的概念很简单,比如这里有一瓶水,我把它细分,最后看到一个水分子,这就叫做构成物质的最基本单元。我有个15瓦的灯泡,它每秒钟放射出很多电磁波,拿放大镜来看一下,又发现它每秒钟会发射出百亿个光子,你把一颗颗小颗粒找出来的时候,它就变成了能量的最基本携带者,但是它不存在二分之一个水分子,二分之一个铁原子,也不存在着二分之一的光,所以它是不可分割的。

光子因为在平时飞的时候有时会和周围的环境相互作用,所以你并不知道它在哪,这时候它就可以处于这样一种01的叠加。有了这种状态之后,就会产生一种非常奇怪的现象,如果有单个粒子可以处于0+1的状态,那么两个粒子可以处于00+1的状态,那这是什么概念?比如我见到洪小文博士的时候,我说我给你一个纠缠的骰子,我到北京去了,他在办公室扔那个骰子,六分之一的概率,随机得到16这个结果里的某一个,他扔的是2,结果我手中的骰子,也是2,他扔个3,我这里又是3。所以到了微观世界里会存在这样一种状况,就是两粒子体系,按照爱因斯坦的说法就是在遥远地点之间会有这样诡异的互动。当我们把这些东西开始用于信息科学领域的时候,一个新的学科就诞生了。通过这种方式就可以产生一种原理上无条件安全的通行方式。

另外,它利用这样一种所谓纠缠的概念,如果这里面有很多纠缠物质,比如蒲院士从上海到合肥旅行,我可以做一个测量,把两两的粒子都缩到010的状态,他得到这个状态之后,我把他从合肥过来的时候可以用同样多的物质把他重新构造出来,量子力学允许我们在量子世界里面可以实现筋斗云,异地传输。我们人大概是由1028次方的粒子构成的,我要传送这么大的粒子不可能。但是我能不能传输100个粒子呢?100个粒子估计在不久的将来就可以实现,利用这样一种所谓纠缠的概念,那就可以用来做量子计算了。假定里面有100个存储元,我同时可以对2的一百次方进行计算,因为它是同时存在的,这样就可以实现快速计算。在人工智能和大数据技术里如果要求解一个1024次方,编个方程组,利用目前的天河二号大概需要100年时间,但利用量子计算机只需要0.01秒。虽然要把筋斗云异地传送技术实现还是比较困难的,但是已经可以简单的用来做量子计算了。

量子计算很直接的就是量子模拟系统。目前我们在实验室里面已经能抓到200个左右的原子,每个原子都处于两个状态的叠加,所以我可以对2200次方的状态进行相关的操纵,我觉得我们大概会在10年里面达到这么一个目标。有了这个目标以后,至少在计算方面的能力会比目前我们全世界的总和加起来的平方还要多,所以这个东西本身就巨大地改变了我们的一些事情。

对于未来的展望,第一,利用量子通讯,我估计在10年左右的时间,我们有希望初步构建成一个天地一体的全球化量子通讯设施,这样我们个人的隐私能够得到更好的保护。

第二,在量子计算和量子模拟方面,我们大概会在510年里面基本上能够实现100个量子比特的相关操纵。当我能够操纵25个粒子的时候,它在某些特定计算问题的求解速度上跟我们的商用CPU差不多。当达到45个粒子的时候,它的计算能力就和天河二号差不多了。当然,这种计算能力不是通用的量子计算机,但我们能来做某一类特定功能。

所以随着技术的发展,我觉得量子计算应该会取得比较大的进展。但是我们终极的目标是希望通过对量子的研究能够为人工智能的研究、对人类意识的研究和产生起到一定推动作用。

脑科学可以给人工智能带来什么?

嘉宾介绍:

蒲慕明院士。来自中国科学院上海生命科学研究院、神经科学研究所的蒲院士现任中国科学院上海生命科学研究院神经科学研究所所长,是中国科学家脑科学卓越创新中心主任,中国科学家外籍院士、美国科学院院士,台湾中研院院士。2011年起,蒲院士任科技部重大科学问题导向973计划-人类智力的神经技术首席科学家。2012年起任中科院战略先导科技专项(B类)脑科学联结图谱的首席科学顾问。

视频地址:http://v.youku.com/v_show/id_XMTU3MjY3OTg3Ng==.html

演讲摘要:

人工智能与大脑

首先回头看洪小文博士提到的人工智能围棋AlphaGo的问题,我完全同意他说的,计算机之所以超过围棋大师其实没什么了不起的,不过是很好的计算机,计算能力比较强,算法比较好。但是,我们为什么不找个机器人跟李世石下棋呢?因为机器人根本不会下棋,它根本不能很准确的把棋子放到位,这个简单的动作机器人都做不到,只好找一个人来代替AlphaGo落子。所以真正下棋的还是一个人类,而人+机器才能真正下赢这个棋。

为什么我们说简单的操作机器都不行呢?以世界叠杯子大赛为例,哪一天机器人能够真正做到像叠杯子大赛的冠军一样精准了,那就真的是智能的另一个台阶了。所以说很多的操作是需要多感觉的融合,视觉、触觉融合起来得到的信息再加上感觉到运动的板块,记忆的提取,运动的计划和执行,这些都是非常复杂的网络。这个是我们现在机器人所做不到的。这也是未来人工智能的目标。

人的大脑最重要的一部分就是大脑皮层,就是因为有了大脑皮层,才造就了人类的智慧。而皮层的每个区域都有不同的功能,有管语言的,有管运动的,有管体感部位的,有管感觉视觉和听觉的等等。

复杂的神经网络

只有绘制出大脑图谱,我们才有可能知道大脑是怎么工作的,网络结构的图谱更是十分关键。现在,我们知道了线虫的图谱,但果蝇的图谱还不知道,可能5年到10年之内就能搞清楚,要是小鼠的,可能还要1520年。所以绘制真正人类的大脑图谱,也是数十年以后的事情。在没有结构之前,我们就不知道信息是怎么样在大脑里工作的。我们说未来从基因组到蛋白质组到未来几十年的脑连接组计划将是世界上最重要的生物学计划。

那过去的进展都有哪些呢?在神经元层面信息处理的一些基本编码储存信息我们已经理解得比较清楚了。从过去几十年以来神经科学的诺贝尔奖得主可以看出来,从神经信号的基本单元,动作、电波、脉冲的产生,到它怎么编码,怎么编信息,到信息传递的分子机制,视觉系统怎么样分析视觉信息,还有到最近两年前得诺贝尔奖的定位系统,哪些神经细胞在动物到什么位置的时候会有反应,这些都是在神经元层面的细胞编码。

但目前,我们对神经环路,即处理某种神经信息功能网络的理解还是非常有限的,尤其是谈到神经信息怎么样产生感觉、知觉、情绪这种基本功能或者是更高级的思维、抉择、意识这种高等功能,我们的理解都是极为粗浅的,还有很多新的东西亟待我们探索。

神经系统具有可塑性,我们人类所有的感觉、运动、认知行为都有相关的电波来传输,电波传过去之后造成的结果是神经细胞和它的突触,结构和功能要突变。神经系统使用之后,下个状态就变了,变成新的状态,而在新的状态下,它就是学习和记忆,所以认知的行为就发生了改变。就是因为有这样一种可塑性,才给了神经系统网络带来了非常大的功能,自我学习,适应各种环境变化的能力,我们说未来人工智能所需要的关键问题就是怎么样把这个可塑性能够放到网络里面,能够产生人的智慧。

神经网络可以借鉴的特性有什么?

首先是神经元的多种类型:包括兴奋性和抑制性神经元等。其实神经联接问题,我们现在的神经网络,包括BP(反向传播),多层的网络,基本上是往前顺行的网络,但神经联接其实是有顺向的,有逆向的,有侧向的,还有兴奋性和抑制性这两个不同性质的神经元,但这些在人工神经网络里面都没有都体现出来,而这些都是可以慢慢添加进人工网络里的。

其次是神经的可塑性,这包括三个方面。一个是功能的可塑性,即突触传递的增强与消弱(LTP/LTD);一个是结构的可塑性,即突触连接的新生和消亡(pruning);最后是依赖于电活动时序的突触可塑性(STDP);这些人工神经网络都可以进行学习的。

接下来还有逆向传播(BP)的扩展和有选择性的突触修饰传播;神经元的增生和死亡;短期记忆转化为长期记忆的机制;记忆的编码、贮存、提取、消退的机制;通过调质神经元的强化学习;使用嵌套式(nested)赫伯神经元集群网络;输入信息的图谱结构(Topographic organization);使用同步震荡和有相差耦合来捆绑神经集群等等,这些都是可以从神经网络里借鉴的特性。

当然我还有很多人脑启发未来信息计算技术上可能的功能。我们中科院为了这个目标成立了脑科学智能技术卓越创新中心,包括科大在内共有23个贡献单位,大多数是神经科学、生物学科和智能技术相关的,软硬件的研究所各占一半,我们希望将来能够实现学科的融合。

人工智能的未来,由你们创造

主题演讲结束后,在微软亚洲研究院学术合作总监潘天佑博士的主持下,三位演讲嘉宾共同就未来人工智能的走向、人工智能将带给人类什么样的机遇和挑战进行了讨论,并与现场学子进行了更进一步的交流互动。同学们更是脑洞大开,“量子计算机能否实现所谓的‘意识’?”“人工智能如果取代了人们的大部分工作,我们应该怎么办?”这类犀利的问题也得到了嘉宾们专业的解答。

例如对于这个问题:“现在的计算机不能实现真正所谓的意识,那么量子计算机可不可以实现所谓的意识?”潘建伟院士表示说,他对这个问题也不能给出肯定的答复,但是如果想要实现意识的话,目前看来量子力学是我们目前的理论里面最有可能接近的。例如机器人面对两瓶和自己距离一样近、消耗能量相同、路径一样的水,如果让机器人去拿水,机器人肯定不知道选哪个。那么这时就需要为机器人提前设计好规则,例如不知道拿哪个就选左边哪个之类的规则,但人类就不需要这样的规则设计。量子力学是具有随机性的,如果你没有盯着天上的月亮看的时候,月亮是不一定在那里的。在某种程度上来说,这种随机性就产生了,而意识有可能也就产生了。

最后,洪小文博士、潘建伟院士和蒲慕明院士为在场的学子们提出了人工智能时代下的学习建议。人工智能时代,目前很多的工作将来都有可能会被机器取代,在座的同学们需要学习一些多元的知识和理论,触类旁通,将知识连接起来。在人工智能时代,同学们需要充分发挥自己的创造力,最终我们需要驾驭机器,以及发明出更好的机器。因为每一次技术革命,都会让人类的生活变得更美好。



推荐阅读

人工智能,一个很好的“左脑”

我们需要什么样的机器人

欢迎来到隐形革命的时代

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:


 

赛先生专访 | 微软亚洲研究院芮勇:从基础科研开启革命性突破

$
0
0

作者:赛先生特约记者察日苏

芮勇在“科学中国行”讲座现场

“微软的经验是,如果想要把一件事情做好,一定要从基础科研开始。”

近日,IEEE(国际电气电子工程学会,全球最大的专业技术组织之一)计算机学会将本年度的Technical Achievement Awards(技术成就奖)颁发给了微软亚洲研究院常务副院长芮勇,理由是“其在多媒体分析与检索领域的开创性贡献(For pioneering contributions to multimedia analysis and retrieval)。”该奖设立于1985年,旨在表彰过去10-15年中做出的显著推动本领域技术进步的卓越研究和贡献。历史上获得此奖的学者包括IEEE计算机学会的首任主席EdwardJ. McCluskey博士,以太网络的发明人Robert M. Metcalfe博士等人。芮勇形容自己获奖是“Honored and humbled at the same time.”

相关反馈理论的萌生

​芮勇是南京人,早年就读于东南大学自动控制系,而后保送至清华大学攻读硕士,并考入伊利诺伊大学香槟分校(UIUC)攻读博士。他自言是个幸运的人,90年代中在UIUC读博士,那时互联网刚刚兴起,连浏览器都还没有,更没有互联网搜索引擎。就是在这样的背景下,芮勇独自开始了图像搜索研究。那是一张白纸,给你无穷的想象空间。 

30年前,图书馆就是个浩瀚的海洋。在找到你所需的信息之前,你务必要通过一个小抽屉,翻阅Index card(索引卡)来定位。当然这还需要技巧,因为很难一下子就找到想要的内容,简单的一个找资料的过程就会花费掉大量时间。

在现代人看来,这是难以忍受的低效,但在30年前,人们就是这么做的,要知道那时候还没有Microsoft和Google。好在当时的人们就已经在思考这方面的变革,“数字图书馆”项目应运而生,芮勇也身在其中。不过他想得更远,不仅仅是文本,多媒体、图片、视频、音频等这些是不是也可以搜索出来?再往前一步,不光是可以搜索,能不能把这个作为一个Query(查询),用一幅图片搜出更多的图片?这些思想火花一旦在脑海里出现,便难再熄灭。

当时,绝大多数人都是从机器视觉的Low level的Feature开始,对图片进行纹理、色彩以及物体形状的分析,然后寻找相似的图片。年轻的芮勇则独辟蹊径,走了另外一条道路。“我本硕学自动控制,这里面有个很有意思的理论叫反馈控制(反馈控制是指将系统的输出信息与输入信息进行比较,并利用中间的偏差进行控制的过程);博士读计算机,期间又读了很多跟ACM SIGIR(美国计算机协会信息检索专业组)、搜索有关的反馈,我当时就在想,这些反馈的机理是否可以应用在多媒体搜索上面?因为多媒体更需要反馈,一段文字就是一段文字,这很容易找到;但是一张图片就是一些Pixels(像素),除了0就是1,人想搜的东西和计算机能看到的东西事实上相差很远。”芮勇说。

曾经有人尝试用图片搜索来匹配一位穿着黄色衣服的女士,得出的结果居然是一条跟她长得有点像的狗,这样的结果让人大失所望,但这确实是传统图片搜索的局限:仅能从纹理和色彩上进行分析,在语义层次上面还差很远,这就需要Relevance Feedback(相关反馈)来支持。得益于芮勇的独创性研究,多媒体检索往前大大迈进了一步,相关反馈理论后来引导了很多研究人员、学者沿着这条路继续向前走。即便到了今天,我们依然可以看到众多商业化多媒体的搜索引擎,或多或少都用到相关反馈。

多媒体搜索领域的革命性突破​

“假如给您10个视频,编号按照1、2、3…自然数列排序,其中有一个视频有个小孩在笑的片段,怎么能够迅速找到?”

以往我们想要在视频中完成搜索,基本是两个办法:快进和快退,但芮勇却给了我一个新的答案:创建视频目录(Constructing table-of-content for videos),并由视频生成文字(Video to text)。

把一个没有结构化的视频分成不同的Short(节),节再分出一些Keyframe(关键帧),不同的节组成一个场景,叫Scene(章)。这就好比一本书,前几页要有个Table-of-content(目录)才方便检索。芮勇的做法就是创建视频目录,让一个无结构化的流媒体自动生成章和节,然后知道每一个节代表性的关键帧是什么样子,这样很容易就找到你想要的部分。在此基础上,让视频生成文字,即从一段段的视频生成人类可以看懂的一句话。这有些类似于图片搜索领域的图片生成文字(Image totext)。

从计算机视觉的角度来说,图片分析最早是抓出一些图片的点、线、面等,然后再看能不能给图片打上Tag(标签)?如果图片里面有只小猫、小狗或者植物,要看可否读取出来?这就到了识别阶段。如果把图片給计算机看,它能够根据图片的真实内容生成一句话,比如:两匹棕色的马在绿色的草地上边走边吃,这就说明它看懂了,理解了这不是一匹马,而是两匹马,不是红色的马,是棕色的马,还一边走一边吃。今天的技术已经可以在某些领域里实现这个目的,但更难的是给计算机一段短视频,让它来告诉人视频里在发生什么,让计算机生成一句人类能够懂的具备画面动感的话。而这个更难的任务,已经由芮勇的团队实现了,在芮勇展示的一段短视频中,计算机准确描述出了这个场景:一个运动员骑在一个飞奔的摩托上进行比赛。

《赛先生》了解到,该项成果刚刚被CVPR(国际计算机视觉与模式识别会议)所收录,芮勇将于今年7月赴大会作报告。

芮勇


人工智能的过去、现在和未来

早在1990年前后,芮勇就尝试使用人工神经网络(ANN)去预测某几个省下一周的用电量是多少,这样就可以最优化这几个省的水电厂、火电厂该发多少电,保证在最省火电的情况控制最大用水。

芮勇最初写的ANN(人工神经网络)就是一层隐含层、一层输入层和一层输出层,当年一层隐含层的ANN和现在的DNN(深层神经网络)有很大区别。后来芮勇没有继续写第二层隐含层,在他看来当时的条件还不支持他这么做:第一,训练样本不够大,因为有了第二个隐含层的时候,可调参数太多了,可能会过度拟合;第二,这个算法本身也有很多挑战,基于误差反向传播算法(Back Propagation)的ANN,每一层从错误求偏导,对每一个参数求偏导,当求第二次偏导时,要么是0要么就是1,算法所限使得这个网络不稳定;第三,计算能力也很弱,当年就是在一台386上面跑。数据量小、算法本身的缺陷和计算能力弱等原因,制约了ANN的发展。

90年代末期,SVM(支持向量机)开始取代ANN;到2009年的时候,ANN的发展有了新的名字DNN,隐含层变得很多很多,中间的激活函数用得也不一样,求偏导不是那么困难了。现在很多人谈论CNN(卷积神经网络),严格来说,CNN也属于DNN的一种,对二维图片的处理非常有用。但深度学习也包括一些非ANN做出来的东西,如果层数很深的话,也可以称之为DNN。我们今天用到的绝大多数的深度学习,同义于多层隐含层的ANN。

过去的八九年间,几乎在语音识别、语音合成、OCR(光学字符识别)、计算机视觉等领域比赛里面,获得第一名的基本都是用深度学习来做的。去年底,微软亚洲研究院的孙剑等人开发出了152层的深层神经网络,这是在已公开的资料中最多的层数。但苦恼的是,深度学习经常被诟病为黑盒子。你做好了,你也不知道为什么做好了;另外一个Task,你把它放进去,结果又不好了,你也不知道为什么结果就不好了。在芮勇看来,深度学习在理论方面的分析还欠缺火候,今天我们把深度学习当做一个工具来用,在各个领域都感觉不错,但为什么好?为什么是23层而不是25层?为什么每一层是1024而不是2048?深度学习的理论架构是回答不出来的。今天我们用到的目标函数还是跟50年前一样,但还有很多其他目标函数为什么没有去选用?怎么去做?这一系列的问题,都等着深度学习的研究者们来回答。

当问到人工智能的发展是不是也会遇到瓶颈?芮勇认为,很多事情的发展都是螺旋式上升的,就像ANN一样,在80年代末90年代初专家系统没落时,ANN兴起;到90年代末ANN走不动了,SVM(支持向量机)出来了;随着数据量更大,人们想是否可以在抽取Feature(特征)的同时,训练一个分类,于是更深度的DNN兴起,这就是一个循环上升的结构。“今后一定会遇到一个瓶颈,但是会因为某些别的条件发生改变,它又会有一次飞跃。“芮勇说。

人工智能的发展是否真的会威胁人类?

芮勇笑着说,如果你和真正在第一线做人工智能研究的学者交流,他们一点都不担心。大众的焦虑在于他们混淆了弱人工智能和强人工智能两个概念。

在弱人工智能领域,慢慢都会产生一些突破,比如说围棋、国际象棋等,只要在这些规则清晰、容易量化、可计算的领域,机器慢慢都会做,而且做得比人要好。但有没有一个机器能够在非监督学习的情况下,自己写出一段程序来战胜一个国际象棋大师?这才是最难的地方(强人工智能)。

可以肯定的是,任何有规则的、而且规则能够量化的事情,今后机器都会做,而且比人类做的都要好。如果一定要预测强人工智能到来时间的话,芮勇用“Never say never.”给出了回答。在他看来,这一天还非常遥远,人类不必过于担忧太远的事情。强人工智能在走近,人类的水平也在进步。

在芮勇看来,人工智能如果要做好的话,必须要有Common sense(常识)。对人类而言,几乎都不会刻意去想常识究竟是什么,但潜意识里面我们一直在用常识。

举例来说,小学时很多人都解过“鸡兔同笼”的数学题,总共有多少只鸡?多少只兔?总共有多少只头?多少只脚?人算很快就有结果。同样的问题让计算机来解,在非“人工+智能”(指的是机器和人一同协助)的情况下,计算机想要做好是非常困难的,因为计算机的常识和人类的常识相差甚远。在“鸡兔同笼”这道题里,老师是假设学生有常识的:一只鸡有一个头、两条腿,但机器无法理解。哪怕我们先把这部分的hardcode(硬编码)写进去,但明天老师变了个题目:鸭狗同笼,人类来解依然没有问题,但计算机就崩溃了:什么是鸭?什么是狗?我们继续改题,变成了“鸡兔同屋”,机器又不会了:屋又是什么?人工智能要慢慢往人类智能的方向发展,首先要解决的一个重要难题就是今天很多人都忽视的“常识“问题。这对人来说简单至极,但对机器来讲是难于登天。


人工智能与人类的关系该如何定义?

有人欢迎人工智能的到来,也有人担忧人类的未来,尤其是AlphaGo在围棋上击败了李世石九段,人工智能究竟会发展成什么样子?

在芮勇看来,由于那些规则清晰的工作任务都会由计算机做得越来越好,因此关心人类未来,真正应该问的问题是:哪些行业里面的哪些工作会被人工智能所取代?以速记员为例,很简单的一些常规速记工作会被取代;但是一些高端的、当事人说话有口音的、需要专业背景知识的速记工作则很难被取代。因为计算机没到这个水平。总而言之:任何一个行业中的低端的、可重复性的、不具备创造性的工种会被取代。

计算机和人是各有优劣势的,计算机只是一个工具,如果我们回到过去,早期人类种地的时候用石头刨坑,后来改用青铜器,工业革命后出现了拖拉机,拖拉机的力气比人大很多,和人类是互补关系。人工智能也一样,会在一些人类不太强的部分形成互补,比如无限记忆π后面的小数点位数。因此人不应是弃用人工智能,而是善用。

芮勇认为,人类和人工智能应各自发挥各自的长处,去做到他们任何单独一方都无法做到的事。人类强在创造性和发散性的思维,计算机强在记忆力和计算能力,双方结合在一起会发挥巨大价值,这就是“增强智能“的概念。就像人类的左脑和右脑,人类的左脑主要负责记忆和逻辑推理,而右脑主要产生创造性和发散性思维。很多艺术家都是右脑发达,人们其实讲不出来艺术家作画和色彩选用的原因,但最终的成画却让人感觉很舒服。从人工智能到增强智能的演变,并不是说人工智能要完全取代人类,而是人工智能会成为人类得力的助手,使人类更聪明、更强大。


微软认知服务:开放的人工智能平台

前段时间,微软因为一个测年龄的APP(how-old.net)火了一把,背后主推的是微软认知服务。芮勇说,本来只是想向大家展示一下我们的服务能做什么事,打算上线一周就下线,结果发现太受欢迎,各个国家都在用。

芮勇表示,推出微软认知服务是希望打造一个共赢的生态圈,毕竟很多东西是在微软平台上做的。“希望我们成为一个台阶,让别的企业站在我们的肩膀上,去做对他们来说更重要的事情,而不是重新去做我们已经经历二、三十年时间所做的科研工作。”微软的平台是全球最顶尖学者做了20多年得到的成果,对小企业来说开发成本非常高,今后开发者直接调用API就可以了。

但开发者通常还有一个顾虑,认为大公司开放的平台并不是他们做的最好的,肯定还有更好的。芮勇表示微软不存在这个问题,并希望加大和其他企业的合作。


微软经验:一切从基础科研开始

25年前,比尔·盖茨成立微软时,邀请了CMU(卡内基梅隆大学)的教授Rick Rashid担任微软研究院的首位负责人,Rick给研究院定下了三大使命:

1. Advance the state of the art in all fields incomputer science.

2. Rapidly transfer the technology into Microsoft products.

3. Insure Microsoft has a future.

“向前推进现有的计算机科学水准“是微软的首要目标,现在SIGGRAPH、CVPR、ACM Multimedia等顶级学术期刊会议上有不少来自微软研究院的文章。

芮勇强调,微软和很多企业的研究院有一点很大的不同,微软非常注重基础科研,投入非常大。今天耳熟能详的互联网、GPS,都是从基础科研里面发展起来的,但当时没有人想到这有什么商业价值。微软的经验是,如果想要把一件事情做好,一定要从基础科研开始。

“我们研究院项目选题的方法,基本都是由下自上的,我几乎从来不告诉我的团队你必须要做什么样的项目。”给研究员充分的空间,很多的自由,让他们放手去做,但芮勇强调一点:在做之前要好好考虑做一个东西到底靠不靠谱?类似的东西为什么上次A做失败了,这次B就会成功?“但是我永远都不会限制他的发散性思维,学术上的自由,对基础科研的重视,才使得我们这么多年做出了一点点的成绩。”芮勇说。

想当年,博士毕业时,芮勇面试过很多景仰已久的大公司,但最终选择了微软。因为微软的面试环节给他留下了深刻的印象,面试官包括图灵奖的获奖者、激光打印机的发明者以及机器学习领域先驱等20多位计算机界的大牛,每一位都和他聊了一个小时,每轮面试都是一场战役。“当时就觉得,能和这么多大牛在一起共事,不给我工资也愿意啊!”芮勇笑着说。

“What 和 Why 永远比 How 更重要”

有感于芮勇的丰富经历和科研成就,《赛先生》记者请芮勇分享了他的科研选题心得。芮勇略微思考后答道:“What和Why永远比How更重要。How意味着你只要辛勤工作把东西做出来就ok,但怎么想到才是关键。“

芮勇建议,学者首先要紧跟科研潮流,参加一流的学术活动,就是多去参加相关领域最顶级的学术会议,不管是人工智能,还是机器学习,只要是行业里面最顶级的,就要去,去了就会有感觉,就知道今后这个领域的大方向往哪里走。然而,光有学术界的了解还不够,还要看清楚工业界发展的方向在哪里?因此可能要去结交一些初创公司的朋友,或者和天使投资人多交流。除了算法上的进步,基础科研上的创新,可能还有商业模式的创新,或者是几者的结合,多方了解后,就会看到趋势何在。比如,假如现在去硅谷,就会看到两大潮流,一个是以Uber、Airbnb为代表的共享经济,另一个就是AI(人工智能)+HI(人类智能),人工智能和人加在一起才能做一些很大的事。最后,各个国家各个地区制定的发展规划也很重要,比如中国制造2025、德国的工业4.0和一些国家提出的大脑计划等等,如果能够将它们结合,就能找出一个新的潮流,此时你的选题就正确了。

​结语

25年前,25个人在美国的西雅图成立了Microsoft Research(微软研究院),这承载着当时年轻人的热烈梦想;白驹过隙,在人工智能高速发展的今天,人类探知未来的梦想依然热烈,生命不息,好奇不止。人类和人工智能之争还存在着第三种可能,不是谁取代谁,而是彼此能够成就更好的彼此,共同迈进未来。

愿这一天早日到来,而我们也将尽情享受这到来前的每一天。

​本文转载自微信公众号:赛先生,ID:iscientists,已获转载许可。


推荐阅读

人工智能、量子计算及脑科学——“新未来人工智能论坛”演讲实录

欢迎来到隐形革命的时代

微软认知服务:人工智能的技术拼图

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:





 

“编程之美”决战上海滩: 直上云霄,看我一码当先

$
0
0

2016525-26日,编程界一年一度的盛宴——微软“编程之美“挑战赛再次拉开帷幕。从2016编程之美挑战赛层层选拨中脱颖而出的60名青年高手在上海微软科技园区展开了一场没有硝烟却“键影重重”的巅峰对决。

作为第七轮中美人文交流高层磋商系列活动之一,2016编程之美挑战赛决赛由中华人民共和国教育部支持,教育部留学服务中心、微软公司、电气电子工程师学会(IEEE)主办。本届大赛以“智能云”为主题,邀请了来自美国的同学与中国学生共同组队参与本次决赛的友谊赛,旨在提升中美两国青年开发者在智能云平台上的综合实践能力,加强跨学科、跨地域交流与合作,激发中美学生在这一高科技领域上的创新思维火花。

2012年起,编程之美挑战赛这个面向高校学生的大型编程比赛已成功举办了四届。今年,共吸引了来自150所高校的20000余名学生的热情参与,除传统的编程赛外,本届大赛还特别增设了创意赛,以鼓励非计算机专业的青年学生充分发挥自身在不同学科领域的创造性,用全新的方式探索、呈现编程之美。最终,来自工业设计、广告学、管理信息系统等不同专业的创意赛15强选手和编程赛复赛15强团队在决赛组队,共同完成了他们各自的决赛作品。

面对一群年轻而充满想法和行动力的选手,微软亚太研发集团首席运营官、微软亚太科技有限公司董事长、微软中国云计算与企业事业部总经理申元庆先生在决赛开幕词中表示,作为新一代信息技术和产业发展的核心,云计算正在与大数据一同驱动着传统产业的变革和新型产业的蓬勃发展。希望同学们借由微软智能云平台Azure,利用大数据、微软云技术和智能云服务,结合自身的洞察力来解决实际问题,感受编写代码所创造的智能之美。

微软亚太研发集团首席运营官、微软亚太科技有限公司董事长、微软中国云计算与企业事业部总经理申元庆先生在决赛致开幕词

此次决赛的两道赛题都十分富有挑战性,结合了微软于今年4月最新发布的基于云端的智能服务——微软认知服务,题目分别为智能电子相框及海量学术数据的分析与可视化。选手们根据自己团队所选择的题目,展开了26小时的编程马拉松,从作品方案、呈现和核心算法等各个方面进行讨论和实践。而友谊赛的赛题与决赛的难度可谓旗鼓相当,赛题:搜查大数据金融中区块链(Blockchain)上的可疑交易模式,让选手们可以使用并分析Gcoin区块链在g-coin.org的数据,通过微软先进的云技术当一次金融“侦探”。

比赛选手为大赛评委微软亚太研发集团首席研发经理邹欣及微软亚洲研究院主管研究员邵斌介绍自己团队的项目

“能和中国学生在一起合作我很激动,特别是我们知道了这些参赛选手都是来自中国一流大学的,所以这是我们学习、交流的好机会”,来自上海交通大学密歇根学院的美国学生AshirvadVarma表示,和中国学生一起合作是他前所未有的体验,队里的每个人都有着非常强的专业和沟通能力,这让他所在的团队成为了一支出色的队伍。“经过这次比赛,我不仅学到了更多中国文化,而且在团队协作中找到了自己的定位,发现了自己的优势。”

左一:来自上海交通大学密歇根学院的美国学生AshirvadVarma

香港大学的黄清纬同学表示编程之美的组队系统非常有趣,他通过线上聊天和一位远在加拿大英属哥伦比亚大学的同学进行了灵感碰撞,并成功组队。经常参加各类比赛的他认为,除了算法之外,编程之美还十分注重考查选手的团队能力。“单凭一个人的力量很难在24小时内面面俱到的完成一个项目,但通过分工协作的方式我们能够很好地展示出一个完整的作品”。此外,黄清纬同学还表示,此次编程之美比赛无论是初赛、复赛还是决赛都紧跟热点,调用云计算等最新的前沿科技,令他受益匪浅。“我从比赛中学习到了很多新知识,这本身就是编程之美”。

“这是我第一次真正与编程专业的人员合作开发一个项目,我能感受到理性与感性的碰撞。”来自江南大学交互设计专业的付雪伦同学一直对IT公司十分向往,在得知编程之美开放创意赛的消息后,她制作了一套完整的UI设计和产品策划,并因此获得决赛资格并担任团队中的UI设计师。付雪伦表示,“我曾经以为设计一个成功的产品最重要的是抓准用户需求然后发散思维,但在与队员相处的短短十几个小时中,我就意识到仅仅有创新想法是不够的,还要贴近现实、充分利用现有技术进行开发并且要不断地优化。”同时,付雪伦同学的设计思维也让团队的最终作品拥有了新潮、时尚感。跨学科的整合将不同擅长领域选手的智慧进行了融合,更好地激发了同学们的创新活力和创造智慧。

付雪伦所在的团队选择了“海量学术数据的分析与可视化”赛题,并设计了“Fig-words Academic”这个作品。对于该作品,团队成员介绍:用户出于某一类别的需求(例如,论文开题分析、学术领域检索、发表期刊会议检索、论文作者检索等)在该系统中输入想要搜索内容的关键词。随之,系统生成联想并反馈给用户关联词的热度和搜索量,直观地帮助用户输入完成余下的内容并缩减歧义。搜索到结果以后,系统会根据用户搜索需求所属的类目对页面布局进行规划排序,在最醒目的位置展示给用户最符合他们需求的内容(例如,学术领域检索在布局中心反馈论文关系图,领域热度走势、领域牛人等),用户也可以根据自己的需求切换到其他相关内容。同时,该系统还可以将调用的数据以最适宜的可视化形势展现给用户,通过可视化的形式更直观、准确得帮助用户进行决策。最终,系统会生成相应的分析报告,给用户一个最佳反馈。“Fig-wordsAcademic”最后获得了本届编程之美挑战赛的亚军。

来自中山大学的杨剑飞,王钦,高逸斌及山东大学的殷锟所组成的团队以其作品“Percepicture”摘取了2016编程之美挑战赛的桂冠。评委对“Percepicture”给出了“算法与应用并重,智能与数据同行”的充分肯定。该团队选择的题目是“智能电子相框”,其作品主要用于展陈、家居、旅行等场景。特别是在展陈当中,用户无需触摸屏幕,直接通过手势即可进行对于旋转图片,翻页等功能的操作,大大提高了用户体验。

Percepicture”的设计充分地利用了微软认知服务中的API。基于Web前端和Python服务器所构建的“Percepicture”语音搜图系统,通过微软认知服务中的语音识别API和语言理解智能服务(LUISAPI将用户的语音通过理解、转化得到用户的意图。而图片库中的图片则是经过图像识别API进行预处理,将图片的特征信息提取出来。当系统将用户意图与图片库中的图片特征进行匹配就可以得到用户想要的图片了。在关键词匹配的算法方面,同学们创新地使用了word2vec深度学习模型。他们对图片的标签语料进行训练并把词语映射到高维向量空间中,将词语匹配过程转化成数学向量相似度计算。在当今的大数据时代,这既扩展了搜索的广度又加深了搜索的深度,从而提高了搜索的准确率。在UI方面,为了使交互更加友好同时符合展览应用场景,系统中植入了基于手势识别的体感操作,整个系统可以通过语音和体感两种方式进行控制,大大增强了趣味性和互动性。

在颁奖晚宴上,冠军团队的四位同学身着民国时期的服饰,倾情演绎了一场90后版本的“新上海滩“。青春的面庞充满朝气和自信,将晚宴的欢乐氛围推向了高潮。

此外,本届大赛新增设Ada奖,以鼓励女性同学在编程之美比赛中的优秀表现。大约200年前,英国著名诗人拜伦之女Ada,凭借优秀的诗歌基因加上后天扎实的数学训练形成了她“诗化科学”的思维模式,完成了世界上第一段程序雏形,Ada也被认为是历史上第一个程序员。在颁奖晚宴上,微软中国云计算与企业事业部首席产品经理李京梅女士为本次大赛冠军队伍的殷锟同学佩戴了Ada徽章。

“在看我来,编程之美这种探索新事物的过程是十分美妙的。” 微软亚洲研究院学术合作中国区经理马歆女士认为,过程的美妙不仅体现在比赛的趣味性,更重要的是让所有的参赛者在比赛过程中不断学习新的内容,挑战自我并且迅速成长:“在整个大赛进行的过程中,我们每周都会邀请微软优秀的工程师以及往届编程之美的优秀选手通过线上课程、直播交流群、干货总结等方式进行知识和技术分享,为同学们搭建了一个自助学习平台。不会编程的创意赛选手通过编程之美开始接触编程,了解计算思维,从计算的角度重新审视自己的学科,并提出两者结合的可能性。编程赛的选手则通过参加比赛了解微软的最新技术,比如微软认知服务,它可以帮助学生们轻松地实现一些创新想法,解决生活中的实际问题。这对于青年学生以后的学业和职业生涯都有很大帮助。而在决赛过程中,全新的组队模式意味着每一个队员都要充分发挥主观能动性,找准自己的定位,发挥自己的优势帮助团队解决问题。”

微软亚洲研究院学术合作中国区经理马歆

支持本地化人才培养是微软公司对中国教育的长期承诺,致力于创新人才培养的编程之美挑战赛则是履行这一承诺的表现之一。微软希望编程之美的理念可以传递给更多的人——只要有美丽的想法,能够将专业知识与编程相结合,使人们沟通更加便捷、生活更加便利,让我们的世界更加美好,这就是编程之美。

期待所有参与本届编程之美的青年学子,通过这次比赛满载收获与成长,在未来的征途一往直前,所向披靡!

推荐阅读

【年度研究院活动合集】从编程之美到二十一世纪的计算大会…

与全世界的年轻人同场竞技?够胆你就来!

欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:



 

池内克史:从心所欲,不逾矩

$
0
0

Katsushi Ikeuchi

在微软亚洲研究院,有一位很受年轻人欢迎的日本研究员——池内克史(Katsushi Ikeuchi)。今年67岁的他仍然时刻保持着十足的活力,走起路来步伐轻快,脚下生风,标志性的微笑总让人印象深刻,同事和实习生们亲切地叫他“Katsu”。在Katsu的身上总有一种与年龄不符的朝气,而这正是源于他对自己研究领域经久不衰的热情,也源于微软亚洲研究院带给他的惊喜。

“在微软亚洲研究院可以把想做的事情自由地结合”

在来到微软亚洲研究院之前,Katsu就已经是计算视觉和人工智能等领域赫赫有名的大师级人物。博士毕业于东京大学的他曾在美国工作,任麻省理工大学人工智能研究室研究员、卡内基梅隆大学计算机系主任研究员。与此同时,池内克史教授至今所获得的计算机科学的世界性奖项数目众多,培养过的学生也不计其数。

原本已是应该退休的年龄,Katsu却选择了来到微软亚洲研究院继续他的研究生活,对此Katsu是这么说的:“因为在这里,我可以继续做自己想做的事情,进行更多的探索与整合。”在人工智能领域,Katsu一直在钻研如何更好地发掘机器人的服务功能。他目前正在研究的一个实体机器人项目(Physical Robot),希望通过动作分解和机器学习,使机器人可以对人的行为动作进行高精度的模仿。在微软亚洲研究院,他恰好可以把这套技术和研究院已有的虚拟聊天机器人等人工智能相关的技术相结合,希望打造出一款服务型、人性化的实体聊天机器人。“七十而从心所欲,不逾矩”的生活,正是年近七旬的Katsu一直追求的状态。而现在,他在微软亚洲研究院终于实现了“从心所欲”的科研常态。微软亚洲研究院为研究人员们提供了广阔自由的开放研究空间,无论是基础研究还是应用技术,都能在这里得到自己需要的资源。Katsu还特别提出,微软亚洲研究院是一个朝气蓬勃的研究机构,有着许多有想法的年轻研究员与活力十足的实习生们,Katsu很喜欢和他们交流,“他们总有些奇思妙想值得我学习。”

微软亚洲研究院

然而这并不是Katsu第一次与微软亚洲研究院结缘,虽然他身处高校的研究机构多年,但是他最看重的还是跨界研究。在他看来,无论是学术界的基础研究还是工业界的应用研究都不能“单打独斗”,只有找到契合的节点,将二者相互融合,才能最大限度的造福大众。“将基础的理论研究进行应用,在实际应用的过程中发现新的问题,再来对基础研究进行修正,这样才能构成一个闭环”,他说。而对他来说,微软亚洲研究院正是实现这一闭环的不二选择,这一切都促成了他最终来到这里,开始他的新研究时代。

强人机交互:实体机器人 聊天引擎

提高人机交互水平,增强机器人的服务功能与体验一直都是Katsu的热情所在。实现这一点的关键在于把实体机器人的功能开发得更加完善,让人们能与真实可见的机器人进行深度交互。

微软的人工智能姐妹花“小冰”和“小娜”大家可能都不陌生,作为虚拟聊天机器人,小冰和小娜背后离不开微软亚洲研究院的自然语言理解、图像识别、语音识别等技术的强大支持。Katsu希望他能为这类虚拟聊天机器人增加更多的交互意味,让机器人能够站在人们面前,利用表情、手势等丰富的肢体语言灵活地进行交流。

正在进行聊天动作实验的机器人

非语言沟通其实是人们交流中非常重要的一个环节,为了让机器人和人们的聊天过程不再呆板枯燥,研究员们需要为机器人在聊天的过程中匹配相应的动作和姿势。Katsu的研究小组让机器学习了大量人类之间聊天的视频,从中观察人们聊天时会做哪些行为姿势,并进行分析和学习。学习人的动作姿势是一个复杂的过程,如果能对聊天的关键动作进行分解,则会大大提高机器人学习的效率。

Katsu采用了一个特殊的动作分析法——Labanotation来分解动作。Labanotation(拉班舞谱)是捷克舞蹈理论家拉班自创的舞蹈动作记录法,该舞谱以数学、力学、人体解剖学为基础,运用各种形象的符号,精确、灵便地分析并记录舞蹈及各种人体动作的姿态、空间运行路线、动作节奏和所用力量,如今已经被公认为一种既科学又形象、并富有逻辑性的分析记录体系。通过利用Labanotation,机器人在观察人的动作后,将其解码为“舞谱”的动作路线并记录下来,然后再映射到机器人的动作上,增强与人的动作的相似度。

拉班舞谱

会跳台湾民族舞的机器人

除了人机交互,Katsu还将Labanotation技术用在了保护濒临消失的非物质文化遗产上。早在进行实体机器人的研究之前,Katsu就尝试用计算机对濒临消失的台湾原住民族舞进行记录。

台湾原住民被认为是南岛语族的起源,共有14个部族被确认。他们没有书写系统等成熟的记录方式,因此随着时间的流逝,一些传统文化也面临着消失的危险。时间久远,一些原住民也渐渐忘记了他们属于哪个部落。Katsu通过大量的调研了解到,几乎所有部族都有自己的节日舞蹈,他们通过跳舞来寻求祖先保佑,祈祷晴天/雨天,或是寄托美好希冀。在他们的文化里,舞蹈更是一种身份的象征,通过舞蹈甚至可以判断舞者的部落、方言甚至社会地位。

台湾高山族舞蹈

对此,Katsu提出的结局方案间距创意与可行性:通过机器人来将台湾原住民族的舞蹈记录并保存下来,既可以对当地的舞蹈文化进行保护,又可以为后续的历史文化研究提供依据。和实体机器人学习人类聊天时的动作类似,机器人对人们的舞蹈也依据拉班舞谱进行关键帧的分解,再对动作及其力度和速度等进行模仿和学习。Katsu和研究员们邀请了40位台湾原住居民进行表演、录制视频,让机器人进行观察和学习。最后,机器人通过学习获得了一项新技能,那就是可以跟随音乐跳出好几种不同台湾原住民的民族舞蹈。

把文化遗产保护进行到底

用先进的计算机技术保护文化遗产一直是Katsu的心愿,如果你对Katsu的研究项目有所了解的话,你会发现他的许多研究项目都是从非盈利的慈善角度展开的。他用“e-Heritage (数字遗产)”这个词来概括他的这些研究项目。谈到为什么对这些数字遗产的研究充满热情时,他说:“因为这些文化遗产是无价的,他们不可替代,但又濒临消失。用数字化的方式记录下来,一是为了保护遗产本身;二是为了后续发挥他们的教育功能,让更多的人能看到这些文化遗产的美;三是记录下这些宝贵的数据还可以用于考古等研究。”除了用机器人模仿民族舞蹈等非物质文化遗产保护项目,Katsu还利用3D成像等技术对吴哥窟等重要的物质文化遗产进行数字化处理。        

高空传感器

‘以吴哥窟的3D重建为例,这是一个漫长的过程。首先要通过各种传感器对建筑物的图片进行全面采集,各个角落都不能放过。对于高度较高的部分,Katsu采用了带氢气球的高空传感器(Balloon Sensor);对于狭窄区域,则利用可以攀爬的传感器(Climbing Sensor)。采集到大量的图片后在计算机上进行对准和校准,再融合成立体模型,而在融合的过程中还需要不断的修正。经过不断地校准和修正,最后呈现出吴哥窟的高度仿真3D模型,同时对吴哥窟进行全面详尽的考古测量和记录,为学术界提供包括海量数字化信息在内的第一手资料。这种精确记录为文化遗产的永久保存提供了可能。

3D模型的构建过程

目前,Katsu的团队正在和北京大学信息科学技术学院查红彬教授的团队进行合作,对洛阳的龙门石窟进行数字化呈现。数字文化遗产保护不仅是Katsu团队深耕的领域,还是微软亚洲研究院一直重视的科研方向之一。 2011年,微软亚洲研究院向敦煌莫高窟捐赠为其量身定制的十亿级像素数字相机系统“飞天号”,帮助解决莫高窟的保存难题,助力文化遗产数字化。

从民族舞蹈到历史建筑,Katsu的科研角度可谓丰富多彩。可以说,他是一位艺术气质浓厚的“非典型”计算机科学家。在他的研究中,艺术和计算机科学这两个截然不同的领域总是能碰撞出新的火花。而Katsu对艺术和科学的融合有着他自己的独到见解:“如果说20世纪的艺术和科学还是两个相互分离的领域,那么21世纪则是艺术与科学相互融合的时代,例如电影技术与电影艺术等等。我要顺应这样的趋势做出创新!”

“Have some beer!”

“Have some beer!” 是Katsu的口头禅。Katsu的家人都在日本,他说微软亚洲研究院就是他在中国的“家”,闲暇时和同事们喝点啤酒是Katsu特别享受的事情。Katsu的研究团队由来自中国和日本的研究员和实习生组成,虽然文化背景不同,但大家的相处十分融洽。在研究过程中,遇到分歧是常有的事情,但和别的团队不同的是,Katsu的解决方式是请大家去喝啤酒,一边喝酒,一边讨论,很多天马行空的创意就是这样迸发出来的。

按年龄算,Katsu在微软亚洲研究院可以算是很多人的长辈了(其实他还是微软研究院很多研究员的导师哦!),然而大家却觉得Katsu完全没有长辈的“架子”,相处起来总是很随和、亲切。Katsu经常调侃地称自己为“Old Man”,要多和年轻人“混在一起”。乐天派的他经常和大家一起去公司的健身房健身,然而在一群年轻人中却毫无违和感。       

探索新领域:Idea > Paper

作为国际计算机视觉和人工智能领域的知名学者,Kastu的国际影响力毋庸置疑。2016年6月3日,“日本版的ACM”——日本信息处理学会(Information Processing Society of Japan (IPSJ))将2015年度功劳奖颁给了Katsu,以表彰他在计算机视觉领域做出的卓越贡献。此前 Kastu还曾获《IEEE模式分析与机器智能汇刊》(IEEE-PAMI)颁发的“杰出学者奖“和由大川基金会(Okawa Foundation)颁发的奖项——Okawa award等诸多奖项。

而在科研之外,培养人才也是Katsu生活中重要的组成部分。看到一批批学生的茁壮成长,Katsu非常欣慰和骄傲,其中有的已经在学术界小有名气。如今,Katsu已经指导了近50位的博士生。石凡是Katsu团队的实习生,目前大四的他正在Katsu的指导下做毕业设计。“他不会跟我说具体要怎么做,而是为我们指引一个方向,引导我自己去解决问题,这让我受益匪浅。”Katsu建议有志于学术的年轻研究者们,“在探索新领域时,最先重视的应该是idea, 而不要去在乎能出几篇paper。”

正如Katsu所说, 寻找思路比在意成果更重要!经常迸发出新的想法,同时不断更新和修正自己的思路,就是Katsu不断开拓新领域的密钥所在。

不管是在实验室,还是在健身房,你都能见到神采奕奕的Katsu。他总是把全部的热爱都投入到当下的生活与工作中。而在微软亚洲研究院,还有很多这样既纯粹而又富有活力的研究员,他们来自世界各地,但对自己的研究领域都倾注着不同于常人的热爱。同时他们又凝聚在一起,共同打造着技术的未来。



 
Viewing all 620 articles
Browse latest View live