Quantcast
Channel: 微软亚洲研究院
Viewing all 620 articles
Browse latest View live

微软人工智能计划背后的华人力量

$
0
0

今年的微软Build大会上,微软CEO萨提亚·纳德拉展示了一款能够订购达美乐Pizza的机器人。方法很简单,只需要对着你的移动设备说“想吃Pizza”,约定时间内,Pizza就被送到你的手里——不用点开某个叫餐软件,甚至不必打字。就像是有个人坐在后台,随时待命。

会点Pizza的机器人

没有人坐在后台待命,是读取和深度学习达美乐点餐全流程的虚拟机器人完成了所有操作。微软给这个黑科技项目取了一个并不花哨的名字——“机器人智能”(Bot Intelligence)。整个项目展示只有短短5分钟,但对微软而言,意义重大。掌管微软整体技术研究的执行副总裁沈向洋告诉《商业周刊/中文版》,“机器人智能”是机器人架构(Bot Framework)的核心部分,嵌入了深度学习、语义理解等人工智能技术,第三方开发者能够通过机器人架构这个平台来创建不同功能的机器人。它直接关系到微软的未来——不仅仅是订购Pizza,微软希望,不同企业可以像达美乐那样利用微软的平台更简单地制作并运行自己的智能机器人。彭博社撰文指出,这是一个崭新的市场,以至于Gartner和Forrester等调研公司还没有摸清楚它的规模,这很可能会非常庞大。

这项终极目标是要让机器替代人类的技术背后,集结了微软众多科学家的智慧,尤其是几年来在人工智能领域的研发成果。每年微软都有接近100亿美元投入在研发上,其中很大一部分集中在人工智能。据沈向洋介绍,在全球微软有1000多名研究人员,至少有三分之一都在研究人工智能。在这庞大的科学家队伍中,华人面孔的科学家,成为微软人工智能战略背后的核心研发力量。

“(微软CEO纳德拉展示的)这个Pizza机器人的大脑,就是我们做的。”38岁的聂再清对《商业周刊/中文版》说。他是微软亚洲研究院资深研究员,带领着一个有8个研究员的小组,过去十余年都在主攻大数据挖掘和机器学习。“简单说,(我们的工作)就是让机器能够理解用户的自然语言并构建知识图谱。”他说道。

聂再清

这个研究小组的成果,促成了Pizza机器人和其背后“机器人智能”技术的诞生,也让不同企业利用微软的平台制作并运行自己的机器人,成为了可能。

今年3月,聂再清代表亚洲研究院,在美国华盛顿州雷德蒙微软总部一年一度的Techfest(微软技术大会)上,展示了这项成果。他仅用了几行代码,制作出一个能够用于企业内部预订会议的机器人。当时,纳德拉坐在不到5米远的看台上,在他旁边的是微软执行副总裁、研发集团CEO沈向洋。“这是我见到过的最简单的代码。”微软CEO纳德拉对一旁的沈向洋说道,他希望在一个月后的Build大会上加入这个研究的展示,不过展示形式可能要换换,比如,不是用于预订会议的机器,而是用简单的代码写出一个可以订购Pizza的智能点餐机器人。

“通常为机器人添加新功能或场景需要一整套的工序,现在只需要几步,有了‘机器人智能’的机器人架构平台就能帮助开发者构建一个机器人的大脑,哪怕你对软件工程的知识一窍不通。”他介绍道。

讲述“Pizza机器人”这段诞生过程时,聂再清坐在北京中关村一栋十四层高的写字楼办公室里。这里是微软亚洲研究院,微软全球范围内1000多名科学家和专家中的五分之一,聚集于此。

微软亚洲研究院

在亚洲研究院内,90%以上的科研人员是华人,像聂再清团队一样的研究小组有20多个,其中很多都从事与人工智能相关的核心技术和应用研究,涵盖了从大数据挖掘、机器学习、自然语言处理到在线搜索等人工智能核心技术的方方面面。3月在美国高调上线并引发轩然大波的微软人工智能助手Tay的原型,即在中国有4000万用户的语音助手“微软小冰”,正是这些研究团队的另一项成果。

 二

身为微软全球执行副总裁、掌管这个全球最大高科技公司研究事务的沈向洋博士,也起步于位于北京的这个研究院。沈向洋曾担任微软亚洲研究院院长,是聂再清的上司。

1999年,沈在北京加入微软亚洲研究院,成为这个研究院第一名研究员,主攻视觉识别。那一年,李开复任亚洲研究院院长,在他的带领下,微软实验室开始拼音输入程序的研发。李开复和沈向洋不仅都毕业于卡内基梅隆大学,且都师从1994年的图灵奖获得者拉吉·瑞迪。从1999年开始,直到今日,人工智能都是整个微软亚洲研究院的主攻方向之一。

沈向洋

现在沈向洋的办公室位于美国华盛顿州的雷德蒙总部,从窗外望出去,能隐约看到雷德蒙大学的操场。19年前,Windows95在这里正式发布。那曾是微软最辉煌的时期,Windows几乎占据了90%的市场份额,直到2007年,雅虎和谷歌带来的全新商业模式——这种通过广告赚钱,而对用户而言一切免费的模式与微软截然不同,也让微软第一次正视自己已经错失了搜索的机会。

那是一次输在策略的赛跑。事实上,2007年沈向洋在亚洲研究院任院长时,这里的自然语言研究及机器学习已小有成果——这两者正是搜索技术往前发展的核心。正因如此,当年年底,当时任微软CEO的史蒂夫·鲍尔默决定要在微软内部打造一支搜索团队时,选中了沈向洋。鲍尔默当时给团队打气说:“我调了一个最懂技术的人,叫沈向洋,又调了一个最懂产品的人,叫纳德拉。”接下来的几年,沈陆续从亚洲研究院带了54个研究员到必应(Bing)。这些研究员最后都成为了搜索团队里面的技术骨干。

必应搜索

又过了六年后,纳德拉成为了微软的掌舵人,把公司带向云计算,而沈向洋这位出生于南京的中国人,则成为了微软创新理念的重要布道者。他所带领的研发团队时刻都在为微软寻找下一个“伟大的点子”。

这两年,如何让研发团队这个微软重要且宝贵的资产支持企业未来的发展蓝图,一直是纳德拉和沈向洋反复讨论的话题。为此,沈向洋更改了研发部门的一些规划与制度。微软在全球拥有11个研究院和实验室,在研究院里,研究工作以研究领域为单位独立运行,同时研究组之间、研究组与产品部门之间又保持密切合作。过去,研究小组不是一个真正的产品研发团队,而是以基础研究为主,较少考虑市场因素,现在沈向洋希望研究团队也参与产品的研发。“为微软孵化颠覆性科技并创造新的业务。现在我们部门建立了几个团队,专注于新业务。”他说道。

每年,微软亚太研发集团会挑选一些项目向公司业务部门展示,但只有七个项目进入到最后的颠覆性科技评估环节。这些入选的项目大都在相关性领域有颠覆性的研究发现。每年10月,在雷德蒙会议室里,各个项目负责人都会与微软高层们进行4个小时的头脑风暴,沈向洋会在一旁收集反馈,并决定下一步动作,比如,是否立刻将其落实为产品。

微软雷蒙德总部

一些项目已经处于前期研究的阶段,其中包括位于美国加州的圣塔芭芭拉市(Santa Barbara)的量子计算实验室;英国剑桥研究院在做生物计算(Biological Computing)的长期研究;最近,微软还试图在DNA上存储海量信息,并为此新建了一个Wet Lab……

说起这些项目,沈向洋如数家珍。过去两年,他平均每周深度考察两个来自全球研究院的项目。沈向洋向《商业周刊/中文版》分享了以上那些鲜为人知的微软黑科技。他试图向外界展示的不外乎一点:现在的微软跟盖茨时代没有两样,仍然是一家注重技术研发的公司,哪怕这些研发都相当基础,短期内不可能实现。

从基础研发到最终产品,其中过程并不容易。微软不止一次在一些项目上栽跟头,包括Tay。今年3月Tay在美国正式上线,但几个小时后,就有别有用心的人教会它发表种族歧视的言论。不久Tay便被要求紧急下线。这几乎可以看作小冰“西游”的一次失败。不过,在与中国文化相近的日本,小冰的姐妹版Rinna却受到追捧。在沈向洋看来,这回到了最根本的问题:计算机的算法让它已经能识别数千种汽车,而人类可能只能认出三种。但在认知、同理心和情感层面,机器还无法接近人类。

三                         

人工智能之于今天的微软,就像当年的搜索服务。人工智能是让计算机学习如何像人一样听、说、读、想,该领域与移动互联网时代紧密相连。大多数科技公司都已经看到其广阔前景,巨头之间,人工智能的竞赛也已展开。

Facebook在硅谷、纽约和巴黎建立了三个人工智能实验室。Google常年在全球搜罗人工智能方面的科学家。百度挖走了谷歌的科学家吴恩达,还在硅谷建立了研究院……“但是各家不一样,主要还是看各自的业务模式,也就是你到底用这样的技术去做什么。”沈向洋说道,他与百度董事长李彦宏相熟,去年他们还讨论过尼克·波斯特洛姆的《超级智能》里的场景。

百度与谷歌类似,在人脸识别、自然语言处理上下功夫,以支撑搜索技术发展的需要。Facebook则希望通过人工智能挖掘社交技术的可能。而微软花了大量精力在机器学习、计算机视觉识别等人工智能的基础研究上,“所有的人工智能研究都围绕微软未来的智能云平台展开。”沈向洋说道。这是继搜索后的又一次赛跑,好在这次,微软至少没有输在起跑线上,北京的研发团队过去十几年的技术积累,正在派上用场。

机器学习是让机器具有智能的核心。过去十多年,聂再清位于北京中关村的团队都在主攻大数据挖掘和机器学习。他的第一个项目叫学术搜索。那时,他刚从美国大学博士毕业,正愁没有研究课题。却发现自己平时苦于做论文需要寻找文献,于是搭建了一个可以搜索文献、会议、作者、机构及其关系的对象级别搜索引擎。后来该团队把搜索对象扩展到了互联网上有公开信息的任何一个人,就有了叫“人立方”的产品——这是一种关系搜索,它从超过十亿的中文网页中自动抽取出人名、地名、机构名以及中文短语,并且通过算法自动计算出它们之间存在关系的可能性。

微软学术搜索

相关阅读:《从第一步,到每一步:微软学术搜索》

“机器人智能”项目,实际上基于人立方的技术。这种技术最先被用到了企业内部,一款名为企业深度智能(Enterprise Deep Intelligence,简称EDI)的应用已经预计会很快进行产品化。它已在微软亚洲研究院内部广泛试用,人们都在用这个应用查询信息、组织会议、自动预订会议室。

另外,EDI还可以像一个私人秘书一样,通过Skype for Business与用户聊天,只要告诉“他”你的需求,“他”就帮你处理日常事务。“可以把预订会议的邮件抄送给‘他’,或者输入:‘EDI,请帮我跟这些人约一个会议’,‘他’根据你的要求和喜好,会自动去找会议室和大家都有空的时间段。”聂再清说,“把API应用到达美乐场景,就得到了订购Pizza的机器人。”

在沈向洋看来,这是微软的下一步:“我们认为未来智能助理(Intelligent Agent),可能会是一个新入口,无论是Android还是Windows Phone都行得通,微软就可以和所有的公司合作。”看上去此类需求无处不在。“很多想法从平时的阅读和学术文章中来,但有些时候,是自己真的发现了需求。”微软亚洲研究院主管研究员闫峻说。近几年,他一直在负责一支5个研究员组成的知识挖掘团队。

微软认知服务

相关阅读:《微软认知服务:人工智能的技术拼图》

去年,闫峻在北京一家医院接受了一个外科手术。他了解到,一个普通外科医生一天可能进行10例手术,医生资源不够用,无法解答每个康复期病人的困惑。这激发他进行一项基于知识挖掘的医疗项目,以解决医院生产力的问题。他选择在北京和沈阳的医院进行试点,并同时与产品部门保持密切联系,让后者及时得到用户需求的趋势。

闫峻

理想的模型是,医院里有一个机器人,或者是存在于病患手机中的一个App中,病患的所有问题都能通过这个机器人得到回复。去年年底开始,闫峻通过让机器模拟人类学习的四个阶段来获取这些专业知识。闫峻介绍称,即使在最简单的第一阶段,也需要运用到知识挖掘的技术——在这个阶段,机器可以从一些网页上抓取疾病可能存在的症状,然后捕捉那些在论坛上活跃医生的问答。据闫峻团队统计,一个外科医生一年之内,能在不同论坛里回答几十到几千个问题。而网络针对同一疾病可能有几万个不同问题,最后通过机器的知识挖掘,可以总结出用户实际上在问的最本质的问题,针对一个疾病这样的问题可能只有80多个。

除了机器学习和知识挖掘之外,沈向洋鼓励亚洲研究院的中国研究员们在深度神经网络研究领域投入力量。这个领域的研究属于人工智能深度学习。“这个领域的意义在于,几年内,计算机在感知上的能力就会超越人类。再过5到10年,图像识别上计算机就可以比人类更厉害。到时候,当识别这是个什么瓶子、是哪个牌子的瓶子时,人工智能就能比人更清楚。”沈向洋说。

人工智能要达到这样的能力,还有很远的路要走。沈向洋明白,如果“人工智能”之父阿兰·图灵活到今天,可能会对人工智能过去60年的发展感到失望——即便是最近获得极大关注的AlphaGo,它可以在围棋上取胜,却玩不了高级扑克,因为它还看不懂人类的虚张声势。不过,对沈向洋的团队而言,这倒也是机会,毕竟,至少现在他们的人工智能技术可以用来叫Pizza外卖了。



 

【深度洞察】人工智能时代,个人和企业都应该做什么?

$
0
0

说在前面:

本文是微软亚洲研究院常务副院长芮勇博士今年年初受邀在《新智元:机器 人类=超智能时代》一书中撰写的专题文章。本文畅想了人工智能发展6大阶段,详细介绍微软语音识别、图像识别、微软认知服务等多项人工智能项目。

芮勇指出,越来越多的科技公司都在开放或开源核心的人工智能技术。微软已经开放了很多人工智能技术,包括微软认知服务,还包括Azure Machine Learning,以及不久前亚洲研究院开源的分布式机器学习工具包DMTK。我们不仅仅是开源某一个具体的算法,我们其实开源了一整套的分布式训练框架,使得任何别的机器学习的算法能在一个更大规模的分布式的系统上更加便利地进行计算。人工智能时代不能只凭个人,研究者、企业、机构要沟通合作,实现技术的指数爆炸。

一、微软亚洲研究院的人工智能2015

人工智能的春天又回来了。

近几年,大数据、机器学习和云计算等新兴技术的发展让人工智能的影响力日益壮大,业界关于人工智能的讨论和尝试也非常多样。身为在计算机领域探索多年的研究人员,我认为这一现象非常鼓舞人心,我们诚然生活在一个“技术的黄金时代”。

人工智能的英文是Artificial Intelligence,简称AI。1956年,在达特茅斯学院举行的一次会议上正式确立了人工智能(Artificial Intelligence)的名称,以及研究领域和任务。这次会议影响深远,该会议的组织者包括马文·明斯基(Marvin Minsky)和约翰·麦卡锡(John McCarthy)等人,他们和这次会议的其他与会者们一起成为了人工智能最早的一批研究先驱。

今年是2016年,距离达特茅斯会议已经过去了整整60年。中国古代纪年法中,用十天干和十二地支相组合,60年便是一个轮回,称为六十甲子。人工智能在诞生之后经历了黄金年代,经历了20世纪70年代中后期的低谷,经历了短暂的繁荣,也经历了人工智能的寒冬。如今,人工智能再次回春,六十甲子一轮回,因此对于我们来说,2016年更是人工智能技术的一个新的开端,我最大的心愿便是在2016年这个新轮回开始的第一年,能看到划时代的研究进展和突破。

如今,人工智能已经不是一个仅属于研究机构和学者们的概念,而是逐步进入我们的生活,这些技术大多数时候默默地站在幕后,悄无声息地改善着人们的计算体验。过去的2015年,在微软众多对外发布的产品和服务中,我们都能找到人工智能的影子,这也离不开微软亚洲研究院在计算机基础研究领域日复一日的耕耘,用一次又一次的研究突破,用开放的心态积极与社会各界展开合作,一起共同推动整个计算机行业的技术进步与革新。


1人机交互的第一入口:语音识别

人工智能都可以帮助人做些什么呢?长久以来,语言一直都是人与人之间交流的障碍,那么能否让人工智能充当人与人之间的翻译呢?微软推出的Skype Translator 实时语音翻译系统就成功满足了这一类需求。

早在2012年10月25日,在由微软亚洲研究院主办的第十四届“二十一世纪的计算大会”现场,我们首次公开演示了微软实时语音翻译技术。时任微软研究院全球负责人的Rick Rashid在用英语演讲时,现场的国内观众们却借助了神奇的实时语音翻译工具,听到了用Rashid的原音讲述的汉语普通话。当时的语音识别系统在演示中实现了小于7%的误差率,几乎与真人做字对字笔录时的水平相当。

这次展示很明确地预示了深层神经网络语音识别和实时语音翻译时代的到来。随后,这一技术原型便迅速被转化成产品,成功应用到了Skype Translator中。在微软亚洲研究院的团队和美国的同事们的密切合作下,2015年4月,Skype Translator 实时语音翻译的中文预览版登录中国,让英文和中文普通话之间的实时语音对话变为现实。

在Skype Translator上我们可以看到深度学习技术对语音识别准确度毋庸置疑地提升。如今在较为理想的环境中,语音识别的准确度已经在95%以上,与人类的识别能力相差无几。但对于语音识别领域的研究来说,仍有一些亟待解决的问题。当计算机处于较为嘈杂的环境,或是麦克风收音效果较弱的情况下,识别准确度便大大降低。

一个被称为“鸡尾酒会效应”的问题能够很好地描述这种情况。如果我们正在参加一场鸡尾酒会,和七八个人同时交谈,那么如果我们想主要听某一个人的发言时,我们人类就能自动过滤其他人的发言,让我们的注意力集中在这个人的发言内容上。可是当计算机处于这种环境下时,面对多个声音交织的情况,想要辨别出特定某人的声音并识别出来还是十分困难的。

其实,语音识别只是一个开始。计算机把人类的语音识别出来,将音频信号转化成文字信号的这个过程必然意义重大,但这并不代表计算机真正理解了这句话的意思。因此语音识别的下一步便是对语义的理解。我所提到的这个语义理解可能比我们通常所说的自然语言理解层次更高一些、难度更大一些。因为面对同一句话,如“我想静静”或者“他要请我吃饭”,不同的语调、语气、重音都会带来不一样的理解。因此我说的语言理解是包括从语音到语义,直至理解句子的言外之意这一整套过程的,这在技术实现上还有一条很长的路要走。

说起语音识别,其实不仅是微软,行业内各大公司都会把它放在一个首要的基础位置上。如果说实现人工智能是我们的最终目标,那么语音识别技术很可能就是人工智能的一个关键入口。为什么我会这么说呢?对于技术公司来说,成为平台型公司一直是努力的目标。例如,操作系统就是一个很好的平台。时下我们也能看到一些很好的平台,如电商平台、搜索平台,还有人与人之间交流的平台等,与之对应的国内有BAT,国外的微软、谷歌、Facebook、亚马逊,都拥有自己的核心平台。那么下一个平台会是什么呢?

我认为,人工智能时代,一个人工智能助手将会成为一个很好的平台,就像《星球大战》中的BB-8,或者钢铁侠中的贾维斯(Jarvis)。人们与人工智能助手最常见的交互方式就包括语言的交互。那么想要做好人工智能助手,语音识别和自然语言处理可能就会成为这个平台入口的核心。


借一双慧眼:计算机视觉

近年来,深层神经网络的复兴为计算机带来的革命突破不仅是语音识别,还有计算机视觉。人类所获取的外部信息70%都来自于视觉,人类与周围世界的沟通和交互极其依赖图像。当计算机也能“睁开双眼”看懂世界,计算机离智能也就更近了一步。

那么,目前计算机视觉系统有多精确呢?2015年1月,微软亚洲研究院的一个四人计算视觉小组成员在ImageNet计算视觉识别挑战赛中便实现里程碑式突破,计算机识别物体的能力首次超过人眼,系统错误率已经低至4.94%。而在此前同样的实验中,人眼辨识的错误率大概为5.1%。

ImageNet计算机视觉挑战赛由来自全球顶尖高校和公司的研究员组织举办,近年来已经成为计算机视觉领域的标杆,其比赛结果总能十分直观地反映出计算机视觉这一热门领域中各研究机构的研究进展和突破。在ImageNet比赛中成功登顶并超越人类,在计算机视觉研究上意义重大。

当然研究员们并不仅以超越人类的识别能力为目标。到了2015年12月,在微软亚洲研究院首席研究员孙剑的带领下,这个四人研究小组再次做出突破,以绝对优势获得图像分类、图像定位及图像检测全部三个主要项目的冠军,该系统识别错误率已经低至3.57%。同一时刻,他们在另一项图像识别挑战赛MS COCO(Microsoft Common Objects in Context,常见物体图像识别)中同样成功登顶,在图像检测和图像分割项目上击败了来自学界、企业和研究机构的众多参赛者。

这两个挑战赛的侧重点各有不同:ImageNet 倾向于评测识别图像中显著物体的能力,而MS COCO倾向于评测识别复杂场景中各类物体的能力。能同时在两个世界级的比赛中获得冠军,足以说明研究组的技术突破是通用的,那么是何种技术让他们在计算机视觉领域中的研究屡获突破呢?

答案是研究员们构建了一个152层的深层残差网络(Deep Residual Networks),他们还使用了一个全新的“残差学习”原则来指导神经网络结构的设计。残差学习最重要的突破在于重构了学习的过程,并重新定向了深层神经网络中的信息流。残差学习很好地解决了此前深层神经网络层级与准确度之间的矛盾。这个深层残差网络显示出了非常强的通用性,藉由此次的突破,相信会有更多的研究人员们能够从中汲取灵感。



智能技术平台

假设我们现在有一位开发人员,他想开发出一个健身类的应用,他有很多新奇的想法,想要开发出很多有趣的功能放进自己的应用中,如从照片中识别出用户,或者理解锻炼者的语音指令。但是这些多样的功能都只能通过复杂先进的机器学习来实现,而这位开发人员却没有实现它们所需的时间或资源。在这个时候,如果有一个这样的智能平台把这些技术开放出来就会非常高效。

微软在人工智能、语音识别、计算机视觉上投入巨大,并已经在相关领域取得了很多优秀的研究成果,我们也非常想把一些核心技术放在这样一个智能平台上,使得第三方的开发者更容易站在巨人的肩膀上,而不再是从零开始,他们可以更专注于他们想开发的应用,而人工智能的核心技术就直接从我们的平台上使用就可以了。现在我们开放出了这样的一个平台,我们称为微软认知服务(Microsoft Cognitive Services)。

微软认知服务由微软牛津计划发展而来。微软牛津计划是由一系列基于云的机器学习相关的API、SDK和相关服务等组成,自2015年4月推出以来,这个平台目前已经涵盖了很多人工智能的方向,包括视觉、语音和语言等。在视觉方面,我们有对图形的理解、分析和处理。有对人脸的识别、检测、验证等,甚至包括人脸面部情绪的分析。此外还有视频中的人脸追踪、运动检测等。在语音方面,有语音识别、声纹识别。在语言方面,有拼写检查、语言理解等功能。在2016年Build开发者大会上,微软正式发布了全新的智能服务:微软认知服务,集合了多种来自Bing、微软牛津计划等项目的智能API。

2015年,有一个火爆全球的“颜龄”测试应用叫“How-old.net”,它会基于你上传的照片,利用人脸定位技术检测照片中人脸的特征点,根据特征点猜测人的颜龄。这个应用其实就是微软的两位工程师利用牛津计划中人脸识别API开发的,整套解决方案也就花了几个小时的时间,代码也才不到20行,搭建起来十分迅速。于是在网站建成后的几小时时间里,成千上万的用户疯狂传播,席卷全球,它的受欢迎程度也完全超乎我们的想象。牛津计划中的面部表情分析也十分有用,它能让计算机学会“察言观色”,观察出你面部表情的变化来计算出你情绪的变化,开发人员就可以基于此轻松开发出许多有趣的应用了。

目前,微软认知服务共包括视觉、语音、语言、知识和搜索五大类共二十一项API。在此基础上该服务还会持续增加新的API,并不断更新现有的API。


聚合的智能:微软AI姐妹花小冰小娜

1991年,微软研究院创立时,比尔·盖茨希望研究院能够致力于让未来的计算机能够看、听、学,能用自然语言与人类进行交流。这是一个与AI研究关联紧密的梦想。二十多年来,我们时刻在为之努力。当计算机对人类多种感官的模拟不断完善聚合,一个聚合智能的人工智能助手就这样诞生了。

在微软,有一对人工智能姐妹花叫小冰和小娜。小冰是微软(亚洲)互联网工程院开发,集合了微软亚洲研究院众多研究成果的一款人工智能聊天机器人。微软小娜则是微软(亚洲)互联网工程院基于Cortana,深度本地化再创新的一款人工智能个人助理,扮演的是知书达理的女秘书形象,帮助用户做好日常的行程计划安排。

小冰和小娜可谓是集大成的人工智能机器人,她们将看、听、说等类似于感官所获得的信息融为一体,共同形成接近于人的感知和一定程度的认知。而对于这种集大成的智能,我们称为聚合的智能。你可能觉的这些技能看着很简单,其实在她的背后融合了计算机图像识别、语音识别、自然语言处理、文本转语音、机器学习、社交网络情感计算等不同方向的人工智能技术多年来的累积和沉淀。而这些能力的组合,便是人工智能的智力集合。微软亚洲研究院的技术更像是幕后的隐形人,你虽然看不见他们的运作流程,但在和小冰对话的过程中却能潜移默化地感受到技术的神奇。

以图片识别为例,小冰就采用了微软亚洲研究院视觉计算组开发的基于深度卷积神经网络(CNN)的计算机视觉算法系统,将我们在ImageNet挑战赛中的成功经验用于其中。在语义分析环节,小冰通过深层神经网络等的机器学习算法,不断学习过去的历史信息,建立相应的数学模型。通过机器学习互联网和社交平台等文本内容,进行数据挖掘得出相关的主题,这是机器学习和文本理解的基础。在决策环节,小冰采用了多种联合决策机制,以实现带有情感的高效机器决策。这其中采用了分布式词向量训练模型算法,更好地计算两个词之间的“情感距离”,以关系的“远近”帮助小冰更好地决策。在输出环节,小冰大量学习人类的表达方式,从中识别出带有不同情感色彩的表达方式,再结合不同对话的上下文语境,以个性化的语言方式表达出来。

正是大数据、深度神经网络等技术的发展与突破,让小冰兼具“有趣”与“有用”,实现了超越简单人机对话的自然交互,并以此与用户建立了强烈的情感纽带。现在微软小冰从最初不到100万的使用人数到现在的4000万人,而人类用户与小冰的平均每次对话轮数也高达23轮。而此前最领先的同类人工智能机器人,平均对话轮数仅有1.5~2轮。你可以设想一下,在平时,大部分情况下人与人的沟通回合也未必能达到23次,但跟小冰这个机器人竟能聊这么久,可见用户和小冰之间有着非常强烈的情感联系。

目前微软小冰和小娜已经登录了多个平台,也包括 iOS 和 Android 平台。所以目前小冰和小娜是支持跨平台、跨设备的,你在一台设备下设定任务,另外一个设备能够同步为你服务。今天微软可能是唯一一家有跨设备、跨平台助手的公司。

那么未来像小冰和小娜这样的人工智能助理应该如何发展呢?对于人工智能助理又应该有哪些衡量标准呢?我认为这其中有三个“度”,分别是广度、深度和温度

第一是有广度,它的知识面越来越宽了,可能上到天文地理,下到日常生活,无论是什么话题,她都能和你聊起来。第二是深度,它不仅什么东西都知道,在一些专门的领域还能做得特别深入,就像我们人类一样。人类都有自己不同的专长,几年之后人工智能助手也能像人一样“有所长”,如能够担任你的工作助理,或是医疗助理、语言学习助理等。第三个度是温度,人工智能助手和你能有情感层面的交流,它知道在你生日的时候为你准备惊喜,也知道如果你之前睡眠质量不好或睡太晚,今天会提醒你早点休息,或是给一些助眠建议。

当人工智能助理有了广度、深度和温度,我们理想的人工智能便离我们不远了。



二、2016年,人工智能的新纪元

人工智能的春天再次来临,关于人工智能的过论也越来越多。对于大众来说,对人工智能技术的发展现状还是一知半解的。人工智能威胁论,比如他们会取代人类的很多工作,如好莱坞电影中常见的人工智能最后反过来控制人类等,大家对人工智能有种陌生的敬畏感。但反过来人们也是非常期待人工智能的,因此在接触到现实生活中的人工智能产品时,又往往会产生落差感。 

为了方便大家理解人工智能发展到了什么程度,有人提议以人的年龄作为评判依据,试图找到现在人工智能的智力水平究竟相当于人类多少岁的智力水平。事实上这个问题是无法回答的,因为目前的人工智能可以战胜50多岁的国际象棋特级大师,但人工智能目前的学习能力与正在每天吸收新知识的5岁入学儿童是完全无法相提并论的。那么我们究竟应该认为人工智能现在是50岁呢,还是5岁都不到呢?

我们从上面这个问题可以看到,人工智能发展目前所面临的挑战和障碍巨大,实现人工智能道阻且长,但归根结底制约人工智能研究的有3个主要因素

1

实现人工智能,道阻且长

首先是理论框架的制约,目前在理论和算法上我们还有很大的提升空间。例如,以今天最成功的深度学习为例,它的理论框架也存在一定的问题。例如,深度学习今天都用的是BP算法,它的网络结构都是往前连接的,目标函数也都只有一个。但机器学习中有很多别的理论不是这样的结构,它们的目标函数也是不一样的,它的梯度下降算法也是不一样的。为什么深度学习就始终保持着一个结构、一个目标函数来做呢?这里面其实有更多的理论值得我们研究。

其次是运算能力的制约。虽然我们已经有GPU的Farm,但想训练一个大的网络其实还是会耗费大量的时间,此次ImageNet比赛中我们就在很多GPU上跑了很长的时间。开发一个新算法需要调试很多不同的参数结构等,如果我们能一分钟的时间内测试一个算法的话,我们就会有机会尝试各种不同的算法,也许我们在有限的时间内,在ImageNet挑战赛中能够取得更好的成绩。

最后是数据量的制约。我们目前还没有开发出像人类一样拥有自主学习能力的算法,目前的机器学习还需要大量的训练样本来支撑。机器学习中的参数越多,我们需要的训练样本就越多,最终的算法才会越精确。扩大训练数据的样本量有没有好的解决办法呢?可以从两个方面来考虑:一个方面是行业和行业之间建立一个协议标准,通过一个接口让不同行业之间的数据可以共享。另外一个方面就是智能设备和不同的传感器之间数据的输出和机器学习算法的输入也应该有个协议。有了这两方面的协助,机器学习的数据量就会迅速扩大,最终训练模型也会更为准确。

2

把握人工智能的脉搏:规划产业布局

如今人工智能的春天再次回归,这对整个的技术产业也提出了新的要求。我认为未来人工智能的产业布局将大致会分为6个环节,其中人工智能的应用将会发展为针对普通用户的交互和用于工业界使用的两大分支。

首先是最底层的模拟人脑的芯片的开发环节。今天的计算机芯片基本上还是基于冯诺依曼架构,这种架构对于一般的逻辑计算和存储都十分实用,但想实现人工智能,这样的架构可能就不那么理想了。目前有不少公司正在尝试能否开发出像人脑一样的芯片。

那么从底层往上走的第二个环节是介于硬件芯片和上层开发之间的类脑计算的结构和模块。有了模拟人脑的芯片硬件之后,研究人员就能够基于这类芯片开发出一些模拟人脑及思维方式的一些算法或者模块。目前无论是语音识别还是计算机视觉,都是在GPU上模拟神经元,模拟出很多层,但由于芯片的限制,层与层之间的反馈基本上是往前单向反馈的。今天的芯片需要大量的服务器和GPU才能模拟出人脑很容易就能做到的事情,这是远远不够的。

再往上一个环节是开发出分布式的、大规模的、双向前后反馈的机器学习的算法。微软亚洲研究院不久前开源的分布式机器学习工具包DMTK就属于这一类。

之后一个环节就是基于这些大规模的分布式算法,对人的看、听、说等各种感官的模拟,如计算机视觉、语音识别、语音合成,甚至人的一些思维等。现在做智能家居、可穿戴设备等公司的技术创新也主要集中在这个环节进行创新。

如果再往上,第五个环节是什么呢?我们的人工智能在这个时候已经能完成一些基本的任务,有了在某种程度上的智能(IQ),接下来就要去完善EQ,进行情感计算。例如,你的人工智能助手知道什么时候应该说真话,什么时候说“善意的谎言”。

人工智能最顶端,也就是第六个环节,我会称为增强智能(Augmented Intelligence)。计算机擅长的是记忆存储、逻辑推理、演算分析等目前可编程的工作,这与人类负责逻辑思考的“左脑”十分相似,其实人工智能就像是一个负责推理演算的“左脑”,它与人类的右脑相配合,便能够充分利用人类才有的创造力,延伸出无限可能,进而实现增强的智能。



三、人工智能时代,我们能做什么

人工智能是一个特别复杂的概念,他拥有非常多层的维度,如果只凭一些单独的个体,是没法把这件事情做成的。因此对于企业来说,非常重要的一点便是合作。大家都在期待人工智能实现技术的指数爆炸,实现这个一定是有一大批的研究者、企业和机构之间的相互沟通和相互合作。

我们非常高兴地看到,越来越多的科技公司都在开放或开源核心的人工智能技术。微软已经开放了很多人工智能技术,包括我在上文中提到的微软认知服务,还包括Azure Machine Learning,以及不久前亚洲研究院开源的分布式机器学习工具包DMTK。我们不仅仅是开源某一个具体的算法,我们其实开源了一整套的分布式训练框架,使得任何别的机器学习的算法能在一个更大规模的分布式的系统上更加便利地进行计算。我们也相信,开放会是未来的趋势,因为只有大家相互合作,最后人工智能技术才可能整体地、稳健地向前迈进。

对于个人来说,在人工智能时代我们也有很多参与其中的方法。毫无疑问,人工智能一定是今后整个IT产业几个大的发展趋势中至关重要的一个。对于信息领域的在校学生来说,需要通过学习一些基础理论课程打好坚实的基础。对于目前的从业人员们来说,则需要保持好终生学习的习惯,IT产业日新月异,需要时刻包括整个产业的大趋势。

把握产业大趋势的方式有很多,如了解国家的发展方向和战略方向,和整个产业的发展方向相结合,从而找到自己的方向。其次是多参加一些产业界最前沿的会议,这是一种很好的吸取营养的方式。最后就是经常接触一些初创企业,如美国的硅谷、中国的中关村和一些产业园区和孵化器等,因为这些地方经常是一些最前沿想法发生的地方。

因此对于个人来说,把握好这四点至关重要:产业的发展趋势、国家政策的发展趋势、最前沿的一流学术会议,以及多接触初创企业

2016年已至,未来已来。在新的开始,让我们一同携手拥抱人工智能,一同开拓人工智能的无限可能!



 

科研着,幸福着——上海交通大学ACM班学生在微软亚洲研究院的实习生

$
0
0


上海交通大学致远学院ACM班由图灵奖获得者、康奈尔大学教授John Hopcroft领衔的国际知名教授组成讲席教授团共同执教与指导,全面实施“上海交通大学-国际知名大学-微软亚洲研究院”联合培养。 由ACM班班主任俞勇教授带队的班级学生获得的国内外荣誉和奖项有数百人次:2002、2005、2010年三次获得ACM国际大学生程序设计竞赛世界冠军,成为全球该赛事第三个“三冠王”;以第一作者身份在NIPS、WWW、SIGIR、SIGMOD、SIGKDD、ICML、AAAI等重要的国际会议和期刊上发表了40余篇学术论文,并获得国际会议最佳学生论文和最佳候选学生论文各1篇;此外,还在2005、2009年两次获得国家级教学成果二等奖。


为培养顶级计算机科研人员,ACM班与全球知名院校及科研机构展开多层次的合作,从学术到科研实践,全方位打造新时代的计算机人才。其中,ACM班与微软亚洲研究院达成年度人才培养计划,每年微软亚洲研究院都会邀请上海交通大学ACM班的同学们来到研究院展开为期半年的实习工作。作为产学研合作的典范,研究院与上海交大的合作让这些才华横溢的计算机领域未来之星有机会接触到最前沿的研究技术,接受世界一流工业界研究人员的指导,通过参与实际研究项目,获得宝贵的实战经验,将理论知识应用到实际中。科研之外,微软亚洲研究院温馨美好的氛围也让他们收获宝贵的友谊,留下弥足珍贵的回忆。


七月刚至,凤凰花开,2015年度访问研究院的ACM班同学即将挥手告别本科生涯,迎来人生新的阶段。而新一年的ACM班同学们也即将在一个月后进入研究院开始他们的实习生活。这些即将毕业的前辈们为学弟学妹们,以及其他对科研感兴趣的同学带来了精彩的分享。


对待科研问题必须保持着最初的好奇


作为前辈们中的一员,魏祯曾在计算机视觉组跟随主管研究员王井东进行实习,期间她主要参与有关计算机视觉深度学习的课题研究。


魏祯


对于她而言,在微软亚洲研究院实习带来的最大收获是正确科研态度的养成:耐心分析科研过程中出现的问题、思考其中的原因、分析解决的办法,在探索、思考的过程中体味科研的乐趣。对待科研问题必须要保持着最初的好奇。“为了让我养成对待科研的良好态度,井东老师特别布置我在刚开始的三个月每日提交小结,之后改为每周一次。报告工作量虽然大,但这是一种极好的自我审视方式,也为之后的工作做好铺垫。”


“研究院有很多顶尖科学家的演讲,比如我们作为女科研工作者非常荣幸可以与微软新英格兰研究院和微软纽约研究院院长Jennifer Chayes,康奈尔大学教授Eva Tardos等卓越的女科学家们谈科研、谈生活、谈理想。与她们的交流解答了我作为女科研者的困惑,极大增强了科研信心。实习中也有很多丰富的课余活动,其中明信片设计活动让我印象深刻,最近为微软亚洲研究院设计的明信片也即将新鲜出炉,这让我非常期待。”


这是我大学期间最快乐的时光


谢其哲是在微软亚洲研究院首席研究员刘铁岩带领的机器学习组跟随高斌和助理研究员贺笛研究聊天机器人的一名实习生。实习期间,他学习了大量增强学习方面的知识,提出了基于信息检索的有上下文的聊天模型,实现了基于Encoder-Decoder的自然语言生成聊天模型。实习结束后,谢其哲继续这方面的研究并与研究院机器学习组的田飞、贺笛老师合作投稿了一篇EMNLP。


谢其哲


他觉得在研究院体验最深的一点在于主动:主动地去找可做的研究,找导师、小伙伴们沟通交流,往往会有意想不到的收获。“每周的一对一讨论常产生很有意思的想法,在他们身上我学到了一流的研究者应具有的特质。感受到自己的差距,在科研上还需要更加系统的进行努力“。


”研究者对于问题的品味非常重要,不要追求发布文章的数量,而要去追求做出的工作的重要程度“。机器学习组对重要问题的寻找,意味着换到一个全新的方向重新开始,这样的勇气和执着令他非常敬佩,也希望自己能尽快具备这种能力。


生活方面,这里就像一个大家庭,氛围其乐融融。良好的健身房条件和负责的教练让他养成健身的习惯,提升了自己的精神状态。 “非常感谢Tracy、康平以及学术合作的小伙伴们对我们的关心,各种交流活动让我们有着研究外的精彩生活。这半年是我大学期间最快乐的时光,希望有一天能再次回到研究院,做出杰出的工作。”


我不仅是一个学生,更是一个科研人员,一个有

能力,有担当的人


陈思奇


陈思奇在系统算法组跟随微软亚洲研究院首席研究员Thomas Moscibroda实习。在研究院期间,他参与的是graphView项目的开发。这是一项关于SQL server数据库方面的应用,将图关系的存储以数据库的方式来实现,扩展到云存储,大规模使用。用户不需要了解数据库是如何存储图结构数据,只需要了解如何利用cypher语言即可进行图操作。“在graphview项目负责人陈亮研究员的帮助下,我参与了这个项目。刚开始十分紧张,不知道自己是否有能力参与。直到陈亮对我说,在这里,导师与研究院是在肯定你的水平的情况下与你合作进行研究,双方是平等的。这让我对自己充满信心,更主动地参与研究。他的话让我体会到了做研究与在学校里的最大区别。我想,每一个想来微软的人,都应当了解,自己已经不仅是一个学生,更是一个科研人员,一个有能力,有担当的人。”


Thomas Moscibroda是一个开朗又不失严格的研究员,作为一个在理论和应用跨界研究方面的资深专家,他的指导让实习生们受益匪浅。


同为Thomas Moscibroda实习生的陈皓表示在MSRA的半年实习,最想感谢的就是导师Thomas Moscibroda和闫莺,以及同组的研究员们。他们的鼓励和建议给他指明了方向。“研究院的实习综合了工业界和学校的优点,微软的硬件设施相当不错,让实习生们能接触到业界的前沿技术,感觉非常棒,真是一次梦幻般的体验。”


陈皓和他的导师闫莺


MSRA是自由的海洋


黄锃就职于微软亚洲研究院首席研究员曾文军所在的网络多媒体组,参与机器学习、深度神经网络相关的科研课题中。他从实现快速区域检测算法,帮助组内的追踪算法进行人体检测开始;后转向动作识别,在给定运动人物图像中,提取人体各个具体关节部位位置的算法。他试着将全卷积网络应用到这一方面,提出了自纠正网络的框架,最后得到了与当时的最好结果非常接近的方法。后期,他们尝试用一种优雅简洁的形式,将所有的后处理步骤融合在神经网络中,提出一种端到端的训练形式。


黄锃


“我非常感谢文军、兰翠玲等老师们的极大支持。由于我的工作内容涉及了大量的深度学习,视觉深度学习需要大量的计算和数据资源,组里另外为我单独配备了两台高性能服务器和图形卡,这是在实习生中也是很少有的待遇。这里是一种纯粹做学问的感觉,给了我极大的自由和宽容,让我可以广泛地去尝试我的想法和设计”。


研究院的实习让他开始深入地认识和掌握深度学习的核心概念和技巧,也开始认真思考机器学习的现状和发展。在见证神经网络之上搭建的人工智能的飞速发展和可能带来的巨大影响的同时,结合工作经历,他意识到深度学习存在的难点和未来前景。与研究院老师们的交流更新了他之前对计算机视觉和图形学的许多观点,也让他更明确未来发展的方向。


研究的氛围绝不仅是压力和强度,更带着轻松和


江川


江川曾在语音组跟随微软亚洲研究院首席研究员霍强及助理研究员孙雷进行分析笔画定位文本行研究。在这里他学到很多宝贵经验:如何对一个新的问题调研,设计算法、实验……和研究员共同讨论问题,尝试找到解决的方案,能带来很大的成就感。每个阶段都会有不同的挑战,所以能不断地学到新的东西。微软亚洲研究院给江川最深刻的印象是这里既严肃又活泼的感觉。研究的氛围绝不仅是压力和强度,更带着轻松和谐。对于即将到来的学弟学妹,江川寄望他们在实习伊始要尽快和导师讨论出一个明确的工作目标,并在接下来的时间里可以朝着这个目标一直前进。“实习的半年看似漫长,实则转瞬即逝,不要因为迷茫而浪费了宝贵的时间”。


这里让我真正感受到科研的美妙


彭燕庆在微软亚洲研究院首席研究员谭焜负责的无线与网络组实习,他的工作是利用FPGA和HLS Tool搭建一套基于高级语言的FPGA网络包处理器。这项成果已经发布在网络系统领域最顶尖的会议SIGCOMM上。


彭燕庆


“研究院有各个领域最厉害的大牛担任导师,有世界各地的优秀同龄人组成队友,有学术界和企业界的资深专家提出研究建议,更有微软雄厚资金支持的大量硬件资源。最重要的是象牙塔般的环境让我安心地沉浸于研究,不仅学到很多知识,也有文章发表,让我真正感受到科研的美妙。这里有华人CS界最顶尖的人脉圈,希望学弟学妹们积极参与活动,争取和研究院里的导师们和同学们打成一片。”


ACM班是人才济济之地,那里的每一位同学都拥有最优秀的专业技能和最远大的科研抱负。ACM班为学生们提供的微软亚洲研究院产学研合作实习给予学生们很好的机会,让同学们在实践中成长,并不断发掘自身的科研兴趣点,明确未来发展方向的绝佳机会。毕业行进中的七月,有着离别的气氛,有着对未来的期许,大四的ACM班学子们将踏上新的征程,衷心祝福他们在科研的道路上不断进步,希望微软亚洲研究院的实习经历伴随他们的成长。


了解微软亚洲研究院实习生项目,欢迎关注“明日之星”实习生项目介绍。更多实习机会请见:http://www.msra.cn/zh-cn/jobs/interns/internopenings.aspx


或者拿起手机扫描二维码:


欢迎关注“明日之星”实习生项目


推荐阅读


微软亚洲研究院的“哈利·波特”:Thomas Moscibroda

池内克史:从心所欲,不逾矩

刘铁岩:在微软大学的三次华丽转型


欢迎关注


微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:




 

深度视觉盛宴——CVPR 2016

$
0
0

小编按:

计算机视觉和模式识别领域顶级会议CVPR 2016于六月末在拉斯维加斯举行。微软亚洲研究院在此次大会上共有多达15篇论文入选,这背后也少不了微软亚洲研究院的实习生的贡献。大会结束之后,小编第一时间邀请参与了本次大会的张弛、张婷和张祥雨三位同学,与我们分享了他们眼中的CVPR大会。参加CVPR大会是一种什么样的体验?CVPR论文是如何写成的?看完你就知道!

作者简介

张弛

张弛(论文:Joint Multiview Segmentation and Localization of RGB-D Images Using Depth-Induced Silhouette Consistency。 Chi Zhang, Zhiwei Li, Rui Cai, Hongyang Chao, Yong Rui

我叫张弛,是一名微软亚洲研究院实习生,本科毕业于中山大学,目前是中山大学和微软亚洲研究院联合培养博士生。曾在CVPR/ICCV/ECCV/TVCG等会议和期刊上发表论文,研究方向为立体视觉匹配和即时定位与地图构建(SLAM)。

张婷

张婷(论文:①Collaborative Quantization for Cross-Modal Similarity Search, Ting Zhang, Jingdong Wang.Supervised Quantization for Similarity Search, Xiaojuan Wang, Ting Zhang, Guo-Jun Qi, Jinhui Tang, Jingdong Wang)

我叫张婷,本科毕业于中国科大少年班学院学习计算数学专业,曾参与微软亚洲研究院创新人才学院(Pre-PHD)培养项目,目前是中国科学技术大学和微软亚洲研究院联合培养博士生,在微软亚洲研究院实习。曾在ICML 2014/CVPR 2015/CVPR 2016发表论文,主要研究方向为近似最近邻搜索。

张祥雨

张祥雨 (论文:Deep Residual Learning for Image Recognition, Kaiming He,Xiangyu Zhang, Shaoqing Ren, Jian Sun

我叫张祥雨,本科毕业于西安交通大学。三年前我参加了西安交通大学与微软亚洲研究院的联合培养博士生项目,一直实习至今。我的研究方向为深度学习与图像识别相关问题。

顶级视觉盛会

CVPR全称为International Conference on Computer Vision and Pattern Recognition,计算机视觉及模式识别大会。涵盖的问题包括但不限于:物体识别与检测、图像高级语义理解、人脸、优化方法、Correspondences求解、相机定位及三维地图构建(SLAM)。CVPR是计算机视觉的最大的年度聚会,今年收到投稿2,145份,接受论文643篇,接收率29.9%。与会人数也是惊人,达3,600人。去年是2800多人,今年有3609人,接近了30%的增长,这与计算机视觉在学术界和工业界得到越来越多的关注不无关系。毫无疑问,在这643篇接收文章中,深度学习再次占据了大半壁江山。

主会中午就餐场景

与往届不同的是,今年的CVPR增加了一种新的论文展现形式——Spotlights,有123篇优秀文章(Spotlights)拥有机会进行4分钟在听众面前宣讲他们的工作。在会议的Poster部分,所有文章的作者也可在自己的展板前与其他与会者进行面对面的交流。

今年的CVPR还有许多精彩的创新之处:

CVPR 2016展示了计算机视觉和深度学习领域最新的成就,包括像热门的大型视频理解和新兴的视觉问答领域问题。

有史以来第一次,CVPR 2016举办了一个100个公司参加的工业展。

同样有史以来第一次,CVPR 2016的组委会成员几乎全是女性。

仍然有史以来第一次,CVPR 2016选出了每天的亮点,与报告者的互动提问,介绍女性研究者等等,然后每天以简报的形式推送给大家。

会议现场

如日中天的深度学习

本次会议张祥雨同学分享的关注点主要在深度学习和图像识别方面。深度学习作为眼下最热门的机器学习框架,其在计算机视觉方面的研究和应用可谓是如日中天。据不完全统计本次会议60%以上的文章均与深度学习有关。在图像识别,尤其是图像(视频)分类、物体检测、图像语义分割等领域,深度学习已呈一统天下之势。即使是在如3D视觉、底层图像处理等传统方法相对主流的领域也有不少学者给出了自己的基于深度学习的解决方案。

图像识别

自从Ross Girshick等人提出基于深度卷积神经网络的物体检测方法“RCNN”以来,深度学习凭借着良好的精度逐渐成为物体检测的主流方法。之后的重要工作如“Fast RCNN”和“Faster RCNN”等更是将物体检查的准确度和速度均提升了一个档次。本次会议有5篇物体检测方面的工作进行了口头展示。其中,Abhinav Shrivastava等人在训练检测网络时通过添加困难样本,以一种非常简洁的方式取得了可观的性能提升,令人印象深刻;而在另一项工作“YOLO”(You Only Look Once: Unified, Real-Time Object Detection)中,演讲者Joseph Redmon通过幽默的语言和生动的现场展示,介绍了他们是如何设计算法框架以同时满足高精度和高实时性的要求。值得一提的是,Ross Girshick本人在这两个工作中均有贡献,足见其在物体检测领域“超级大牛”的地位。

“YOLO”系统的现场展示


作为图像识别问题的重要分支,图像语义分割(Semantic Segmentation)同样吸引了一批顶尖科学家投入研究。张祥雨所在的微软亚洲研究院视觉计算组通过对图像分割问题中的多个目标函数进行级联式的联合训练,在MS COCO等数据集上取得了明显的性能提升。该项工作是去年ImageNet & MS COCO比赛中微软冠军团队技术体系中的重要一环。此外,视觉计算组的另一篇有关图像语义分割的文章Scribble Sup: Scribble-Supervised Convolutional Networks for Semantic Segmentation也在会议上做了口头展示。

视觉问答(VQA)

视觉问答是近年来迅速兴起的研究课题。该问题的一般提法为:给定一张图片,以及一句使用自然语言描述的和图像相关的问题,视觉问答系统需要对该问题做出回答。可见,该课题同时涉及了图像识别和自然语言理解,更具挑战。而近年来深度神经网络在图像识别和自然语言处理的迅猛发展,为解决视觉问答问题提供了重要的思路。本次会议上视觉问答相关的文章几乎都采用了深度学习的方法。

值得一提的是,今年年初的视觉问答挑战赛(VQA Challenge)的比赛结果也在本次会议的视觉问答专题会议上公布。Yuandong Tian (田渊栋)等一批著名科学家被邀请在讨论会上发言。本次比赛设有4个挑战项目,共有20多支队伍参加角逐。张祥雨表示:“颇感荣幸的是,本次比赛所有项目的前三名均使用了我们发表的152层深度残差网络作为图像特征的提取模型,再次表明了我们的方法在不同的应用场景下均具有较强的推广能力。”

视觉问答专题讨论会

灵感碰撞的专题研讨会

今年的主讲嘉宾请来了神的平方级人物Amnon Shashua教授。Ammon是耶路撒冷大学的教授以及Mobileye公司的创始人。Ammon在会上给同学们分享了他对自动驾驶、深度学习、汽车市场的一些见解。

神的平方级人物 Prof. Amnon Shashua

Keynote刚开始,Ammon老师就说出了这样一句话:

It’s not going to be the kindof talk that I’ll tell you how things are done. I’ll tell you that something more interesting is what are the things that need to be done. I always tell my students that 80% of the work is knowing what to solve. The remaining 20%percent, if you don’t do it, somebody else will do it. Knowing what to solve isreally the big thing.

“找到需要去做的东西去做才是最重要的”,此话让人深有感触。计算机视觉经过磕磕碰碰几十年的发展来似乎终于找到了靠谱的落地方式:无人车。主题演讲中Ammon将自动驾驶中的技术分为三个支柱,分别是传感技术(Sensing),地图绘制(mapping)和驾驶策略(Driving Policy)(Planning)。Ammon用一些例子说明了三个问题的发展状况,以及讨论了为何这三个问题必须同时发展并作为整体来考虑,以免一个问题对另一个问题产生分歧。在现在全世界一窝蜂想搞无人车的大环境下,AmmonShashua教授的演讲为想了解和想进入这个领域的同学们提供了一个很好的全局观,让大家理清了需要解决的问题,以及对这些问题的感性认识。

CVPR 2015曾有个专题研讨会:计算机视觉中的女性研究者(WiCV2015: Women in Computer Vision)。而今年CVPR 2016的组委会几乎全是女性,通过邀请在这个行业中的女性榜样研究员提高女性研究者的影响力和被关注程度。同时每天大会的简报还特意挑选出一两位女性研究者来分享她们关于研究兴趣、职场规划的宝贵经验,也给予年轻的女性研究者更多的机会去展示她们的成果。

张婷同学说:“在经过一周参会的思想碰撞后,我感觉计算机视觉在生活中几乎无处不在。引用第一天简报的话语:计算机视觉将会应用到我们的汽车,我们的家庭,我们的搜索引擎,我们的医院等等各种各样的领域中。它可以用来帮助那些有残疾的人士,可以分析社交关系,可以用来拯救垂危的生命,可以用来增加粮食的产量等等。而计算机视觉要实现这样的目标,需要来自于各个不同领域具有各种专业背景的研究员。”

CVPR论文是如何写成的

今年的最佳学生论文毫不意外也是关于深度学习的文章,来自康奈尔团队的关于Spatio-Temporal Graph上的深度学习工作:Structural-RNN:Deep Learning on Spatio-Temporal Graphs, Ashesh Jain, Amir R,Zamir, Silvio Savarese, Ashutosh Saxena。最佳论文第二名(Honorable Mention) 则颁给了慕尼黑科大(TUM)团队关于优化理论的文章:Sublabel-Accurate Relaxation of Nonconvex Energies, Thomas Möllenhoff, Emanuel Laude, Michael Moeller, Jan Lellmann, Daniel Cremers。 可见组委会在疯狂的深度学习热潮中依然保持着对传统能量优化问题的重视。其中一个重要原因可能是,尽管深度神经网络在中高层视觉中已所向披靡,但其在底层视觉的一些问题中仍未超越传统方法,例如去噪、光流、以及立体视觉匹配。

该论文中TUM Cremers团队提出的优化方法正是针对低层视觉问题中的经典formulation:逐像素的非凸数据项 TV正则化约束。该方法的中心思想是对每一个像素而言,用一个高维向量(Lifted Representation)来表示原问题中要优化的标量(或低维)自变量,将原问题映射到一个更高维空间中的一个等价问题,从而可以对非凸能量项进行更好的凸近似,获得更高的解的质量。近似后得到的凸能量可以并行优化,且易于实现,可以高效地找到近似问题的全局最优解。论文重点讨论了该方法在立体视觉匹配中的应用,效果大大超过了传统的TV 非凸数据项的解法。

会场外景

张弛同学解释:“立体视觉匹配是我的研究重点之一,该问题的任务是从双目相机所获取的左眼图像和右眼图像中恢复出逐像素点的深度。由于双目相机中的平行极线约束,该问题又转化为左右眼图之间的逐像素匹配问题。”

受限于训练数据的数量,同时也因为可能未找到该问题下的最佳网络结构,深度学习中的端到端的训练方法在立体视觉匹配上的表现依然未超过传统方法。这里的端到端的训练方法指的是:直接对输入图片进行一些列卷积以及一些列反卷积来回归出输出图像。由于获得双目图像的ground truth深度数据本身就是一个难题,目前立体视觉匹配两个主要benchmark Middlebury和KITTI上也分别只有数十对和数百对的训练数据,对训练端到端的深度估计网络还远远不够。

为了解决这个难题,TUMCremers团队在另一篇论文中讨论了如何生成足够且靠谱的训练数据用以训练深度估计网络:A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation, Nikolaus Mayer, Eddy Ilg, Philip Häusser, Philipp Fischer,Daniel Cremers, Alexey Dosovitskiy, Thomas Brox。该论文使用开源的3D Creation Suite Blender渲染出一系列带有复杂运动模式的物体的双目图片,由于渲染过程是从3D到2D且物体及场景的三维模型已知,生成ground truth的深度图变得非常容易。生成的训练数据集中包含35,000对训练样本,训练得到的深度估计网络在KITTI上的排名也比较靠前,但离第一名传统方法Displet仍有相当一段距离。这里值得一提的是,虽然该网络使用人工合成的数据集进行训练,它在真实数据集上似乎具有良好的泛化能力。随着训练数据的不断完善,深度网络在几个重要的低层视觉问题上是否会超越以及如何超越传统方法,又或者能给传统解法带来什么样的启发,我们拭目以待。

张弛同学的海报展示

张弛还分享了他们组关于物体扫描方面的工作——Joint Multiview Segmentation and Localization of RGB-D Images Using Depth-Induced Silhouette Consistency论文的准备历程。“CVPR的主会议程非常紧凑,被接收的600多篇论文被安排在短短四天里面完成展示。我们的工作在29号下午进行展示。该工作由中山大学智能信息处理实验室以及微软亚洲研究院多媒体搜索与挖掘组共同合作完成。论文的动机为利用物体的剪影信息来提高RGB-DSLAM中相机位置估计的精度。由于物体剪影难以获得,一般需要繁琐的用户输入,这大大阻碍了使用剪影信息的系统的实用性。针对这个问题,我们提出同时进行多视角物体分割以及相机定位的解决方案,使得物体剪影可以在优化过程中即时产生,并用于改进相机姿态估计。论文的实验中展示了所提出方法产生的更高质量的重建结果。”张弛说。

从ImageNet比赛冠军到CVPR最佳论文

微软亚洲研究院在深度舞台中继续扮演重要角色,2015年12月在ImageNet图像识别挑战赛上开创152层神话的Deep Residual Networks夺得了最佳论文奖!其实这一结果计算机视觉组的研究员们表示并没有感到十分意外,去年的ImageNet& Microsoft COCO比赛他们正是凭借着该方法获得了全部5个主要项目的冠军。在方法公布后至今的半年多的时间里,该方法在学术界和工业界受到了较大的关注,之后的许多成果从不同的侧面印证了该模型的有效性。这次获奖再次印证了学术界对这项工作的肯定。随着神经网络层数加深,神经网络会变得越来越难训练。论文提出了一种针对深度神经网络的残差训练框架,解决了这一当前具有迫切需求的难题。

获奖证书

张祥雨同学作为这篇文章的作者之一,他的研究方向主要为深度网络模型构建及其在图像分类问题上的应用。他认为:“由于该方向在深度视觉领域的基础性,优秀的工作往往会得到学术界的高度重视,当然也意味着相对较大的研究难度。”

张祥雨分享道:“作为该项工作的参与者之一,我从中学到了很多。该项研究始于去年5月左右。一次偶然的机会,我发现某些含有跨层结构的网络能够很大程度上提升网络的深度,同时模型的分类精度也有大幅提高。沿着这个思路走下去,我们得到了一系列结构复杂但是性能良好的模型。然而此时指导老师指出这条思路是不正确的,复杂的模型包含了太多的参数,使得我们很难在多个任务上公平地衡量模型的优劣;更重要的是,由于模型的复杂性,我们无法得知究竟是哪一块设计对最终结果起到了决定性的作用,从而难以对以后的工作产生有益的指导。因此老师建议对当前的模型结构进行简化,只保留对最终精度影响最大的结构成分。起初我对此十分不解,因为模型结构的简化通常是以损失精度为代价的,尤其是当时随着比赛日期的临近,“追求极致精度”似乎是更为合理的做法。然而事实证明指导老师是正确的,当我们对网络结构进行充分的简化和变形之后,我们发现模型中的残差结构对网络性能起到了决定性的影响,而跨层的设计则避免了传统深层网络中常见的梯度消失或膨胀的问题。至于简化模型所损失的精度,可以简单地通过增加网络深度来补偿。后来的实验表明,这种极简的网络设计在保证分类精度的同时,极大地方便了模型在物体定位、物体检测、图像分割等问题中的运用。这也使得我们在去年ImageNet& COCO比赛中在不同的项目上均取得了较大优势。”

作者分享

张弛:

 在微软亚洲研究院实习的过程中,不仅可以得到世界级水平的指导,还能接触到领域各路武林高手,快速地了解前沿科技的动态。研究院的各位老师和同学都非常nice,大家工作都非常认真,同时也玩得很认真。Work hard, play harder。在这里实习不仅开拓了计算机领域的眼界,也是生活中的难忘经历。

张婷:

在这里实习的过程中,在每一次讨论中,我都受益良多,感受到其正确对待科研的态度,对问题深刻的洞察力,以及始终保持对科研的好奇心。同时,在研究院还能接触到各种研究方向的大牛们,听到计算机领域里最前沿的讲座,参加各种各样好玩的Party,在收获知识、收获成长的同时也获得了快乐。

张祥雨:

我刚来到微软的时候恰逢我们深度视觉小组刚刚组建之时,我很荣幸地成为了这个小组的一员。三年来我亲身体会了我们小组的发展,从刚开始的一篇空白,逐渐发展为具有世界水平的研究团队,完成了诸如首次在图像分类问题上超越人类水平、获得ImageNet比赛冠军等一系列重大突破。身处微软亚洲研究院视觉计算组,我感受到了一种强大的学术精神,身边的所有人无论过去取得的成绩如何,面对深度学习这样一个快速发展的领域,他们每时每刻都在学习,都在进步。而导师们面对全新的领域仍然能保持敏锐的学术嗅觉,把握正确的科研方向,在紧随科研前沿的同时却不失学者的严谨与谦逊,所有这些均对我触动很大。


 

无人机抓蚊子?微软研究项目帮助追踪病毒传播

$
0
0

在全世界的大部分地区,蚊子是严重的公众卫生问题。据估计,每年约有7亿人被蚊子传染各种疾病,且每十七个人中,就有一人死于被蚊子传染的疾病,而这在热带地区尤甚。炎热潮湿的夏季,也是蚊虫疾病的多发季节。美国休斯敦所在的哈里斯县,蚊虫监控团队已经为最繁忙的季节做好了准备:与寨卡病毒等危险的蚊虫传播疾病赛跑。然而,今年这个团队还有了一个新武器:一个外观时尚的捕蚊器,据专家称,它标志着几十年来捕蚊器技术的最重大创新。

捕蚊器

这只捕蚊器的原型是微软研究院的研究项目——Project Premonition的组成部分之一,设计的目的是自动完成从前必须由昆虫学家手动执行甚至根本无法执行的任务。而Project Premonition的项目目标则是在传染病大规模爆发之前就能发现并消灭这些疾病,例如寨卡病毒。

例如,本月这款新型捕蚊器作为试点项目的一部分,首次在休斯敦地区部署,仅收集昆虫学家希望跟踪的特定种类的蚊子,而不是蚊子、苍蝇、飞蛾等小飞虫的大杂烩,避免了科学家们进行手工分类。

这款捕蚊器还可以告诉科学家们,每只蚊子是在什么时候被抓住的,甚至还可以记录这只蚊子飞进来时的温度、风力和湿度。此外,它的设计可以耐受刮风下雨等不良自然条件,而传统捕蚊器通常会在这些自然条件下失效。“我们将获得前所未有的与昆虫行为有关的丰富数据,”领导Project Premonition的微软研究员Ethan Jackson说。

Project Premonition负责人,微软研究员Ethan Jackson

“在这样一个地域广袤的县,我们没有足够的资源来通过不断喷洒药物来全域覆盖,”哈里斯县公共卫生局副主任Les Becker说。“我们必须弄清楚怎么做才是最有效的。”事实上,捕蚊器能够提供更快、更准确的信息,帮助他们找到对健康构成最大威胁的蚊子,这些蚊子可能会传播登革热、西尼罗河病毒、疟疾和寨卡病毒等疾病。反过来,捕蚊器也将有助于团队在这个幅员辽阔的大县里精准定位最需要帮助的区域,从而节省大量时间和金钱。

为了收集所有上述信息,新型捕蚊器使用仅需两个电池供电的微处理器,它们收集到的数据可以无线下载并传送到云中。新型捕蚊器还能够依托人工智能的一个分支——机器学习的最新进展,以区分哪些是研究员希望捕捉的蚊子和哪些是不需要捕捉的其他昆虫。对于此前还在依靠几十年前的老旧捕蚊器追踪21世纪疾病爆发的研究人员来说,新型捕蚊器可谓一次巨大的飞跃。

试图有所作为

当Ethan Jackson和他的研究团队去年共同启动“Project Premonition”时,他们并没有计划立即开始跟踪像寨卡病毒这样的公共健康问题。相反,他们原本打算开展一项为期五年的研究工作,希望帮助政府部门及早发现下一个侵袭主要人口中心区域的公共健康问题。来自匹兹堡大学的科学家Jim Pipas,作为Project Premonition的一员表示:“Project Premonition的根本目的是抢在寨卡病毒等疾病爆发成真正的临床问题之前就发现它们。”

哈里斯县蚊子地图

为了实现这一目标,研究人员计划首先使用新型捕蚊器,在大城市以外的偏远地区抓住一些蚊子。然后用分子生物学和机器学习技术的最新进展来对这些蚊子加以深入分析,查找新的潜在危险疾病开始出现的端倪。与现行体制相比,如果能够抢在寨卡病毒等爆发成为重大健康威胁之前就主动宣战,将让人类掌握巨大的优势。目前常见的情况是,知道疾病已经大规模爆发以至于医生已经觉察到不良症状时,负责公共卫生的相关部门往往才能做出反应,例如眼下与寨卡病毒相关的毁灭性先天缺陷。

Project Premonition的意图并非治愈这些疾病,而是从一开始就阻止其蔓延,避免人们受到感染。“捕蚊器并不会解决寨卡病毒、登革热或基孔肯雅热等问题,”约翰·霍普金斯大学布隆博格公共卫生学院分子微生物学和免疫学教授Douglas Norris说。他也参与了这个项目。“但是,希望这个项目能够提升我们侦测这些疾病的能力。” Project Premonition的整个预警系统开发仍在有序进展中。但近年来寨卡病毒开始显著传播时,研究人员意识到,即使在早期阶段,该项目仍有可能帮助人们应对这种直接的威胁。

训练捕蚊器并跟踪寨卡病毒

在休斯敦地区部署的早期版本的捕蚊器主要用于完成两个目标。一方面是帮助昆虫学家跟踪携带了寨卡病毒或其他有害疾病的蚊子,另一方面还能向研究人员提供他们需要的数据,立即着手让Project Premonition的从愿景变为现实。

第一步是训练新型捕蚊器。这套系统在设计上能够根据蚊子扇动翅膀的特征来识别哪些蚊子应该抓。但要做到这点,则需要专家们口中所说的训练数据:飞入捕蚊器的很多蚊子和其他昆虫的数据样本。这就是科学家们希望在休斯敦收集的东西。接着,这些数据可用于构建一种算法,借助机器学习,帮助捕蚊器学会正确识别应该捕捉的蚊子,而当其他类型的蚊子或完全无关的昆虫试图飞入时捕蚊器会假装无动于衷。

由于每只蚊子都会飞进独立的小盒子,新型捕蚊器还可以记录它是什么时候飞进去的,以及当时的环境因素(例如当时的风速、温度和湿度等)。这些都可能帮助科学家了解病毒是如何传播的,比如哪些类型的蚊子能够传染人,这些蚊子是否更可能在夜间叮咬,或当气温达到一定水平时叮咬等。“它能收集到很多我们在通常状况下得不到的数据,”分子微生物学和免疫学教授Douglas Norris说。“我们可以用它们来计算出适用于真实世界的解决方案,例如哪种蚊帐比较有效。”

寻找新病毒

回到实验室后,研究人员还可以更仔细地观察每只蚊子,弄清楚它叮咬过什么动物、携带什么病毒。研究人员使用他们这个夏天在休斯顿捕捉到的蚊子作为训练数据,并用于设计发现潜在疾病暴发的系统。微软研究院自然与计算组资深研究员Jonathan Carlson表示,他们正在构建的系统类似于用于网页分类的系统。但是,他们的系统并不在于确定某个网页与棒球或足球有关,而是试图判断这些蚊子携带着什么病毒,以及是否出现了新的或令人担忧的病毒。

计算机科学和分子生物学两大领域的最新进展则提供了更加实用的方法,让研究人员得以通过深入分析各类蚊子以及它们吸食的血液组成的一大锅“汤”,弄清楚其中潜藏着什么病毒和细菌。“绝大多数基因组是未知的,”Carlson说。“但我们必须弄清楚,‘汤’里到底有什么?”

下一步:无人机

除了创建更好的捕蚊器并开发分析模型,Project Premonition团队还在研究如何利用无人机技术,从短期看,它可用于帮助跟踪寨卡病毒和其他疾病的传播,而从长期看,它可用于减缓下一次疾病暴发。

在短时间内,研究人员希望使用拥有计算机视觉技术的无人机寻找可能携带疾病的蚊子聚集地。使用无人机而非真人,则可以大大减少时间和金钱的花费。而长远来看,研究人员希望利用无人机将他们的新型捕蚊器运送并安放在偏远地区——而不是靠真人徒步几个小时、手动抓蚊子。

例如,一些科学家推测,鸟类可能在哈里斯县的西尼罗河病毒激增中扮演了不光彩的角色,但他们并不具备切实探究所需的任何数据源。根据Project Premonition数据判断蚊子叮咬何种动物的能力,则将让他们得以对上述问题一探究竟。

“这些数据的作用在于,让我们得以提出以前从来没能提出的问题,” 哈里斯县公共卫生局副主任Les Becker说。


 

Microsoft Translator发布粤语文本翻译

$
0
0

今天,Microsoft Translator发布了粤语的文本翻译,新的语言增加将继续丰富微软翻译产品的生态系统*,让更多组织和个人能够快速且高效地实现翻译应用。在中国,大有约5500万人使用粤语(语言代码YUE),而在全球其余各地也有约2000万的使用人口。无论是商业应用还是个人应用,随着微软不断增加新的语言支持,政府、社区和个人都将能够更加便利地实现跨越国界的沟通。特别是在中文应用领域,Microsoft Translator目前已支持中文简体、繁体以及粤语的翻译。

Microsoft Translator支持着大量微软产品和服务的翻译需求,在任何需要实时、高效、低成本地打破语言障碍的应用场景中它几乎都无所不在。它已集成到了必应搜索和翻译、Microsoft Office (Word**, Word Online, PowerPoint, Excel, Outlook, Publisher, OneNote, 和 Visio), SharePoint, Cortana(微软小娜)Yammer。Microsoft Translator拥有完整的PC和移动设备的App,包括Windows, Windows Phone, Android Phone, Android Wear, iPhone, Apple Watch 和iPad。Microsoft Translator还集成到了微软翻译Web Widget,这是一款可以在用户网站轻松添加多语言支持的免费插件。还有Document Translator可以帮用户快速翻译Word,Excel,PowerPoint,PDF文件。同时,桌面版Skype也将会支持粤语的即时文本通讯,可以随时与世界各地沟通。另外,通过Microsoft Translator API,开发人员还可以将粤语翻译技术集成到自己的产品和应用程序中。

新增加的粤语支持使Microsoft Translator更接近其最终目标——永久打破语言的障碍,让人们实现随时随地的多语言沟通。现在,全球各地使用粤语的人士可以访问到世界其他50多种语言背后所蕴含的更广泛、深入的信息和文化,并且向全世界更好的传播粤语的丰富历史及文化。



 

她创造:觉醒的编程之“美”

$
0
0

提到“女程序员”这几个字,大家通常会露出会意的微笑,有无奈,有心酸,有故作坚强……因为很多人甚至包括很多女性在内都普遍认为,女性不适合做程序员。但果真如此吗?非也!事实上并没有任何科学依据证明女性不适合编程这项工作。

世界上第一位程序员就是女性——Ada Lovelace,200年前的她不仅预言了通用计算机的可能,还编写了世界上第一个计算机程序。而70年前,世界上第一台通用计算机ENIAC诞生,完成编译和部署工作的就是由6位女程序员组成的团队。

Ada Lovelace

不过多年来形成的思维定势,让大家不看好女性从事编程工作。微软亚洲研究院学术合作总监潘天佑博士表示,据他及一些同行的观察,“高校里计算机专业女生的比例平均只有15-20%,到了研究生阶段则更少。各种编程类比赛似乎也都默认是为男生量身定制,大多数女生也会认为这种比赛与自己并无太多关联,可能都不会主动参与。”

为此,“2016微软编程之美挑战赛”开始有所改变。如潘天佑博士所介绍,在本届大赛的前期预热和宣传中,他们着意让大赛不再充满男性钢铁世界的味道。例如在所有场景中尽量增加女性词汇,用女生赛车选手作为宣传Video主角,为大赛增设Ada奖,以及增设了创意赛环节,旨在鼓励更多女生参与的同时,也鼓励非计算机专业的学生参与。最终在决赛阶段,女生所占比例超过了20%。

一次意外而美丽的邂逅

山东大学大三在读的学生殷锟就因此意外邂逅了微软编程之美大赛。殷锟攻读的专业是工业设计,与编程几乎毫不相关,但当她看到“2016微软编程之美挑战赛”海报上增设的创意赛环节,鼓励非计算机专业的学生充分发挥自身在不同学科领域的创造性才能,用全新的方式探索、呈现编程之美,她便毅然报名参加了。

在创意赛环节,殷锟以个人的名义通过网络提交参赛作品,经评选脱颖而出进入最终的15强。之后她与编程赛决出的15强三人编程小组自由组队参加决赛,而大家之前根本就是陌生人。在历经26小时的编程马拉松后,殷锟所在的“哆啦A梦”队圆满完成了智能电子相框赛题,获得了评审专家的一致好评,最终夺取团队冠军。同时,殷锟也获得了Ada奖。

山东大学殷锟与“哆啦A梦”团队

第一次参加此类编程大赛就获得大奖,殷锟表示,“所有一切都非常意外,意外地参赛,意外地组队,最终还意外地获奖了,无论是过程还是结果,都太美了!”回忆起大赛的情况,殷锟至今都觉得一切都在意料之外,再仔细想来却又在情理之中。

在大赛的颁奖晚宴上,微软中国云计算与企业事业部首席产品经理李京梅女士为殷锟佩戴了Ada徽章。“我去领奖的时候,整个表情都是错愕的,不过对我来说这是一个非常大的激励,我虽然不是计算机专业出身,但这个大赛让我相信今后我的设计可以与代码有更多的交集。”

殷锟原本对编程了解甚少,只在大三上学期选修了开源硬件与编程这门课,也曾短暂憧憬通过编程实现自己的创意,不过之后就没有了下文,“因为总感觉要想实现自己的创意,自己的计算机水平还差得远。”但这次参赛,与编程赛选手的默契配合,让殷锟深刻体会到和队友一起战斗的美好感受:“编程之‘美’恰恰美在此处,它可以让自己的想法真正落地,非常酷!虽然我不懂技术,但可以跟技术人员配合,用编程解决真实世界里的真实问题,让这个世界上很多不美丽的事物变得更加完美。”对此殷锟颇为感慨。

殷锟所在的“哆啦A梦”队总决赛赛题是智能电子相框,选择该题目的参赛各队其实在功能实现或编程技巧方面差距并不大,因此,最终成绩更多地取决于创意,而殷锟在其团队中正是起到了设计之魂的作用。当然,别具一格的创新想法一定要与踏实的编程技术功底默契配合才能将创意变为现实,从而改变世界。

编程之美,自信如我

与殷锟不同,闭蓉是计算机专业科班出身的女程序员,她在北京邮电大学读硕士一年级,是本届编程之美挑战赛亚军团队的队长。坐在你面前时,只有一句话可以形容她,那就是“温婉恬静而自信”,与传说中不拘小节、面容憔悴的程序员形象相去甚远。

北京邮电大学闭蓉

已经与计算机相伴5年,参加过多个编程、计算机大赛并获奖的闭蓉认为,女生编程是一件很正常的事情。虽然她之前也曾因一个排序算法而想破脑袋却不得其解,对自己有过怀疑。但在向大牛请教后发现,原来每个程序员都有过同样的经历,而不是因为她是女生就格外的困难。

“女生不仅能够扎实地学好编程基础,而且沟通和表达能力强,做事细心,这都有助于编程工作。”闭蓉提到,大赛过程中遇到的有些Bug,都是她比较细心地第一个发现。而潘天佑博士也表示,“我们发现比赛过程中,团队里发号施令的通常是女生。他们较强的沟通与协调能力使其成为团队中不可或缺的重要角色。”

对于微软编程之美挑战赛,闭蓉并不陌生。自2012年起,这个大赛已经举办了四年,每年都是计算机专业学生的盛会,可以说能够入围就已证明了自己的实力,闭蓉的参赛初衷就是想看看自己能否取得更好的成绩,挑战自己。

闭蓉同组的另外两位与其参赛前就熟识的男同学都一致推举她当队长,他们俩一方面很认可闭蓉的编程水平,另一方面也相信她在团队协作中的综合能力。然而,队长的称号在团队里也意味着更多的责任和担当。在决赛第一天,编程团队就需要去自主匹配一位创意赛的同学,短短的暖场时间里大家双向选择。而闭蓉却早在暖场之前就将大赛期间同宿舍的另一位漂亮妹子付雪伦“拐入”他们团队。

付雪伦是来自江南大学交互设计专业的学生,除了拥有深厚的设计实力,对用户体验和用户痛点的分析也很精准。不过闭蓉表示跟设计专业的雪伦合作也有过“致命问题”:“她的设计和想法都非常酷炫,但她之前没有跟我们这样的程序员合作过,以为给我们一个很棒的展示界面之后,我们就能将想法实现了。做过编程的人都知道,其实事情没这么简单,不是所有的设计都可以马上实现,尤其是比赛只给26小时,我们必须要牺牲掉一些设计、性能以及其他,才能确保按时、较高质量地完成题目。”

于是,双方的磨合从统一想法、流程和习惯开始,与不少团队一样,闭蓉他们也熬了一个通宵,做完了设计、编程、调试、渲染及演示PPT与展板,最终他们的作品被评为最完善的原型,决赛当天就成功上线,且运转良好。闭蓉团队所做的决赛题目是学术搜索,他们的作品不仅能够按需搜索论文和数据,还会给用户人性化指导,如果用户是正在准备开题的同学,它还可以帮助理清开题方向,推荐业内最好的导师,推荐领域内经典必读论文等等。而搜索出来的结果则采用了雷达图、柱状图等多种展现形式,可视且直观。

计算思维没有性别之分

参加微软编程之美挑战赛的女生用行动证明了编程没有性别之分。事实上,编程这个领域需要的是不同背景的人才——UI、设计、代码、测试、架构等等,可以是计算机专业,也可以是非计算机专业,可以是男生,也可以是女生,它没有预先设好的界限,所有的限制只是在每个人的心中。

潘天佑博士表示,“微软一直致力于在全球各地投入巨资帮助当地市场培育人才,支持新一代学生的计算机科学教育和计算思维的培育。而这将关系到一整代高科技人才的培养,以及未来经济、社会的振兴与长远发展。”

微软亚洲研究院学术合作总监潘天佑博士

如在中国与教育部全方位合作,面向大学生开展编程之美、创新杯等大赛,针对中小学生开展丰富多彩、涵盖不同年龄层的学生项目;与各大公益组织共同推动青年星火计划,深化普及计算机教育;并推出“明日之星”实习生计划、“微软学者”奖学金、微软联合培养博士生、微软学生俱乐部、“铸星计划”青年学者计划等等,都是这一思路的集中体现。

对于明年的编程之美挑战赛,潘天佑博士表示他们正在考虑将整个大赛扩展到亚太地区,真正做到各个国家之间的交流,“而女生将与男生一起成为大赛的主角,编程之‘美’也因此多了一个解读——她们的参与让编程这件事变得更加美丽。我们可以称之为觉醒,也可以称之为顺其自然,意识到女性可以在IT界做出更多贡献,已然是全球的共识。”


 

【线下活动 】 微软亚洲研究院“入侵”计划!

$
0
0

想来参观世界最前沿的计算机实验室?想和大牛研究员面对面?想和微软亚洲研究院的HR们套套磁?亲爱的程序媛们,大家期待已久的微软亚洲研究院参访活动终于上线啦!

微软亚洲研究院联合GirlsWhoCode(程序媛的日常)将于8月5日下午在北京微软亚太研发集团2号楼举办工作坊,给各位程序媛们与微软亚洲研究院亲密接触的机会!下面由小编给大家介绍一下详情~

微软亚洲研究院(MSRA)是微软公司在美国本土以外最大的基础研究机构,也是微软在美国本土以外规模最大的一个。从1998年建院至今, 通过从世界各地吸纳而来的专家学者们的鼎力合作,微软亚洲研究院已经发展成为世界一流的计算机基础及应用研究机构,致力于推动整个计算机科学领域的前沿技术发展,并将最新研究成果快速转化到微软全球及中国本地的关键产品中,帮助消费者改善计算体验。同时,微软亚洲研究院着眼于下一代革命性技术的研究,助力公司实现长远发展战略和对未来计算的美好构想。

微软亚洲研究院共有200多名研究和开发人员以及300多名访问学者和实习生目前主要从事的研究领域包括:自然用户界面、新一代多媒体、以数字为中心的计算、互联网搜索与在线广告、计算机科学基础

从微软亚洲研究院诞生出来的新技术层出不穷,它们对微软公司产生了非常重要的影响。众多从微软亚洲研究院诞生的创新技术转移到了微软产品中,包括:Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect、Windows Phone等,以及近年来以微软小冰、Cortana、Skype Translator等为代表的人工智能产品。

微软亚洲研究院一直努力营造奋发、进取的科研环境,倡导对技术进步怀有远大抱负,推崇大胆创新以及富于冒险的极客创新精神。研究院鼓励研究人员树立长远眼光,加强与外界的交流,在第一时间接触世界领先的研究成果,对行业发展、技术趋势、及消费者需求高度敏感、迅速反应。微软亚洲研究院强调成员之间的相互信赖、相互尊重与开放合作,并承诺与高校和科研机构开展持久而有效的合作,促进协作、激发创新、推进教育,变梦想为现实!

那么热爱互联网的你,是不是也对这样的殿堂充满好奇呢!快来报名我们的活动吧~~

微软一直鼓励更多女性进入技术行业,并致力于帮助她们更好地实现职业发展目标。微软创办的“女性与机器学习”研讨会已经走过10年历史,成为了目前机器学习领域女性研究者最实用的学术交流平台!微软主办的Codess大会也致力于帮助全球技术领域女性工作者进行更好的职业规划与职业发展。微软还有一系列女性精英大会、女神节、女神实习分享等精彩活动,希望帮助女性员工在IT行业的世界里拥有一份属于自己的精彩。

通过此次活动,你可以进一步了解微软亚洲研究院,强势围观我们的最新研究成果,聆听资深研究员的研究和经历,与微软的HR聊聊面经,还可能获得实习机会【星星眼】!具体活动安排可以参加下方表格。

活动时间:8月5日下午13:30-17:30

活动地点:微软亚太研发集团总部2号楼1层(北京市海淀区丹棱街5号)

活动介绍

面向人群:

- 在北京学习或工作的女性

- 计算机或相关专业

- 对MSRA的实习生或工作机会感兴趣

报名方式:

在8月2日下午18:00前填写此表格:http://www.sojump.hk/jq/9178903.aspx【请复制上面的链接到浏览器或戳微博正文中的网址】报名成功&资料被审核通过之后活动邀请函将以邮件形式发送给大家!

不知道大家有没有从上面的文字中捕捉到关键信息呢!贴心的小编再来帮大家提炼一下!

你必须要是个程序媛妹子!【PS:这次没有可爱的男生们的机会啦实在抱歉,下次我们争取扩大活动范围XD】【PPS:不要再问男扮女装可不可以!(严肃脸)】

另外,非常值得强调的一点,这次是一个很好的跟微软亚洲研究院研究员/HR交流从而获得研究院实习/工作的机会,大家提前来听听经验,说不定有机会碰到你阅读过论文的作者,还顺路提前认识了面试官啦~还有什么问题请在本条微博下方留言吧,AI小编会不定时回复哦!


 

通往人工智能梦想的隐形革命

$
0
0

本文译自:Asia Vision Series: Artificial Intelligence; 作者:Koh Buck Song(许木松)

编者注:洪小文博士师从图灵奖获得者拉吉·瑞迪(Raj Reddy),而拉吉·瑞迪则是人工智能领域的奠基人和拓荒者约翰·麦卡锡(John McCarthy)的学生。洪小文博士从事人工智能相关研究近30年,是国际公认的语音识别专家。本文分享了洪博士探索创新的心路历程,深入探讨了人工智能与人类的关系,以及人工智能将在什么情况下与人类“分道扬镳”。

人物介绍:洪小文博士现为微软全球资深副总裁,微软亚太研发集团主席兼微软亚洲研究院院长,全面负责推动微软在亚太地区的科研及产品开发战略,以及与中国及亚太地区学术界的合作。洪小文博士已在微软公司工作了20年。他于2004年加入微软亚洲研究院担任副院长,并于2007年升任微软亚洲研究院院长。此外,2005年到2007年,他创立并主管搜索技术中心(STC),该中心负责;必应搜索在亚太地区的开发工作。2014年洪博士兼任微软亚太研发集团主席。

“小冰”背后的大梦想

直到上大学之前我都没有真正接触过电脑,但从孩童时期起,我就不止一次构想过能有一个解决任何问题的万能工具。”

直到1981年,洪小文才第一次在大学里亲手摸到计算机。但早在那之前,他就想象过未来会有一个系统能够回答人类提出的任何问题。年轻的洪小文认为,这项技术如同今天的搜索引擎或“微软小娜”(Cortana)等人工智能助手一样,将能够提供完成各种任务的各种信息,并帮助人们克服对未知的恐惧。他对未来的畅想也影响着他的整个求学之路:他在台湾大学攻读了电机工程专业,之后在卡内基梅隆大学深造,先后获得计算机硕士及博士学位。

正是在卡内基梅隆大学,洪小文博士开始认真地为他此后的人机交互研究工作奠定基础。他的博士生导师、图灵奖获得者拉吉·瑞迪(Raj Reddy)曾经是计算机科学家约翰·麦卡锡的学生,而约翰·麦卡锡(John McCarthy)正是人工智能领域的奠基人和拓荒者——他因为在1956年首次提出了“人工智能”(artificial intelligence,简称AI)一词而被人们广泛誉为“人工智能之父”。这样的渊源让洪小文博士大受裨益。好事多磨,1986年到1992年他攻读博士学位的那几年,一场“人工智能的冬天”降临了。洪小文博士回想那段时期的学术氛围时说:“政府机构、大学甚至企业都放慢、甚至停止了对这一领域的资金支持,直到21世纪的第一个十年,人工智能才重新回暖,并变得愈发炙手可热起来。”

洪小文博士将人工智能的“大热”归功于软硬件的提升和大数据的发展。今天的机器,功能更强,速度更快,人类穷尽一生也无法挖掘的大量数据可以利用机器在短时间内处理完成。计算能力的跨越式发展对人工智能至关重要,因为数据是机器学习的主要途径。事实上,人工智能、大数据和机器学习的协同作用已经能够实现之前很多无法完成的事情,例如人脸识别、语音识别以及实时语音翻译等等。洪小文博士作为微软亚洲研究院的领军人,正竭力推动着这些领域的进步。

如今,人工智能之所以备受瞩目是因为它能帮人类解决新问题,或者是更好的解决旧问题。

洪小文博士加盟微软至今已20余年,几乎经历了微软历史的一半。然而,很少有人知道,洪小文博士儿时的梦想究竟酝酿了多少个年头。2015年,微软小冰进入了国内大众的视线。小冰是一款聊天机器人,能够通过对互联网上的对话进行挖掘,从而培养自己的语言处理能力,它内置的语音识别和图像识别系统可以帮助它理解对话场景。在中国,每天都有数以千万计的智能手机年轻用户与小冰聊天,并且被它的善解人意和幽默感深深吸引。据说,其中四分之一的用户曾对小冰说“我爱你”,这种交互技术已经大大超越了洪小文博士“创建一个可以提供信息的系统”的梦想。小冰成了人们的虚拟朋友,也促使洪小文博士有了更大的梦想:他希望人工智能能够进化到更高的境界,就是将微软小娜的生产效率与微软小冰的丰富情感相结合。

然而,小冰仅仅是微软在人工智能征途上的里程碑之一。作为一家最近明确表示要下注Bots(机器人)开发的公司,微软怎样才能利用这项技术实现 “予力众生,成就不凡”的使命呢?洪小文博士对于公司致力于研究的承诺有着自己的深刻领会,而他似乎是解答这个疑问的最佳人选。他从人工智能重新受到关注的原因说起:“如今,人工智能之所以备受瞩目是因为它能帮人类解决新问题,或者是更好地解决旧问题。”医疗则是显而易见的应用领域之一:单纯根据患者表现出的症状而开具的处方很可能无法击中要害。洪小文博士认为,通过收集反映患者遗传因素和生活习惯的数据,并寻找其中的关联,即可得出个性化的治疗方案和用药安排,让人们生活得更健康、更长寿。

人工智能的另一个与健康相关的应用在于帮助视障人士“看世界”。由微软认知服务提供技术支持的Seeing AI项目利用智能化应用编程接口(API),随时随地为视障人士描述周围的环境。

该应用的工作原理很像为图片编写说明:拍摄一张照片,系统就会告诉你,图片上有什么,包括图中人物的年龄、面部表情以及他或她在做什么。这样,视障人士就可以挣脱残疾的束缚,充分参与并享受更高质量的生活。

洪小文博士还倡导人工智能在工业领域的应用,特别是利用物联网(IoT)进行预防性维护。他以目前效率低下的电梯维修为例加以说明:技术人员必须多次前往故障电梯处下载数据,才可以最终完成修复。

利用物联网,可以持续收集数据并推测出哪些部件受到了磨损,这样就可以在更合理的时间框架内安排维修工作。预防性维护可以节省时间和金钱,如果用于发电厂等环境,甚至还有可能拯救生命。“在高层建筑里工作的人最盼望的是电梯能够平稳运行。”他开玩笑说。

当人工智能遇见人类智能

洪小文博士说,人类与机器人之间的“恋情”可能是科幻电影脑洞大开的结果,而现实生活中人类与计算机之间的关系是“和谐”的。他把这比作人类左脑和右脑的分工与合作。在他看来,计算机是“有史以来最好的左脑”,擅长逻辑和推理,而人类自身则扮演了“有史以来最好的右脑”,擅长创造、判断和智慧。总之,人与机器的组合是相辅相成的。因此,他提出了一个公式:人工智能(AI) 人类智能(HI)=增强智能。在微软,人工智能和智能(Intelligence)这两个概念已经不再被一分为二了。

洪小文博士强调,人类应始终处于这类讨论的核心位置。大家对机器的恐惧是毫无依据的。机器人杀手是很好的电影题材,但现实中它们并不存在。例如,无人驾驶汽车的研发并非旨在统治世界。在这类汽车上,安装了全方位摄像机,并利用激光和雷达等技术,这恰恰证明了人类比他们制造出来的机器人要聪明许多,而且这种情况将会永远如此。

但是,万一发生了纰漏,应该怪谁呢?为规范机器人行为,科幻小说作家艾萨克·阿西莫夫(Isaac Asimov)提出了“机器人三定律”,但洪小文博士认为这是大家的误解:其实所有的这些法则都应是为人类设立,而不是为机器设立;这些法则旨在规范人类对于机器的行为,而不是机器与其所处环境之间的互动。

“无论出于何种原因,人们从来不会对我们造出的巨大机器担心,例如卡车,汽车,甚至飞机。我们真正担心的是我们造出来的比人类更聪明的东西。”

洪小文博士注意到,好莱坞电影中机器策反与人类对抗的情境——从《天网》、《终结者》到《机械姬》——都有一个共同点:反映了人们对人类智慧被机器所超越的深深恐惧感。如果是这样,人们应该对所有体量和力量大于人类自身的所有机器抱持相同的态度,比如拖拉机、汽车、飞机等等这些人类发明的工具。但这些工具都是为了帮助人们完成沉重的任务或长途跋涉而发明的,人们根本不需要恐惧,而人工智能也是同样的道理。

事实上还没有任何证据表明,意识是可以通过编程植入机器的。“机器本身就像一匹死马,如果没有程序,它什么事都做不了。”他说。机器可以被编程去作恶,但是这恰恰反映了人类自身的道德高下,而不是机器缺乏良知。每一个算法,无论编写得多么精心,其背后都是人在主导。

相反,大多数人都在使用人工智能改善自己的生活。洪小文博士指出,人类正是发挥自己的聪明才智,利用精确计算才能发现关于宇宙的真相——例如计算出月球飞船到达月球所需的轨迹。他还清晰地记得20世纪70年代自己排队买票观看第一部《星球大战》电影时的情景。而从那时起,他就一直是“原力”跨星系宇宙空间(inter-galactic universe of the Force)的忠实粉丝。

谈到对未来的展望,他希望人们把注意力放在人类智慧与计算机能力相结合所能够成就的事情上。人类应该把数据处理等粗重活留给机器去干,而专注于利用自己的真知灼见,以前所未有的方式推动人类的进步。没有人会妄想在计算任务方面与机器进行竞赛——比如看谁能以更快的速度将2的平方根计算到最后一位小数。

“我自己的梦想可能会令其他人受益,我相信其他人的梦想也将会让我受益匪浅。这就是为什么多样性和包容性如此重要。人工智能(AI) 人类智能(HI)将实现每个人的梦想。”

未来的方向是人与机器通力合作,形成更高级别的“增强智能”。洪小文博士相信,这种人工智能将继续给人类生活的更多领域带来便利,包括机器学习和物联网等。人机合作的终极目的是将人工智能应用到提高人类的生产力和移动性上。在一些能够更加有效接纳和应用人工智能的地方,例如在建造智慧城市的过程中,将更容易实现上述目的,而且将更加卓有成效。

今后,人工智能领域最令人惊喜的发展将是人工智能和人类智能协同工作,让更多人实现梦想。“我自己的梦想可能会令其他人受益,我相信其他人的梦想也将会让我受益匪浅。这就是为什么多样性和包容性如此重要。人工智能(AI) 人类智能(HI)将实现每个人的梦想。”

从工业革命到隐形革命

人们常常会用“人机大战”来设想人与机器的关系,要想把这种思维定势转变为“人机合作”并不那么容易,也不会在一夜之间发生。但它确实势在必行,因为人类目前所处的时代中,技术越来越不受物理设备的禁锢,并且越来越普及,成为我们生活中不可缺少的一部分。

“人工智能就像一个守护天使,它时刻关照着你。”

微软将这种无处不在而又似乎“无处可寻”的技术理念称为“隐形革命”。这一重大转变由云计算驱动,并依赖机器学习等人工智能技术的发展。随着获得与使用的数据越来越多,机器将越来越善于从事某些工作。“人工智能的最大价值在于帮助人们和组织机构做出更好的决策,”洪小文博士说道。

然而,人们往往不会使用他们信不过的技术,那么又该如何说服他们乐于分享更多与自己有关的信息呢?

微软对人工智能的研究强调可信赖和尊重用户的个人数据。同时,微软也正在努力让应用呈现出更加人性化的一面,并确保人工智能的最终目标与微软推动技术进步的核心使命相一致。例如,更加智能的应用可以识别人脸和物体、理解自然语言、让视障人士更清楚地“看见”周围的环境、帮助有听觉障碍的人士进行沟通等等。

小冰作为一个对话交流的平台,正体现了这种应用人性化的尝试,这也是微软一直在推动的理念。人们在社交媒体上的聊天,是最自然的对话状态。所以社交媒体是小冰学习如何分析人类情绪并进行交流的完美起点。

“人工智能的最大价值在于帮助人们和组织机构做出更好的决策……”

我们的对话生态系统正变得越来越丰富,对话可以发生在人与人、人与数字个人助理、人与bots之间,未来甚至还可以发生在数字个人助理与bots之间!语言将成为新的主流用户界面(UI)的一部分。

微软最近宣布推出机器人框架(Bot Framework),这正体现了公司的信仰:无论人们处于什么样的环境,新的技术应该惠及众生。洪小文博士认为,这一点意义非凡,因为任何人,不论贫富,都应该拥有自己的数字个人助理,让生活变得更为高效。

人工智能也正在提高人们的生活质量。令洪小文博士感到自豪的另一个项目是由微软亚洲研究院开发的Urban Air项目,它利用数据挖掘和机器学习技术来预测空气质量,提供实时的、具体到细粒度的空气质量信息,并覆盖整个城市范围。基于城市现有的监测站和数据源搜集的气象、交通流量、人群移动、道路结构、重点地区等的数据,Urban Air可以判断空间(具体到每平方公里)或时间(每小时甚至未来某一时间)的空气质量。这些信息可以帮助个人用户规划户外活动,也可以用于中国各地政府部门的决策,比如疏导红色警报区域的拥堵状况,降低空气污染物浓度。

机器人框架(Bot Framework)、机器学习和微软认知服务(Microsoft Cognitive Services),这三项都是Cortana智能套件(Cortana Intelligence Suite)的组成部分,借助Cortana智能套件,微软想让数据为人们所用,让生活更加智能。Cortana智能套件是隐形革命兴起的关键所在,其愿景是人与机器实现进一步和谐互补,继续推动社会进步,让每个人的生活都变得更加美好。


 

刘铁岩:博弈机器学习是什么?

$
0
0

作者:微软亚洲研究院首席研究员 刘铁岩

拖至文末查看相关论文

人工智能早就不是一个新词了。早在六十年前,在达特茅斯学院举行的一次会议就正式确立了人工智能(Artificial Intelligence)的名称,以及研究领域和任务。在那之后,人工智能几经沉浮,走过黄金时代,也走过人工智能的寒冬。如今,人工智能又迎来了新的春天,不管是Skype Translator实时的语音翻译技术,超过人类准确度的图像识别技术,像微软小娜、小冰一样琳琅满目的聊天机器人,还是不久前的人机围棋大战,都让我们目睹了人工智能技术的一个又一个突破。身处人工智能时代,一方面,我们对人工智能的未来充满信心,另一方面我们也需要深刻反思现在的人工智能技术是否存在局限性,而未来的人工智能之旅又该去向何方?

从个体智能到社会智能

作为人工智能领域的研究人员,我认为“人工智能即将取代人类”的想法未免太过“乐观”了。事实上,目前人类对人工智能的研究还停留在相当初级的个体智能阶段,即计算机仍只能完成某些单一任务,例如识别出图像中的内容、听懂一段语音、打赢某个电子游戏,或者在某次考试中取得一定成绩……虽然计算机在某些特定领域或某些特定任务上的表现已经逐渐逼近人类,甚至超越人类,但这些任务通常目标单一,且缺乏与其他智能个体(人类)或群体的互动。

从智商到情商,从个体智能到群体智能,是实现人工智能的一道重要门槛。不夸张地讲,如果我们人类只有个体智能,而不知道如何和其他同类打交道,不能通过群体和社会来不断放大我们的智能的话,那么我们将无法像今天一样成为万物之灵。在日常生活中,有很多例子都能充分表明拥有社会智能,并充分利用社会智能的重要性。比如商业领域的互联网广告竞价、股票交易;公共服务领域的城市交通、教育;甚至到各项政策的推行、法律法规的制定等等。在这些例子中,每一次规则与政策的变化,参与其中的人(局中人,player)也会根据策略相应地调整自己的行为。

人类做出每一项决策,其实都是与其他若干拥有同样智能的人类相互博弈的过程。本着趋利避害的本能,人类倾向于在相互博弈的过程中做出最有利于自己的决策。相比之下,人工智能技术的行为原理,大多假设世界是客观存在(或者一成不变、或者具有稳定的统计属性),很少考虑到它要处理的数据可能是另外一个智能体在与自己博弈的过程中产生的。这种简单的假设会使得人工智能的算法只具备个体智能,而缺乏社会智能,从而很难在与聪明的人类交往的过程中真正逼近或者超越人类。

具体来讲,绝大部分人工智能和机器学习方法都是基于这样的一个假设——用于研究的数据(或产生数据的环境)是预先存在的,而且它的统计规律不因学习过程本身而改变。机器学习过程就是对这些数据进行分析和学习,理清其潜在的数据分布,从而找到合适的分类器、回归器,实现对未来事件的预测。这种假设在某些情况下是合理的,例如用于图像识别的大量图像及标签数据,用于语音识别的声音数据,用于机器翻译的语言数据等。这类数据都十分可靠、稳定,不会持续地发生变化,我们也易于用一些概率分布去描述这些数据。

与这类稳定的天然数据不同,在互联网时代我们所说的大数据却并不是一成不变的。例如应用商店的下载排名发生变化时,用户的下载行为也会产生相应的变化;例如搜索引擎给出不同的查询结果页时,用户的点击行为也会因为排序的变化而改变;又例如在社交媒体中,回复、跟帖、转发等大量数据产生都是由人类这一智能体产生的,并且会根据系统的推荐算法、其他用户的互动行为而发生变化。在这些例子中,如果我们依据收集好的历史数据学到一个模型(比如排序模型或推荐模型)并把它应用到实际中,一旦用户的行为随之发生了变化(从而导致数据分布的变化),原来学到的模型将不再最优,其性能可能远远低于我们的预期。但人们的行为变化迅速,即便我们再根据变化之后的数据更新模型,也总会比人们行为的改变慢上一拍,在这个由博弈导致的变化环境中永远与“最优”隔岸相望。

此前,我的团队在与微软在线广告部门合作时,就发现了这样的问题。我们团队首先依据此前累积的数据,帮微软广告部门离线训练了一个效果极佳的机器学习模型用于必应广告搜索中的竞价排名。上线之初模型立刻带来了很大的效益,但随着时间的推移,广告效益却大打折扣。我们很快地找到了这个现象的根源:广告竞价排名过程常常涉及到人(广告主)的因素,广告主会敏锐地发现因为广告竞价算法的改变所带来的自己广告投放成本和收益的变化,从而相应地调整自己的广告投放策略,这是一个动态的变化过程。如果不考虑经济规律和人的动态策略,离线地进行机器学习模型的训练,结果自然会产生很大的偏差。

广告竞价的过程包含广告平台与广告主之间的互动,以及广告主之间的相互博弈,想要对其进行精准建模,仅靠机器学习的知识背景是显然不够的。因此我们团队把博弈论的思想引入机器学习,并于2013年在国际人工智能大会(IJCAI)上首次提出了“博弈机器学习”的概念,将博弈论的思想引入机器学习中,即以博弈论的思想对人的动态策略进行显式建模,利用行为模型和决策模型相结合的方式来解决这一类难题。有了博弈机器学习,我们的算法就可以比人多想一步、甚至多想很多步,提前预料对方会做出什么样的反应,从而在与博弈的时候占得先机。

行为经济学和增强学习

此前,学术界还有多种方法用于解决个体和个体之间的博弈问题,例如行为经济学、增强学习等等,博弈机器学习与这些学科既有联系又有区别。

首先是行为经济学,这是一个经济学概念,研究人员主要是经济学家。我们知道,传统经济学的基本假设是人是完全理性的,但这种假设在很多实际情况下是不合理的。例如,情况一:你扔一枚硬币,正面就给你1000块钱,反面就一分钱也不给你;情况二:直接给你500块钱。这两种情况从理性角度并无区别(期望的收益都是500块钱),但在现实生活中,人可能因为对风险的恐惧,更倾向于选择直接拿500块钱。为了更好地解释人类的这种行为,学者们又提出了有限理性的概念,对传统经济学进行了修正,从而衍生出了行为经济学这个学术分支。行为经济学虽然比传统经济学更加合理,但是其主要研究目的仍然和传统经济学一脉相承——对经济数据进行解释,而在计算机领域我们则是希望通过构建算法模型对将要发生的事情进行计算和预测。

增强学习,大家都知道此前的围棋机器人所采用的主要算法之一叫做增强学习。增强学习主要关注的是智能体如何在环境中通过采取一系列行动(包括探索和利用),获得最大累积回报的自学习策略。增强学习认为数据是环境产生的,并且把环境分成随机型和对手型两种进行考察。虽然在对手型增强学习里,某种程度上考虑了算法和环境的博弈过程,但是它没有对对手的行为进行显式建模,而是简单地使用最大最小准则来得出最坏情况下的学习路径。从这个意义上讲,它对于对手的理解很有限,和人们想象的不同,这种算法不能达到比对手多想一步的效果。以人机围棋大战为例,系统并没有针对博弈对象(李世乭)本身的行为特点(棋路、现场表现、情绪状态等)采取有的放矢的个性化策略,而是利用离线习得的策略函数和价值函数、以及在线的蒙特卡洛树搜索来决定如何出招。

真实的人类行为既非随机、也非完全理性和对立——事实上人类(智能体)的行为往往会有一定规律可循。与前面提到的这些技术不同,博弈机器学习就是利用了这样一个简单的常识。无论是人与人之间的互动,还是人与计算机之间的互动都是可以被建模的,这样我们就能够知道这些人为的数据是如何产生的,从而在学习的过程中对此加以利用,从而在和人类博弈的过程中占得先机。

用博弈机器学习解决现实生活中的问题

除了我们前面提到的,博弈机器学习可以帮助我们优化在线广告的竞价机制,它的思想在很多其他领域都大有用武之地,比如社交媒体、众包管理、交通疏导等等。一旦我们在机器学习的过程中,对人的行为模型做出学习和描述,就可以知道我们的算法机制发生改变之后,人们的行为会怎么去改变,从而知道在很长时间以后当人的行为趋于稳定(均衡态),我们取得的结果是好是坏。

以城市交通为例:

目前城市中的其中一条主干道A堵车情况十分严重,另外一条路线B行驶缓慢,而路线C较为畅通,那么当司机通过导航等渠道得知了这个信息之后会做出怎么样的选择呢?很有可能司机们选择一窝蜂涌入道路C而造成该道路极为拥堵,当然也可能存在大量无论如何也不愿意绕远路而死守在最短路线A上的司机。那么如何实现理想的资源优化配置呢?

如果从博弈机器学习的角度来思考,我们首先会注意到每位司机都有着大量的驾驶数据,例如几点出门,几点回家,习惯走哪条路,备用路线通常是什么、对拥堵的忍耐程度、是否常常根据导航给出的建议改变行车路线、等等。倘若我们将这些数据利用起来,为每个司机构建个性化的行为模型,那么作为交通诱导信息的发布者(这里我们假设是交管局或者导航软件)就可以预测在发布某个交通诱导信息之后对城内交通可能带来的影响,并以此为依据来帮助决策者选择更好的诱导策略,甚至能有针对性的对不同行为偏好的司机提供不同的诱导策略。而对于一些数据量较少,不足以构建个性化行为模型的司机,我们可以做一些聚类模型,或是采用通用模型,加以解决。

2013年,我们提出的“博弈机器学习”理念随后得到了学术界的广泛肯定,很多国际知名的博弈论专家、以及机器学习专家也开始纷纷进入这一领域。现在回想起来,之所以我们的工作会取得这么大的反响,是有原因的。首先,算法博弈论的研究通常是以理论研究为主,对应用的研究相对较少。但在微软亚洲研究院,我们是站在工业界的角度,能够发现实际问题,并找到理论问题与实际问题之间的差距和联系,从而弥补这一方面的空白。正是因为这种独特的角度,近几年我们的研究组提出了大量全新的问题,受到了理论界的广泛欢迎。其次,机器学习的主流研究人员是统计学家和数据科学家,而博弈论研究的主力则是组合数学家和理论计算机科学家。这原本是两个非常不同的世界。但现实问题多是既有组合又有概率,既有数据又需要理论分析,我们研究组的背景恰恰与此吻合——我们同时具有统计背景和博弈论知识,自然而然就担当起了学科交流融合的角色,并为这两个学科都引入了新鲜血液。

当计算机学会博弈

什么才是人工智能?想要解决这个问题,首先需要为“智能”提出一个定义。如果说过去对于个体智能的研究为计算机赋予了智商(IQ)的话,那么社会智能则对应着人工智能的情商(EQ)。三人成众,人类是具有极强社会性的动物,而“社会性”则少不了与其他人类进行互动,这样的互动体现出的就是情商和社会智能。真正想把人类的智能研究清楚,把个体智能扩展到社会智能是一条必经之路;而想要把社会智能解释清楚,既利用了人类的行为数据,又利用了群体之间博弈行为本质的博弈机器学习将会是一个绝佳的工具。

为计算机打造出高情商,博弈机器学习可能是个极佳的解决方案。通过观察周围人的行为,对每个人构建不同的个性化行为模型,计算机就可以三思而后行,选择一条能让周围人最大化满意的策略。假设我们现在要设计一个聊天机器人,那么有了博弈机器学习,我们就可以基于用户的个性化行为模型,计算一下当机器人说出某句话以后其他人会有什么反应,几个人开心,几个人生气,最终是否能达到平衡,平衡的结果是大家都离我而去,还是相谈甚欢。这样的聊天机器人可以超越简单的问答模式,懂得“察言观色”、“看人说话”,体现出非同凡响的情商。我们的研究组目前正在和微软的小冰团队一起,探索这方的技术和应用,如果小冰学会博弈、具有情商,那样我们离真正的人工智能就更近了一步。

经常有年轻的研究员问我,如何在当下火热的人工智能大潮中把握好前进的方向。从我的研究经历出发,其实上面提到的博弈机器学习的研究历程就是一个很好的例子。当一个人拥有非常宽的领域知识、并且怀揣强烈的好奇心,对应用还非常敏感,那么他就可以很容易找到属于自己的独特的研究方向,做出对学术界和产业界都有价值的创新性研究。微软亚洲研究院正是一个可以帮助大家实现这一目标的孵化器,欢迎各路有才华有想法的年轻人加入我们,一起开拓更新的世界,为世界创造更多的价值。


参考论文:

1) Di He, Wei Chen, Liwei Wang, and Tie-Yan Liu, A Game-theoretic Machine Learning Approach for Revenue Maximization in Sponsored Search, IJCAI 2013.

2) Tie-Yan Liu, Wei Chen, and Tao Qin, Mechanism Learning with Mechanism Induced Data, AAAI 2015.

3) Haifang Li, Wei Chen, Fei Tian, Tao Qin, and Tie-Yan Liu, Generalization Analysis for Game-theoretic Machine Learning, AAAI 2015.

4) Fei Tian, Haifang Li, Wei Chen, Tao Qin and Tie-Yan Liu, Agent Behavior Prediction and Its Generalization Analysis, AAAI 2014.

5) Wei Chen, Tie-Yan Liu, and Xinxin Yang, Reinforcement Learning Behaviors in Sponsored Search, Applied Stochastic Models in Business and Industry, 2016.

6) Tao Qin, Wei Chen, and Tie-Yan Liu, Sponsored Search Auctions: Recent Advances and Future Directions, ACM Transactions on Intelligent Systems and Technology, 2014.

7) Di He, Wei Chen, Liwei Wang, and Tie-Yan Liu, Online Learning for Auction Mechanism in Bandit Setting, Decision Support Systems, 2013

8) Haifeng Xu, Diyi Yang, Bin Gao and Tie-Yan Liu, Predicting Advertiser Bidding Behaviors in Sponsored Search by Rationality Modeling, WWW 2013.


注:本文首发于 《环球科学》(Scientific American)


 

不会拍照的手残党看过来,这款智能相机应用是你掉的么?

$
0
0


在这个一言不合就发照片的年代,如何拍出一张好看的照片,一直是大家心中的老大难问题。如何抓拍到一个转瞬即逝的瞬间,更是难上加难。

而且请放心,这件事情对于专业的摄影师来说可能比你简单不了太多。

不信?

恩,可能这些照片唯一的亮点就是证明了我乒乓球手风一样的速度……

这个问题的难度应该怎么形容呢?参与Microsoft Pix研发的微软亚洲研究院研究员袁路表示:“为了把我们家萌猫的照片拍好看,我手机里面可能一半的内存都用在猫咪的照片上了。”

现在,请打开你的手机相册,里面绝对存有各种雷同的照片。就像这样:

讲真,小编我自己翻了一下我的相册,发现我的最高纪录是去动物园的时候拍三只熊拍了近20张看起来差不多的照片……

不知道你有没有打破这个记录呢……

这些照片占用大量宝贵内存我们就不说了,(16G的用户让我看到你们的双手)重点是这些照片删起来还浪费时间啊有木有!这些看起来都一样的照片到底哪一张我应该留下来啊摔!

欸,这张的光线不错,可是我居然闭眼睛了!
这张我的表情蛮好的,但是背后乱入的那个红背心吃瓜路人是怎么回事啊!
这张有点虚了,手抖……
这张光线是不是不太对,有点逆光吧…

…………这是半天过去了的分割线…………

好不容易清干净了照片,掏空了手机,却感觉身体也一样被掏空……

要是这些不完美的照片能把完美的地方整合成一张照片就好了。

当研究员开始发愿的时候,你以为他只是随口一说,但是当几个月之后,他们带着一个叫Microsoft Pix的拍照软件出现的时候,你的心情是复杂而又难以形容的。

“这个Microsoft Pix大概就融合了十几篇论文的研究成果吧。”当微软亚洲研究院主管研究员袁路开始揭秘这个应用背后技术的时候,小编的内心受到了很大的冲击。

(你要是想先看这二十几篇论文那就直接拖到文末好了,╭(╯^╰)╮)

“每次启动快门,这个相机应用可以连拍10张照片,包括你准备拍照之前和之后的照片,然后利用人工智能技术选取最好看的照片,有必要还会做一些多帧融合。最后在删除其他照片之前,还会对这套照片进行降噪处理,智能调亮肤色、美化皮肤、微调照片色彩和色调。”

听起来好像很厉害的样子怎么办怎么办。

“这些流程一秒钟就都搞定了。”

“……,果然是理工男开发的应用呢,只是拍照变好看一点?”小编我并没有死心。

“我们又顺手做了个Live Image功能,就是之前很流行的那种一部分静止,一部分保持运动循环的那种动图效果。”

这句话翻译一下就是:那种之前都是摄影师用三脚架和PS做的一些作品(cinemagraphs),现在人人都能用一个Microsoft Pix做出来了。

这种动态和静态结合的奇妙摄影方式是由著名的“造梦师”杰米·贝克和凯文·伯格所创造的。按艺术家的话来说“比起一幅静止的图画,我们想在图片里传达更多的故事,但又不想用冗长的视频。”

他们之前与微软合作,为Microsoft Surface Pro 4 拍摄了一组图片~

小编拿了几个不明真相的群众试了一下,效果如下。

处理前


抖动很严重啊有木有!

Microsoft Pix处理后 Live Image

恩,看起来还挺酷的,我们研究员最近都这么文艺了?

之前这项功能的雏形来源于这篇论文,Cliplets: Juxtaposing Still and Dynamic Imagery。论文首次亮相给出的示意图其实就还挺惊艳的:

“我喜欢拍猫,但我既不是专业摄影师,又没有那么多时间修图什么的……就和团队一起做了这个应用,希望有更多的人能够用得上。”

Microsoft Pix这款智能拍照软件,基于微软研究院的技术支持,在人脸的识别与美化上有强大的表现力(例如完全不会生成你闭眼睛的照片),这与此前推出的微软自拍的技术几乎同根同源。在人脸检测、识别等多方面的深耕研究,保证了生成的图像中人脸一定是最完美的。



恩恩,看来你们还是很懂女生的。



​下载链接:

Microsoft Pix: https://itunes.apple.com/cn/app/id1127910488

长按下图,识别图中二维码下载~

微软自拍(Microsoft Selfie): https://itunes.apple.com/cn/app/wei-ruan-zi-pai/id1064676206?mt=8

长按下图,识别图中二维码



说好的论文:

Fast BurstImages Denoising. Ziwei Liu, Lu Yuan, Xiaoou Tang, Matt Uyttendaele, and JianSun

ACMTransactions on Graphics (SIGGRAPH Asia 2014)


Bundled CameraPaths for Video Stabilization. Shuaicheng Liu, Lu Yuan, Ping Tan, and Jian Sun

ACMTransactions on Graphics (SIGGRAPH 2013)


AutomaticExposure Correction of Consumer Photographs, Lu Yuan and Jian Sun.

EuropeanConference on Computer Vision (ECCV 2012).


Joint CascadeFace Detection and Alignment, Dong Chen, Shaoqing Ren, Yichen Wei, Xudong Cao,and Jian Sun.

EuropeanConference on Computer Vision (ECCV 2014).


Fastcomputation of seamless video loops. Jing Liao, Mark Finch, Hugues Hoppe.

ACM Trans.Graphics (SIGGRAPH Asia 2015).


Example-basedimage color and tone style enhancement. Baoyuan Wang, Yizhou Yu, Ying-Qing Xu.

ACMTransaction on Graphics(SIGGRAPH 2011).


AutomaticPhoto Adjustment Using Deep Neural Networks, Zhicheng Yan, Hao Zhang, BaoyuanWang, Sylvian Paris, Yizhou Yu

ACMTransaction on Graphics. (presented at SIGGRAPH 2016)


UnsupervisedExtraction of Video Highlights Via Robust Recurrent Auto-encoder. Huan Yang,Baoyuan Wang, Stephen Lin, David Wipf, Minyi Guo, Baining Guo.

ICCV’2015.


Automaticestimation and removal of noise from a single image, Ce Liu, Rick Szeliski,Sing Bing Kang, Larry Zitnick, and William Freeman.

IEEETransactions on Pattern Analysis and Machine Intelligence, 30(2):299-314, Feb.2008.


Automatedvideo looping with progressive dynamism. Zicheng Liao, Neel Joshi, HuguesHoppe.

ACM Trans.Graphics (SIGGRAPH 2013).


Real-timehyperlapse creation via optimal frame selection. Neel Joshi, Wolf Kienzle, MikeToelle, Matt Uyttendaele, and Michael F. Cohen. 2015. 

ACMTransactions on Graphics (SIGGRAPH 2015).


Learning ablind measure of perceptual image quality. Huixuan Tang, Neel Joshi, and AshishKapoor.

In Proceedingsof the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR'11).


 

Microsoft Translator:打破语言障碍 拓展全球沟通新机遇

$
0
0



作者:Olivier Fontana, 微软研究院Microsoft Translator产品战略总监

世界越来越小,全球协作、共同创新已经成为常态。在微软研究院,我们对此尤为感同身受——从北京到雷德蒙,从剑桥到班加罗尔,全球范围内的无边界沟通与协作是我们科研合作与产品创新的关键基础。全球一体化带来的发展机遇应该属于每个人,为了帮助全球各地的人们跨越语言的障碍,实现高效沟通与广泛协作,我们带来了Microsoft Translator。

Microsoft Translator是微软以机器学习、大数据、自然语言和云计算等前沿技术为基础打造的自动翻译服务,也是微软众多人工智能研究成果中投入使用最早也最广泛的应用之一。Microsoft Translator现已支持50多种语言的文本翻译、8种语言的实时语音翻译和18种语言的语音识别和输出。就在2016年7月底,我们在中文简体和繁体的基础上,最新加入了粤语文本翻译,进一步完善了对汉语应用环境的支持。

自我学习的智能翻译

“统计机器翻译”是Microsoft Translator背后的主要技术,它以微软十几年来在自然语言领域的研究为基础,加入了统计学与机器学习的原理。简单地说,这套翻译体系将“翻译”转变成了一个机器学习的课题,让计算机不断地对训练数据中的人工译文和语言转换结果进行判断与学习,在不断的纠错与改正中,促进系统算法的自我完善与优化。通过统计建模技术和高效的算法,不断学习优化的机器翻译系统能学会根据上下文的语境,而不是单词的意思和生硬的语法规则来匹配最恰当的翻译结果。


要说Microsoft Translator的智能来自于机器学习、自然语言等技术,而它的可靠运行与不断优化,则离不开微软在各领域的资源优势。例如,作为一项云服务,Microsoft Translator运行于Microsoft Azure云平台,Azure提供了机器学习等高级分析功能的运行平台,同时也确保了其作为SaaS云服务的高可用性和数据安全性,并且它还可以根据需要弹性扩展运算规模。另一方面,覆盖全球的必应搜索引擎,也为Microsoft Translator提供了全球规模的语言素材与学习资料,让机器学习系统得以不断地成长和完善。

与此同时,微软旗下多样化的产品与服务,也为Microsoft Translator提供了施展才华的广阔天地。从2006年起,Microsoft Translator便逐渐开始为越来越多的微软产品提供自动文本翻译功能,例如Office、必应搜索、IE和Edge浏览器、Skype、微软小娜(Cortana)等等。或许你还没有意识到,但它其实一直都在你身边——在电脑的Word界面中点击“审阅”菜单项,然后选择“翻译”图标,你就能领略到Microsoft Translator的本领了。

让你自然交流的智能语音翻译

在2016年3月底举办的Build2016微软开发者大会上,微软CEO萨提亚·纳德拉指明了微软乃至IT产业未来的一个发展方向:让人类的自然语言与先进的机器智能进行交互,也就是“对话即平台(Conversation as a Platform)”的概念,并且发布了“微软机器人框架(Microsoft Bot Framework)”以及微软认知服务(Microsoft Cognitive Service),用以帮助开发者打造新一代的人工智能应用。事实上,作为一个能听会说多种语言的人工智能服务,Microsoft Translator在语音翻译服务方面已经提前取得了成功的实践。

微软认知服务

早在2014年,Microsoft Translator即推出了语音翻译服务,2016年3月又面向开发者开放了语音翻译的API。目前Microsoft Translator支持对包括中文普通话在内的8种语言的实时语音翻译(英语、法语、中文、德语、意大利语、西班牙语、阿拉伯语、葡萄牙语)。在Skype Translator以及Windows、iOS或者Android版的Microsoft Translator应用中,你都可以体验到这项私人实时口译服务。

语音翻译要比文本翻译复杂得多,需要经过自动语音识别(ASR)、TrueText智能文本校正、自动文本翻译以及文本到语音转换(TTS)四个步骤。


其中,自动语音识别借助深层神经网络,对数千小时不同语言的音频数据进行分析和学习,以达到“听懂”人类自然语音的目的——基于机器学习,语音识别的效果也会随数据的积累而不断完善。TrueText智能文本校正则负责将人们口语化的交流转换为规范的文本,比如,去掉“嗯”、“啊”、“这个”、“那个”之类的赘词以及重复、口吃等语病,并添加断句、标点符号,从而让文本更贴近用户本来的意图,也更易阅读和翻译。在文本翻译基础上增强的语音翻译引擎,增加了更多口语文本语料库,从而为口语会话类翻译构建了更好的模型。最后是文本到语音的转换过程,如果翻译的目标语言是Microsoft Translator目前所支持的 18 种转换语言之一,那么就能使用语音合成技术将翻译后的文本转换成语音播放出来。整个语音翻译过程中,深层神经网络(DNNs)技术的引入,则极大程度地降低了翻译的错误率,提高了可靠性。


带上你的私人翻译,畅行天下

为了让更多用户可以随时随地、便捷地使用翻译服务,Microsoft Translator面向不同平台推出了移动端应用。这款应用不仅适用于Windows设备,同时还支持使用iOS、Android平台的设备,甚至包括Apple Watch和Android Wear智能手表。


运行于智能终端的Microsoft Translator经过持续的完善与升级,目前已经发展的非常成熟,不但支持众多语言的翻译功能,而且还可以提供离线翻译选项。用户既可以用键盘输入或者粘贴文本,也可以利用麦克风直接录入语音,或者是将看到的外国文字拍摄下来,让软件自动识别并翻译。在最新版本中,我们还加入了支持8种语言的实时语音翻译功能,让语言不通的两个人,仅凭一部手机就能进行面对面的实时语音交流。

Microsoft Translator移动端应用绝对是海外旅行必备的利器,它不但可以帮我问路,还能靠拍照辨认街道、商铺和没有图片的菜单,甚至可以让我和五湖四海的新朋友进行一次真正有意义的谈话,真正体会到四海一家的畅快沟通。

在中国越来越流行的“海淘”则是Microsoft Translator的另一个用武之地。基于Microsoft Translator技术的必应翻译(bing.com/translator)提供了在线文本翻译和网站翻译功能,只需输入你的海淘网址,就能实现整个网页的机器翻译,并且同样支持50多种语言,让你的海外购物无障碍。Windows 10用户通过添加Edge浏览器的Translator扩展插件,即可一键翻译整个网页或者文本。


在你最熟悉的微信中,也有Microsoft Translator的身影。只需在对话界面中,长按对话气泡内出现的法语、日语或者阿拉伯语等文本,选择“翻译”,就会出现“微软翻译”给你带来的中文译文。

企业要国际化,还是本土化?我们都能帮忙

在全球市场一体化的今天,Microsoft Translator在商业领域和企业市场的应用前景也越发清晰起来。无论是海外企业拓展中国市场的本土化改造,还是中国企业出海发展的“走出去”战略,我们都能助一臂之力。

Microsoft Translator所提供的文本和语音翻译服务,可以帮助跨国企业实现无障碍的内部沟通和内部培训、面向全球市场提供客户支持、建设在线社区,并实现网站、文档资料、商业智能的实时、双向或多向的翻译。相比传统的本土化手段,作为云服务出现的Microsoft Translator提供了按需付费的低成本、可定制的跨平台开发和接入能力,可以确保符合企业IT的安全策略,并提供了业界唯一支持行业用户定制的翻译语料库。目前,Microsoft Translator已经服务于全球上千家企业客户,包括亚马逊、eBay、Twitter、惠普、戴尔等,都在各自的业务全球化、本土化领域中得到了Microsoft Translator的帮助。


在7月份刚刚结束的WPC 2016微软合作伙伴大会上,微软宣布将在今年年底前为Office 365企业用户提供Skype Meeting Broadcast服务,它可以自动为网络会议添加字幕,并将会议实时地翻译成不同语言展现出来——这同样都是基于Microsoft Translator实现的。

开放的API带来开放的发展机遇

今天的微软是一家生产力与平台公司,我们致力于打造创新平台,助力合作伙伴和生态系统的共同发展。在应用前景广阔的智能文本和语音翻译领域,Microsoft Translator也为人们带来了创新机遇。

事实上,从2011 年起,Microsoft Translator便开放了 API,并以Azure云平台SaaS服务的形式向第三方提供云端接入服务。目前,全球已有数千家客户在使用此服务,来实现网站本地化、多语言客户支持、电子商务、社交媒体、网络游戏、商业智能等典型应用场景。Microsoft Translator API 可以轻松实现跨平台接入第三方系统及应用,开发者只需在Azure Data Market网站 (datamarket.azure.com/browse/Data)上注册使用,即可获得每月200万字符的免费翻译服务。

微软的使命是予力全球每一人、每一组织成就不凡。我们希望Microsoft Translator通过微软的产品为消费者提供服务的同时,可以予力更多开发者和企业,为全球更多用户提供多样的翻译服务,打破语言间的壁垒,促进世界各地人们的沟通、交流。





 

用科技照亮社会,让你我共创未来——2016微软学生夏令营的爱之旅

$
0
0

​在众人的期待下, 8月14日,来自全国35所大学微软学生俱乐部的成员及台湾香港地区的近150名同学齐聚帝都北京,宣告了2016年微软学生夏令营的正式开营!短短四天,同学们从破冰到熟识,再到各小组成员们齐心协力完成微软车库(Garage)的骇客创意,过程中的交流与灵感的碰撞都给大家留下了今年夏天最美好的回忆。

微软学生夏令营是微软亚洲研究院学术合作部与亚太地区高校合作培养人才的成功实践。夏令营由微软亚洲研究院学术合作部组织,面向全国高校微软学生俱乐部的部员开展了各种富多彩的活动,还让同学们更近距离地体验到了微软前沿科技的奥妙,更深刻地体验了研究院开放自由的学术环境。通过夏令营,微软亚洲研究院与俱乐部建立起的良好的关系得到进一步发展,让俱乐部核心成员以更好的推广和组织活动,同时提供了一个俱乐部会员和微软双向交流的机会与平台。

站在微软的肩膀之上,努力做骇客菁英!

本次夏令营中的一个重点环节是微软校园菁英计划项目收官展示及奖项评选。菁英计划是微软亚洲研究院学术合作部组织的以激励学生创新为目标、提供长期孵化时间为背景,为每一个在校园中成长起来的项目提供一整套成熟的训练系统,给予同学们天马行空追逐梦想舞台的高校校园计划。在菁英计划中,微软提供了Win 10、Azure、OfficeAdd-in、微软认知服务、KINECT、微软小娜 API、必应词典以及Microsoft Open Tech(微软开放技术)等技术和资源的支持以及种子基金打造校园菁英成果助推器,加速创意实现的过程,帮助学生最终完成项目。从2015年11月开始,微软校园菁英计划在全国高校中掀起一场前所未有的骇客风暴,席卷17个城市,三十多个俱乐部,吸引了1100余人、280多个团队参加。

历时近9个月的项目孵化以及评审,最终来自全国各地的十支优秀菁英计划项目队伍站在了今年夏令营的舞台上,与全国三十多所高校的俱乐部学生共同交流并向大家展示了自己的项目成果。夏令营特别邀请菁英计划的同学们对微软新视界创新中心进行参观,深入了解微软对下一代技术的展望。在参观时,微软首席研发经理邹欣老师为获奖队伍进行了颁奖。队员们们在参观完创新中心后感言,正是强大的技术支撑与创新为微软前进的步伐提供了源源不断的动力。

经过激烈地竞争角逐,清华大学的“机器生成音乐”项目最终获得了本次菁英计划的一等奖。“机器生成音乐”诞生于去年10月启动的2015微软校园Hackathon系列比赛,该项目是一款以神经网络LSTM模式、微软Azure云存储以及乐理为基础的能够独立生成动人音乐的软件。基于一维数据的算法作曲问题可被视为其他基于高维数据的人工智能问题的首选研究模型,在基础科学研究及工程应用上有广阔的前景。该项目将程序嵌入硬件而不依赖于网络和存储设备,未来可广泛使用于医院、心理诊所、休闲区域、咖啡厅酒店等场所,改善人们的计算与艺术体验。在学术价值方面,音乐生成器算法的成功开发可以说明人类在某种程度上已经开始模拟大脑的艺术创造力的产生机制。在商业价值部分,“机器生成音乐”可以生成完全不侵犯音乐版权的作品,在电影、游戏等配乐领域具有广阔的市场前景。此外,该项目对于辅助作曲,提升音乐审美以及体验艺术魅力等方面也有很好的效果。项目孵化期间,从项目进展到细节改进,同学们与微软亚洲研究院自然语言组的研究员、学术合作部的学术合作经理进行了深度交流。清华大学的莫尘宇同学说道:“与微软研究员的交流为我们提供了一些算法思路并指正了技术问题,让我们确定了数个研发方向。他们让我们明白技术应当服务于生活,而不是为了炫技而炫技。之后我们把这些知识也加入到项目中,获得了效果上的提升。”

邹欣老师与一等奖“机器生成音乐”团队成员合影

为满足上班族在办公室中做趣味运动的需求,一款新式的手机运动“app”诞生了,那便是动感乒乓。只需要一部手机,一台联网的电脑,就可以在办公室享受到轻运动与音乐节奏快感的 “动感乒乓”项目获得了本次菁英计划的二等奖。这是一款基于Node.js,HTML5、微软Azure云存储以及智能手机运动传感器的体感游戏。项目成员从“当前手机游戏开发平台虽然多样却依然没有跳出手机原始操作”的现状出发,针对操作方式和跨平台这两个特点,开发出一款新式的手游,既创新了操作的形式,充分利用手机上的各类传感器,又考虑到各个平台间的差异性,做出一款兼容多个平台的,充分利用平台最大性能的游戏。在技术设计上,利用手机自带的传感器,将手机当做球拍来跟随音乐节奏打乒乓球。考虑到手机传感器的性能限制,扬长避短,发挥所带传感器的优点,在游戏性上弥补短板。在服务器后端实现上,除了为客户端提供页面之外,也承担着游戏击打数据从移动端到PC端传输的中继任务,微软亚洲研究院的研究员在充分了解项目进展和所需要的技术支持后,对“动感乒乓”提出了大量指导和修改意见,更在精神上鼓励了同学们。

此外,四川大学的菁英计划团队从盲人以及视障人士这一社会弱势群体角度出发,设计出以手势控制、 LBS(定位服务)、 微软Azure云存储、OCR(文字识别)以及 TTS 和 STT(语音服务)来实现多方位多维度的导盲功能的“Roaming-基于AR的导盲APP”,希望能给盲人以及弱视群体带来出行的自由。队员们带着这一充满社会关爱的项目还参加了“微软Imagine Cup 2016 世界公民组比赛”获得思创赛区特等奖、中国赛区三等奖等优异成绩。

黑科技,“爱”科技

微软学生夏令营的另一个关注焦点当属“微软车库”骇客马拉松赛。车库活动要求同学们在夏令营限定的两天时间内围绕主题提出应用设计方案,并从问题描述、市场调研、解决方案、未来前景、开展项目所需的资源、团队以及未来项目进度等多个方面进行论述和展示。今年微软车库以“爱”为主题,微软亚洲研究院学术合作总监潘天佑(Tim)博士从自己的故事出发,用爱身边的人、关爱弱势群体以及贡献社会意义之爱等多个层面为同学们解释了爱的主题。

为了让同学们更好地体验并利用微软先进技术完成项目,夏令营特别提供了四台HoloLens供同学们现场体验和开发使用。

此外,技术荟培训上,来自研究院的四位资深研究员和工程师讲解了微软Bot Framework Guide中各接口的使用方法,通过人脸识别技术展示微软认知服务的奥秘,并深度解析了HoloLens的开发与结构。经过紧张刺激的编程、海报展示、现场演讲以及多次评审合议后,最终利用HoloLens 混合现实技术帮助消费者网络购物的“HOLOLOVE”项目,和集合微软认知服务语音API、自然语言处理技术的“妈妈的味道”项目获得了一等奖!

克服传统网上购物缺乏现场感和体验感弊端的“HOLOLOVE”,是利用HoloLens以及语音识别API, Unity等,通过采集用户手势及头部运动作为用户选择的方法,并通过改变现实场景,使用户可以体验混合现实的购物环境的应用设计。混合现实可以发挥真实性和交互性的优势,给电商购物带来全新的体验。在三维的混合现实场景中,房间是真实存在的,产品是三维虚拟的,顾客仿若身临其境一般,通过HoloLens对产品进行旋转放大放置等常规操作。南京航空航天大学的宋力翔同学对HoloLens非常感兴趣,他表示:“HoloLens作为一个划时代的产品,是极富有吸引力的。这几天利用HoloLens的开发让我非常兴奋,但由于时间紧张,感觉对HoloLens的深入了解还需要一段时间的沉淀与酝酿。”虽然时间紧张,竞争激烈,同学们在完成项目设计、展示外,还对“HOLOLOVE”提出了增加3D模型旋转功能、增强对周围模型的影响、配置人工语音等后期改进期待,让评委们印象深刻。

“妈妈的味道”是一款智能食谱APP。当身处异乡或苦于生活繁忙无暇学做菜时,用户可以跟随智能语音食谱,和app提问等互动的方式,依靠“妈妈”、“大厨”的指导做出美味佳肴。Bot Framework 以及 认知服务等技术让用户能够用自然语言交流与APP交流,而服务器也将妈妈的“私房菜圃”整理储存,让普通用户和“大厨”仅有一个APP的距离。

获奖的喜悦之余,同学们表示夏令营之旅给他们带来了极大的乐趣和收获。团队成员之一,来自复旦大学的郑傲同学说道:“在这三天多的时间里面我们和刚认识的可靠的伙伴一起合作,完成结合了大家的智慧和努力的项目。我们付出了汗水、思维的碰撞,也收获了新朋友,新知识。技术荟上大家了解到微软的“黑科技”,Bot Framework,微软认知服务和HoloLens,这些技术将过去只有在科幻电影中才出现的桥段展现在我们身边,我们甚至得到了珍贵的机会去直接使用这些技术。和人工智能对话、计算机在某些方面的识别能力超过人眼,将虚拟的3D世界和现实视角相结合……这些奇幻的技术给了我们无数想象的空间。”

评委们表示这次夏令营最让人印象深刻的是,同学们的选题很多关注到了社会上常被忽视的人群。有的从自己做自闭症福利机构志愿者的经历思考,开发了辅助自闭症治疗的应用;有的从老人的日常起居生活出发,开发了老年人健康管理的机器人;还有的通过调查,实现了切实可以解决留守儿童和父母沟通问题的系统……在短短几天中,同学们尝试利用微软的一些前沿技术,让这些应用成为现实。可以看到同学们的视野非常开阔,而且具有很强的人文关怀,并拥有着极强的开发能力和学习能力。他们在尝试用自己的能力来帮助更多的人,而这一切都围绕着我们这次“爱”的主题。

珍藏回忆,走向明天!

时光匆匆,2016微软学生夏令营已落下帷幕。短短几天时间内,同学们一起奋斗、一起玩耍、一起流汗、一起欢笑。车库之外,同学们的户外团建798行,大家在蒙蒙细雨中留下超级有爱的合照。闭幕晚宴上,“小天使”游戏让同学们找到这几天“悄悄”关心自己的小伙伴并送出“祖传”礼物。最后的集体大合唱歌曲“朋友”不仅整场气氛点燃到爆表更将夏令营温馨动人的记忆留在每一位营员的心底。

微软学生夏令营的目的就是努力把最好的知识、技能、交流机会带给同学们,也让大家将创新、协作、坚持到底的精神代代传承。同学们在如此短的时间内通过头脑风暴、快速学习和团队写作,最终达成如此出色的展示,这样的表现和精神触动了所有评委也感染了每一个夏令营参与者。希望同学们带着夏令营的感动与收获,把骇客精神深入骨髓,在科技创新的路上越走越好!


 

这有一管信息量很大的DNA

$
0
0


题图:华盛顿大学副教授Luis Henrique Ceze(照片中的男士)和研究科学家Lee Organick正将数字数据保存进DNA测序,以供“读取”并追溯原始文件。

来自微软和华盛顿大学的研究人员已在DNA储存技术上取得了初期突破性进展 —— 在分子链上存储了破纪录的200MB数据。 

然而,这项技术最令人惊叹的并非是能将数据编入合成DNA并可实现解码,而是它可实现的存储容量。 

“一旦编入DNA,数据在试管中所占空间甚至小于铅笔笔尖。”该项目的微软合伙人级架构师Douglas Carmean说。

让我们来试想一下,将一个大型数据中心的数据压缩进几块方糖大小的空间。或是因特网上所有公开数据的存储只需一个鞋盒大小的空间。这就是DNA存储技术的前景 —— 只等科学家们攻克一系列技术难关并实现大规模应用。

微软-华盛顿大学研究小组在DNA链中储存了多件艺术作品的电子版(包括了OK Go!乐队的高清视频)、《世界人权宣言》的上百个语言版本、古登堡计划前100本图书以及非营利机构全球农作物多样性信托基金(Crop Trust)的种子数据库。

今天,数据存储需求呈指数级增长,但现有存储媒介的容量却未能与之匹配。这让有大量数据存储需求的组织、机构非常困扰,例如那些需要保存病患资料的医院和需要保存视频文件的公司。这意味着信息将会丢失,而且如果没有新的解决方案,这一问题将日益严重。

试管底部的淡粉色DNA样本可以保存600多部入门级智能手机里的数字数据。

DNA也许就是上述问题的答案。

作为储存媒介,DNA具备多个优势。例如体积微小、耐用 —— 妥善保管的话,能保存很长时间(比如,猛犸象虽然在几千年前已灭绝,我们依旧能通过DNA追溯到它们),而且研究人员相信DNA永不“过时”。 

微软研究员Karin Strauss说:“只要地球上有基于DNA的生命存在,我们就有兴趣研究。所以我认为DNA永远和我们息息相关。”

这也解释了为什么微软-华盛顿大学研究小组只是全球众多致力于研究DNA这座数字象牙塔的团队之一。

研究员们认识到这一研究还有很多工作要做。

华盛顿大学计算机科学与工程副教授、研究小组成员之一Luis Henrique Ceze说,近几年生物科技产业在DNA合成(编码)与测序(解码)技术上有了长足的进步。尽管如此,要让DNA存储成为一项稳定可行的技术,团队还有很多工作要做。

但是,研究员们都很乐观。

去年,这个由计算机科学家、计算机架构师以及分子生物学家组成的研究小组已将DNA存储能力提升了上千倍。他们相信如果在整个过程中运用“纠错”等计算机科学原理可以加速完善DNA存储技术。

微软研究员Karin Strauss

为了解微软-华盛顿大学小组的研究工作,让我们回忆一下高中生物课上的DNA知识 —— DNA又被称为脱氧核糖核酸,是一种携带所有已知生命体生长、发育、运行和繁殖等生物指令的分子。

Ceze做研究的分子信息系统实验室(Molecular Information System Lab)坐落在华盛顿大学的某个地下室,“DNA是一个非常棒的信息存储分子,可以对一个生命系统运行模式的数据进行编码。我们正对这一特性进行微调,以保存包括图片、视频和文件在内的数字数据。这也是借鉴物体本质、打造更好的计算机系统一个范例。”

在DNA中保持数字数据的流程基本如下:

首先,需要将数据从1和0转译成DNA分子中的四种核苷酸碱基,即腺嘌呤(A 或Adenine)、胞嘧啶(C或Cytosine)、鸟嘌呤(G或Guanine)、胸腺嘧啶(T或Thymine)。

DNA合成公司Twist Bioscience会“将还处于电子形式的核苷酸碱基合成为DNA分子,并发还研究员。”Strauss说,“其实就是一支试管,你几乎看不到里面有什么。看上去就好像底部有一些已干燥的盐。”

利用生物技术微调随机存取内存 (RAM)以读取数据,是又一个从计算机科学借鉴的概念。研究小组通过一种分子生物学家经常用来控制DNA的技术——聚合酶链式反应(PCR)——对所需回收的分子链进行复制或者“放大”。一旦所需信息密度大幅增加,研究员将开始采样,测序或解码DNA,然后进行错误校正计算。

关于科研的介绍就到此为止了,最后一个问题:为什么要选了OK Go!的音乐视频? “我们非常喜欢这个视频,因为它和我们的工作有许多相似之处。”Strauss笑着说,“他们非常有创意,把形形色色的东西融入自己的音乐里,我们的工作也正是如此。”



 

【请签收】您有一个免费的智能英语私教待领取

$
0
0

英语作为国际第一通用语言以及世界上使用最广泛的语言之一,在中国,越来越受到人们的重视,如今,很多人都能轻松地用英语进行简单的交流。可是大家真的都学好英语了吗?

事实上,良好的英语水平早已成为职场必不可少的核心竞争力,一项关于职场英语的调查显示,35%的受访者在上一次面试中需要说英语,84.2%的一线城市受访者认为英语水平与职业机会和晋升息息相关。

然而,由于缺少英语语言环境,不少国人都面临“张不开嘴”的窘迫,而现代都市人繁忙紧凑的生活节奏,也让大块练习英语的时间少之又少。为了帮助更多人将英语学习融入日常,微软亚洲研究院和微软互联网工程院合力根据中国用户的语言学习特点,推出了一款名为“微软小英”的英语口语练习应用,帮助用户彻底摆脱“Are you OK?”的尴尬场景。

智能“私教“让英语学习成为新日常

“微软小英”是一款融合了语音识别、口语评测,自然语言处理、语音合成等人工智能技术而实现的智能人机交互服务,现已通过微信服务号的形式上线。用户只需搜索“微软小英”并关注,即可与小英一起学习英语。利用每天十几分钟的碎片时间“撩一撩”小英,让英语学习成为新日常。

为中国用户量身打造四大学习模块:情景模拟、情景对话、发音挑战、易混音练习

微软小英最为与众不同的功能便是可以实现用户与小英用英文“愉快的聊天”。在人机对话时,用户往往会犯“尴尬症”,因为计算机的发音生涩,对话进行并不会像与真人交流那么自然。然而 “微软小英”的发音却听上去标准且不带“机器口音”。

想要拥有宛若私教般的英语口语情景对话练习?请点击“情景模拟”功能吧。在“情景模拟”学习模块中,目前已有150余种场景,涵盖了20几项会话主题。用户可以在菜单中选择对话练习的主题场景,比如:社会交往、情感表达、面试达人等。随后小英会对用户所选择的场景进行描述并向用户提问。而用户则可根据图片提示,通过麦克风录音进行回答。事实上,小英说的每一句话都并非事先设置好的,而是利用语音合成技术,将需要反馈给用户的英文信息实时转化为标准、流畅、自然的语音与用户进行对话。

记录下用户的回答后,计算机会通过语音识别“听”用户说了什么,然后通过自然语言理解技术“听懂”用户想表达的含义,再判断用户的回答是否符合要求,最后给出一个分数评价。几轮对话之后,小英会对该场景中的重点词汇和用法做个性化的总结,帮助用户加深记忆、巩固知识。 

如果说情景模拟功能是进行集中训练,那么“情景对话“功能则是日常的巩固。“微软小英”根据用户的语言水平推荐适合的情景进行轻松对话,就像跟外国朋友语音聊天一样。随着学习的逐步深入,“微软小英”会逐渐增加课程的难度,提高对表达的要求并且减少提示,用户可以根据关键词自由发挥,与微软小英畅所欲言。

如何正确发音也是困扰国人学习英语的一大难题,许多人长期把羊(sheep)读成船(ship),把猫咪(cat)读成风筝(kite)而得不到及时纠正。纠正音素层面的发音错误是一项长期而艰巨的任务,一对一的“老师-学生”教学模式虽然有效,却受到时空和资源的限制而难以普及。而基于神经网络,经过大量机器学习炼成的计算机辅助教学系统“微软小英“则能随时随地、不厌其烦地为每一个用户甄别其发音的错误与缺失。当用户在发音挑战中选择一个音标后,小英就会为用户讲解音标,这里不仅有音标发音的文字讲解还有发音口型的视频演示。用户通过单词练习发音,熟练之后则可以选择“开始挑战”,在完整的英语句子中考核对该发音的掌握。运用语音识别技术,小英最后会给用户打分。用户可以反复挑战,通过测试检验发音是否有所改善。

此前,微软必应词典应用也开启了一个口语挑战”环节,与微软小英的“发音挑战”模式可以说是同根同源。“口语挑战”搭载在必应词典的“学习”版块中,让用户在查询单词之余能够进行口语测试。挑选一个感兴趣的主题,如绕口令、大学口语、英语达人等,然后跟读例句并上传录音,系统就会对整个句子的发音进行评分,还会对每个单词的发音进行评分,在反复练习的过程中,口语水平自然增进不少。

很多英语学习者还面临着单词发音的另一难题——部分音素的辨识度不够,比如”n“和“l“、”f“和”h“。有些音素本身发音极其相似,再加上受地方方言口音的影响,很多学习者都有一些分不清的音素混淆。为了解决此类困惑,”微软小英“特地加入了易混音的学习模块。点击易混音练习,会出现20组元音辅音,用户先阅读详细的讲解,再转到练习界面,根据听到的读音,在两个单词中选择一个;如果答案错误,自己逐个练习发音,小英相应打分。这个方法,可以帮助用户清晰辨别元、辅音的发音差异,让自己的发音更为标准、地道。

个性化定制私人学习档案:打卡分享、单词修炼、中英互译、

每个人所处的环境不同、花费的时间不同,语言学习进步的速度也因人而异。在首次使用微软小英时,系统会通过三个维度对用户进行测试,而后根据用户的英语水平,个性化推荐适合的课程。

“微软小英”会监测用户与机器的互动,学习过程中的每一次点击、输入和对话都会进入小英的评估系统,并在此基础上建立用户的个人学习档案。用户可以在自己的主页上查询学习进程积分,每天的学习过后,可将进度分享到朋友圈,记录自己在英语学习路上的行程与脚印。

 除此之外,小英还有两个不为人知的隐藏技能。一是它会自主判断用户在情景对话中不熟悉的单词,将单词加入生词表。比如,如果用户在情景对话中无法轻松自如地说出“available”这个单词,小英就会把该单词加入生词表,当用户背单词的时候就会提醒用户学习。二是可以识别情景对话中不准确的发音,把需要着重练习的发音加入音标训练中,方便用户自我检验。

用户可以在小英的“单词修炼”功能中选择想要背诵的单词书,设定每日背单词的数量,小英便会科学地为用户设计学习计划。背完单词之后,结合图片进行测试,巩固一天所学,对“少壮不努力,老大背单词”说再见。

语言学习研究发现,只要学习者在不同的情形中见到同一个单词7次,通常就可以牢记这个单词。而“微软小英”充分利用了这一学习特性,把用户不熟悉的词汇在发音练习、情景对话、单词修炼和语音聊天等多个功能中反复呈现于用户面前,悄无声息地帮助用户牢记更多的词汇。

而在“中英互译”功能中,小英则运用了微软必应词典的机器翻译技术。微软开发了专门的机器学习算法以便从语料库中获取大规模的语言翻译知识,让翻译不再雷人。通常,人们在说英语的时候会习惯性的使用个人熟悉的高频词汇,而不愿意去尝试新的词汇。了解学习者这一特点的“微软小英”会在翻译词汇时给用户更多的选择,如“了不起”可以用“amazing”、“extraordinary” 或“terrific”等。让用户在使用中得到一些新的表达方式,为口语增色。

除此之外,“微软小英”还深知把握时间的重要性。如今的上班族工作都十分繁忙,不少人每天只有在地铁上或者睡前才有十几分钟的时间来练习英语。对此,微软小英会根据用户每天的生活/学习习惯在适当的时间提醒用户持续学习,贴心的提醒推送提高了用户坚持下去的可能性。而“微软小英”轻松的话风和学习节奏也不会增加“拼命三郎”们的生活负担,每天随手点一点,随口说一说,就可以有不小的提高。

“微软小英”提供了攻克英语口语难题的三个锦囊:1、基础发音;2、日常交流;3、词汇积累。曾经需要多个APP完成的工作,现在一个“微软小英”就全部搞定!

在被剁成渣的时间里,在鸭梨山大的工作外,智能的微软小英帮你把坚持学习英语的生活方式进行到底!

微软小英是如何炼成的?

在小英的情景模拟、情景对话、发音挑战和易混音练习模块中都融入了口语发音打分功能,那么小英是如何对用户的发音进行评测的呢?

小英的口语评测系统,是搭建在一个由机器学习训练成的神经网络的语音识别系统上,基本处理流程是利用语音识别模型,根据跟读文本(情景对话和情景模拟中是自动识别出的文本),对用户的录音进行音素层级的切分。每一个小单元再和其相应的标准发音模式进行匹配,发音越标准则匹配越好,得分也越高。每一个单词的得分则是相关音素得分的加权平均,句子层面的得分是各单词得分的加权平均。系统中各个标准发音的模型是深层神经网络在几百个发音标准的美式英语数据库中训练而成的。

在易混音练习模块中,除了单词的标准发音序列,小英后台还会构造包含易混音的扩展词网络,然后根据用户的实际录音,自动的识别出其实际的发音序列,通过对比即可找出其发音错误。下面给大家一个例子:下图给出的是单词‘thanks’的正确发音序列(s ih ng k s)和一个可能的错误发音序列(th ih ng k s),系统根据用户发音,自动识别出与用户发音最接近的路径。若识别的序列为thih ng k s, 则判定用户s错发成了th。通过这些常见易混音的练习,小英可以帮助用户不断地纠正错误,从而练就一口标准发音。

如果用户对自己的常犯发音瑕疵比较了解,则可以直接选择易混淆音素对进行区分性练习。但很多学习者对自己的发音问题并不了解,也不清楚哪些音素经常发错,哪些音素对分不清。针对这一点,小英还提供了一个独特的功能:把脉问诊。在用户进行发音挑战或情景模拟时,小英后台默默地对用户的各个发音进行分析,统计出用户最常见的错误发音和最易混淆的音素对。因此,经过一段时间的练习和积累,小英就能对用户的发音习惯了如指掌,为用户制定个性化的学习计划。在易混音练习模块中,最顶端的音素对就是小英推荐的该用户最常犯错的易混音。

小英的情景模拟和情景对话功能,是基于微软亚洲研究院多年积累的各项技术之上完成的。为了不但能够从发音的标准程度,并且能从语义和语法层面进行评价,小英采用了包括语音识别,口语评测,自然语言理解,机器翻译等多项技术。用户在微信中上传自己的回答以后,小英先用语音识别来理解用户说了什么内容,然后根据情景相关度(类似微软小冰中的自然语言理解技术)和语法语义的正确性进行回答内容上的打分,最后和发音打分的结果综合给出一个实际得分。所以你会发现即使你的发音再标准,如果”答非所问“的话依然得不到高分。

技术集结,成就智能

微软全球资深副总裁,微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士曾说:“微软将引领一场‘无形突破’,计算转向云端,人们将能够从海量数据中获得集体智慧并创造更多奇迹,同时整个计算机生态都将以用户为中心而不断演进。未来,技术将会像空气一样无处不在,以隐形的方式渗透到各个不同的领域,提升生活及工作方式。”微软小英正是在这样的背景下应运而生的。

在微软内部,从管理层到普通员工都共同经营着创新的企业文化。而其中,微软亚洲研究院仿佛创新的源泉,为微软的众多产品和服务不断提供源于基础研究的技术突破。微软鼓励极客创新精神,鼓励思考、质疑与碰撞,鼓励跨领域、跨小组合作,让极客们可以不惧失败地大胆尝试,创造出最贴近用户需求的智能服务和产品。这样的环境成就了微软小英,小英背后集结了微软亚洲研究院多个研究小组在各自研究领域的多年积累,比如自然语言理解、计算机视觉、语音识别等方面的技术突破。

未来,希望“微软小英”可以帮助越来越多的国人在英语交流中获得自信,让身在校园或职场的你不断取得更大的进步。


 

计算语言学思想碰撞的浪潮:ACL 2016

$
0
0

作者介绍:

黄丹青,是微软亚洲研究院实习生,本科毕业于中山大学,目前是中山大学和微软亚洲研究院联合培养博士生。她的研究兴趣为knowledge computing和question answering。

闫昭,是来自北京航空航天大学的同学,今年博三,在微软亚洲研究院NLC组已经实习了两年多了,他的研究兴趣是question answering和dialogue system。

备受关注的ACL

ACL会议是计算机语言学和自然语言处理最顶尖的会议之一,每年都吸引了许多学者投稿及参与。今年8月初ACL 2016在德国柏林洪堡大学举办。柏林是一座具有深厚文化底蕴以及历史沧桑感的城市,洪堡大学更是柏林最古老的大学,先后出过29名诺贝尔奖获得者。其校训是校友马克思的名言:“从来哲学家都在解释这个世界,而问题在于改变这个世界”。在这个知名学者倍出的大学里,尤其学校创始者Wilhelmvon Humboldt,他是位出色的语言学学者,ACL 2016可谓是带来了又一波计算机语言学思想碰撞的浪潮。

会议上所用的conference book

此次会议共收到1290篇投稿,接收328篇,其中长文231篇,短文97篇,总体接收率25%,与往年差不多。超过1600多人注册参加此次会议。微软、谷歌、亚马逊等IT巨头都参与了企业展示。从中可以看到,ACL受到了越来越多学术界与工业界的关注。从接收的论文来看,研究领域十分的多样化,使用的模型更新速度也很快,毫无疑问,其中深度学习(deep learning)相关的占据了半壁江山。整个会议日程安排得很好,美中不足的是由于论文数量多,一天安排了多达7个session同时进行,感兴趣的几个报告都赶在同一个时间段了。

精彩纷呈的ACL

会议举办了两场特邀讲座,分别是来自加州大学的Amber Boydstun以及爱丁堡大学的Mark Steedman。Amber Boydstun主要的研究方向是政治学而并非语言学,但她引进了语言学中Tone和Frames等理论分析文本研究媒体和政治之间的联系。她结合了心理学、新闻学以及计算机科学等多个学科的理论,这可能也是大会想要传递的一个信息:鼓励大家对语言学理论以及其他学科的运用。

另外一场讲座则是由著名的Combinatory Categorial Grammar (CCG)的发明人之一,英国爱丁堡大学的Mark Steedman教授带来的“On Distributional Semantics”,场面相当火爆。他回顾了目前基于词汇的表面意思或者隐含意思这两大类构造分布式语义的方法,以及在QA,机器翻译等的一些应用,整个介绍十分完整,同时他指出,语义任务中要解决的最难问题不是逻辑运算,而是在同一语义下能表达的语言是多变的,“如何定义内容(content)并使之能够支持逻辑运算和常识推理”是关键。进而,教授讲述了他们在语义逻辑表达概率化方面的一些相关工作。(讲义链接http://homepages.inf.ed.ac.uk/steedman/papers/semantics/acl16a.pdf)

海报展示(一)

海报展示(二)

另外,组委会还根据不同的话题,安排了总共44场报告。其中,至少被安排了两场报告的主题包括,Parsing(4场),Word Vector(3场),MachineTranslation(3场),Word Meaning(2场),Question Answering(2场),Semantic Parsing(2场)。 本次大会所有的报告均在洪堡大学的校园内的阶梯教室进行,其中Audimax和Kinosaal是两个可以容纳听众最多的两个。Word Vectors,Semantic Parsing, 以及Question Answering的报告均被安排在了这两个大厅中进行。我们多多少少可以从组委会对于报告的安排,一窥当前自然语言处理领域的热点话题。

会议的重磅新闻之一就是终身成就奖的颁发,得奖者是斯坦福大学的教授Joan Bresnan。谈起她,可能最多人提起的应该是她在70年代定义了一种语法框架,LFG(lexical functional grammar),强调结构对语言的重要性,提出了句法结构、参数结构、形态结构等,成为了许多机器翻译工具的理论基础。她的得奖感言主题是:Linguistics:The Garden and the Bush。这个题目十分形象地体现了她的工作: 在真实场景下语言并不像花园那样可以单纯用理论去刻画,而是像灌木丛那样,因此她把统计的方法引入到语言学研究。

会议挑选了十篇outstanding论文,deep learning相关的占了绝大部分。而今年大会的最佳论文奖并非任何一篇关于深度学习的文章,而是一篇讨论符号语义性的文章——来自加州大学伯克利分校E. Dario Gutierrez的工作Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric Learning for Kernel Regression。该论文主要研究词形式和词义之间是否有联系的问题(比如一些url结尾的单词curl,furl等都与”卷曲”的意思相关)。论文的贡献在于,从全局更好的找到从词形式到词义的映射关系,通过实验分析对之前不同工作得出的不同结论做了一个解释和统一。作者用很简单直观的统计学习模型解决十分纯粹的morphology形态学问题,加上对这个任务的一个分析总结,逻辑十分清晰,读起来十分舒服。

大会的最佳学生论文奖授予了剑桥大学Steve Young组的Pei-Hao Su。他们的论文On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems,提出了一个在线学习框架,可以显著减少在语音对话系统中使用强化学习所需的数据标注量,并减弱用户反馈中数据噪音对于对话系统策略学习的影响。

微软在ACL

微软有20多位研究员参加了ACL 2016,是本次大会上一个最为重要的研究团队之一。微软研究院的首席研究员Bill Dolan第一时间在他的博客上发布了题为“Microsoft NLP researchers convergeat ACL 2016, edging ever closer to human-like conversational experiences”的博客 (原文请见: https://www.microsoft.com/en-us/research/microsoft-nlp-researchers-converge-acl-2016-edging-ever-closer-human-like-conversational-experiences ),博文介绍了微软研究院本次大会的与会情况。根据Bill的统计,本次微软研究院共为与会者带来了1个Tutorial,2个workshop,以及17篇被录用的论文。下面我从中选了一些我们亲身参加了的部分,为大家详细介绍一下:

其中的一场Tutorial (Understanding Short Texts)是由微软亚洲研究院的王仲远以及前微软亚洲研究院研究员王海勋共同讲解的。仲远通过数据说明了短文本分析在大量互联网应用中的重要性,分析了短文本理解中的一些特点与挑战,并介绍了多种基于知识库的显示表达模型及应用(Knowledge Based Explicit Representation Models)。 而海勋则从隐式表达模型的角度对短文本分析进行了讲解,并做了最后的总结。(讲义链接:http://www.wangzhongyuan.com/tutorial/ACL2016/Understanding-Short-Texts/)

来自微软亚洲研究院的王仲远及前研究员王海勋正在共同讲解tutorial

ACL论文是如何写成的

黄丹青:

我们团队的工作是《How Well Do Computers Solve Math Word Problems? Large Scale Dataset Construction and Evaluation》。在计算机自动解数学题这个任务上,之前的工作都是基于一些小规模而且多样性不足的数学题集,我们认为这样得出来的结论可能不太有代表性。因此我们使用半自动的方法搜集标注了多达1万8千道小学数学题,并在此基础上对现有系统重新评估。从目前来看计算机的自动解题能力还是十分薄弱,接下来我们会专注于如何提高这种计算机的这种能力。

从定义任务,提出想法,到一步步完成论文的过程中,微软亚洲研究院的导师都给我了十分有用的帮助和指导。除了技术支持,他们更多的是教会了我如何更全面地思考分析问题,做每一步之前都要思考背后的motivation,如何严谨地论证每一个细节。我十分佩服他们对事情的洞察力以及对全局的把握能力。

这次收获很多,除了对自己相关工作有更多交流见解之外,还了解了其他领域最前线的发展方向,发现能借鉴的有很多。参加ACL让我感觉到,大家都怀着对学术的热情,踏实地专注于自己的研究,通过众人之力一步一步推动着计算机更好的发展。这让我能更沉下心来继续我往后的研究。

闫昭:

在本次ACL中,我们的文章DocChat: An Information Retrieval Approach for Chatbot Engines Using Unstructured Documents讲述了一种基于检索与排序直接从非结构化文档中选取句子作为聊天机器人回复的方法。以往的方法无论是基于检索的还是基于生成的,都会依赖大量的对话句对作为训练数据。而在给定领域的情况下,大量的对话语料是比较难以获得的,但普通的文本就容易获取的多。我们的方法现在已经运用于新一代的微软小冰跨平台商业解决方案之中,助力小冰的自主知识学习技能。

非常庆幸我参与了DocChat这个项目,参与了一个解决实际产品问题的全过程。从对问题的分解,模型的构建,到实验的验证,数据的分析,最后到论文的撰写,参与整个过程让我受益非凡。非常感谢我的mentor段楠研究员,以及NLC组所有的研究员和同学,感谢他们对我的帮助以及所营造的科研学习氛围。

近些年,自然语言处理在很多方面取得了非常快的发展,也衍生出了很多新的科学问题。参加这次大会,让我近距离的接触了这些最前沿的成果,让我有机会与NLP领域的同仁交流与学习。在我个人比较关心问答和对话系统领域,我听到了很多精彩的报告,这些带给了我许多关于未来研究方向的思考,更是激励我做好眼下研究工作的动力。




 

--- Article Removed ---

$
0
0
***
***
*** RSSing Note: Article removed by member request. ***
***

微软首席研究员刘铁岩:深度学习的推力与阻碍

$
0
0

在人工智能高歌猛进,人们期待深度学习无往不胜之时,作为人工智能学者,我们必须保持冷静,分析深度学习技术的短板,开展针对性研究将其克服,从而助力人工智能的长期繁荣。事实上,今天深度学习成功的主要因素:超大规模训练数据、复杂的深层模型、分布式并行训练,也正是影响其进一步发展的障碍。首先,取得大量有标签训练数据需要付出巨大代价,不是每个领域都能满足这个条件;其次,深层模型很难优化,超大模型会突破计算机容量;再次,同步并行效率低下、异步并行受通信延时影响收敛缓慢。在这篇文章中,我将会介绍微软研究院的最新成果,展示如何通过“对偶通信博弈技术”有效利用无标签训练数据、如何利用“残差学习技术”解决深层神经网络的优化问题、如何借助“二维映射技术”缩小模型规模、以及如何使用“高阶泰勒补偿技术”解决通信延时问题。这些前沿技术将会陆续通过微软的开源项目CNTK和DMTK分享给业界,以期和大家一起推动人工智能技术的进一步发展。

本文来自于在长沙举行的2016年湖南人工智能论坛微软亚洲研究院首席研究员刘铁岩博士的报告。以下是雷锋网对此次报告的整理。

作者介绍:

刘铁岩博士,微软亚洲研究院首席研究员,美国卡内基梅隆大学(CMU)客座教授。刘博士的研究兴趣包括:人工智能、机器学习、信息检索、数据挖掘等。他的先锋性工作促进了机器学习与信息检索之间的融合,被国际学术界公认为“排序学习”领域的代表人物,他在该领域的学术论文已被引用近万次。近年来,刘博士在博弈机器学习、深度学习、分布式机器学习等方面也颇有建树,他的研究工作多次获得最佳论文奖、最高引用论文奖、研究突破奖,并被广泛应用在微软的产品和在线服务中。他是国际电子电气工程师学会(IEEE)、美国计算机学会(ACM)和中国计算机学会(CCF)的高级会员,中国计算机学会的杰出演讲者和学术工委。

在我的报告开始之前,先介绍一下我所供职的单位:微软研究院,它是微软公司在全球设立的基础研究机构,它在全球有六个分院。位于北京的微软亚洲研究院成立于1998年,到现在已经有十八个年头,这十八年里,微软亚洲研究院在顶级国际会议和期刊上发表了近5000篇论文,其中包括50篇最佳论文,为微软产品提供了400项技术。微软亚洲研究院非常像一所大学,有近200余名世界顶尖的计算机科学家,以及来自各个高校的三四百名长期的实习生。

人工智能在最近取得了令人瞩目的成果,微软在这个过程中也做了很多的贡献,比如在语音识别方面的突破,就起源于2006年微软的研究员和Geoffrey Hinton一起从事的研究。这几年人工智能领域在人脸识别、图像识别、自然语言处理、人际对弈都取得了甚至超过人类水平的研究成果,非常喜人。

深度学习成功的秘密

说到这几年取得的成果,就不得不提到深度学习技术,深度学习技术概念很宽,但最主流的算法就是深度神经网络,这张图展示了深度神经网络的基本结构。图里的圆圈代表是一个神经元,每一个神经元会对它的输入做一个线性加权求和,在进行一个非线性变换。经过多层的变换,深度神经网络可以模拟非常复杂的非线性分类界面。

除了最基本的全连接网络,最近深度神经网络有很多新的变种,比如说卷积神经网络,这是为图像识别发明新的网络结构,循环神经网络主要为自然语言流式数据发明的神经网络结构。

不管是标准多层神经网络、卷积神经网络,还是循环神经网络,其学习过程都非常的简单和一致。首先会有一个训练集,我们用w表示深度神经网络里面的参数,用f来表示神经网络模型。

L称为损失函数,深度学习神经网络的训练其实通过在训练集上最小化损失函数而求得的,就是我们通常所说的经验风险最小化。为了实现这个目标,人们使用的优化技术也非常的简单,就是大家上大一的时候就会学到梯度下降法:对损失函数求一个梯度,然后把模型向梯度下降最快的方向做一个更新,这种方法在神经网络领域也被称为反向传播。

到此为止我就给大家用了一两张PPT做了非常快速的讲座,什么是深度神经网络,它有哪些变种。

深度学习网络为什么成功

接下来我们来看看神经网络背后深层次的东西。当深度神经网络带来了人工智能很大的飞跃,外行们讨论的都是人工智能对人类会不会产生威胁?而内行看到的则是深度神经网络有什么技术优势、往前发展还有什么样子的短版?

前面提到,无论深度神经网络长什么样子,其实就是一种经验风险最小化。这里,X是样本,Y是标签,所以X和Y加起来就是神经网络的训练数据,F用来表示神经网络模型,L是损失函数。神经网络的训练就是在整个神经网络的函数空间里面去找一个最优模型,从而最好地拟合训练数据。其实不仅神经网络在做这件事,历史上那么多的分类模型,都在做的类似的事情。

为什么到今天神经网络可以取得传统模型无法取得的成功呢?其实有三个理由:

一是要感谢我们这个大数据的时代,我们如今有着前所未有的大训练数据,可以充分训练复杂的模型。

二是深度神经网络和前面提到的模型相比,具有更强的表达能力。大家知道在神经网络领域有一个universal approximation theorem,讲的是带有隐层的神经网络可以逼近任意的连续函数。从这个意义上讲,即便我们选一个非常复杂的问题,用深度神经网络也可以逼近它的分类界面。

有了大数据,又有了复杂模型,那怎么训练呢?就需要非常强大的计算资源,就是可能要用上百台、上千台的计算机来共同训练一个深度神经网络。总结一下啊,大数据、复杂模型、运算集群能力其实共同支撑了今天深度神经网络的巨大成功。

深度学习进一步发展的瓶颈

但是世界上没有免费的午餐,这三方面恰洽也是深度神经网络向前进一步发展的瓶颈所在。

第一个方面,其实大规模的数据不是那么容易取得的,尤其在某些领域,比如说医学领域,有些疑难杂症这世界上一共就一百个样本,如何去产生成千上万的大数据?

第二个方面深度神经网络非常难以优化,目前人们为此发明了很多黑科技。我们经常遇到这种情况,即便有一个组织宣布他有非常好的深度模型并且把算法进行了开源,但是我们当下载到自己的环境里,用自己的数据做训练的时候,往往得不到那么好的结果。另外,有的时候很大的模型容量会超过计算机的限制,目前我们经常用GPU来训练深度神经网络,但是GPU的内存很小,一般就是几十个G,很多大的神经网络的规模会超过这个容量。

第三个方面,即便神经网络模型可以塞到GPU里,但是当数据够大的时候,用单机进行训练可能要花费非常多的时间,也许几百年也训练不出一个模型来。为此,我们需要用一个集群来做分布式的训练,听起来很简单,好像是系统领域成熟的问题,但是我们关心的不是简单地把模型训练分发到多个机器上,而是要保证精度不发生损失,我们希望在加速的同时,还有很好的判别或者是分类能力,这件事情一点都不简单。

一)通过“对偶通信博弈技术”有效利用无标签训练数据

前面提到了很多情况下,不是那么容易获得大数据,当没有大的训练数据时候该怎么办?通常获得有标签数据很难,但是获得无标签数据会相对荣国。比如现在ImageNet比赛的数据通常是1000类,每类1000幅图像;但是我们如果用搜索引擎来搜索图像,可以获得比这多得多的数据。 关键的问题是如何给这些无标签数据打上一个标签。常用的方法是标签传播,就是利用样本的相似性,给无标签数据赋予一个伪标签。另一种情况是,我们有类别信息,但是没有样本。最近有一个很有趣的工作叫GAN: generative adversarial nets,它利用一个生成器和一个判别器的博弈,最终能根据标签自动产生属于这个类别的数据。

大会直击|微软亚洲研究院刘铁岩:深度学习成功的秘密

有了这个技术,我们就不用去采集数据,而是自动地渊源不断输出那些图像。

这两种工作是对称的,一个工作处理的是有样本但无标签,另一个工作处理的是有标签但无样本。那么能不能使它们两个对接在一起?这是我们今年在NIPS上发的一篇论文,称为对偶通信博弈,可以把前面两项技术完美结合在一起。

首先从任何一个无标签的样本出发,可以预测标签,然后基于这个标签又可以用生成技术生成一个新样本出来,这个过程我们可以获得很多反馈信息,比如标签的分布、生成样本和原样本的相似度等。这个过程也可以从标签出发,也能形成一个闭环。有了这个技术,我们就可以自己产生训练数据。我们把这个技术应用到了机器翻译上,取得了非常好的结果。大家知道机器翻译这几年有突飞猛进的进展,得益于大量双语语料的存在,如果只有很少的数据能做什么呢?

这张图上面最上面条形图对应的是用百分之百的双语语料训练的结果,最底下一行是使用传统的深度学习技术只用5%的双语语料的结果。绿色的这一条也只是使用了5%的有标数据,但是使用了对偶通信博弈来自动生成更多的训练数据,它可以很快逼近使用全部双语语料的精度。当然,这里机器翻译只是一个例子,同样的方法可以解决很多其他的应用问题。

二)利用“残差学习技术”解决深层神经网络的优化

深度学习的网络很复杂,训练其实不容易,那么到底有哪些不容易?

一个典型的挑战叫做梯度消减,深度神经网络是从输出层的损失函数不断向下传播,用预测误差来更改神经网络的参数,所谓梯度消减指的是当网络很深的时候,输出层的损失很难有效反馈到底层,所以底层神经参数不能得到有效的更新。我们举个简单的例子,这是一个简化的深度神经网络,每一层只有一个隐节点,但是有很多层次,C是损失函数,反向传播无非就是对损失函数求一个偏导,求到每一个层的参数上面去,这个偏导长什么样子,大家回去做一点演算的话就可以得到这个式子。这里sigma’对应于非线性激活函数的导数,它的最大值也不过是0.25,如果一个网络很深,每一层对应的激活函数的导数会被连乘,一连串很小的量连乘会是什么结果呢,就是很快趋近于0,这就是梯度消减的起因。为了解决这个问题,人们提出在原有的神经网络基础上增加了一条由门电路控制的线性通路。

我们做回传的时候,线性通路可以把预测误差有效传递到底的参数上,而不会有那么强的梯度消减问题。但是,这两个工作使用的门电路,有的时候会通,有的时候会断,还是会带来一定的损失。我们研究院的同事提出在神经网络不同层次之间加一个直接的线性通路,不受任何的限制,永远是通的,经过这样的一个改造之后,对于解决梯度消减问题效果更好,并且可以让我们很轻易训练出成千上万层的网络,其中152层的残差网络参加了去年的比赛,并且取得了五个项目的冠军,获得了全世界的瞩目。

大家看看这个152层的网络有多深。

其实,不仅深会带来麻烦,网络大也是件麻烦事。这个数据集是在网络搜索领域常用的数学极,它包含十几亿的网页,词表大小大概1000万。如果基于这样数据去设计一个神经网络,因为输出层是词表那么大,输入层也是词表那么大,网络大小是非常可观的,其参数个数会超过200亿,存储的量会超过200G,这样是网络是没法塞到GPU的内存里的。即便可以塞进去,训练这么大的网络也需要花很长的时间,粗略的计算告诉我们,用主流GPU来训练,大约需要180年。

三)借助“二维映射技术”缩小模型规模

今年我们的研究组提出新的技术,就叫做参数维度压缩技术,可以有效解决词表过大的问题。因为词表决定了输出的结点数和输入的结点数,我们工作的核心所在就是提出了词表的二维向量表达。

每一个词不是用一个节点表示,而是用两个节点去表示,不同的词会共享节点。如果用二维的表格来表述所有的词条,原来10000个词,只需要200个元素就可以了。通过二维词表的构造大大解决了内存的空间,但是到底该怎么生成这些二维的词表?

哪些词要共享节点,哪些词不需要共享节点,其实这是一个最优的二分图匹配问题,我们可以循环地求解二分图匹配,从而获得合理的二维词表。相应地,我们把传统的神经网络也做了改进,提出的二维循环神经网络。

这个网络大大缩小了网络储存的内存需求,像我刚才提到有200亿个参数的网络,用了这个技术以后,储存量降低了三个数量级,运算量降低了四个数量级,这还不是最神奇的,我们使用了二维共享表之后,精度也得到了提高,这主要是因为传统的神经网络输入结点是互相独立的,但是我们没有做这样的假设,我们是用了最优二分图的匹配来找到了词与词之间的语义相似性,因此提高了网络的精度。

四)如何提高云计算和并行计算

大家想象一下,如果真的有一个非常大的网络,有很多数据要跑,一台机器要一两百年才能完成训练。那就不得不使用多台机器进行并行训练。在并行的训练当中最简单的范式就是同步的并行。

比如说每一台机器做一个局部运算,然后机器互相之间互相同步一下学到的东西。但是这一百台机器可能运算的速度有很大差别,做同步的更新,这一百台机器就需要互相等待,最后运算的效率是由最慢的机器决定的。

结果是,使用了100台机器,可能由于互相等待,最终只实现了三五倍的加速比,得不偿失。为了解决这个问题,最近学者们开始研究异步并行。

就是机器之间不互相等待,这样虽然速度有所提高,但是会出现所谓延时通信的额问题。也就是,当一台机器根据当前模型,得到模型更新,想要推送回全局模型的时候,全局模型很可能已经被其他机器更新了好几次了,导致它推送上的更新过时了,把这个过时的更新加到全局模型上,可能会导致出乎意料的结果。有学者做过分析,这种延时,或导致学习的收敛速度变慢,最终也是影响加速比。

为了解决这个问题,我们需要弄清楚这个过时的更新到底会带来什么影响。其实,这个旧的更新和新的更新之间的差别可以用泰勒展开来进行刻画,传统的异步并行相当于只利用了泰勒展开的零阶项,那么,我们是不是可以用更多的高阶项去补偿这种延时呢?如果把所有高阶项都用上,确实可以把通讯延迟完全解决掉,但是其运算复杂度也会增加,所以这中间有一个平衡的问题。我们做了一个简单的尝试,就是在零阶项的基础上,多保留了一阶项。但是,即便这种简单的操作,也需要我们计算原损失函数的二阶导数(就是所谓海森阵),其复杂度是相当高的,可能得不偿失。我们的贡献在于证明了一个重要的定理,当损失函数具有对数似然的形式的时候,这个二阶导数可以用一阶导数的简单变换,实现无偏估计。而神经网络里常用的交叉熵损失函数,正是一种对数似然的形式,因此我们的技术可以很好地应用到深度神经网络里面。

最后,关于微软的开源平台

前面我讲到了很多微软在深度学习方面的前沿技术,这些技术将会陆续通过我们的开源项目分享给业界。其中一个开源项目叫CNTK,微软深度学习工具包,还有一个叫DMTK,微软分布式机器学习工具包。希望对这方面感兴趣的同事可以尝试一下我们的工具包,希望对你们的研究有一个推动作用。

最后,让我们讨论一下我们的未来研究方向,我们希望创造一个能够自动创造人工智能的人工智能。今天人工智能虽然有很多成功的例子,但是绝大部分依靠人为编写的程序。最近这几年,学者们在思考,有没有可能不需要人为控制深度学习的过程,而是由机器自己来优化自己呢?比如说DeepMind今年发了一个论文,叫learning to learn by gradient descent by gradient descent,就是用循环神经网络取代人为定义的梯度下降方法。再比如,我们前面提到的对偶通信博弈,就是机器自己搜集和产生训练数据。还有一些人在用机器学习的方法自动来调深度神经网络的超参数,比如学习率。随着这些研究的开展,我们可以想象有一天机器学习工具可以针对给出的任务去自动搜索数据、选择数据、处理数据,自动根据你所给的目标去生成模型优化的方法,自动调整超参数,自动把训练部署到多个机器上进行分布式训练,如果真的有这样一天,将是对所有机器学习使用者的一种解放,我们不需要那些掌握黑科技的巨头,每个人都可以享受机器学习技术给大家带来的红利!让貌似高深复杂的机器学习技术,真正飞入寻常百姓家!


 

错误率低至6.3%,微软新创语音识别里程碑

$
0
0


为了让计算机能像人类一样自然地听懂并理解语言,微软的研究员们在计算机语音识别和理解的技术上,又向前迈进了里程碑式的一大步。

微软首席语音科学家黄学东在论文中表示,我们在近期的产业标准Switchboard语音识别基准测试中,实现了词错率(WER)低至6.3%的新突破,且为目前该领域内错误率最低。

黄学东

相关论文已于周二发表。(请点击阅读原文查看)论文中提到“我们最好的单个系统在 NIST 2000 Switchboard 集上取得了 6.9% 的词错率。我们相信这是目前单个系统能取得的最好表现。在Switchboard 测试数据上,多个语音模型的组合将进一步使词错率降至 6.3%。”

论文介绍

先给大家附上相关论文(由机器之心提供翻译):

微软 2016 对话语音识别系统(The Microsoft 2016 Conversational Speech Recognition System)

摘要

我们描述了微软的对话语音识别系统,在该系统中我们结合了近期在基于神经网络的声学和语言模型上的进展,推进了在 Switchboard 识别任务上的顶尖成果。受到机器学习集成技术(machine learning ensemble techniques)的启发,该系统使用了一系列卷积和循环神经网络。I-vector 建模和 lattice-free MMI 训练为所有声学模型架构带来了显著的提升。使用了多个前向和反向运行RNNLM 的语言模型重新计分(Language model rescoring)与基于后验的词系统结合为系统性能带来了 20% 的增益。最好的单个系统使用 ResNet 架构声学模型和 RNNLM rescoring,在 NIST 2000 Switchboard 任务上实现了 6.9% 的词错率。结合系统取得了 6.3% 的词错率,代表了在这一基准任务上对先前成果的改进。

导语

近年,由于对卷积和循环神经网络的精心设计和优化,在降低语音识别错误率上我们已经看到了快速发展。尽管我们对基础架构已经很好地认识一段时间了,但它近期才成为了进行语音识别的最好模型。惊人的是,对声学模型和语言模型而言都是如此。相比于标准的前馈 MLP 或 DNN,这些声学模型有能力对大量带有时间不变性的声学环境建模,而且卷积模型还能应对频率不变性的情况。在语言模型中,循环模型通过对连续词表征(continuous word representations)的归纳能力,在传统的 N-gram 模型上实现了进步。同时,集成学习(ensemble learning)已经在多种神经模型得到了普遍的应用,从而通过减少偏差和方差改进稳健性。在此论文中,我们广泛地使用模型的集成,同时也改进单个组件模型,从而推进在对话电话语音识别(CTS)中的进展,CTS 从上世纪 90 年代就已经成为了检验语音识别任务的一项基准。这一系统的主要特征包括:

    1. 对卷积神经网络和长短期记忆(LSTM)网络这两种基础声学模型架构的集成,每个架构也有多种变体;

    2. 在 LACE 卷积神经网络中的一个注意机制,其可以有区别地为不同距离的语境赋予权重;

    3. Lattice-free MMI 训练;

    4. 在所有模型中使用基于 i-vector 的改编版本;

    5. 在前向和反向过程中都运行带有多个循环神经网络语言模型的 language model rescoring;

    6. 融合网络系统组合与最好系统子集搜索的耦合,这正是在有许多候选系统的情况下所需的

该论文在其他部分对该系统进行了详细描述。Section 2 描述了 CNN 和 LSTM 模型。Section 3 描述了我们对 i-vector 改编版的部署。Section 4 展现了 lattice-free MMI 训练过程。语言模型rescoring 是该系统的一个重大部分,在 Section 5 中有描述。实验结果呈现在 Section 6 中,随后是对相关工作和结论的讨论。

表 4. 在 eval 2000 set 上的来自 i-vector 和 LFMMI 的性能改进

表 5. 在 eval 2000 set 上不同声学模型的词错率。除非特别标注,所有的模型都在 2000 小时的数据上进行训练,有 9000 个 senones(聚类的结果)。

比深更深的深层神经网络

上周,IBM在旧金山举办的Interspeech会议(国际语音传播和技术大会)上,宣布他们实现了6.6%的错误率。这无疑让人惊叹,因为在二十年前,世界上最好的语音识别系统所能实现的最低错误率还高达43%。黄学东博士认为,“这一新的里程碑得益于过去 20 年中,各种人工智能研发团队与组织研究出的各种新技术的碰撞。”

如今,很多研究员坚信,飞速发展的技术能很快实现让计算机能像人类一样完全理解人类自己的语言。而这个场景正如微软向大家所描绘的个人计算未来图景相呼应。例如微软在Windows 10中提供的智能个人助理Cortana(微软小娜),或者是Skype Translator实时语音翻译技术,还有今年Build开发者大会上推出的包含语言及语音在内的一系列智能API服务——微软认知服务(Microsoft cognitive services)。

针对语音的研究也对微软的人工智能战略意义重大。语音识别技术更像是一个人工智能的入口,它能让计算机更准确的理解用户的需求,并作出回应。这也让构建一个能够帮助人类工作的,会听、会说、会看、会理解的智能系统愿景,不再只是空想。

IBM和微软都承认深层神经网络极大地促进了近年来语音识别技术的快速发展。过去十几年来,计算机科学家们都在努力让计算机能像人类一样看懂图像,理解语音与语言。但直到现在,这些识别系统仍存在着一些不可避免的误差。

类似于人脑,神经网络包含多级非线性处理层。从理论上说,越多的层级应该能带来越好的学习结果及准确度。但实际实验中的最大挑战是,在通过每一层级的反传训练中,反穿监督信号幅度会迅速衰减,这让整个神经网络系统的训练极为困难。去年12月,微软亚洲研究院的研究员运用了一种称之为“深层残差网络(deep residual networks)”的系统,重构了学习的过程,并重新定向了深层神经网络中的信息流,成功解决了此前深层神经网络层级与准确度之间的矛盾问题,最终赢得了ImageNet的计算机视觉挑战,并使得系统错误率低至3.57%,远低于人眼辨识的5.1%的错误率。

微软研究员们在深度学习上取得的另一个重要成就就是开源的深度学习工具包CNTK,它在面对超大规模深度学习的运算需求时,在多GPU下表现极佳。CNTK实现了复杂的最优化,极大的提高了深度学习算法的运行速度,并采用了Block Momentum并行技术,在多GPU下,可以同时保证大规模机器学习的精度和效率。

虽然GPU一开始主要用于计算机图像处理,但近几年,研究员们发现它们对于运行如语音识别和图像识别这样的复杂算法也具有显著作用。微软早已在人工智能个人助理微软小娜开发中运用了CNTK。通过结合运用CNTK和GPU群组,小娜(Cortana)现在已可以在相同时间段内接收之前10倍以上的数据。

Geoffrey Zweig

主要负责Switchboard语音识别研究的微软首席研究员及微软语音对话组的经理Geoffrey Zweig认为,公司之所以能在语音识别领域做到行业领先,主要得益于研究员们出色的专业能力。正是因为这些拥有高水准专业能力的研究员,才会让新训练算法得到发展,才会有高度优化的神经网络模型,才会实现如CNTK的各种工具的发展。“我们的研究团队拥有长期的语音技术研发经历和经验,这正推动着语音识别技术的不断发展。” Zweig说道。

对话即平台战略

黄学东博士补充说道,这次技术突破不仅是语音识别技术的里程碑,这也是微软在人工智能研究之路上的一个重要标志。微软在人工智能发展策略中关键的一环就是对话即平台(Conversation as a Platform, CaaP)战略。微软在今年的Build开发者大会上就曾强调了“对话即平台”战略。在会议中,微软CEO 萨提亚·纳德拉提到,对话即平台战略将会对未来的计算体验产生重大影响,就像当初图形用户界面所带来的影响一样——“这个概念很简单,但它带来的影响却不容小觑。这是将人类语言的力量,更普遍的应用到我们的计算体验上。” 纳德拉说道。



 

错误率低至6.3%,微软新创语音识别里程碑

$
0
0

为了让计算机能像人类一样自然地听懂并理解语言,微软的研究员们在计算机语音识别和理解的技术上,又向前迈进了里程碑式的一大步。

微软首席语音科学家黄学东在论文中表示,我们在近期的产业标准Switchboard语音识别基准测试中,实现了词错率(WER)低至6.3%的新突破,且为目前该领域内错误率最低。

黄学东

相关论文已于周二发表。论文中提到“我们最好的单个系统在 NIST 2000 Switchboard 集上取得了 6.9% 的词错率。我们相信这是目前单个系统能取得的最好表现。在Switchboard 测试数据上,多个语音模型的组合将进一步使词错率降至 6.3%。”

论文介绍

先给大家附上相关论文(由机器之心提供翻译):

微软 2016 对话语音识别系统(The Microsoft 2016 Conversational Speech Recognition System)

摘要

我们描述了微软的对话语音识别系统,在该系统中我们结合了近期在基于神经网络的声学和语言模型上的进展,推进了在 Switchboard 识别任务上的顶尖成果。受到机器学习集成技术(machine learning ensemble techniques)的启发,该系统使用了一系列卷积和循环神经网络。I-vector 建模和 lattice-free MMI 训练为所有声学模型架构带来了显著的提升。使用了多个前向和反向运行RNNLM 的语言模型重新计分(Language model rescoring)与基于后验的词系统结合为系统性能带来了 20% 的增益。最好的单个系统使用 ResNet 架构声学模型和 RNNLM rescoring,在 NIST 2000 Switchboard 任务上实现了 6.9% 的词错率。结合系统取得了 6.3% 的词错率,代表了在这一基准任务上对先前成果的改进。

导语

近年,由于对卷积和循环神经网络的精心设计和优化,在降低语音识别错误率上我们已经看到了快速发展。尽管我们对基础架构已经很好地认识一段时间了,但它近期才成为了进行语音识别的最好模型。惊人的是,对声学模型和语言模型而言都是如此。相比于标准的前馈 MLP 或 DNN,这些声学模型有能力对大量带有时间不变性的声学环境建模,而且卷积模型还能应对频率不变性的情况。在语言模型中,循环模型通过对连续词表征(continuous word representations)的归纳能力,在传统的 N-gram 模型上实现了进步。同时,集成学习(ensemble learning)已经在多种神经模型得到了普遍的应用,从而通过减少偏差和方差改进稳健性。在此论文中,我们广泛地使用模型的集成,同时也改进单个组件模型,从而推进在对话电话语音识别(CTS)中的进展,CTS 从上世纪 90 年代就已经成为了检验语音识别任务的一项基准。这一系统的主要特征包括:

    1. 对卷积神经网络和长短期记忆(LSTM)网络这两种基础声学模型架构的集成,每个架构也有多种变体;

    2. 在 LACE 卷积神经网络中的一个注意机制,其可以有区别地为不同距离的语境赋予权重;

    3. Lattice-free MMI 训练;

    4. 在所有模型中使用基于 i-vector 的改编版本;

    5. 在前向和反向过程中都运行带有多个循环神经网络语言模型的 language model rescoring;

    6. 融合网络系统组合与最好系统子集搜索的耦合,这正是在有许多候选系统的情况下所需的

该论文在其他部分对该系统进行了详细描述。Section 2 描述了 CNN 和 LSTM 模型。Section 3 描述了我们对 i-vector 改编版的部署。Section 4 展现了 lattice-free MMI 训练过程。语言模型rescoring 是该系统的一个重大部分,在 Section 5 中有描述。实验结果呈现在 Section 6 中,随后是对相关工作和结论的讨论。

表 4. 在 eval 2000 set 上的来自 i-vector 和 LFMMI 的性能改进

表 5. 在 eval 2000 set 上不同声学模型的词错率。除非特别标注,所有的模型都在 2000 小时的数据上进行训练,有 9000 个 senones(聚类的结果)。

比深更深的深层神经网络

上周,IBM在旧金山举办的Interspeech会议(国际语音传播和技术大会)上,宣布他们实现了6.6%的错误率。这无疑让人惊叹,因为在二十年前,世界上最好的语音识别系统所能实现的最低错误率还高达43%。黄学东博士认为,“这一新的里程碑得益于过去 20 年中,各种人工智能研发团队与组织研究出的各种新技术的碰撞。”

如今,很多研究员坚信,飞速发展的技术能很快实现让计算机能像人类一样完全理解人类自己的语言。而这个场景正如微软向大家所描绘的个人计算未来图景相呼应。例如微软在Windows 10中提供的智能个人助理Cortana(微软小娜),或者是Skype Translator实时语音翻译技术,还有今年Build开发者大会上推出的包含语言及语音在内的一系列智能API服务——微软认知服务(Microsoft cognitive services)。

针对语音的研究也对微软的人工智能战略意义重大。语音识别技术更像是一个人工智能的入口,它能让计算机更准确的理解用户的需求,并作出回应。这也让构建一个能够帮助人类工作的,会听、会说、会看、会理解的智能系统愿景,不再只是空想。

IBM和微软都承认深层神经网络极大地促进了近年来语音识别技术的快速发展。过去十几年来,计算机科学家们都在努力让计算机能像人类一样看懂图像,理解语音与语言。但直到现在,这些识别系统仍存在着一些不可避免的误差。

类似于人脑,神经网络包含多级非线性处理层。从理论上说,越多的层级应该能带来越好的学习结果及准确度。但实际实验中的最大挑战是,在通过每一层级的反传训练中,反穿监督信号幅度会迅速衰减,这让整个神经网络系统的训练极为困难。去年12月,微软亚洲研究院的研究员运用了一种称之为“深层残差网络(deep residual networks)”的系统,重构了学习的过程,并重新定向了深层神经网络中的信息流,成功解决了此前深层神经网络层级与准确度之间的矛盾问题,最终赢得了ImageNet的计算机视觉挑战,并使得系统错误率低至3.57%,远低于人眼辨识的5.1%的错误率。

微软研究员们在深度学习上取得的另一个重要成就就是开源的深度学习工具包CNTK,它在面对超大规模深度学习的运算需求时,在多GPU下表现极佳。CNTK实现了复杂的最优化,极大的提高了深度学习算法的运行速度,并采用了Block Momentum并行技术,在多GPU下,可以同时保证大规模机器学习的精度和效率。

虽然GPU一开始主要用于计算机图像处理,但近几年,研究员们发现它们对于运行如语音识别和图像识别这样的复杂算法也具有显著作用。微软早已在人工智能个人助理微软小娜开发中运用了CNTK。通过结合运用CNTK和GPU群组,小娜(Cortana)现在已可以在相同时间段内接收之前10倍以上的数据。

Geoffrey Zweig

主要负责Switchboard语音识别研究的微软首席研究员及微软语音对话组的经理Geoffrey Zweig认为,公司之所以能在语音识别领域做到行业领先,主要得益于研究员们出色的专业能力。正是因为这些拥有高水准专业能力的研究员,才会让新训练算法得到发展,才会有高度优化的神经网络模型,才会实现如CNTK的各种工具的发展。“我们的研究团队拥有长期的语音技术研发经历和经验,这正推动着语音识别技术的不断发展。” Zweig说道。

对话即平台战略

黄学东博士补充说道,这次技术突破不仅是语音识别技术的里程碑,这也是微软在人工智能研究之路上的一个重要标志。微软在人工智能发展策略中关键的一环就是对话即平台(Conversation as a Platform, CaaP)战略。微软在今年的Build开发者大会上就曾强调了“对话即平台”战略。在会议中,微软CEO 萨提亚·纳德拉提到,对话即平台战略将会对未来的计算体验产生重大影响,就像当初图形用户界面所带来的影响一样——“这个概念很简单,但它带来的影响却不容小觑。这是将人类语言的力量,更普遍的应用到我们的计算体验上。” 纳德拉说道。


 
Viewing all 620 articles
Browse latest View live