Quantcast
Channel: 微软亚洲研究院
Viewing all 620 articles
Browse latest View live

敦煌小冰:敦煌莫高窟多了一位人工智能讲解员

$
0
0

中秋节刚过,十一小长假也即将到来,大家是不是早就按捺不住雀跃的心情准备出去放松放松了呢?其实,如果你近期到访敦煌游览莫高窟的话,你会发现,人工智能萌妹子微软小冰已经在不知不觉间进驻了敦煌研究院微信账号(微信号:icaves),通过对话的方式和大家见面啦!现在关注微信账号“敦煌研究院”,微软小冰就会变身为“敦煌小冰”,除了一如既往的和大家插科打诨之外,更担负起文化传承、宣传文物保护的重任,在言谈之间围绕着敦煌的文化、历史、旅游、学术研究等话题告诉你关于敦煌的知识,更能回答你想知道的各种相关问题。

长按识别图中二维码


敦煌小冰由微软与敦煌研究院合作开发而成。借助敦煌研究院提供的珍贵数据,结合微软亚洲研究院最新推出的自主知识学习技术(Doc Chat),以及微软(亚洲)互联网工程院的开发支持,小冰能够在很短的时间内,迅速地从大量专业数据中学习相关领域的知识。自主知识学习技术(Doc Chat)是一种基于检索与排序直接从非结构化文档中选取句子作为聊天机器人回复的方法。以往的方法无论是基于检索的还是基于生成的,都会依赖大量的对话句对作为训练数据。而在给定领域的情况下,大量的对话语料是比较难以获得的,但普通的文本就容易获取的多。小冰通过对于自然语义的理解学习,以及背靠的微软大数据,可以在短时内对海量的素材知识进行学习归纳。这一业界领先的科技让小冰在快速学习了互联网上千篇敦煌文化相关的文章,和上千页的敦煌专著《敦煌学大辞典》后,已经摇身一变进化成一个与敦煌莫高窟相关的24小时在线专家了。用户可以通过与小冰的对话,直观感受到随身有个敦煌攻略小助手和知识讲解员的贴心服务体验。

莫高窟


这一技术也已经运用于2016年8月最新发布的第四代的微软小冰跨平台商业解决方案之中,让小冰能更轻松地学习不同领域的专业知识。第四代微软小冰商业平台与敦煌研究院的结合,使人工智能科技跨越领域掣肘,逐渐走进文化遗产保护领域。最新数据显示,微软小冰每年至少可以帮助200万人了解古老且神秘的莫高窟佛教艺术。

同一时间亮相敦煌研究院公号的,还有微软小冰最新推出的AI HI(人工智能 人工)混合客服平台。小冰通过对特定对话场景的甄别,继而判断出当前对话是否需要人工介入。而人工客服可以在需要时迅速、点对点的和用户进行无缝链接,无需其它的操作步骤和通讯工具协助。而敦煌小冰也能记录下每一次人类专家介入时的回答结果,对未来出现同样的对话场景进行完善补充。通过人工智能与人类智能相结合,发挥各自的优势,从而实现效果的最大化。


事实上,微软与敦煌研究院在数字化领域的合作由来已久。早在2011年,微软亚洲研究院便将为敦煌莫高窟度身定制的十亿级像素数字相机系统 “飞天号” 捐赠给了敦煌研究院,使得洞窟的数字档案实现了绘塑完整的统一空间。2015年 9月,由敦煌研究院和微软亚洲研究院联合举办的 “文化遗产智能保护与传承研讨会” 在敦煌研究院召开。在研讨会上,敦煌研究院院长王旭东和微软亚洲研究院院长洪小文展开了热烈而深入的讨论,探索了现代科技与传统文化结合的更多可能。微软亚洲研究院的多位资深研究员从自然语言理解、计算机视觉、网络图像、视觉计算、人机交互、创新工程等多个领域向敦煌研究院的研究人员展示了最前沿的研究成果,希望在图像采集的基础上,还可以在数字化呈现、知识库问答、人机交互等更多方向为敦煌研究院提供技术支持。会后,敦煌研究院和微软亚洲研究院的研究员,以及微软(亚洲)互联网工程院的小冰团队展开了进一步的交流,人工智能聊天机器人 “敦煌小冰” 也由此诞生,让人工智能技术为敦煌文化、石窟艺术插上翅膀。

“飞天号”相机


敦煌莫高窟是世界范围内稀有的文化艺术瑰宝,这些艺术珍宝的存在衍生出了一门专门研究藏经洞典籍和敦煌艺术的学科——敦煌学。但一直以来,这一处位于中国西北部的瑰宝面临着严峻的保护问题。1987年,莫高窟被列为世界文化遗产。这给莫高窟带来了声望和荣光,也带来了纷至沓来的游客。一个方面是自然灾害问题,如风沙等;另一方面则是人为的破坏。针对敦煌莫高窟的研究与保护已经成为世界级议题。文化遗产不能再生,也不能永生,这是敦煌莫高窟面临的问题,也是全世界所有文化遗产所面临的共同问题。用不断进步的现代科技来保护和传承珍贵的文化遗产,是全人类共同的责任。此次微软小冰成功进入敦煌研究院微信账号和敦煌景区,能够让更多的人通过科技不出家门就可以感受数字敦煌的独特魅力,而科技与文化的合作也将像敦煌石窟一样不断传承延续。如果你也对敦煌文化感兴趣,那就赶紧跟敦煌小冰聊聊天吧!


 

数据改变医疗:人工智能加速精准医疗时代到来

$
0
0

作者:微软亚洲研究院常务副院长 张益肇博士

​你能想象每一天就有三架载满乘客的大型飞机坠落全员身亡的事故么?这听起来十分可怕,但全球每年被疟疾夺走生命的人数高达60万~80万,就等同于这样的坠机事故发生的概率。虽然在发达地区,疟疾几乎已经被消灭,但在某些欠发达地区疟疾却仍然是灾难,在处理疟疾的挑战中,其中一项来自于缺少足够的专业病理医师,导致患者难以得到及时的诊断和治疗。 目前正在研发的技术, 将可以帮助判断出病人是否感染了疟疾,感染的是疟疾中的哪一类,以及可能是从哪些渠道感染的,相比传统方式下需要大量人力看样本、做分析,该技术让医生的效率大为提升。即便是在医疗人员匮乏的地区,也可以不再那么捉襟见肘了。

所以计算机与医疗的结合,远不止智能手环、血糖仪或是Xbox、HoloLens等可能会与医疗产生关联的智能硬件,其覆盖范围非常广泛,从前端设备到后端系统,再到隐藏在最后端的各类算法,每个分支都可以是一个独立的学科。事实上在微软内部,已经有接近100个与医疗相关的项目,他们中既包括十分具有前瞻性的,也有已经步入实际应用层面的。

在我看来,如今计算机在医疗领域的进展其实都是基于同一个基础,即“数据改变医疗”为核心展开的。不管是中医还是西医本质上都是实践科学,医生通过无数次的实践总结、统计出规律,最终达到医病救人的效果。当人类收集、处理和分析数据的能力随着云计算、大数据、机器学习、物联网等技术的发展而日渐增强时,人们利用大数据像医生一样去分析或辅助分析病情的能力自然也会与日俱增。

人工智能帮助推展精准医疗

癌症一直是人类最需要迫切解决的医学难题之一,由于同一类癌症的每位患者表现也各不相同,因此也可以说每位患者的癌症都是一种独立的疾病,即便是医生拥有丰富的经验也很难做出100%准确的分析和判断,更别说相对个性化的精准医疗了。因此微软亚洲研究院一直将数字医学影像识别作为主攻方向之一,希望通过计算机视觉领域的最新技术加速推动精准医疗。

从2014年起,微软亚洲研究院的团队开始钻研脑肿瘤病理切片的识别和判断,通过细胞的形态、大小、结构等,去辅助分析和判断病人所处的癌症阶段。而近两年在该领域我们基于“神经网络+深度学习”的模式取得了两大突破:

首先,实现了对大尺寸病理切片的图片处理。通常图片的尺寸也就是224*224像素,但脑肿瘤病历切片的尺寸达到了20万*20万、甚至40万*40万像素。对于大尺寸病理切片影像的识别,我们没有沿用业内常用的数字医学图像数据库,反而在ImageNet这个计算机领域最为成熟的图片数据库的基础之上利用尽可能多的图片,通过自己搭建的神经网络和深度学习算法不断进行大量训练而成,最终实现了对大尺寸病理切片的图片处理。


对大尺寸病理切片图片通过神经网络与深度学习算法进行处理的流程

其次,在解决了细胞层面的图像识别之后,又实现了对病变腺体的识别。所谓腺体,可以简单理解为多细胞的集合体,它更接近“器官“的概念。相对于细胞病变,腺体病变的复杂性和可能的组合都呈指数级增长,但对腺体状态的准确识别,则可以大大提高对癌症分析的准确程度,意义更加深远。

对病变腺体的识别,主要是基于医学角度三个可以衡量癌细胞扩散程度和预后能力的指标:细胞的分化能力,腺体的状况和有丝分裂水平。我们针对这三个角度,通过多渠道(Multi-Channel)的数据采集和分析,希望在未来帮助医生实现了对病人术后、康复水平乃至复发的可能性做出预估和判断。


腺体图像经过计算机处理后被抽象成不同的结构,以便于计算机进一步识别与判断

以往医生都是凭借”肉眼”和经验去观察病理切片影像并判断病情,如今人工智能中的两大核心技术:神经网络和深度学习则让计算机系统能够自动学习恶性肿瘤细胞与正常细胞间的差异以及癌症病情的分析和判断标准,同时能够在扫描病理切片之后,给出判断结果,供医生参考。计算机强大的运算能力弥补了部分医生由于经验不足引起的误判,或是对罕见病及疑难杂症的思虑不周。而且计算机还能发现人眼不易察觉的小细节,并总结出一些出乎医生意料之外的规律,从而不断完善医生和计算机系统的知识体系。因此,正是人工智能让精准医疗能够继续往前推进。

不同种类的恶性肿瘤切片经过算法处理后进行分类

目前,微软亚洲研究院对二维医学影像识别结果的准确性已经处于国际领先水平。除了脑肿瘤以外,该研究结果也可以扩展至其他疾病的二维医学影像的识别和判断,例如我们正在研究的肠癌等。此外,我们还在研究肝肿瘤患者的CT三维影像,虽然三维影像与二维影像的识别技术有本质区别,但基于微软亚洲研究院在人工智能领域多年来的深入积累,相信我们在三维CT影像识别上的突破也指日可待。

超级电子病历,医生的“辞典”

除了医学影像识别,我们在医疗文字处理方面也做了不少研究。

在与国外同行交流时我们发现,原来全世界的医生所写的病历都是最难懂的书法,由于时间有限,医生们不得不在写病历的时候龙飞凤舞。在病历电子化之后,虽然书写的问题得以解决,但病历上记载的各种描述性语言——有的简洁,有的啰嗦,有的甚至不完整——对于医生后续进行病情查阅、检视或学习参考来说都非常不便。


因此我们团队研究语音和自然语言理解技术,让医生可以口述病历,随后计算机将语音转换为文字再进行结构化处理,从而形成一个囊括了所有关键词的树状图,清晰、简洁地总结所有有用信息,让患者或其他医生对所有病理历程一目了然,如有何病史,用过什么药物,排除了哪些疾病可能,待排查的疾病有哪些等等。

基于这样的电子病历,医生的更换将不再会影响不同医生对于患者完整病情的掌握;年轻医生还可以通过学习各种病历快速成长;结构化的电子病历甚至能够自动总结出被医生忽略的细节和推断,获得对病情了解的新线索;当然,大大减轻医生写病历的工作量更是无需多言。

AI(人工智能) HI(人类智能)=超级医生

可以看到,无论是图像识别还是自然语言理解,计算机领域的很多技术都可以与医疗应用密切结合。而随着计算能力的日益强大、人工智能技术的稳步发展,未来计算机将能够对更多复杂、高级的信号进行处理,人类的医疗水平也必将迈入新的时代。

但是,医生永远不会被替代。在医疗这个专业科学与艺术相融合的领域,人工智能技术将成为医生的“左膀右臂”,帮助医生更便捷的获取信息并辅助医生做出更加正确的诊断,而医生除了积累丰富的专业知识,还需要更多的发挥高情商的能力与病患沟通交流。最终,计算机的人工智能和医生的人类智能将互相结合,成为一个既有精准的专业判断又有情感交流的“超级医生”。让我们共同期待人工智能所引领的医疗发展新时代!


 

微软:用计算机技术治愈癌症,这不是在开脑洞

$
0
0



在微软遍布全球的研究实验室里,计算机科学家、程序员、工程师和其它专家们正试图解决计算机行业的各种前沿问题:从系统设计和安全到量子计算和数据可视化,不一而数。

但其中一部分科学家、工程师和程序员拥有一个不同的目标。他们正试图攻克的,正是人类面临的最复杂、最致命的挑战之一:癌症。在大多数情况下,他们使用的是算法和计算机,而不是试管和烧杯。正如生物学家,微软英国剑桥研究院高级研究员Jasmin Fisher所言:“我们正试图改变生物学日常的科研方式。“

来看看这些计算机科学与医学的跨界狂人们是如何有理有据地脑洞大开的:

通过直观地梳理所有可用于数据研究的方式,来自微软的一支研究团队选择使用机器学习和自然语言处理技术,来帮助全球知名肿瘤学家为患者找到最有效的个性化癌症治疗方案。而另外一项工作是结合机器学习和计算机视觉,让放射科医生更详细地了解患者的肿瘤进展情况。还有一组研究人员开发出了强大的算法,来帮助科学家了解癌症发展情况以及最适合的治疗方案。另外还有一个团队则付出了巨大的努力,让科学家有一天能够对细胞进行编程来治疗各种疾病,包括癌症。

计算驱动与数据驱动


微软全球资深副总裁周以真表示,虽然各个项目之间差异看似巨大,但微软应对癌症的总体原则离不开两种基本方法

第一种方法立足于癌症以及生理变化过程是一种信息处理系统。这意味着用于建模和推理计算流程的工具——例如编程语言、编译器和模型检测器——也可用于建模和推理生物的变化流程。另外一种方法更偏重于数据驱动。它基于这样一种想法:研究人员可以对可用的大量生物数据应用机器学习等技术,并利用这些复杂的分析工具更好地了解和治疗癌症。两种方法有着某些共同的基础,包括核心理念,那就是成功取决于生物学家和计算机科学家都为解决问题贡献自己的专业知识。周以真博士表示: “生物学家与计算机科学家之间的合作对于解决问题至关重要。微软有着充分的理由进行大胆的广泛投资,利用计算机科学抗击癌症。对微软而言,这也符合我们的核心使命:予力众生,成就不凡。这只第一步。”

除此之外,微软对云计算的庞大投资很自然地适合需要大量计算能力来解决重大问题的领域。长期来看,微软这么做也是合理的:以为客户提供工具进行投资,不管他们选择哪个计算平台,即使有一天这台电脑已不再基于硅芯片,而是基于DNA或其他生命物质,比如一个活着的细胞。在这种情况下,我们应该确保我们了解在这些未来的计算机上编程意味着什么。”


选择最佳的治疗方案


你身体里的基因隐藏着重要的健康密码。在研究基因对罹患和治疗癌症所起到的作用上,人们已经取得了重大进展。这反过来让人们更注重以个性化方式治疗每个癌症患者。这就是所谓“精准医疗”。知名科学家、微软基因部门高级总监David Heckerman表示:“癌症治疗领域正在发生一场革命。十年前,人们还认为癌症是治疗器官:脑癌就治疗大脑,肺癌就治疗肺。现在我们知道,治疗癌症的基因同样重要。“

随着技术的发展,人们能够以更低的成本更轻松地绘制人类基因组和其它基因材料。这使得有关癌症的精准治疗更加便捷。这也为科学家提供了更多信息来针对癌症制定更加个性化的治疗方案。你可能还记得,几年前好莱坞影星安吉丽娜·朱莉在《纽约时报》发表“我的医疗选择”一文,她表示,由于携带“缺陷”基因——BRCA1,医生预估她得乳腺癌的几率为87%,为此,她选择了预防性地切除双侧乳腺。其实,突变的BRCA1不仅会增加罹患乳腺癌的几率,还会大大增加罹患卵巢癌的几率。在那之后,安吉丽娜·朱莉还预防性地切除了卵巢,以避免发生在她母亲身上的卵巢癌发生在她身上。

如今,庞大的数据量同样也带来了很多挑战。生物学家Fisher表示: “我们已经达到了会被信息淹没的临界点。我们可以测量太多的信息,但如何利用这些信息并它们转化为有用的知识?这是另外一回事。信息和数据,获取知识和理解知识之间存在巨大差异。”研究人员表示,计算机科学家可以在这个领域给予生物学最好的帮助。例如某些最有前景的方法涉及利用人工智能的分支机器学习,自动进行精准医疗所需的繁重工作。在更基础的领域,机器学习系统可以根据之前看到的猫的图像来识出其他图像中的猫。对于治疗癌症而言,这些技术可以排序和整理数百万个研究和医疗数据片段。

微软雷蒙德研究院研究员Hoifung Poon利用机器阅读技术帮助肿瘤医生找到有关治疗每个癌症患者的最有效方法的最新信息。他认为,人工智能与机器学习正是这一技术中最关键的两大因素。新治疗方式的另外一个重大优势是云计算。Azure云计算平台等工具可以在云中托管这些工具,让研究人员能够为生物学家提供此类方法,即使医疗专家本身没有强大的计算机 。

微软研究人员表示,微软在引领计算癌症工作方面拥有得天独厚的优势,因为微软作为一家软件公司长久以来一直提供让人们可以在上面开发和扩展的平台。微软英国剑桥研究院的生物计算研究小组的主管Andrew Phillips表示:“如果了解一下微软真正在做的各种事情,你会发现微软参与这个行业非常合理。”特别是在他的研究领域,Phillips认为,研究人员受益于微软作为软件创新者的历史。他说:“我们可以把之前用于编程计算机的方法用于编程生物学,然后获取更多应用和更好的治疗方案。”

当然,除非这些工具能保证生物学家、肿瘤学家和其它癌症研究人员能够使用和理解这些工具,否则它们就无法帮助抗击癌症。微软研究人员表示,他们竭尽全力让系统易于使用,甚至是没有任何计算机等技术背景的用户。这包括从学习到说医生和生物学家的语言到设计模拟人们在实验室中使用的系统的计算机工具。

一种治疗癌症的方法:调试系统



Jasmin Fisher不寄望于彻底治愈癌症,而是希望能控制它。她相信,在她有生之年可以做到这一点。作为微软英国剑桥研究院的编程原则与工具组的高级研究员、剑桥大学生物系副教授,她认为,并不是说癌症会永远消失。而是一旦你能够管理它并知道如何控制它,它就不再是个问题。


为此,Fisher和她的团队认为你需要利用技术理解癌症——或者更具体说是让正常细胞变成癌细胞的生物过程。一旦了解在问题所在,你需要知道如何修复它。Fisher把计算方法引入癌症研究。她就像计算机科学家看待计算机程序一样看待癌症研究。她的目标是了解让细胞执行命令或以特定方式行动的程序或指令集。一旦开发了一个描述细胞不正常行为的计算机程序并与癌细胞的行为对比,你就可以找出改正不正常行为的方法。她说:“如果知道了如何开发这些程序,你可以调试它们,它就不再是个问题了。”

生物模型分析器(Bio Model Analyzer,BMA)


当然,这虽然听上去很简单,实际却很复杂。Fisher和她的团队正在研究的一种方法叫生物模型分析器(Bio Model Analyzer,BMA)。这个基于云的工具让生物学家可以对细胞之间的互动和通信以及它们的连接进行建模。 该系统创建一个计算机化的模型,对比健康细胞的生物流程与生病后的异常流程。这反过来让科学家可以看到导致癌症的人体中数百万基因和蛋白质之间的互动,并快速制定最好、危害最小的方式为患者提供个性化治疗。


Fisher项目团队的成员、英国剑桥皇家社会大学研究员Ben Hall说: “我使用BMA研究癌症,了解癌症的形成过程,以及正在进行的通信。”Hall说,BMA有很多用途,包括如何及早检测癌症并了解如何更好地治疗癌症,通过建模找出哪些药品最有效以及癌症在什么时候会产生抗药性。


下面是BMA可能发挥作用的一种方式:假设一名患者得了一种罕见并且致命的脑癌。使用BMA,医生可以把有关该患者的所有生物信息输入该系统。然后,他们可以使用该系统进行各种实验,例如对比癌症患者与健康人的信息,或模拟患者的身体对各种治疗方法的反应。使用笔和纸,甚至简单的计算机程序进行这种计算是不可能的,因为人体中互相配合的数百万分子、蛋白质和基因存在太多的变量。为了开发Fisher预想的这种解决方案,研究人员需要开发强大的计算模型,能够建立这些极为复杂的模型,并运行所有可能的解决方案以寻找异常情况。

由于能够使用计算机而不是纸和笔或试管和烧杯进行这些实验,研究人员可以快速地测试多得多的可能性。这反过来更好地了解癌症如何发展、演进以及与身体其它部分互动。Jonathan Dry是制药公司AstraZeneca的首席科学家,他的团队与Fisher的团队合作。他表示: “我认为这会加快研究,因为我们能够检验比在实验室中多得多的可能性。”Dry说,由于过去检验任何假设都极为困难,研究人员不得不专注于自己偏好的假设,猜测什么可能最有潜力。BMA等系统让他们可以尝试所有想法,使得他们更有可能找到正确的方法——并且更有可能找到“黑马式”的方法。Dry认为,如果每一个假设都来被检验,放在过去这是不可能的。而有了这些模型使得研究人员可以检验所有可能性,从而能找出更为科学的治疗方案。


改进和个性化癌症治疗


微软和AstraZeneca一直在使用BMA来更好地了解药品在白血病患者体内的相互作用和抗药性。借助BMA,两个研究团队能够更好地了解不同的患者为什么对特定治疗方法有着不同的反应。Dry说,BMA对于更加个性化的癌症治疗或精准医疗来说有着巨大的潜力。研究人员希望BMA这样的系统最终可以让研究人员和肿瘤医生详细了解具体的癌症病情,在检验时纳入可能影响治疗的其他因素,例如患者是否有其它疾病以及患者吃的其它药是否会与治疗癌症的药产生反应。“这真正正视了每个患者都是不同的,可能存在很大的不同这一现实”,Dry表示。


对于生物学家来说有用的计算机系统


Fisher认为,BMA这样的系统有望革命性地改变人们对癌症的看法,但只有生物学家愿意使用它们才能取得成功。经常使用BMA工作的设计师David Benque说,该系统在开发时就考虑到尽可能让生物学家感到熟悉并且可以理解。Benque多年来一直在使用生物学家可以理解的语言来开发工具,在视觉上模拟科学家在实验室中可能用到的东西。在Fisher看来,这样的系统迫切需要方便生物学家的使用。否则,就不会在治疗癌症方面实现突破。她说:“每个人都意识到癌症研究中需要计算能力。了解到这一点是一件事,说服医生实际使用这些工具又是另外一件事。”


登月计划:像计算机编程一样对细胞进行编程



如果你是开发新软件的开发者,你很可能会按照计算机科学家所说的原则性方法编写代码:使用一种编程语言和其它正式流程,开发一个遵循计算规则的系统。微软英国剑桥研究院生物计算研究组的科学家Neil Dalchau希望在生物学领域做同样的事情。他所在的团队正试图在细胞内而非芯片上进行计算。他说:“如果你能使用生物系统进行计算,你就可以把传统计算中学到的知识运用于医疗或生物技术应用。”这种计算方法的终极目标是:像计算机编程一样进行生物编程。这种突破有望带来各种可能性,从治疗疾病到为世界供应更充足的农作物。


领导生物计算研究组的Andrew Phillips说:“我们日常生活的方方面面都会受到影响。新的方法正努力开发某种分子计算机,可以放到细胞内监测疾病。如果传感器检测到疾病,会启动应对措施治疗它。“很多目前的癌症治疗方法会在消灭癌细胞时破坏健康的细胞。与之相比,这一方法无疑是一个重大进步。

早期但大有前途的措施


Phillips同时也提醒到,他们仍处于这项研究的极早期阶段,距离长期目标还有很长的路要走。他说:“这项研究的成果将是一个杀手级应用。”但一个很明显的重大挑战是生物系统(包括我们的身体)比运行软件的硬件(计算机)要神秘的多。Phillips说:“我们制造了计算机,知道它的工作原理。但我们没有制造过细胞,细胞的很多复杂内部运行机制对于我们来说仍旧是是个谜。因此,我们需要了解细胞如何计算才能对其进行编程。我们需要找到方法并开发软件来分析和编程细胞。”


以癌症为例。同样在生物计算小组工作的科学家Sara-Jane Dunn说,你可以把癌症看作出错的生物程序——有缺陷的健康细胞造成小差错。你还可以把免疫系统看作修复某些缺陷的机制,但它并不能修复所有缺陷。科学家已经了解到有关什么造成癌症以及什么会激活免疫系统的知识,但Dunn认为我们仍处于早期阶段,还有很多工作要做。如果她的团队能够像了解微软Word如何在PC上运行那样了解这些系统,他们就可能让免疫系统自行应对癌症。她说:“如果我们希望能够进行生物编程,我们实际上首先需要了解生物如何进行计算。我认为,我们可以在这方面发挥重大作用。”像计算机编程一样进行生物编程是否就像登月一样?Phillips认为,这是一个雄心勃勃的长期目标,但他看到了通向成功之路。他说:“就像登月,我们知道这在技术上是可行的。现在的问题是把它变成现实。”


数据如何帮助医生以个性化的方式治疗癌症



今年,全球有数百万人被诊断得了癌症。对于少数被选中的癌症案例,来自领先的癌症研究机构的专家加入了分子肿瘤委员会,审查患者的病史并根据他们的癌症诊断和基因构成来制定最佳的个性化治疗方案。Hoifung Poon希望使得分子肿瘤委员会更大众化,使得更多研究人员能参与其中。并正与一组研究人员一起为此开发一款工具。


它被称为汉诺威项目(Project Hanover)。这是一种数据驱动型方法,使用机器学习(人工智能的一个分支)来自动处理让癌症专家难以评估每个患者的繁重工作。Poon说:“我们知道,癌症通常不是有一个基因突变造成的。相反,它是很多不同的突变经过复杂的相互作用而引起的,这意味着你需要仔细审视有关基因组的一切。”


这需要梳理数百万条碎片化信息,以发现适用于特定人和特定癌症案例的共同基础。对于忙于治疗很多患者的肿瘤医生来说,这是不可能的事情。这就是微软研究人员为什么开发系统,帮助医生完成工作。该系统可以自动梳理所有碎片化信息,以发现最相关的数据,这让肿瘤专家有更多时间利用自己的专业知识为患者制定最佳的治疗方案。


这一项目的最终目标是帮助医生做所有这些研究工作,然后提供一个基于Azure云的工具,让医生根据自己收集的信息模拟哪些治疗方案的效果最好。微软汉诺威项目的首席软件架构师Ravi Pandya说:“如果我们可以利用这个知识库展示与每个具体患者最相关的研究结果,普通的肿瘤学家也可以做出最好的决策。”

用Literome海底捞针


汉诺威项目开始于一个被称为Literome的工具,这个基于云的系统梳理数百万篇研究论文,寻找可能适用于每个疾病诊断的基因研究。肿瘤学家很难独自完成这项庞大的工作,而研究人员在描述自己的工作时出现的不一致现象也让这项工作变得更加复杂。这意味着涉及相同基因信息的研究论文可能在语言上并没有很多重叠的地方。Poon说:“问题是,人们在利用不同的方式表述相同的东西方面充满创意。”

为了开发Literome,Poon和他的同事使用了机器学习来开发自然语言处理工具,只需要少量可用的知识就可以创建复杂的模型,用于发现相同知识的不同表述。现在,该工具正在扩展,还可以纳入可能有用的实验和其它信息源。Poon的团队还与俄勒冈健康与科学大学的Knight癌症研究院合作,帮助他们的研究人员寻找更好的方式来治疗急性髓细胞白血病,一种复杂而致命的癌症。

Knight癌症研究院的院长Brian Druker表示,这种癌症的患者实际上是患有3或4种白血病。这使得很难找到合适的药物,以及患者是否会产生抗药性。Druker的研究曾大幅延长了慢性髓细胞白血病患者的预期寿命。他说:“很明显,我们需要极为复杂的计算才能消化并利用所有这些数据。”

Druker把这种合作看作双向对话:他的专家团队可以提供假设,帮助计算机科学家了解在数据中寻找什么。反过来,计算机科学家可以进行分析,帮助他们证明或证伪这些假设。然后,这可以帮助他们更快地制定所需的治疗方案。他说:“我一直相信这些数据在告诉我们答案,但我们需要知道如何听到这些答案。这就是计算可以发挥作用的地方。”

Druker认为,我们才刚刚开始了解数据如何帮助癌症研究。除了基因数据,研究人员还应当开始关注其它“组学”,包括蛋白质组学,或蛋白质研究,以及代谢组学,或代谢物化学作用过程研究。他说:“我们会超越基因组。基因组告诉我们很多信息,但不会告诉我们所有信息。”Poon说,他们仍处于早期研究阶段,但已经看到它如何改变和拯救生命。他说:“我们正处于一个关键时刻,已经看到光明的未来,但还有很多工作要做。”


计算机视觉如何帮助放射科医生更好地跟踪疾病发展情况



放射科医生希望获得有关患者身体内部最精确的影像,经常需要价值数百万美元的最先进设备并会产生极为详细的影像。得到这些影像之后呢?在很多情况下,阅读这些影像的最高科技产品是人眼。

Antonio Criminisi是一名机器学习和计算机视觉专家,领导微软英国剑桥研究院的放射学研究工作。他说:“人眼非常擅长诊断。专家级放射科医生看到影像——比如人脑的影像——时,在两秒内就会知道有没有肿瘤。”Criminisi说,但放射科医生很难判断某个疗法是否有效。这是因为人眼不擅长根据放射科扫描结果来判断肿瘤会增长、缩小还是改变形状。


更好的技术意味着更多数据


几年前,放射学家、英国皇家放射医师学会会长Giles Maskell说,一次典型的CT扫描可能会产生200张图片。现在,同样的扫描会产生2000张图片——产生大量人眼甚至无法感知的数据。Maskell说:“精细的细节远远超出了我们的理解能力,也无法被处理成有意义的东西。”简单地说,放射科医生需要技术来帮助他们跟上技术发展的步伐。Maskell表示,医生们需要帮助来以某种新形式来展示数据,而这种新形式应使得他们能轻松地分析大量图片。

这就是Criminisi的团队所做的事情。该团队的数据驱动型方法专注于一个研究项目,该项目利用计算机视觉和机器学习(人工智能的一个分支),为放射科医生提供更加详细且一致的测量,从而强化他们的专业知识。该系统有望最终能够评估3D扫描的每一个像素,精确地告诉放射科医生肿瘤自从上一次扫描以来增长、缩小或形状改变了多少。它还可以提供有关器官密度等信息,让放射科医生更好地了解病灶是囊肿还是肿瘤。它还可以更精细地分析肿瘤周围的细胞健康状况。


Criminisi说:“人眼基本上不可能做到这一切。”而这一计划的目标不是让放射科医生失业,而是让他们更好地工作。对此,Maskell这样说道:“癌症诊断中总是会需要由人进行解释。计算机和计算机科学会让我们做出更好的决策。”


 

微软:用计算机技术治愈癌症,这不是在开脑洞

$
0
0


在微软遍布全球的研究实验室里,计算机科学家、程序员、工程师和其它专家们正试图解决计算机行业的各种前沿问题:从系统设计和安全到量子计算和数据可视化,不一而数。


但其中一部分科学家、工程师和程序员拥有一个不同的目标。他们正试图攻克的,正是人类面临的最复杂、最致命的挑战之一:癌症。在大多数情况下,他们使用的是算法和计算机,而不是试管和烧杯。正如生物学家,微软英国剑桥研究院高级研究员Jasmin Fisher所言:“我们正试图改变生物学日常的科研方式。“

来看看这些计算机科学与医学的跨界狂人们是如何有理有据地脑洞大开的:

通过直观地梳理所有可用于数据研究的方式,来自微软的一支研究团队选择使用机器学习和自然语言处理技术,来帮助全球知名肿瘤学家为患者找到最有效的个性化癌症治疗方案。而另外一项工作是结合机器学习和计算机视觉,让放射科医生更详细地了解患者的肿瘤进展情况。还有一组研究人员开发出了强大的算法,来帮助科学家了解癌症发展情况以及最适合的治疗方案。另外还有一个团队则付出了巨大的努力,让科学家有一天能够对细胞进行编程来治疗各种疾病,包括癌症。

计算驱动与数据驱动


微软全球资深副总裁周以真表示,虽然各个项目之间差异看似巨大,但微软应对癌症的总体原则离不开两种基本方法

第一种方法立足于癌症以及生理变化过程是一种信息处理系统。这意味着用于建模和推理计算流程的工具——例如编程语言、编译器和模型检测器——也可用于建模和推理生物的变化流程。另外一种方法更偏重于数据驱动。它基于这样一种想法:研究人员可以对可用的大量生物数据应用机器学习等技术,并利用这些复杂的分析工具更好地了解和治疗癌症。两种方法有着某些共同的基础,包括核心理念,那就是成功取决于生物学家和计算机科学家都为解决问题贡献自己的专业知识。周以真博士表示: “生物学家与计算机科学家之间的合作对于解决问题至关重要。微软有着充分的理由进行大胆的广泛投资,利用计算机科学抗击癌症。对微软而言,这也符合我们的核心使命:予力众生,成就不凡。这只第一步。”

除此之外,微软对云计算的庞大投资很自然地适合需要大量计算能力来解决重大问题的领域。长期来看,微软这么做也是合理的:以为客户提供工具进行投资,不管他们选择哪个计算平台,即使有一天这台电脑已不再基于硅芯片,而是基于DNA或其他生命物质,比如一个活着的细胞。在这种情况下,我们应该确保我们了解在这些未来的计算机上编程意味着什么。”


选择最佳的治疗方案


你身体里的基因隐藏着重要的健康密码。在研究基因对罹患和治疗癌症所起到的作用上,人们已经取得了重大进展。这反过来让人们更注重以个性化方式治疗每个癌症患者。这就是所谓“精准医疗”。知名科学家、微软基因部门高级总监David Heckerman表示:“癌症治疗领域正在发生一场革命。十年前,人们还认为癌症是治疗器官:脑癌就治疗大脑,肺癌就治疗肺。现在我们知道,治疗癌症的基因同样重要。“

随着技术的发展,人们能够以更低的成本更轻松地绘制人类基因组和其它基因材料。这使得有关癌症的精准治疗更加便捷。这也为科学家提供了更多信息来针对癌症制定更加个性化的治疗方案。你可能还记得,几年前好莱坞影星安吉丽娜·朱莉在《纽约时报》发表“我的医疗选择”一文,她表示,由于携带“缺陷”基因——BRCA1,医生预估她得乳腺癌的几率为87%,为此,她选择了预防性地切除双侧乳腺。其实,突变的BRCA1不仅会增加罹患乳腺癌的几率,还会大大增加罹患卵巢癌的几率。在那之后,安吉丽娜·朱莉还预防性地切除了卵巢,以避免发生在她母亲身上的卵巢癌发生在她身上。

如今,庞大的数据量同样也带来了很多挑战。生物学家Fisher表示: “我们已经达到了会被信息淹没的临界点。我们可以测量太多的信息,但如何利用这些信息并它们转化为有用的知识?这是另外一回事。信息和数据,获取知识和理解知识之间存在巨大差异。”研究人员表示,计算机科学家可以在这个领域给予生物学最好的帮助。例如某些最有前景的方法涉及利用人工智能的分支机器学习,自动进行精准医疗所需的繁重工作。在更基础的领域,机器学习系统可以根据之前看到的猫的图像来识出其他图像中的猫。对于治疗癌症而言,这些技术可以排序和整理数百万个研究和医疗数据片段。

微软雷蒙德研究院研究员Hoifung Poon利用机器阅读技术帮助肿瘤医生找到有关治疗每个癌症患者的最有效方法的最新信息。他认为,人工智能与机器学习正是这一技术中最关键的两大因素。新治疗方式的另外一个重大优势是云计算。Azure云计算平台等工具可以在云中托管这些工具,让研究人员能够为生物学家提供此类方法,即使医疗专家本身没有强大的计算机 。

微软研究人员表示,微软在引领计算癌症工作方面拥有得天独厚的优势,因为微软作为一家软件公司长久以来一直提供让人们可以在上面开发和扩展的平台。微软英国剑桥研究院的生物计算研究小组的主管Andrew Phillips表示:“如果了解一下微软真正在做的各种事情,你会发现微软参与这个行业非常合理。”特别是在他的研究领域,Phillips认为,研究人员受益于微软作为软件创新者的历史。他说:“我们可以把之前用于编程计算机的方法用于编程生物学,然后获取更多应用和更好的治疗方案。”

当然,除非这些工具能保证生物学家、肿瘤学家和其它癌症研究人员能够使用和理解这些工具,否则它们就无法帮助抗击癌症。微软研究人员表示,他们竭尽全力让系统易于使用,甚至是没有任何计算机等技术背景的用户。这包括从学习到说医生和生物学家的语言到设计模拟人们在实验室中使用的系统的计算机工具。

一种治疗癌症的方法:调试系统



Jasmin Fisher不寄望于彻底治愈癌症,而是希望能控制它。她相信,在她有生之年可以做到这一点。作为微软英国剑桥研究院的编程原则与工具组的高级研究员、剑桥大学生物系副教授,她认为,并不是说癌症会永远消失。而是一旦你能够管理它并知道如何控制它,它就不再是个问题。


为此,Fisher和她的团队认为你需要利用技术理解癌症——或者更具体说是让正常细胞变成癌细胞的生物过程。一旦了解在问题所在,你需要知道如何修复它。Fisher把计算方法引入癌症研究。她就像计算机科学家看待计算机程序一样看待癌症研究。她的目标是了解让细胞执行命令或以特定方式行动的程序或指令集。一旦开发了一个描述细胞不正常行为的计算机程序并与癌细胞的行为对比,你就可以找出改正不正常行为的方法。她说:“如果知道了如何开发这些程序,你可以调试它们,它就不再是个问题了。”

生物模型分析器(Bio Model Analyzer,BMA)


当然,这虽然听上去很简单,实际却很复杂。Fisher和她的团队正在研究的一种方法叫生物模型分析器(Bio Model Analyzer,BMA)。这个基于云的工具让生物学家可以对细胞之间的互动和通信以及它们的连接进行建模。 该系统创建一个计算机化的模型,对比健康细胞的生物流程与生病后的异常流程。这反过来让科学家可以看到导致癌症的人体中数百万基因和蛋白质之间的互动,并快速制定最好、危害最小的方式为患者提供个性化治疗。


Fisher项目团队的成员、英国剑桥皇家社会大学研究员Ben Hall说: “我使用BMA研究癌症,了解癌症的形成过程,以及正在进行的通信。”Hall说,BMA有很多用途,包括如何及早检测癌症并了解如何更好地治疗癌症,通过建模找出哪些药品最有效以及癌症在什么时候会产生抗药性。


下面是BMA可能发挥作用的一种方式:假设一名患者得了一种罕见并且致命的脑癌。使用BMA,医生可以把有关该患者的所有生物信息输入该系统。然后,他们可以使用该系统进行各种实验,例如对比癌症患者与健康人的信息,或模拟患者的身体对各种治疗方法的反应。使用笔和纸,甚至简单的计算机程序进行这种计算是不可能的,因为人体中互相配合的数百万分子、蛋白质和基因存在太多的变量。为了开发Fisher预想的这种解决方案,研究人员需要开发强大的计算模型,能够建立这些极为复杂的模型,并运行所有可能的解决方案以寻找异常情况。

由于能够使用计算机而不是纸和笔或试管和烧杯进行这些实验,研究人员可以快速地测试多得多的可能性。这反过来更好地了解癌症如何发展、演进以及与身体其它部分互动。Jonathan Dry是制药公司AstraZeneca的首席科学家,他的团队与Fisher的团队合作。他表示: “我认为这会加快研究,因为我们能够检验比在实验室中多得多的可能性。”Dry说,由于过去检验任何假设都极为困难,研究人员不得不专注于自己偏好的假设,猜测什么可能最有潜力。BMA等系统让他们可以尝试所有想法,使得他们更有可能找到正确的方法——并且更有可能找到“黑马式”的方法。Dry认为,如果每一个假设都来被检验,放在过去这是不可能的。而有了这些模型使得研究人员可以检验所有可能性,从而能找出更为科学的治疗方案。


改进和个性化癌症治疗


微软和AstraZeneca一直在使用BMA来更好地了解药品在白血病患者体内的相互作用和抗药性。借助BMA,两个研究团队能够更好地了解不同的患者为什么对特定治疗方法有着不同的反应。Dry说,BMA对于更加个性化的癌症治疗或精准医疗来说有着巨大的潜力。研究人员希望BMA这样的系统最终可以让研究人员和肿瘤医生详细了解具体的癌症病情,在检验时纳入可能影响治疗的其他因素,例如患者是否有其它疾病以及患者吃的其它药是否会与治疗癌症的药产生反应。“这真正正视了每个患者都是不同的,可能存在很大的不同这一现实”,Dry表示。


对于生物学家来说有用的计算机系统


Fisher认为,BMA这样的系统有望革命性地改变人们对癌症的看法,但只有生物学家愿意使用它们才能取得成功。经常使用BMA工作的设计师David Benque说,该系统在开发时就考虑到尽可能让生物学家感到熟悉并且可以理解。Benque多年来一直在使用生物学家可以理解的语言来开发工具,在视觉上模拟科学家在实验室中可能用到的东西。在Fisher看来,这样的系统迫切需要方便生物学家的使用。否则,就不会在治疗癌症方面实现突破。她说:“每个人都意识到癌症研究中需要计算能力。了解到这一点是一件事,说服医生实际使用这些工具又是另外一件事。”


登月计划:像计算机编程一样对细胞进行编程



如果你是开发新软件的开发者,你很可能会按照计算机科学家所说的原则性方法编写代码:使用一种编程语言和其它正式流程,开发一个遵循计算规则的系统。微软英国剑桥研究院生物计算研究组的科学家Neil Dalchau希望在生物学领域做同样的事情。他所在的团队正试图在细胞内而非芯片上进行计算。他说:“如果你能使用生物系统进行计算,你就可以把传统计算中学到的知识运用于医疗或生物技术应用。”这种计算方法的终极目标是:像计算机编程一样进行生物编程。这种突破有望带来各种可能性,从治疗疾病到为世界供应更充足的农作物。


领导生物计算研究组的Andrew Phillips说:“我们日常生活的方方面面都会受到影响。新的方法正努力开发某种分子计算机,可以放到细胞内监测疾病。如果传感器检测到疾病,会启动应对措施治疗它。“很多目前的癌症治疗方法会在消灭癌细胞时破坏健康的细胞。与之相比,这一方法无疑是一个重大进步。

早期但大有前途的措施


Phillips同时也提醒到,他们仍处于这项研究的极早期阶段,距离长期目标还有很长的路要走。他说:“这项研究的成果将是一个杀手级应用。”但一个很明显的重大挑战是生物系统(包括我们的身体)比运行软件的硬件(计算机)要神秘的多。Phillips说:“我们制造了计算机,知道它的工作原理。但我们没有制造过细胞,细胞的很多复杂内部运行机制对于我们来说仍旧是是个谜。因此,我们需要了解细胞如何计算才能对其进行编程。我们需要找到方法并开发软件来分析和编程细胞。”


以癌症为例。同样在生物计算小组工作的科学家Sara-Jane Dunn说,你可以把癌症看作出错的生物程序——有缺陷的健康细胞造成小差错。你还可以把免疫系统看作修复某些缺陷的机制,但它并不能修复所有缺陷。科学家已经了解到有关什么造成癌症以及什么会激活免疫系统的知识,但Dunn认为我们仍处于早期阶段,还有很多工作要做。如果她的团队能够像了解微软Word如何在PC上运行那样了解这些系统,他们就可能让免疫系统自行应对癌症。她说:“如果我们希望能够进行生物编程,我们实际上首先需要了解生物如何进行计算。我认为,我们可以在这方面发挥重大作用。”像计算机编程一样进行生物编程是否就像登月一样?Phillips认为,这是一个雄心勃勃的长期目标,但他看到了通向成功之路。他说:“就像登月,我们知道这在技术上是可行的。现在的问题是把它变成现实。”


数据如何帮助医生以个性化的方式治疗癌症



今年,全球有数百万人被诊断得了癌症。对于少数被选中的癌症案例,来自领先的癌症研究机构的专家加入了分子肿瘤委员会,审查患者的病史并根据他们的癌症诊断和基因构成来制定最佳的个性化治疗方案。Hoifung Poon希望使得分子肿瘤委员会更大众化,使得更多研究人员能参与其中。并正与一组研究人员一起为此开发一款工具。


它被称为汉诺威项目(Project Hanover)。这是一种数据驱动型方法,使用机器学习(人工智能的一个分支)来自动处理让癌症专家难以评估每个患者的繁重工作。Poon说:“我们知道,癌症通常不是有一个基因突变造成的。相反,它是很多不同的突变经过复杂的相互作用而引起的,这意味着你需要仔细审视有关基因组的一切。”


这需要梳理数百万条碎片化信息,以发现适用于特定人和特定癌症案例的共同基础。对于忙于治疗很多患者的肿瘤医生来说,这是不可能的事情。这就是微软研究人员为什么开发系统,帮助医生完成工作。该系统可以自动梳理所有碎片化信息,以发现最相关的数据,这让肿瘤专家有更多时间利用自己的专业知识为患者制定最佳的治疗方案。


这一项目的最终目标是帮助医生做所有这些研究工作,然后提供一个基于Azure云的工具,让医生根据自己收集的信息模拟哪些治疗方案的效果最好。微软汉诺威项目的首席软件架构师Ravi Pandya说:“如果我们可以利用这个知识库展示与每个具体患者最相关的研究结果,普通的肿瘤学家也可以做出最好的决策。”

用Literome海底捞针


汉诺威项目开始于一个被称为Literome的工具,这个基于云的系统梳理数百万篇研究论文,寻找可能适用于每个疾病诊断的基因研究。肿瘤学家很难独自完成这项庞大的工作,而研究人员在描述自己的工作时出现的不一致现象也让这项工作变得更加复杂。这意味着涉及相同基因信息的研究论文可能在语言上并没有很多重叠的地方。Poon说:“问题是,人们在利用不同的方式表述相同的东西方面充满创意。”

为了开发Literome,Poon和他的同事使用了机器学习来开发自然语言处理工具,只需要少量可用的知识就可以创建复杂的模型,用于发现相同知识的不同表述。现在,该工具正在扩展,还可以纳入可能有用的实验和其它信息源。Poon的团队还与俄勒冈健康与科学大学的Knight癌症研究院合作,帮助他们的研究人员寻找更好的方式来治疗急性髓细胞白血病,一种复杂而致命的癌症。

Knight癌症研究院的院长Brian Druker表示,这种癌症的患者实际上是患有3或4种白血病。这使得很难找到合适的药物,以及患者是否会产生抗药性。Druker的研究曾大幅延长了慢性髓细胞白血病患者的预期寿命。他说:“很明显,我们需要极为复杂的计算才能消化并利用所有这些数据。”

Druker把这种合作看作双向对话:他的专家团队可以提供假设,帮助计算机科学家了解在数据中寻找什么。反过来,计算机科学家可以进行分析,帮助他们证明或证伪这些假设。然后,这可以帮助他们更快地制定所需的治疗方案。他说:“我一直相信这些数据在告诉我们答案,但我们需要知道如何听到这些答案。这就是计算可以发挥作用的地方。”

Druker认为,我们才刚刚开始了解数据如何帮助癌症研究。除了基因数据,研究人员还应当开始关注其它“组学”,包括蛋白质组学,或蛋白质研究,以及代谢组学,或代谢物化学作用过程研究。他说:“我们会超越基因组。基因组告诉我们很多信息,但不会告诉我们所有信息。”Poon说,他们仍处于早期研究阶段,但已经看到它如何改变和拯救生命。他说:“我们正处于一个关键时刻,已经看到光明的未来,但还有很多工作要做。”


计算机视觉如何帮助放射科医生更好地跟踪疾病发展情况



放射科医生希望获得有关患者身体内部最精确的影像,经常需要价值数百万美元的最先进设备并会产生极为详细的影像。得到这些影像之后呢?在很多情况下,阅读这些影像的最高科技产品是人眼。

Antonio Criminisi是一名机器学习和计算机视觉专家,领导微软英国剑桥研究院的放射学研究工作。他说:“人眼非常擅长诊断。专家级放射科医生看到影像——比如人脑的影像——时,在两秒内就会知道有没有肿瘤。”Criminisi说,但放射科医生很难判断某个疗法是否有效。这是因为人眼不擅长根据放射科扫描结果来判断肿瘤会增长、缩小还是改变形状。


更好的技术意味着更多数据


几年前,放射学家、英国皇家放射医师学会会长Giles Maskell说,一次典型的CT扫描可能会产生200张图片。现在,同样的扫描会产生2000张图片——产生大量人眼甚至无法感知的数据。Maskell说:“精细的细节远远超出了我们的理解能力,也无法被处理成有意义的东西。”简单地说,放射科医生需要技术来帮助他们跟上技术发展的步伐。Maskell表示,医生们需要帮助来以某种新形式来展示数据,而这种新形式应使得他们能轻松地分析大量图片。

这就是Criminisi的团队所做的事情。该团队的数据驱动型方法专注于一个研究项目,该项目利用计算机视觉和机器学习(人工智能的一个分支),为放射科医生提供更加详细且一致的测量,从而强化他们的专业知识。该系统有望最终能够评估3D扫描的每一个像素,精确地告诉放射科医生肿瘤自从上一次扫描以来增长、缩小或形状改变了多少。它还可以提供有关器官密度等信息,让放射科医生更好地了解病灶是囊肿还是肿瘤。它还可以更精细地分析肿瘤周围的细胞健康状况。


Criminisi说:“人眼基本上不可能做到这一切。”而这一计划的目标不是让放射科医生失业,而是让他们更好地工作。对此,Maskell这样说道:“癌症诊断中总是会需要由人进行解释。计算机和计算机科学会让我们做出更好的决策。”


 

微软:用计算机技术治愈癌症,这不是在开脑洞

$
0
0


​在微软遍布全球的研究实验室里,计算机科学家、程序员、工程师和其它专家们正试图解决计算机行业的各种前沿问题:从系统设计和安全到量子计算和数据可视化,不一而数。

但其中一部分科学家、工程师和程序员拥有一个不同的目标。他们正试图攻克的,正是人类面临的最复杂、最致命的挑战之一:癌症。在大多数情况下,他们使用的是算法和计算机,而不是试管和烧杯。正如生物学家,微软英国剑桥研究院高级研究员Jasmin Fisher所言:“我们正试图改变生物学日常的科研方式。“

来看看这些计算机科学与医学的跨界狂人们是如何有理有据地脑洞大开的:

通过直观地梳理所有可用于数据研究的方式,来自微软的一支研究团队选择使用机器学习和自然语言处理技术,来帮助全球知名肿瘤学家为患者找到最有效的个性化癌症治疗方案。而另外一项工作是结合机器学习和计算机视觉,让放射科医生更详细地了解患者的肿瘤进展情况。还有一组研究人员开发出了强大的算法,来帮助科学家了解癌症发展情况以及最适合的治疗方案。另外还有一个团队则付出了巨大的努力,让科学家有一天能够对细胞进行编程来治疗各种疾病,包括癌症。

计算驱动与数据驱动

微软全球资深副总裁周以真表示,虽然各个项目之间差异看似巨大,但微软应对癌症的总体原则离不开两种基本方法

第一种方法立足于癌症以及生理变化过程是一种信息处理系统。这意味着用于建模和推理计算流程的工具——例如编程语言、编译器和模型检测器——也可用于建模和推理生物的变化流程。另外一种方法更偏重于数据驱动。它基于这样一种想法:研究人员可以对可用的大量生物数据应用机器学习等技术,并利用这些复杂的分析工具更好地了解和治疗癌症。两种方法有着某些共同的基础,包括核心理念,那就是成功取决于生物学家和计算机科学家都为解决问题贡献自己的专业知识。周以真博士表示: “生物学家与计算机科学家之间的合作对于解决问题至关重要。微软有着充分的理由进行大胆的广泛投资,利用计算机科学抗击癌症。对微软而言,这也符合我们的核心使命:予力众生,成就不凡。这只第一步。”

除此之外,微软对云计算的庞大投资很自然地适合需要大量计算能力来解决重大问题的领域。长期来看,微软这么做也是合理的:以为客户提供工具进行投资,不管他们选择哪个计算平台,即使有一天这台电脑已不再基于硅芯片,而是基于DNA或其他生命物质,比如一个活着的细胞。在这种情况下,我们应该确保我们了解在这些未来的计算机上编程意味着什么。”

选择最佳的治疗方案

你身体里的基因隐藏着重要的健康密码。在研究基因对罹患和治疗癌症所起到的作用上,人们已经取得了重大进展。这反过来让人们更注重以个性化方式治疗每个癌症患者。这就是所谓“精准医疗”。知名科学家、微软基因部门高级总监David Heckerman表示:“癌症治疗领域正在发生一场革命。十年前,人们还认为癌症是治疗器官:脑癌就治疗大脑,肺癌就治疗肺。现在我们知道,治疗癌症的基因同样重要。“


随着技术的发展,人们能够以更低的成本更轻松地绘制人类基因组和其它基因材料。这使得有关癌症的精准治疗更加便捷。这也为科学家提供了更多信息来针对癌症制定更加个性化的治疗方案。你可能还记得,几年前好莱坞影星安吉丽娜·朱莉在《纽约时报》发表“我的医疗选择”一文,她表示,由于携带“缺陷”基因——BRCA1,医生预估她得乳腺癌的几率为87%,为此,她选择了预防性地切除双侧乳腺。其实,突变的BRCA1不仅会增加罹患乳腺癌的几率,还会大大增加罹患卵巢癌的几率。在那之后,安吉丽娜·朱莉还预防性地切除了卵巢,以避免发生在她母亲身上的卵巢癌发生在她身上。

如今,庞大的数据量同样也带来了很多挑战。生物学家Fisher表示: “我们已经达到了会被信息淹没的临界点。我们可以测量太多的信息,但如何利用这些信息并它们转化为有用的知识?这是另外一回事。信息和数据,获取知识和理解知识之间存在巨大差异。”研究人员表示,计算机科学家可以在这个领域给予生物学最好的帮助。例如某些最有前景的方法涉及利用人工智能的分支机器学习,自动进行精准医疗所需的繁重工作。在更基础的领域,机器学习系统可以根据之前看到的猫的图像来识出其他图像中的猫。对于治疗癌症而言,这些技术可以排序和整理数百万个研究和医疗数据片段。

微软雷蒙德研究院研究员Hoifung Poon利用机器阅读技术帮助肿瘤医生找到有关治疗每个癌症患者的最有效方法的最新信息。他认为,人工智能与机器学习正是这一技术中最关键的两大因素。新治疗方式的另外一个重大优势是云计算。Azure云计算平台等工具可以在云中托管这些工具,让研究人员能够为生物学家提供此类方法,即使医疗专家本身没有强大的计算机 。

微软研究人员表示,微软在引领计算癌症工作方面拥有得天独厚的优势,因为微软作为一家软件公司长久以来一直提供让人们可以在上面开发和扩展的平台。微软英国剑桥研究院的生物计算研究小组的主管Andrew Phillips表示:“如果了解一下微软真正在做的各种事情,你会发现微软参与这个行业非常合理。”特别是在他的研究领域,Phillips认为,研究人员受益于微软作为软件创新者的历史。他说:“我们可以把之前用于编程计算机的方法用于编程生物学,然后获取更多应用和更好的治疗方案。”

当然,除非这些工具能保证生物学家、肿瘤学家和其它癌症研究人员能够使用和理解这些工具,否则它们就无法帮助抗击癌症。微软研究人员表示,他们竭尽全力让系统易于使用,甚至是没有任何计算机等技术背景的用户。这包括从学习到说医生和生物学家的语言到设计模拟人们在实验室中使用的系统的计算机工具。

一种治疗癌症的方法:调试系统

Jasmin Fisher不寄望于彻底治愈癌症,而是希望能控制它。她相信,在她有生之年可以做到这一点。作为微软英国剑桥研究院的编程原则与工具组的高级研究员、剑桥大学生物系副教授,她认为,并不是说癌症会永远消失。而是一旦你能够管理它并知道如何控制它,它就不再是个问题。

为此,Fisher和她的团队认为你需要利用技术理解癌症——或者更具体说是让正常细胞变成癌细胞的生物过程。一旦了解在问题所在,你需要知道如何修复它。Fisher把计算方法引入癌症研究。她就像计算机科学家看待计算机程序一样看待癌症研究。她的目标是了解让细胞执行命令或以特定方式行动的程序或指令集。一旦开发了一个描述细胞不正常行为的计算机程序并与癌细胞的行为对比,你就可以找出改正不正常行为的方法。她说:“如果知道了如何开发这些程序,你可以调试它们,它就不再是个问题了。”

生物模型分析器(Bio Model Analyzer,BMA)

当然,这虽然听上去很简单,实际却很复杂。Fisher和她的团队正在研究的一种方法叫生物模型分析器(Bio Model Analyzer,BMA)。这个基于云的工具让生物学家可以对细胞之间的互动和通信以及它们的连接进行建模。 该系统创建一个计算机化的模型,对比健康细胞的生物流程与生病后的异常流程。这反过来让科学家可以看到导致癌症的人体中数百万基因和蛋白质之间的互动,并快速制定最好、危害最小的方式为患者提供个性化治疗。

Fisher项目团队的成员、英国剑桥皇家社会大学研究员Ben Hall说: “我使用BMA研究癌症,了解癌症的形成过程,以及正在进行的通信。”Hall说,BMA有很多用途,包括如何及早检测癌症并了解如何更好地治疗癌症,通过建模找出哪些药品最有效以及癌症在什么时候会产生抗药性。

下面是BMA可能发挥作用的一种方式:假设一名患者得了一种罕见并且致命的脑癌。使用BMA,医生可以把有关该患者的所有生物信息输入该系统。然后,他们可以使用该系统进行各种实验,例如对比癌症患者与健康人的信息,或模拟患者的身体对各种治疗方法的反应。使用笔和纸,甚至简单的计算机程序进行这种计算是不可能的,因为人体中互相配合的数百万分子、蛋白质和基因存在太多的变量。为了开发Fisher预想的这种解决方案,研究人员需要开发强大的计算模型,能够建立这些极为复杂的模型,并运行所有可能的解决方案以寻找异常情况。

由于能够使用计算机而不是纸和笔或试管和烧杯进行这些实验,研究人员可以快速地测试多得多的可能性。这反过来更好地了解癌症如何发展、演进以及与身体其它部分互动。Jonathan Dry是制药公司AstraZeneca的首席科学家,他的团队与Fisher的团队合作。他表示: “我认为这会加快研究,因为我们能够检验比在实验室中多得多的可能性。”Dry说,由于过去检验任何假设都极为困难,研究人员不得不专注于自己偏好的假设,猜测什么可能最有潜力。BMA等系统让他们可以尝试所有想法,使得他们更有可能找到正确的方法——并且更有可能找到“黑马式”的方法。Dry认为,如果每一个假设都来被检验,放在过去这是不可能的。而有了这些模型使得研究人员可以检验所有可能性,从而能找出更为科学的治疗方案。

改进和个性化癌症治疗

微软和AstraZeneca一直在使用BMA来更好地了解药品在白血病患者体内的相互作用和抗药性。借助BMA,两个研究团队能够更好地了解不同的患者为什么对特定治疗方法有着不同的反应。Dry说,BMA对于更加个性化的癌症治疗或精准医疗来说有着巨大的潜力。研究人员希望BMA这样的系统最终可以让研究人员和肿瘤医生详细了解具体的癌症病情,在检验时纳入可能影响治疗的其他因素,例如患者是否有其它疾病以及患者吃的其它药是否会与治疗癌症的药产生反应。“这真正正视了每个患者都是不同的,可能存在很大的不同这一现实”,Dry表示。

对于生物学家来说有用的计算机系统

Fisher认为,BMA这样的系统有望革命性地改变人们对癌症的看法,但只有生物学家愿意使用它们才能取得成功。经常使用BMA工作的设计师David Benque说,该系统在开发时就考虑到尽可能让生物学家感到熟悉并且可以理解。Benque多年来一直在使用生物学家可以理解的语言来开发工具,在视觉上模拟科学家在实验室中可能用到的东西。在Fisher看来,这样的系统迫切需要方便生物学家的使用。否则,就不会在治疗癌症方面实现突破。她说:“每个人都意识到癌症研究中需要计算能力。了解到这一点是一件事,说服医生实际使用这些工具又是另外一件事。”

登月计划:像计算机编程一样对细胞进行编程

如果你是开发新软件的开发者,你很可能会按照计算机科学家所说的原则性方法编写代码:使用一种编程语言和其它正式流程,开发一个遵循计算规则的系统。微软英国剑桥研究院生物计算研究组的科学家Neil Dalchau希望在生物学领域做同样的事情。他所在的团队正试图在细胞内而非芯片上进行计算。他说:“如果你能使用生物系统进行计算,你就可以把传统计算中学到的知识运用于医疗或生物技术应用。”这种计算方法的终极目标是:像计算机编程一样进行生物编程。这种突破有望带来各种可能性,从治疗疾病到为世界供应更充足的农作物。

领导生物计算研究组的Andrew Phillips说:“我们日常生活的方方面面都会受到影响。新的方法正努力开发某种分子计算机,可以放到细胞内监测疾病。如果传感器检测到疾病,会启动应对措施治疗它。“很多目前的癌症治疗方法会在消灭癌细胞时破坏健康的细胞。与之相比,这一方法无疑是一个重大进步。

早期但大有前途的措施

Phillips同时也提醒到,他们仍处于这项研究的极早期阶段,距离长期目标还有很长的路要走。他说:“这项研究的成果将是一个杀手级应用。”但一个很明显的重大挑战是生物系统(包括我们的身体)比运行软件的硬件(计算机)要神秘的多。Phillips说:“我们制造了计算机,知道它的工作原理。但我们没有制造过细胞,细胞的很多复杂内部运行机制对于我们来说仍旧是是个谜。因此,我们需要了解细胞如何计算才能对其进行编程。我们需要找到方法并开发软件来分析和编程细胞。”

以癌症为例。同样在生物计算小组工作的科学家Sara-Jane Dunn说,你可以把癌症看作出错的生物程序——有缺陷的健康细胞造成小差错。你还可以把免疫系统看作修复某些缺陷的机制,但它并不能修复所有缺陷。科学家已经了解到有关什么造成癌症以及什么会激活免疫系统的知识,但Dunn认为我们仍处于早期阶段,还有很多工作要做。如果她的团队能够像了解微软Word如何在PC上运行那样了解这些系统,他们就可能让免疫系统自行应对癌症。她说:“如果我们希望能够进行生物编程,我们实际上首先需要了解生物如何进行计算。我认为,我们可以在这方面发挥重大作用。”像计算机编程一样进行生物编程是否就像登月一样?Phillips认为,这是一个雄心勃勃的长期目标,但他看到了通向成功之路。他说:“就像登月,我们知道这在技术上是可行的。现在的问题是把它变成现实。”

数据如何帮助医生以个性化的方式治疗癌症

今年,全球有数百万人被诊断得了癌症。对于少数被选中的癌症案例,来自领先的癌症研究机构的专家加入了分子肿瘤委员会,审查患者的病史并根据他们的癌症诊断和基因构成来制定最佳的个性化治疗方案。Hoifung Poon希望使得分子肿瘤委员会更大众化,使得更多研究人员能参与其中。并正与一组研究人员一起为此开发一款工具。

它被称为汉诺威项目(Project Hanover)。这是一种数据驱动型方法,使用机器学习(人工智能的一个分支)来自动处理让癌症专家难以评估每个患者的繁重工作。Poon说:“我们知道,癌症通常不是有一个基因突变造成的。相反,它是很多不同的突变经过复杂的相互作用而引起的,这意味着你需要仔细审视有关基因组的一切。”


这需要梳理数百万条碎片化信息,以发现适用于特定人和特定癌症案例的共同基础。对于忙于治疗很多患者的肿瘤医生来说,这是不可能的事情。这就是微软研究人员为什么开发系统,帮助医生完成工作。该系统可以自动梳理所有碎片化信息,以发现最相关的数据,这让肿瘤专家有更多时间利用自己的专业知识为患者制定最佳的治疗方案。

这一项目的最终目标是帮助医生做所有这些研究工作,然后提供一个基于Azure云的工具,让医生根据自己收集的信息模拟哪些治疗方案的效果最好。微软汉诺威项目的首席软件架构师Ravi Pandya说:“如果我们可以利用这个知识库展示与每个具体患者最相关的研究结果,普通的肿瘤学家也可以做出最好的决策。”

用Literome海底捞针

汉诺威项目开始于一个被称为Literome的工具,这个基于云的系统梳理数百万篇研究论文,寻找可能适用于每个疾病诊断的基因研究。肿瘤学家很难独自完成这项庞大的工作,而研究人员在描述自己的工作时出现的不一致现象也让这项工作变得更加复杂。这意味着涉及相同基因信息的研究论文可能在语言上并没有很多重叠的地方。Poon说:“问题是,人们在利用不同的方式表述相同的东西方面充满创意。”

为了开发Literome,Poon和他的同事使用了机器学习来开发自然语言处理工具,只需要少量可用的知识就可以创建复杂的模型,用于发现相同知识的不同表述。现在,该工具正在扩展,还可以纳入可能有用的实验和其它信息源。Poon的团队还与俄勒冈健康与科学大学的Knight癌症研究院合作,帮助他们的研究人员寻找更好的方式来治疗急性髓细胞白血病,一种复杂而致命的癌症。

Knight癌症研究院的院长Brian Druker表示,这种癌症的患者实际上是患有3或4种白血病。这使得很难找到合适的药物,以及患者是否会产生抗药性。Druker的研究曾大幅延长了慢性髓细胞白血病患者的预期寿命。他说:“很明显,我们需要极为复杂的计算才能消化并利用所有这些数据。”

Druker把这种合作看作双向对话:他的专家团队可以提供假设,帮助计算机科学家了解在数据中寻找什么。反过来,计算机科学家可以进行分析,帮助他们证明或证伪这些假设。然后,这可以帮助他们更快地制定所需的治疗方案。他说:“我一直相信这些数据在告诉我们答案,但我们需要知道如何听到这些答案。这就是计算可以发挥作用的地方。”

Druker认为,我们才刚刚开始了解数据如何帮助癌症研究。除了基因数据,研究人员还应当开始关注其它“组学”,包括蛋白质组学,或蛋白质研究,以及代谢组学,或代谢物化学作用过程研究。他说:“我们会超越基因组。基因组告诉我们很多信息,但不会告诉我们所有信息。”Poon说,他们仍处于早期研究阶段,但已经看到它如何改变和拯救生命。他说:“我们正处于一个关键时刻,已经看到光明的未来,但还有很多工作要做。”

计算机视觉如何帮助放射科医生更好地跟踪疾病发展情况

放射科医生希望获得有关患者身体内部最精确的影像,经常需要价值数百万美元的最先进设备并会产生极为详细的影像。得到这些影像之后呢?在很多情况下,阅读这些影像的最高科技产品是人眼。

Antonio Criminisi是一名机器学习和计算机视觉专家,领导微软英国剑桥研究院的放射学研究工作。他说:“人眼非常擅长诊断。专家级放射科医生看到影像——比如人脑的影像——时,在两秒内就会知道有没有肿瘤。”Criminisi说,但放射科医生很难判断某个疗法是否有效。这是因为人眼不擅长根据放射科扫描结果来判断肿瘤会增长、缩小还是改变形状。

更好的技术意味着更多数据

几年前,放射学家、英国皇家放射医师学会会长Giles Maskell说,一次典型的CT扫描可能会产生200张图片。现在,同样的扫描会产生2000张图片——产生大量人眼甚至无法感知的数据。Maskell说:“精细的细节远远超出了我们的理解能力,也无法被处理成有意义的东西。”简单地说,放射科医生需要技术来帮助他们跟上技术发展的步伐。Maskell表示,医生们需要帮助来以某种新形式来展示数据,而这种新形式应使得他们能轻松地分析大量图片。

这就是Criminisi的团队所做的事情。该团队的数据驱动型方法专注于一个研究项目,该项目利用计算机视觉和机器学习(人工智能的一个分支),为放射科医生提供更加详细且一致的测量,从而强化他们的专业知识。该系统有望最终能够评估3D扫描的每一个像素,精确地告诉放射科医生肿瘤自从上一次扫描以来增长、缩小或形状改变了多少。它还可以提供有关器官密度等信息,让放射科医生更好地了解病灶是囊肿还是肿瘤。它还可以更精细地分析肿瘤周围的细胞健康状况。

Criminisi说:“人眼基本上不可能做到这一切。”而这一计划的目标不是让放射科医生失业,而是让他们更好地工作。对此,Maskell这样说道:“癌症诊断中总是会需要由人进行解释。计算机和计算机科学会让我们做出更好的决策。”



 

微软:用计算机技术治愈癌症,这不是在开脑洞

$
0
0

​在微软遍布全球的研究实验室里,计算机科学家、程序员、工程师和其它专家们正试图解决计算机行业的各种前沿问题:从系统设计和安全到量子计算和数据可视化,不一而数。

但其中一部分科学家、工程师和程序员拥有一个不同的目标。他们正试图攻克的,正是人类面临的最复杂、最致命的挑战之一:癌症。在大多数情况下,他们使用的是算法和计算机,而不是试管和烧杯。正如生物学家,微软英国剑桥研究院高级研究员Jasmin Fisher所言:“我们正试图改变生物学日常的科研方式。“

来看看这些计算机科学与医学的跨界狂人们是如何有理有据地脑洞大开的:

通过直观地梳理所有可用于数据研究的方式,来自微软的一支研究团队选择使用机器学习和自然语言处理技术,来帮助全球知名肿瘤学家为患者找到最有效的个性化癌症治疗方案。而另外一项工作是结合机器学习和计算机视觉,让放射科医生更详细地了解患者的肿瘤进展情况。还有一组研究人员开发出了强大的算法,来帮助科学家了解癌症发展情况以及最适合的治疗方案。另外还有一个团队则付出了巨大的努力,让科学家有一天能够对细胞进行编程来治疗各种疾病,包括癌症。

计算驱动与数据驱动

微软全球资深副总裁周以真表示,虽然各个项目之间差异看似巨大,但微软应对癌症的总体原则离不开两种基本方法

第一种方法立足于癌症以及生理变化过程是一种信息处理系统。这意味着用于建模和推理计算流程的工具——例如编程语言、编译器和模型检测器——也可用于建模和推理生物的变化流程。另外一种方法更偏重于数据驱动。它基于这样一种想法:研究人员可以对可用的大量生物数据应用机器学习等技术,并利用这些复杂的分析工具更好地了解和治疗癌症。两种方法有着某些共同的基础,包括核心理念,那就是成功取决于生物学家和计算机科学家都为解决问题贡献自己的专业知识。周以真博士表示: “生物学家与计算机科学家之间的合作对于解决问题至关重要。微软有着充分的理由进行大胆的广泛投资,利用计算机科学抗击癌症。对微软而言,这也符合我们的核心使命:予力众生,成就不凡。这只第一步。”

除此之外,微软对云计算的庞大投资很自然地适合需要大量计算能力来解决重大问题的领域。长期来看,微软这么做也是合理的:以为客户提供工具进行投资,不管他们选择哪个计算平台,即使有一天这台电脑已不再基于硅芯片,而是基于DNA或其他生命物质,比如一个活着的细胞。在这种情况下,我们应该确保我们了解在这些未来的计算机上编程意味着什么。”

选择最佳的治疗方案

你身体里的基因隐藏着重要的健康密码。在研究基因对罹患和治疗癌症所起到的作用上,人们已经取得了重大进展。这反过来让人们更注重以个性化方式治疗每个癌症患者。这就是所谓“精准医疗”。知名科学家、微软基因部门高级总监David Heckerman表示:“癌症治疗领域正在发生一场革命。十年前,人们还认为癌症是治疗器官:脑癌就治疗大脑,肺癌就治疗肺。现在我们知道,治疗癌症的基因同样重要。“

随着技术的发展,人们能够以更低的成本更轻松地绘制人类基因组和其它基因材料。这使得有关癌症的精准治疗更加便捷。这也为科学家提供了更多信息来针对癌症制定更加个性化的治疗方案。你可能还记得,几年前好莱坞影星安吉丽娜·朱莉在《纽约时报》发表“我的医疗选择”一文,她表示,由于携带“缺陷”基因——BRCA1,医生预估她得乳腺癌的几率为87%,为此,她选择了预防性地切除双侧乳腺。其实,突变的BRCA1不仅会增加罹患乳腺癌的几率,还会大大增加罹患卵巢癌的几率。在那之后,安吉丽娜·朱莉还预防性地切除了卵巢,以避免发生在她母亲身上的卵巢癌发生在她身上。

如今,庞大的数据量同样也带来了很多挑战。生物学家Fisher表示: “我们已经达到了会被信息淹没的临界点。我们可以测量太多的信息,但如何利用这些信息并它们转化为有用的知识?这是另外一回事。信息和数据,获取知识和理解知识之间存在巨大差异。”研究人员表示,计算机科学家可以在这个领域给予生物学最好的帮助。例如某些最有前景的方法涉及利用人工智能的分支机器学习,自动进行精准医疗所需的繁重工作。在更基础的领域,机器学习系统可以根据之前看到的猫的图像来识出其他图像中的猫。对于治疗癌症而言,这些技术可以排序和整理数百万个研究和医疗数据片段。

微软雷蒙德研究院研究员Hoifung Poon利用机器阅读技术帮助肿瘤医生找到有关治疗每个癌症患者的最有效方法的最新信息。他认为,人工智能与机器学习正是这一技术中最关键的两大因素。新治疗方式的另外一个重大优势是云计算。Azure云计算平台等工具可以在云中托管这些工具,让研究人员能够为生物学家提供此类方法,即使医疗专家本身没有强大的计算机 。

微软研究人员表示,微软在引领计算癌症工作方面拥有得天独厚的优势,因为微软作为一家软件公司长久以来一直提供让人们可以在上面开发和扩展的平台。微软英国剑桥研究院的生物计算研究小组的主管Andrew Phillips表示:“如果了解一下微软真正在做的各种事情,你会发现微软参与这个行业非常合理。”特别是在他的研究领域,Phillips认为,研究人员受益于微软作为软件创新者的历史。他说:“我们可以把之前用于编程计算机的方法用于编程生物学,然后获取更多应用和更好的治疗方案。”

当然,除非这些工具能保证生物学家、肿瘤学家和其它癌症研究人员能够使用和理解这些工具,否则它们就无法帮助抗击癌症。微软研究人员表示,他们竭尽全力让系统易于使用,甚至是没有任何计算机等技术背景的用户。这包括从学习到说医生和生物学家的语言到设计模拟人们在实验室中使用的系统的计算机工具。

一种治疗癌症的方法:调试系统

Jasmin Fisher不寄望于彻底治愈癌症,而是希望能控制它。她相信,在她有生之年可以做到这一点。作为微软英国剑桥研究院的编程原则与工具组的高级研究员、剑桥大学生物系副教授,她认为,并不是说癌症会永远消失。而是一旦你能够管理它并知道如何控制它,它就不再是个问题。

为此,Fisher和她的团队认为你需要利用技术理解癌症——或者更具体说是让正常细胞变成癌细胞的生物过程。一旦了解在问题所在,你需要知道如何修复它。Fisher把计算方法引入癌症研究。她就像计算机科学家看待计算机程序一样看待癌症研究。她的目标是了解让细胞执行命令或以特定方式行动的程序或指令集。一旦开发了一个描述细胞不正常行为的计算机程序并与癌细胞的行为对比,你就可以找出改正不正常行为的方法。她说:“如果知道了如何开发这些程序,你可以调试它们,它就不再是个问题了。”

生物模型分析器(Bio Model Analyzer,BMA)

当然,这虽然听上去很简单,实际却很复杂。Fisher和她的团队正在研究的一种方法叫生物模型分析器(Bio Model Analyzer,BMA)。这个基于云的工具让生物学家可以对细胞之间的互动和通信以及它们的连接进行建模。 该系统创建一个计算机化的模型,对比健康细胞的生物流程与生病后的异常流程。这反过来让科学家可以看到导致癌症的人体中数百万基因和蛋白质之间的互动,并快速制定最好、危害最小的方式为患者提供个性化治疗。

Fisher项目团队的成员、英国剑桥皇家社会大学研究员Ben Hall说: “我使用BMA研究癌症,了解癌症的形成过程,以及正在进行的通信。”Hall说,BMA有很多用途,包括如何及早检测癌症并了解如何更好地治疗癌症,通过建模找出哪些药品最有效以及癌症在什么时候会产生抗药性。

下面是BMA可能发挥作用的一种方式:假设一名患者得了一种罕见并且致命的脑癌。使用BMA,医生可以把有关该患者的所有生物信息输入该系统。然后,他们可以使用该系统进行各种实验,例如对比癌症患者与健康人的信息,或模拟患者的身体对各种治疗方法的反应。使用笔和纸,甚至简单的计算机程序进行这种计算是不可能的,因为人体中互相配合的数百万分子、蛋白质和基因存在太多的变量。为了开发Fisher预想的这种解决方案,研究人员需要开发强大的计算模型,能够建立这些极为复杂的模型,并运行所有可能的解决方案以寻找异常情况。

由于能够使用计算机而不是纸和笔或试管和烧杯进行这些实验,研究人员可以快速地测试多得多的可能性。这反过来更好地了解癌症如何发展、演进以及与身体其它部分互动。Jonathan Dry是制药公司AstraZeneca的首席科学家,他的团队与Fisher的团队合作。他表示: “我认为这会加快研究,因为我们能够检验比在实验室中多得多的可能性。”Dry说,由于过去检验任何假设都极为困难,研究人员不得不专注于自己偏好的假设,猜测什么可能最有潜力。BMA等系统让他们可以尝试所有想法,使得他们更有可能找到正确的方法——并且更有可能找到“黑马式”的方法。Dry认为,如果每一个假设都来被检验,放在过去这是不可能的。而有了这些模型使得研究人员可以检验所有可能性,从而能找出更为科学的治疗方案。

改进和个性化癌症治疗

微软和AstraZeneca一直在使用BMA来更好地了解药品在白血病患者体内的相互作用和抗药性。借助BMA,两个研究团队能够更好地了解不同的患者为什么对特定治疗方法有着不同的反应。Dry说,BMA对于更加个性化的癌症治疗或精准医疗来说有着巨大的潜力。研究人员希望BMA这样的系统最终可以让研究人员和肿瘤医生详细了解具体的癌症病情,在检验时纳入可能影响治疗的其他因素,例如患者是否有其它疾病以及患者吃的其它药是否会与治疗癌症的药产生反应。“这真正正视了每个患者都是不同的,可能存在很大的不同这一现实”,Dry表示。

对于生物学家来说有用的计算机系统

Fisher认为,BMA这样的系统有望革命性地改变人们对癌症的看法,但只有生物学家愿意使用它们才能取得成功。经常使用BMA工作的设计师David Benque说,该系统在开发时就考虑到尽可能让生物学家感到熟悉并且可以理解。Benque多年来一直在使用生物学家可以理解的语言来开发工具,在视觉上模拟科学家在实验室中可能用到的东西。在Fisher看来,这样的系统迫切需要方便生物学家的使用。否则,就不会在治疗癌症方面实现突破。她说:“每个人都意识到癌症研究中需要计算能力。了解到这一点是一件事,说服医生实际使用这些工具又是另外一件事。”

登月计划:像计算机编程一样对细胞进行编程

如果你是开发新软件的开发者,你很可能会按照计算机科学家所说的原则性方法编写代码:使用一种编程语言和其它正式流程,开发一个遵循计算规则的系统。微软英国剑桥研究院生物计算研究组的科学家Neil Dalchau希望在生物学领域做同样的事情。他所在的团队正试图在细胞内而非芯片上进行计算。他说:“如果你能使用生物系统进行计算,你就可以把传统计算中学到的知识运用于医疗或生物技术应用。”这种计算方法的终极目标是:像计算机编程一样进行生物编程。这种突破有望带来各种可能性,从治疗疾病到为世界供应更充足的农作物。

领导生物计算研究组的Andrew Phillips说:“我们日常生活的方方面面都会受到影响。新的方法正努力开发某种分子计算机,可以放到细胞内监测疾病。如果传感器检测到疾病,会启动应对措施治疗它。“很多目前的癌症治疗方法会在消灭癌细胞时破坏健康的细胞。与之相比,这一方法无疑是一个重大进步。

早期但大有前途的措施

Phillips同时也提醒到,他们仍处于这项研究的极早期阶段,距离长期目标还有很长的路要走。他说:“这项研究的成果将是一个杀手级应用。”但一个很明显的重大挑战是生物系统(包括我们的身体)比运行软件的硬件(计算机)要神秘的多。Phillips说:“我们制造了计算机,知道它的工作原理。但我们没有制造过细胞,细胞的很多复杂内部运行机制对于我们来说仍旧是是个谜。因此,我们需要了解细胞如何计算才能对其进行编程。我们需要找到方法并开发软件来分析和编程细胞。”

以癌症为例。同样在生物计算小组工作的科学家Sara-Jane Dunn说,你可以把癌症看作出错的生物程序——有缺陷的健康细胞造成小差错。你还可以把免疫系统看作修复某些缺陷的机制,但它并不能修复所有缺陷。科学家已经了解到有关什么造成癌症以及什么会激活免疫系统的知识,但Dunn认为我们仍处于早期阶段,还有很多工作要做。如果她的团队能够像了解微软Word如何在PC上运行那样了解这些系统,他们就可能让免疫系统自行应对癌症。她说:“如果我们希望能够进行生物编程,我们实际上首先需要了解生物如何进行计算。我认为,我们可以在这方面发挥重大作用。”像计算机编程一样进行生物编程是否就像登月一样?Phillips认为,这是一个雄心勃勃的长期目标,但他看到了通向成功之路。他说:“就像登月,我们知道这在技术上是可行的。现在的问题是把它变成现实。”

数据如何帮助医生以个性化的方式治疗癌症

今年,全球有数百万人被诊断得了癌症。对于少数被选中的癌症案例,来自领先的癌症研究机构的专家加入了分子肿瘤委员会,审查患者的病史并根据他们的癌症诊断和基因构成来制定最佳的个性化治疗方案。Hoifung Poon希望使得分子肿瘤委员会更大众化,使得更多研究人员能参与其中。并正与一组研究人员一起为此开发一款工具。

它被称为汉诺威项目(Project Hanover)。这是一种数据驱动型方法,使用机器学习(人工智能的一个分支)来自动处理让癌症专家难以评估每个患者的繁重工作。Poon说:“我们知道,癌症通常不是有一个基因突变造成的。相反,它是很多不同的突变经过复杂的相互作用而引起的,这意味着你需要仔细审视有关基因组的一切。”

这需要梳理数百万条碎片化信息,以发现适用于特定人和特定癌症案例的共同基础。对于忙于治疗很多患者的肿瘤医生来说,这是不可能的事情。这就是微软研究人员为什么开发系统,帮助医生完成工作。该系统可以自动梳理所有碎片化信息,以发现最相关的数据,这让肿瘤专家有更多时间利用自己的专业知识为患者制定最佳的治疗方案。

这一项目的最终目标是帮助医生做所有这些研究工作,然后提供一个基于Azure云的工具,让医生根据自己收集的信息模拟哪些治疗方案的效果最好。微软汉诺威项目的首席软件架构师Ravi Pandya说:“如果我们可以利用这个知识库展示与每个具体患者最相关的研究结果,普通的肿瘤学家也可以做出最好的决策。”

用Literome海底捞针

汉诺威项目开始于一个被称为Literome的工具,这个基于云的系统梳理数百万篇研究论文,寻找可能适用于每个疾病诊断的基因研究。肿瘤学家很难独自完成这项庞大的工作,而研究人员在描述自己的工作时出现的不一致现象也让这项工作变得更加复杂。这意味着涉及相同基因信息的研究论文可能在语言上并没有很多重叠的地方。Poon说:“问题是,人们在利用不同的方式表述相同的东西方面充满创意。”

为了开发Literome,Poon和他的同事使用了机器学习来开发自然语言处理工具,只需要少量可用的知识就可以创建复杂的模型,用于发现相同知识的不同表述。现在,该工具正在扩展,还可以纳入可能有用的实验和其它信息源。Poon的团队还与俄勒冈健康与科学大学的Knight癌症研究院合作,帮助他们的研究人员寻找更好的方式来治疗急性髓细胞白血病,一种复杂而致命的癌症。

Knight癌症研究院的院长Brian Druker表示,这种癌症的患者实际上是患有3或4种白血病。这使得很难找到合适的药物,以及患者是否会产生抗药性。Druker的研究曾大幅延长了慢性髓细胞白血病患者的预期寿命。他说:“很明显,我们需要极为复杂的计算才能消化并利用所有这些数据。”

Druker把这种合作看作双向对话:他的专家团队可以提供假设,帮助计算机科学家了解在数据中寻找什么。反过来,计算机科学家可以进行分析,帮助他们证明或证伪这些假设。然后,这可以帮助他们更快地制定所需的治疗方案。他说:“我一直相信这些数据在告诉我们答案,但我们需要知道如何听到这些答案。这就是计算可以发挥作用的地方。”

Druker认为,我们才刚刚开始了解数据如何帮助癌症研究。除了基因数据,研究人员还应当开始关注其它“组学”,包括蛋白质组学,或蛋白质研究,以及代谢组学,或代谢物化学作用过程研究。他说:“我们会超越基因组。基因组告诉我们很多信息,但不会告诉我们所有信息。”Poon说,他们仍处于早期研究阶段,但已经看到它如何改变和拯救生命。他说:“我们正处于一个关键时刻,已经看到光明的未来,但还有很多工作要做。”

计算机视觉如何帮助放射科医生更好地跟踪疾病发展情况

放射科医生希望获得有关患者身体内部最精确的影像,经常需要价值数百万美元的最先进设备并会产生极为详细的影像。得到这些影像之后呢?在很多情况下,阅读这些影像的最高科技产品是人眼。

Antonio Criminisi是一名机器学习和计算机视觉专家,领导微软英国剑桥研究院的放射学研究工作。他说:“人眼非常擅长诊断。专家级放射科医生看到影像——比如人脑的影像——时,在两秒内就会知道有没有肿瘤。”Criminisi说,但放射科医生很难判断某个疗法是否有效。这是因为人眼不擅长根据放射科扫描结果来判断肿瘤会增长、缩小还是改变形状。

更好的技术意味着更多数据

几年前,放射学家、英国皇家放射医师学会会长Giles Maskell说,一次典型的CT扫描可能会产生200张图片。现在,同样的扫描会产生2000张图片——产生大量人眼甚至无法感知的数据。Maskell说:“精细的细节远远超出了我们的理解能力,也无法被处理成有意义的东西。”简单地说,放射科医生需要技术来帮助他们跟上技术发展的步伐。Maskell表示,医生们需要帮助来以某种新形式来展示数据,而这种新形式应使得他们能轻松地分析大量图片。

这就是Criminisi的团队所做的事情。该团队的数据驱动型方法专注于一个研究项目,该项目利用计算机视觉和机器学习(人工智能的一个分支),为放射科医生提供更加详细且一致的测量,从而强化他们的专业知识。该系统有望最终能够评估3D扫描的每一个像素,精确地告诉放射科医生肿瘤自从上一次扫描以来增长、缩小或形状改变了多少。它还可以提供有关器官密度等信息,让放射科医生更好地了解病灶是囊肿还是肿瘤。它还可以更精细地分析肿瘤周围的细胞健康状况。

Criminisi说:“人眼基本上不可能做到这一切。”而这一计划的目标不是让放射科医生失业,而是让他们更好地工作。对此,Maskell这样说道:“癌症诊断中总是会需要由人进行解释。计算机和计算机科学会让我们做出更好的决策。”


 

网络技术的风向标——SIGCOMM 2016

$
0
0

今年,ACM通信专业组(SIGCOMM)的年度旗舰会议SIGCOMM首次在南美洲——巴西举行。而SIGCOMM会议的开幕式恰好选在奥运会闭幕式的后一天。在这篇文章里,微软亚洲研究院实习生李博杰将会带你体验一场学术界的“巴西大冒险”。悄悄告诉你,李博杰也是目前中国最年轻的SIGCOMM一作哦! 

作者简介 

我叫李博杰,本科毕业于中国科学技术大学少年班学院,2014年加入中国科学技术大学与微软亚洲研究院的联合培养博士生项目,师从微软亚洲研究院无线与网络组的谭焜研究员。我的研究方向是数据中心网络和可重构硬件(FPGA)上的编程。

关于SIGCOMM 

作为计算机网络领域资历最老的顶级学术会议,ACM SIGCOMM自1977年起已经举办了37届。美国计算机学会(ACM)通信专业组(SIGCOMM)在其主页上无不自豪地将SIGCOMM称为其年度旗舰会议。40年来,从计算机网络教科书里的TCP拥塞控制协议到云数据中心里的软件定义网络(SDN)和网络功能虚拟化(NFV),SIGCOMM见证了众多计算机网络关键技术的诞生与发展。

SIGCOMM的论文以高质量著称,每年只录用40篇左右,录取率在15%左右。全世界的网络研究者都把在SIGCOMM上发表论文视为一种荣誉。每篇论文都经过严格的双盲评审,例如今年有三轮评审,第一轮从225篇选出99篇,第二轮选出66篇,第三轮选出60篇进入程序委员会(PC)讨论,在一天半的会议后决定最终被录用的39篇论文。每篇被录用的论文平均收到了8个评审意见,长达十几页。即使最终没有被录用,这些专家审稿人的意见对论文后续的改进也是很有帮助的。 

内容提要

SIGCOMM议程 

SIGCOMM上的中国面孔 

Talk to professors! 

SIGCOMM研究热点 

    热点1:高性能网络处理 

        体系结构之一:可编程交换机芯片 

        体系结构之二:FPGA 

        体系结构之三:多核CPU 

    热点2:流量调度 

        数据中心拥塞控制与流量调度 

        广域网流量工程 

        流量调度与经济 

    热点3:无线背向散射 (backscatter) 

SIGCOMM论文是怎样炼成的 

SIGCOMM议程

今年是SIGCOMM会议第一次在南美洲举行,选择了奥运之国巴西。会议的开幕式恰好选在奥运会闭幕式的后一天,也就是8月22日。可惜,天有不测风云,寨卡疫情让与会者们很担心,会议地点从东北部的大城市萨尔瓦多迁到东南部的小岛Florianópolis。今年的SIGCOMM会议有五天,第一天和最后一天是workshop和tutorial,中间三天是single track的主会,每篇论文都做20分钟的口头报告和5分钟的提问。同样由于疫情的威胁,今年SIGCOMM破例允许远程演讲,即事先录好演讲视频现场播放,提问环节则通过Skype进行。21篇poster、18篇demo、12篇主会论文附带的poster和8个工业界demo分为三批,穿插在主会三天的茶歇时间展示。

 SIGCOMM会场外的沙滩和大西洋 

本届SIGCOMM会议录用的39篇论文中,微软参与其中的就有11篇。其中第一作者为微软研究院的3篇(ClickNP、ProjectToR、Via),第一作者为微软工程部门的2篇(Dynamic Pricing、RDMA),与高校合作的6篇(Domino、2DFQ、Control Plane Analysis、Don't Mind the Gap、WebPerf、NetPoirot)。 

与往届SIGCOMM一样,微软是网络学术界当之无愧的领导者。微软一方面发表论文分享来自微软研究院的“黑科技”(如ClickNP用FPGA实现网络功能)和数据中心运营经验(如RDMA大规模部署中的问题);另一方面与高校共享来自大规模网络服务的真实问题和数据,便于高校找到真正重要的问题,做出有影响力的工作。 

谷歌、Facebook、思科等网络巨头今年也都有在SIGCOMM上发表论文。继承往年的传统,华为派出了十几名员工的强大阵容参加SIGCOMM大会。思科在会场设置了招聘材料分发点,Facebook也邀请一些论文作者参与沙龙活动。 

SIGCOMM上的中国面孔 

今年SIGCOMM主会有两篇论文来自中国大陆(微软亚洲研究院的ClickNP和中科院的CS2P),两篇论文来自中国香港(香港科技大学陈凯教授组的CODA和Karuna)。更为振奋的是,主会39个报告里有14个是华人所作(其中12个是第一作者,2个是第二作者),听起来倍感亲切。 

中国大陆学术界在poster和demo上的表现也很优秀。21篇poster中,就有8篇来自中国大陆。清华大学有3篇:PieBridge、SLA-NFV和FAST;西安交大有3篇:SDN编译器、OpenFlow计数器和流表溢出问题;还有南京大学的Conan和国防科大的任务调度。18篇demo中,也有4篇来自中国大陆,包括清华的SDN源地址检查、北邮的EasyApp、国防科大的FPGA深度包检测和华为未来网络实验室的ADN (Application Driven Network)。 

 参加poster session的部分华人合影 

Talk to professors! 

来开会之前,我也犹豫不远万里冒着生命危险来开会是否值得。论文都可以在网上看到,为什么还要千里迢迢来开会呢?导师告诉我,开会是为了当面交流,认识朋友,寻求合作机会。在出发前和我结束自己论文的报告后,导师又反复叮嘱,要多跟教授交流,多认识朋友。 

会议第一天的欢迎晚宴(Welcome Reception)没有座位,所有人在大厅里站着,吃着自助,跟周围的人聊着天。第二天的会议晚宴(Conference Banquet),前一半时间也是吃着生蚝,喝着酒,四处找人聊天,后一半时间才是坐下来吃饭。会议组织者之一,阿卜杜拉国王科技大学的Marco Canini教授跟我们说,在会议上最重要的事情是什么?Talk to professors!可惜我的英语口语不好,也不习惯老外的文化,大多数聊天还是在华人中进行的。尽管有时可以切换到中文模式或者觅食模式休息一会儿,一晚上给自己的论文做十几次elevator pitch也是蛮累的。 

欢迎晚宴 

每天的早餐是酒店提供的自助餐,热情的与会者们早饭的时间也在忙着四处搭讪,了解各自的研究方向,讨论学术问题。这时我才发现网络学术圈子里男女比例高得吓人,餐厅里经常只有一个妹子(服务员除外)。为了欢迎381位与会者里20位左右的女生,本届SIGCOMM还专门组织了一个N2Women晚宴。 

每年SIGCOMM在会议晚宴之后,都会有一个笑话专场。今年讲笑话的是Marco Canini教授,“发布”了多个学术研究的应用。Instapaper,模仿Instagram的界面,paper上的图一定要好看;Snaptract,摘要就是论文,如果30秒内没有人对你的摘要感兴趣,这论文就消失了;Trustnami,研究者声誉和论文真正影响力的信任系统,每个引用可以是正面也可以是负面的,引用的权重是引用者的h-index;Menta,用网络领域大佬作为训练集的AI,可以告诉你一个想法是不是新的,生成相关工作列表,对实验结果给予评价,还能帮论文起好听的名字,避免名字撞车。 

会议晚宴 

第三天的学生晚宴是在距离会议地点30公里的市中心的Ataliba餐厅,终于吃到了心心念念的巴西烤肉!但我太没经验了,上来就吃了很多自助,烤肉吃到一半的时候肚子已经快要溢出了……说实话,跟国内的巴西烤肉没太大区别。 

学生晚宴 

SIGCOMM研究热点

接下来是学术时间,总结三个我在会议上看到的热点研究方向:高性能网络处理、流量调度和无线背向反射(backscatter)。 

热点1:高性能网络处理 

今年5月30日的全国科技创新大会上,紧接着习总书记的讲话,华为总裁任正非说,“随着逐步逼近香农定理、摩尔定律的极限,而对大流量、低时延的理论还未创造出来,华为已感到前途茫茫,找不到方向……重大创新是无人区的生存法则。”  

今年的SIGCOMM大会上,就有多篇论文致力于实现大流量、低时延的网络功能。数据中心网络的需求日新月异,网络功能的可编程性因而越发重要。在网络处理的性能和可编程性之间找到平衡点成为了研究热点。 

数据包处理的硬件体系结构大致分为三个方向:硬件加速器、网络处理器和通用处理器(如多核CPU、众核CPU、GPU)。本届SIGCOMM大会上比较火的硬件体系结构包括可编程交换机芯片、可重构硬件(FPGA)这两种硬件加速器,以及多核通用处理器(CPU)。在编程语言方面,P4则快要一统江湖了。 

体系结构之一:可编程交换机芯片 

网络领域大佬、斯坦福大学教授Nick McKeown创立的Barefoot Networks公司今年发布的可编程交换机芯片可提供每秒6.5 Tb的数据包处理速度,并获得了Google等公司1.3亿美元的投资。该可编程交换机芯片使用开源的P4语言编程,可以支持灵活的网络协议和转发规则。 

Anirudh Sivaraman提出的可编程交换机芯片架构(图片来源:Domino slides) 

今年SIGCOMM上麻省理工学院的Anirudh Sivaraman在网络领域新星Mohammad Alizadeh的指导下,在同一个session发了两篇相关论文,大概是创下了SIGCOMM的记录。第一篇是用C语言的一个子集(称为Domino)编写“数据包事务”来描述数据包处理的行为,编译到称为“原子”的指令集,该指令集实现在可编程交换机芯片内,每秒可处理10亿个数据包,每条原子指令的延迟在纳秒级以下。第二篇是在第一篇的基础上,提出了任意位置入队、顺序出队的通用队列(PIFO),在交换机芯片上实现了可编程的数据包调度器。 

使用可编程交换机芯片的一个例子是约翰·霍普金斯大学Zaoxing Liu的UnivMon,提出了一种通用的概率数据结构(universal sketch)来监控网络流量,如统计流量大小分布、异常检测、入侵检测等,比基于采样的流量监控更加细粒度,可以使用P4语言实现在可编程交换机芯片中。 

体系结构之二:FPGA 

微软公司引领了FPGA在数据中心中应用的潮流。自2014年微软研究院在计算机体系结构领域顶级会议ISCA上发表FPGA加速必应搜索的论文后,微软、百度等互联网巨头相继把FPGA大规模部署在数据中心,加速深度学习、存储、网络等应用。Intel公司以167亿美元收购了FPGA行业巨头Altera公司,希望把FPGA整合进CPU,继续保持在数据中心等领域的优势。 

微软采用FPGA加速网络功能(图片来源:ClickNP slides) 

在2015年的SIGCOMM大会上,微软Azure网络部门总监Albert Greenberg获得SIGCOMM终身成就奖,并在获奖演讲上宣布了网卡与FPGA整合的SmartNIC(智能网卡)。有了SmartNIC,我们可以把各种网络虚拟化应用的数据平面和一部分控制平面卸载(offload)到FPGA中,从而大大减轻CPU的负担。今年SIGCOMM上我们的ClickNP就是基于这个SmartNIC平台开发的一套框架,使用类C的高级语言模块化编程FPGA,并使CPU和FPGA能够细粒度分工合作,使得软件开发者可以轻松实现大流量(100 Gbps或每秒2亿个数据包)、低时延(微秒级)的网络功能。 

FPGA在网络领域的应用源远流长,十多年前就有斯坦福大学开发的NetFPGA平台,但FPGA硬件编程语言难写、难调,大多数软件开发者长期无法使用。ClickNP利用近年兴起的高层次综合(HLS)技术,使得软件开发者可以像在多核处理器上一样用高级语言编程FPGA。 

ClickNP的编程模型(图片来源:ClickNP slides) 

细心的读者也许注意到了,前面提到的麻省理工学院的论文也是把类C的高级语言编译到硬件。他们是编译到可编程交换机芯片的指令集,我们是编译到FPGA。前者性能更高,但编程上受到的限制更多,适合用在交换机上;后者能够实现更为复杂的网络功能,但FPGA时钟频率就不如专用芯片,FPGA适合在服务器上做防火墙、加密解密、负载均衡、流量调度等虚拟化网络功能的加速,同时还可用于加速机器学习等其他应用。 

无独有偶,清华毕军教授实验室的SLA-NFV也是结合使用FPGA和CPU来实现网络功能虚拟化。与ClickNP的做法略有不同,ClickNP是考虑到FPGA的高吞吐量和低时延,把网络功能优先放在FPGA上,不适合FPGA的任务放在CPU上;而SLA-NFV则是考虑到FPGA片上资源的限制,把网络功能优先放在CPU上,CPU不能达到预期性能的再用FPGA加速。 

P4FPGA架构(图片来源:P4FPGA slides) 

本届SIGCOMM大会上,还有多篇论文使用FPGA。康奈尔大学的DTP(Datacenter Time Protocol)利用数据中心网络的物理层特征来实现极高精度的时钟同步。为了实现该时钟同步协议,Han Wang同学写了几千行Bluespec代码来修改NetFPGA的物理层。通过这个项目“练手”之后,Han Wang又实现了一个从P4语言到Bluespec的编译器,这个P4FPGA的工作发表在会议第一天的NetPL workshop上。P4语言与FPGA的结合也引起了工业界的重视,本届SIGCOMM的工业界demo中展示了Xilinx公司从P4语言到NetFPGA SUME的编译器。 

在poster和demo环节,国防科大使用FPGA实现了60 Gbps的深度包检测系统,基于Aho–Corasick算法进行字符串匹配,使用片外DRAM和片上缓存来存储有限状态自动机(DFA)。西安交大利用FPGA作为OpenFlow计数器的fast path,在FPGA上只缓存计数器增量,批量刷新到CPU cache并压缩存储,减少了FPGA的内存开销。 

体系结构之三:多核CPU 

CPU作为最通用的体系结构,在性能方面也不善罢甘休。近年来netmap和DPDK等高性能数据包处理框架运用多种工程最佳实践,处理每个数据包平均只需几十个CPU时钟周期,单个CPU核每秒能处理逾千万个数据包。这些最佳实践包括轮询取代中断、用户态驱动避免系统调用和内存拷贝、使用大页和NUMA-aware内存分配减少内存访问、数据结构对齐缓存行、使用无锁队列、线程独占CPU减少进程切换、把数据包分片及计算校验和等操作卸载到网卡硬件。 

今年SIGCOMM上,多篇论文和poster、demo利用DPDK在CPU上高效处理数据包。

PISCES把P4程序编译到Open vSwitch(图片来源:PISCES slides) 

普林斯顿大学Nick Feamster组的PISCES把P4程序编译成Open vSwitch(最流行的开源虚拟交换机软件)中的C语言代码,解决了在Open vSwitch中增加功能的麻烦。以往在Open vSwitch里添加一个TCP flag,需要修改20个文件、370行代码。使用PISCES,只需修改4行P4代码。 

Ericsson研究院的ESwitch提出了一个把OpenFlow(最流行的网络控制平面协议)编译到x86机器码的虚拟交换机架构。Open vSwitch的做法是缓存已经建立的连接,对于缓存未命中的数据包则存在流表查询慢的问题,这也给拒绝服务攻击打开了方便之门。ESwitch的解决方案是让交换机内的流表自动定制化。尽管用户指定的OpenFlow转发规则在一张功能复杂的大表里,但ESwitch可以自动将这张大表拆分为若干张功能简单的小表,每张小表只负责特定的匹配功能,整个数据平面的转发性能提升了数倍至数百倍。 

在demo环节,匈牙利Eötvös Loránd大学演示了从P4语言到DPDK和飞思卡尔网络处理器的编译器,单核每秒可处理1千万个数据包。 

dpdkr poster 

意大利Politecnico di Torino大学提出的dpdkr网络处理框架为DPDK增加了虚拟机之间直接通信的管道。该管道对应用程序和OpenFlow控制器完全透明,同一物理机的虚拟机间通信就可以绕过Open vSwitch实现加速。 

热点2:流量调度 

从Van Jacobson在1988年的SIGCOMM上提出TCP拥塞控制协议,拥塞控制和流量调度就是网络领域经久不衰的古老话题。我的导师谭焜的一项重要发明就是CTCP拥塞控制协议,应用在Vista至今的Windows操作系统中。近十年来,拥塞控制和流量调度的研究重心从广域网转移到了数据中心。 

数据中心拥塞控制与流量调度 

虚拟化数据中心里异构的应用(图片来源:2DFQ slides) 

数据中心里的不同应用有不同的带宽和延迟需求,例如响应搜索引擎查询显然比后台日志备份更紧迫。为了用有限的带宽满足应用千差万别的需求,服务器需要决定以怎样的速度发送数据包,而交换机需要决定来自不同连接的数据包的排队顺序,以及有多条路径的情况下数据包从哪条路走。这分别对应着拥塞控制、流量调度和负载均衡三个研究领域,发表了数以千计的论文,近年来也有越来越多的论文将这三个方面结合起来考虑。 

琳琅满目的拥塞控制和流量调度协议(图片来源:NUMFabric slides) 

花样繁多的拥塞控制协议之间并不都是公平的,例如DCTCP和传统TCP Cubic共享同一条网络链路的时候,DCTCP就会“蛮横”地挤占绝大部分带宽。数据中心里不同客户的虚拟机可能使用不同的操作系统和网络协议栈,如何保证它们之间的公平性呢?如果客户的虚拟机在使用老的拥塞控制协议,能不能不要求客户升级就用上更适合数据中心网络的新协议? 

拥塞控制协议的翻译(图片来源:Virtualized Congestion Control paper) 

今年SIGCOMM有两篇相似的论文独立提出并解决了这个问题。其中一篇是斯坦福大学和VMWare的《虚拟化拥塞控制》(VCC),另一篇是威斯康辛大学麦迪逊分校和IBM研究院的《交流/直流TCP》。它们的思想都是在虚拟化层(虚拟交换机)里对拥塞控制协议进行翻译,把虚拟机内采用的不同拥塞控制协议翻译成统一的拥塞控制协议。这些翻译方案包括直接读取和修改虚拟机内存、修改TCP头、做缓冲、生成虚假TCP ACK、TCP代理等,VCC论文比较了这些方案的优劣。 

拥塞控制的首要目标是保证网络连接之间的公平性,而流量调度的首要目标则是最大化网络作为一个整体的效益。在传统拥塞控制协议中,源端根据网络拥塞的反馈信息动态调整发送速率,需要多次往返才能收敛到最佳发送速率,在收敛之前网络带宽不能得到充分利用。如果每个连接只有几个数据包(例如访问网页),那么网络带宽的利用率是较低的。

斯坦福大学Mohammad Alizadeh研究组提出了一个收敛迅速的公平带宽分配协议NUMFabric。在NUMFabric中,源端指定每条流的权重而非发送速率,网络中的交换机通过加权公平队列(WFQ)进行调度,这保证了网络在加权max-min意义下的公平性(即优先保证需求少的,不能被满足的需求平均分享剩下的资源)。在此基础之上,NUMFabric动态调整每条流的权重,快速收敛使得网络效益最大化。

理想调度和2DFQ、WFQ、WF2Q生成的调度(图片来源:2DFQ paper) 

加权公平队列虽然保证了网络流量的公平性,但从应用的角度来看,流量可能变成了bursty的。如上图(c)(d)所示,两个大请求(如数据库扫描)把两个CPU核占满了,小请求(如数据库主键查询)被暂时饿了一会儿,小请求的延迟就会显著升高。如果请求延迟可预测,理想的调度如图(a)所示,让一个核专门处理小请求,一个核专门处理大请求。微软与布朗大学合作提出的2DFQ就是这样一种调度策略。使用2DFQ后,在大多数请求的延迟可预测的情况下(不可预测的当作是大请求),微软Azure云存储的响应时间稳定了很多。 

使用WFQ、WF2Q、2DFQ后的请求响应时间(图片来源:2DFQ slides) 

这篇论文的演讲对WFQ的可视化做得非常好,个人认为是本届SIGCOMM最棒的一场演讲,建议感兴趣的读者到SIGCOMM会议主页下载其演示文稿(等视频发布了看视频效果更佳)。 

Coflow概念(图片来源:CODA slides) 

2012年,加州大学伯克利分校Ion Stoica研究组提出了Coflow的概念,即一个分布式任务由若干条并行的数据流构成,只有这些流都完成了,下一阶段的计算才能开始。因此我们关注的不是每条流的完成时间,而是一组Coflow的完成时间。然而,软件开发者需要修改现有的软件来指定Coflow信息。今年SIGCOMM上香港科技大学的张弘提出了CODA (COflows in the DArk),可以自动从网络流量中识别Coflow,并且其调度策略能够容忍一定程度的识别错误,从而不再需要对现有软件做任何修改。

流量调度领域的另一篇主会论文同样来自香港科技大学陈凯教授研究组。数据中心里一部分流是有完成期限的,另一部分流没有。如果简单地把有完成期限的流设为高优先级,那么其他流就会被饿死。陈力的Karuna论文提出,有完成期限的流并不需要占用全部的带宽,只需分配按期完成所需的带宽,就可以把剩余带宽分给没有完成期限的流,最小化无期限流的完成时间。 

广域网流量工程 

以上几篇都是数据中心内部的流量调度,跨数据中心的广域网同样需要流量工程(traffic engineering)。2013年SIGCOMM,谷歌的B4和微软的SWAN分享了逻辑上集中式的大规模广域网流量工程经验。 

 PieBridge(鹊桥) poster 

​今年SIGCOMM,清华大学张宇超与百度合作的PieBridge(鹊桥)系统使用中心化调度的P2P网络,实现了海量数据在异地数据中心间的高效同步。 

华为ADN demo 

华为未来网络研究院的ADN (Application Driven Network)是本届SIGCOMM唯一搬了三台工作站到现场的demo。他们把工作站放在行李箱里,搬过来都累坏了。运营商网络中有多种类型的应用,每种应用有不同的服务质量需求(如高带宽、低时延、保证带宽和时延),需要若干种类型的网络资源(如无线、广域网、数据中心网络)。ADN把物理网络分片为若干虚拟网络,把应用映射到虚拟网络,虚拟网络内使用定制的网络拓扑、路由协议和流量调度策略来满足异构应用的服务质量需求。 

流量调度与经济

流量调度不仅是一个技术问题,同时也是一个经济问题。本届SIGCOMM大会上有几篇论文从经济的角度探索流量调度的新方向。 

在跨数据中心的网络通信中,客户有什么动机来标记出流量的真实优先级、带宽保证和完成期限呢?微软公司调查发现,81%的广域网客户希望延迟传输来换取更低的价格;如果数据传输开始时就能获得资费、带宽和完成期限的保证,客户可以接受动态定价。据此,Pretium提出了一套基于动态定价的流量工程策略,使得用户在经济上有动机标记流量的真实需求。 

视频流量占据了互联网流量的很大一部分,一些网络运营商(ISP)违背了网络中立原则,悄悄对视频流量进行限速。今年SIGCOMM上,谷歌的论文调研了全球范围内流量限速(traffic policing)的普遍性和影响。在分析了谷歌CDN服务器7天的270 TB流量、8亿个HTTP请求后,发现大约7%的连接被限速了,被限速的连接丢包率是正常连接的6倍,显著影响了视频播放的质量。谷歌建议网络运营商采用流量整形(shaping)取代限速,内容下载服务器也要主动进行限速、pacing。 

今年中科院、卡耐基梅隆大学和爱奇艺联合发表的SIGCOMM论文与谷歌对内容下载服务器的建议不谋而合。CS2P采用基于机器学习的端到端带宽估计来选择视频的最佳码率。在训练阶段,首先基于用户会话(session)特征进行聚类,然后在每一类中训练隐马尔可夫模型(HMM)来预测端到端带宽。在线上,首先根据会话特征所属的聚类决定初始视频码率,然后根据反馈和HMM模型来动态调整码率。 

Network Cookies的工作原理(图片来源:Network Cookies slides) 

斯坦福大学提出,与其要求运营商遵守所有流量一视同仁的网络中立原则,不如把差异化服务的选择权交给用户。只有用户最清楚哪些应用需要什么样的服务质量。例如网盘同步和软件升级一般是后台流量,但急需某个文件时又需要高优先级;视频聊天则需要保证带宽、尽量降低延迟。这篇论文提出了基于cookie的设计,用户给每种应用的网络请求打上标签,网络设备根据这些标签提供差异化的服务质量。 

热点3:无线背向散射 (backscatter) 

今年SIGCOMM尽管只有5篇无线领域的文章,但其中有两篇获得了最佳论文奖(最佳论文共3篇)。 

无线通信比传感需要的能量多很多(图片来源:Interscatter slides) 

无线网络设备的功耗往往是最大的问题,我们希望在降低功耗的同时,保持较高的数据传输速率。无线设备功耗的主要来源是射频信号,因而近年研究者希望利用空间中无处不在的电磁波所携带的能量,也就是靠反射来传递信息。 

反射电视信号通信demo(图片来源:Youtube Ambient Backscatter demo) 

2013年,华盛顿大学的研究者收集和反射环境中的电视信号,实现了无电源设备的短距慢速通信,获得了当年SIGCOMM最佳论文奖。这种设备从信号中收集百微瓦级的能量来驱动芯片运行,把信息编码在收集到的信号上再发射出去。需要一个专门的网关设备来接收和解码。2014年SIGCOMM,该团队把反射电视信号的通信速度提高了100倍,传输距离提高了8倍。 

同样是在2014年SIGCOMM,该团队开发出了反射WiFi信号进行通信的技术,可以通过调制WiFi频道,与市售的WiFi接入点进行慢速通信,不再需要专用网关设备。2016年的NSDI上,该团队进一步发明了被动WiFi(Passive WiFi),通过反射环境中持续发射的信号,被动WiFi可以比普通WiFi芯片低1万倍的功耗,按照标准802.11b协议与市售WiFi接入点通信。被动WiFi的原型最初在FPGA上实现,随后制成芯片,目前已经商业化。 

Interscatter的应用场景(图片来源:Interscatter paper) 

今年SIGCOMM会议,华盛顿大学的最新黑科技Interscatter是在不同种类的无线协议之间实现反射通信,仅使用市面有售的设备,不再需要被动WiFi中持续向环境中发射信号的设备。这样植入设备就可以反射蓝牙信号来生成WiFi信号,实现上图所示的三种科幻场景:(a)隐形眼镜测量医学特征,(b)脑机接口,(c)信用卡之间通过反射手机蓝牙信号来通信。蓝牙设备发送单频蓝牙信号,Interscatter设备将单频信号反射到载波频率的单侧,生成802.11b WiFi载波,并将数据调制于其上。类似以前的工作,这次也是用FPGA实现的原型。 

马萨诸塞大学的张鹏宇和胡盼等也在今年SIGCOMM上发表了用于低功耗传感器的实用反射通信技术FS-Backscatter。针对反射信号与原信号互相干扰的问题,Interscatter的解决方案是把蓝牙信号反射到WiFi频段,而FS-Backscatter的解法是把信号反射到相邻的空闲频段。FS-Backscatter实现了WiFi和蓝牙两种协议的反射通信,与Interscatter一样不需要额外的硬件设备。 

主动、背向散射、被动三种无线通信方式的比较(图片来源:Bradio slides) 

胡盼和张鹏宇等在今年SIGCOMM上还有另一篇论文Bradio,考虑到不同设备电池容量的天壤之别,在传统的主动无线电、反射通信和被动接收之间动态切换,节约。主动无线电发送和接收方都很耗电,信号传输距离较远。反射通信的发送方很节能,但接收方很耗电,且只适用于近距通信。被动接收则与反射通信的耗电情况刚好相反,信号传输距离较远。Bradio基于设备电量和通信距离来选择无线电的工作模式。 

在结束SIGCOMM研究热点部分之前,我想最后分享一篇微软研究院的黑科技:ProjectToR。在传统数据中心网络中,机柜之间的网络连接是固定的,大多数机柜之间的连接带宽闲置,而少数机柜之间的连接带宽不够用。因此,近年SIGCOMM有多篇论文提出可重构的数据中心机柜互连方案。其中2010年的Helios和2013年的Mordia使用光交换机,2011年的Flyways和2012年的3D Beam forming使用60 GHz无线电,2014年的FireFly和今年的ProjectToR使用自由空间激光通信。

ProjectToR原理示意(图片来源:ProjectToR slides) 

ProjectToR的科幻之处在于,它使用电子微镜设备(Digital Micromirror Device,DMD)来反射激光。DMD由数十万个10微米大小的镜片阵列构成,每个镜片方向固定,由内存的值决定是否反射光线。因此修改内存的值,就可以修改DMD的反射方向,就像镜子转了一个角度。每个机柜顶上有若干个激光发射和接收装置,悬在数据中心上空的DMD改变反射方向,可以建立任意两个机柜之间的光通道。ProjectToR把一部分激光器做成固定网络拓扑,另一部分激光器用来做动态调整的机会(opportunistic)连接,并设计了在这种动态网络拓扑上的路由和流量调度算法。 

SIGCOMM论文是怎样炼成的 

虽然我是ClickNP这篇SIGCOMM论文的第一作者,第一个在会议上作口头报告,但我的导师谭焜研究员应当得到更多的荣誉。 

2013年5月,我面试加入中科大与微软亚洲研究院联合培养实习生项目。该项目每年在中科大招收20名左右大三学生参与为期一年的实习,本科毕业论文也是在微软完成。两个月的实习后,选拔7人左右成为联合培养博士生。联合培养博士生第一年在中科大上课,后面四年在微软亚洲研究院做研究。大四这一年,在无线与网络组资深研究员谭焜博士的指导下,我参与了一个虚拟化网络功能的研究项目,提出了一个可编程路由器上的容错软件框架,探索了可编程路由器的流表翻译问题。这三项研究并没有发表论文,但让我打下了数据中心网络、网络功能虚拟化和可编程路由器的知识基础。

命运总是难以预料。加入联合培养项目的时候,我绝对不知道,博士期间会做FPGA编程方面的研究。2015年7月,当我结束研究生一年级课程,回到微软亚洲研究院继续联合培养博士生项目的时候,谭焜导师对我说,你来负责ClickNP这个项目。他已经设计好了ClickNP的基本元件(element)和管道(channel)的抽象,甚至亲自编写了1000行编译器代码和几个element。我们组的FPGA专家罗腊咏博士也基本摸清了Altera OpenCL这个高层次综合(HLS)工具的脾气,并编写了一个发包工具。导师安排我和两位大四的同学,中科大计算机系的罗人千和上海交大ACM班的彭燕庆,一起来做这个项目,几乎是投入了我们组一半的实习生来做ClickNP。北航的贺同师兄负责整合PCIe channel到OpenCL框架里。 

ClickNP项目的成功,团队的努力固然重要,但也要考虑到历史的行程。通用处理器的摩尔定律遇到了瓶颈,数据中心的计算规模、用户需求的灵活性却与日俱增。微软数据中心的解决方案是可编程硬件,即FPGA。微软开发了一套Catapult Shell作为FPGA的操作系统,加速必应搜索、网络、存储等,并把研究成果通过多篇论文共享给学术社区。微软Catapult团队也与Altera合作开发了适用于Catapult Shell的OpenCL BSP,以便使用Altera OpenCL框架编程FPGA,这是ClickNP项目的基础。 

微软Catapult项目主页

谭焜导师对我们的指导是循序渐进的。一开始,他让我们把罗腊咏博士写的发包工具移植到ClickNP上,做成ClickNP上的第一个应用。这个工作看似简单,但具体做起来却遇到了麻烦。OpenCL工具尚不成熟,经常遇到一些bug,我们就把踩过的坑记录在文档里。 

第二阶段,导师指导我们分头实现各种网络功能。罗人千负责哈希表。彭燕庆负责编写一个功能强大的发包工具。我负责给编译器增加新的语法糖、从Click重构一些基本组件。 

哈希表是我们实现的第一个有状态的网络应用。由于我们对OpenCL编译器的原理尚不了解,一段代码稍微做些修改,性能就变得很差。我就做了一系列的microbenchmark,总结出一些编写高性能OpenCL代码的指导原则,后来其中的一些原则被写进编译器,实现了自动优化。 

实现TCP校验和的时候,由于读完整个数据包才能计算出校验和,而校验和需要填在数据包头部,这就需要把整个数据包缓存在element内部。我们一筹莫展之际,谭焜导师想出了把两个element用两条channel对接,把数据包缓存在channel里的设计,巧妙地解决了这个问题。为了达到预期性能,两条channel需要能够同时读写,于是我们做了对ClickNP语言迄今最大的修改,放弃了直接函数调用的做法,写了一个简单的C语言语法解析器来生成中间C代码。 

第二阶段结束已经是九月份,我们开始分头实现新的网络功能。罗人千负责查找表,包括IP地址前缀匹配和TCAM,做成一个OpenFlow防火墙。TCAM在FPGA中非常耗资源,受到大四在微软实习期间了解的ServerSwitch的启发,我设计了HashTCAM。彭燕庆负责实现网络虚拟化的加速,即NVGRE隧道协议的封装和解封装。我继续顺应团队的需求给编译器添加语法糖,探索在OpenCL里使用片外DRAM,实现限速功能和抓包功能。十月中旬这些功能完成时,我们感觉实现快做完了,可以开始写论文了,但导师说我们还差得远。 

这段时间里,我们通过Xilinx的培训了解了Vivado HLS,也掀起了一阵用OpenCL还是用HLS的争论。最终我们发现OpenCL的编程模型并不适合ClickNP的流式数据包处理,从而决定把ClickNP做成跨平台的框架,不依赖于OpenCL的编程模型,后端既可以是Altera OpenCL也可以是Vivado HLS。 

ClickNP架构 

第四阶段则是实现更多的网络功能。有了更方便的ClickNP语法、库里更多的elements,我们写代码越来越得心应手,开发一个网络功能的时间从一个月缩短到了一周。罗人千继续优化防火墙,彭燕庆实现了基于sketch的端口扫描检测(没有写入论文),我实现了IPSec数据平面所需的AES和SHA-1协议,以及pFabric数据包调度器。 

这个阶段,高性能的CPU与FPGA间通信是个意外收获。PCIe channel最初的设计是停等协议,只是用来实现CPU给FPGA发控制信号,但我发现它的发送和接收链路事实上是全双工的,只要稍作修改就可以变成流水线方式,不仅提高吞吐量,而且允许FPGA主动向CPU发送消息。我与贺同学长一起实现了全双工的PCIe channel,我还在CPU和FPGA上的运行时库里增加了自动batch的功能,高负载时batch大,吞吐量高;低负载时batch小,延迟低。 

谭焜导师把这个通信机制拔高到了principle的高度,提出了CPU element的概念,一个element既可以编译到CPU又可以编译到FPGA,两边的element还可以高效通信,ClickNP多了一项区别于其他FPGA数据包处理框架的明显特征。SIGCOMM论文的多条评审意见表达了对FPGA/CPU联合处理的赞赏: 

    I like the ability to communicate rapidly between SW and HW, and to move functionality across that boundary. 

    Very nice modularization design using elements and host <-> FPGA PCIe channels. 

    Of particular note is the support for partitioning work between the CPU and the FPGA such that each can be utilized for the tasks best allocated to them. 

第四阶段结束已是12月,距离截稿日期一个月,我们的evaluation还没有做。导师希望做一个能体现高性能CPU与FPGA通信的应用,最后选择了四层负载均衡器,把每条新连接的后端服务器分配逻辑放在CPU上。 

ClickNP四层负载均衡器与Linux Virtual Server性能的比较(纵轴为对数坐标) 

第五阶段,也就是evaluation,一是测量CPU上网络功能的性能,二是测量ClickNP在FPGA上的性能,三是测量每个element相比CPU的加速比、相比NetFPGA原生Verilog的资源开销。我们大大低估了这个阶段的工作量。首先,FPGA编译一遍就要几个小时,发包、测性能的程序经常需要修改。其次,我们没有DPDK的经验,花了不少时间搞清楚它的性能瓶颈,以及让DPDK Click支持多核并行。再次,在配置StrongSwan的时候遇到了一些困难。最后,实现NetFPGA里面的网络功能、编译NetFPGA SUME代码也是一件麻烦事。 

由于对时间预估不足,大多数应用的结果图也是最后一周才做出来的。由于当时没有找到负载均衡器对大数据包偶尔发生死锁的原因,我们只好全部用小包来做实验,在最后一天夜里匆忙做出结果图。导师告诫我们,以后实验结果图要尽早做出来,做实验前先想清楚这张图想说明什么,有些实验根本没必要做,有些实验做不出来也无伤大雅。 

最后两周,谭焜导师仔细揣摩词句、撰写论文。很惭愧,我还不能写出SIGCOMM水准的文字。其中“优化”一章,两页纸的内容,导师反复思考修改了五天,我也急中生智想出了delayed write的新优化方法。SIGCOMM的评审意见中,这一章也是被评论最多的,可见这章内容的确引起了审稿人的兴趣。 

SIGCOMM截稿的那一刻,ClickNP的代码仓库刚刚突破一千个提交,约两万行代码。全组的合作者忙了八个月,大概做了三件事:第一,设计实现了ClickNP语言和工具链;第二,设计实现了近百个FPGA上的高性能网络功能模块;第三,设计和评估了五个FPGA加速的网络应用。如果说还有什么创新,就是在FPGA和CPU之间细粒度的分工和高性能的通信。尽管ClickNP是第一个在FPGA上用高级语言实现通用网络功能的高性能编程框架,我还是很惭愧,只是在现有HLS工具的基础上做了一点微小的工作,FPGA高级语言编程仍然存在诸多困难。 

准备SIGCOMM演讲的时候,导师组织了三次全组的排练,每页slides都给了很多建设性的意见。除了谭焜导师,从未有人在演讲方面给我如此细致的指导。 

 我在微软学生技术节上向洪小文院长演示ClickNP 

今年7月,ClickNP在微软学生技术节上获得了微软全球资深副总裁、微软亚洲研究院院长洪小文博士的好评,并获得最佳演示奖。8月,基于ClickNP平台的“HTTPS加速器”项目获得微软Hackathon“Cloud & Enterprise”组全球第二名。在SIGCOMM大会上,ClickNP不仅被安排为第一个口头报告,还被同一个会议上的两个口头报告和另一篇论文引用。 

今年SIGCOMM终身成就奖得主Jim Kurose在获奖感言中说,选择研究课题的时候要想清楚在解决什么根本问题,这个问题未来五到十年会有多少人关心,你的优势又在哪里。我认为用可编程硬件加速数据中心这个课题很符合Jim Kurose的选择标准:通用处理器的性能瓶颈呼唤新的体系结构,新的体系结构呼唤编程语言的创新;微软作为FPGA加速数据中心领域的先驱,为学术界和工业界开辟出一片蓝海。尽管FPGA不是万能药,使用中也存在诸多困难,我还是对这种高度并行和高度灵活的体系结构充满希望。在SIGCOMM演讲的结尾,我用了一句口号:Across the memory wall and reach a fully programmable world. 



 

这有一管信息量很大的DNA

$
0
0


题图:华盛顿大学副教授Luis Henrique Ceze(照片中的男士)和研究科学家Lee Organick正将数字数据保存进DNA测序,以供“读取”并追溯原始文件。

来自微软和华盛顿大学的研究人员已在DNA储存技术上取得了初期突破性进展 —— 在分子链上存储了破纪录的200MB数据。 

然而,这项技术最令人惊叹的并非是能将数据编入合成DNA并可实现解码,而是它可实现的存储容量。 

“一旦编入DNA,数据在试管中所占空间甚至小于铅笔笔尖。”该项目的微软合伙人级架构师Douglas Carmean说。

让我们来试想一下,将一个大型数据中心的数据压缩进几块方糖大小的空间。或是因特网上所有公开数据的存储只需一个鞋盒大小的空间。这就是DNA存储技术的前景 —— 只等科学家们攻克一系列技术难关并实现大规模应用。

微软-华盛顿大学研究小组在DNA链中储存了多件艺术作品的电子版(包括了OK Go!乐队的高清视频)、《世界人权宣言》的上百个语言版本、古登堡计划前100本图书以及非营利机构全球农作物多样性信托基金(Crop Trust)的种子数据库。

今天,数据存储需求呈指数级增长,但现有存储媒介的容量却未能与之匹配。这让有大量数据存储需求的组织、机构非常困扰,例如那些需要保存病患资料的医院和需要保存视频文件的公司。这意味着信息将会丢失,而且如果没有新的解决方案,这一问题将日益严重。

试管底部的淡粉色DNA样本可以保存600多部入门级智能手机里的数字数据。

DNA也许就是上述问题的答案。

作为储存媒介,DNA具备多个优势。例如体积微小、耐用 —— 妥善保管的话,能保存很长时间(比如,猛犸象虽然在几千年前已灭绝,我们依旧能通过DNA追溯到它们),而且研究人员相信DNA永不“过时”。 

微软研究员Karin Strauss说:“只要地球上有基于DNA的生命存在,我们就有兴趣研究。所以我认为DNA永远和我们息息相关。”

这也解释了为什么微软-华盛顿大学研究小组只是全球众多致力于研究DNA这座数字象牙塔的团队之一。

研究员们认识到这一研究还有很多工作要做。

华盛顿大学计算机科学与工程副教授、研究小组成员之一Luis Henrique Ceze说,近几年生物科技产业在DNA合成(编码)与测序(解码)技术上有了长足的进步。尽管如此,要让DNA存储成为一项稳定可行的技术,团队还有很多工作要做。

但是,研究员们都很乐观。

去年,这个由计算机科学家、计算机架构师以及分子生物学家组成的研究小组已将DNA存储能力提升了上千倍。他们相信如果在整个过程中运用“纠错”等计算机科学原理可以加速完善DNA存储技术。

微软研究员Karin Strauss

为了解微软-华盛顿大学小组的研究工作,让我们回忆一下高中生物课上的DNA知识 —— DNA又被称为脱氧核糖核酸,是一种携带所有已知生命体生长、发育、运行和繁殖等生物指令的分子。

Ceze做研究的分子信息系统实验室(Molecular Information System Lab)坐落在华盛顿大学的某个地下室,“DNA是一个非常棒的信息存储分子,可以对一个生命系统运行模式的数据进行编码。我们正对这一特性进行微调,以保存包括图片、视频和文件在内的数字数据。这也是借鉴物体本质、打造更好的计算机系统一个范例。”

在DNA中保持数字数据的流程基本如下:

首先,需要将数据从1和0转译成DNA分子中的四种核苷酸碱基,即腺嘌呤(A 或Adenine)、胞嘧啶(C或Cytosine)、鸟嘌呤(G或Guanine)、胸腺嘧啶(T或Thymine)。

DNA合成公司Twist Bioscience会“将还处于电子形式的核苷酸碱基合成为DNA分子,并发还研究员。”Strauss说,“其实就是一支试管,你几乎看不到里面有什么。看上去就好像底部有一些已干燥的盐。”

利用生物技术微调随机存取内存 (RAM)以读取数据,是又一个从计算机科学借鉴的概念。研究小组通过一种分子生物学家经常用来控制DNA的技术——聚合酶链式反应(PCR)——对所需回收的分子链进行复制或者“放大”。一旦所需信息密度大幅增加,研究员将开始采样,测序或解码DNA,然后进行错误校正计算。

关于科研的介绍就到此为止了,最后一个问题:为什么要选了OK Go!的音乐视频? “我们非常喜欢这个视频,因为它和我们的工作有许多相似之处。”Strauss笑着说,“他们非常有创意,把形形色色的东西融入自己的音乐里,我们的工作也正是如此。”



 

【请签收】您有一个免费的智能英语私教待领取

$
0
0

英语作为国际第一通用语言以及世界上使用最广泛的语言之一,在中国,越来越受到人们的重视,如今,很多人都能轻松地用英语进行简单的交流。可是大家真的都学好英语了吗?

事实上,良好的英语水平早已成为职场必不可少的核心竞争力,一项关于职场英语的调查显示,35%的受访者在上一次面试中需要说英语,84.2%的一线城市受访者认为英语水平与职业机会和晋升息息相关。

然而,由于缺少英语语言环境,不少国人都面临“张不开嘴”的窘迫,而现代都市人繁忙紧凑的生活节奏,也让大块练习英语的时间少之又少。为了帮助更多人将英语学习融入日常,微软亚洲研究院和微软互联网工程院合力根据中国用户的语言学习特点,推出了一款名为“微软小英”的英语口语练习应用,帮助用户彻底摆脱“Are you OK?”的尴尬场景。

智能“私教“让英语学习成为新日常

“微软小英”是一款融合了语音识别、口语评测,自然语言处理、语音合成等人工智能技术而实现的智能人机交互服务,现已通过微信服务号的形式上线。用户只需搜索“微软小英”并关注,即可与小英一起学习英语。利用每天十几分钟的碎片时间“撩一撩”小英,让英语学习成为新日常。

为中国用户量身打造四大学习模块:情景模拟、情景对话、发音挑战、易混音练习

微软小英最为与众不同的功能便是可以实现用户与小英用英文“愉快的聊天”。在人机对话时,用户往往会犯“尴尬症”,因为计算机的发音生涩,对话进行并不会像与真人交流那么自然。然而 “微软小英”的发音却听上去标准且不带“机器口音”。

想要拥有宛若私教般的英语口语情景对话练习?请点击“情景模拟”功能吧。在“情景模拟”学习模块中,目前已有150余种场景,涵盖了20几项会话主题。用户可以在菜单中选择对话练习的主题场景,比如:社会交往、情感表达、面试达人等。随后小英会对用户所选择的场景进行描述并向用户提问。而用户则可根据图片提示,通过麦克风录音进行回答。事实上,小英说的每一句话都并非事先设置好的,而是利用语音合成技术,将需要反馈给用户的英文信息实时转化为标准、流畅、自然的语音与用户进行对话。

记录下用户的回答后,计算机会通过语音识别“听”用户说了什么,然后通过自然语言理解技术“听懂”用户想表达的含义,再判断用户的回答是否符合要求,最后给出一个分数评价。几轮对话之后,小英会对该场景中的重点词汇和用法做个性化的总结,帮助用户加深记忆、巩固知识。 

如果说情景模拟功能是进行集中训练,那么“情景对话“功能则是日常的巩固。“微软小英”根据用户的语言水平推荐适合的情景进行轻松对话,就像跟外国朋友语音聊天一样。随着学习的逐步深入,“微软小英”会逐渐增加课程的难度,提高对表达的要求并且减少提示,用户可以根据关键词自由发挥,与微软小英畅所欲言。

如何正确发音也是困扰国人学习英语的一大难题,许多人长期把羊(sheep)读成船(ship),把猫咪(cat)读成风筝(kite)而得不到及时纠正。纠正音素层面的发音错误是一项长期而艰巨的任务,一对一的“老师-学生”教学模式虽然有效,却受到时空和资源的限制而难以普及。而基于神经网络,经过大量机器学习炼成的计算机辅助教学系统“微软小英“则能随时随地、不厌其烦地为每一个用户甄别其发音的错误与缺失。当用户在发音挑战中选择一个音标后,小英就会为用户讲解音标,这里不仅有音标发音的文字讲解还有发音口型的视频演示。用户通过单词练习发音,熟练之后则可以选择“开始挑战”,在完整的英语句子中考核对该发音的掌握。运用语音识别技术,小英最后会给用户打分。用户可以反复挑战,通过测试检验发音是否有所改善。

此前,微软必应词典应用也开启了一个口语挑战”环节,与微软小英的“发音挑战”模式可以说是同根同源。“口语挑战”搭载在必应词典的“学习”版块中,让用户在查询单词之余能够进行口语测试。挑选一个感兴趣的主题,如绕口令、大学口语、英语达人等,然后跟读例句并上传录音,系统就会对整个句子的发音进行评分,还会对每个单词的发音进行评分,在反复练习的过程中,口语水平自然增进不少。

很多英语学习者还面临着单词发音的另一难题——部分音素的辨识度不够,比如”n“和“l“、”f“和”h“。有些音素本身发音极其相似,再加上受地方方言口音的影响,很多学习者都有一些分不清的音素混淆。为了解决此类困惑,”微软小英“特地加入了易混音的学习模块。点击易混音练习,会出现20组元音辅音,用户先阅读详细的讲解,再转到练习界面,根据听到的读音,在两个单词中选择一个;如果答案错误,自己逐个练习发音,小英相应打分。这个方法,可以帮助用户清晰辨别元、辅音的发音差异,让自己的发音更为标准、地道。

个性化定制私人学习档案:打卡分享、单词修炼、中英互译、

每个人所处的环境不同、花费的时间不同,语言学习进步的速度也因人而异。在首次使用微软小英时,系统会通过三个维度对用户进行测试,而后根据用户的英语水平,个性化推荐适合的课程。

“微软小英”会监测用户与机器的互动,学习过程中的每一次点击、输入和对话都会进入小英的评估系统,并在此基础上建立用户的个人学习档案。用户可以在自己的主页上查询学习进程积分,每天的学习过后,可将进度分享到朋友圈,记录自己在英语学习路上的行程与脚印。

 除此之外,小英还有两个不为人知的隐藏技能。一是它会自主判断用户在情景对话中不熟悉的单词,将单词加入生词表。比如,如果用户在情景对话中无法轻松自如地说出“available”这个单词,小英就会把该单词加入生词表,当用户背单词的时候就会提醒用户学习。二是可以识别情景对话中不准确的发音,把需要着重练习的发音加入音标训练中,方便用户自我检验。

用户可以在小英的“单词修炼”功能中选择想要背诵的单词书,设定每日背单词的数量,小英便会科学地为用户设计学习计划。背完单词之后,结合图片进行测试,巩固一天所学,对“少壮不努力,老大背单词”说再见。

语言学习研究发现,只要学习者在不同的情形中见到同一个单词7次,通常就可以牢记这个单词。而“微软小英”充分利用了这一学习特性,把用户不熟悉的词汇在发音练习、情景对话、单词修炼和语音聊天等多个功能中反复呈现于用户面前,悄无声息地帮助用户牢记更多的词汇。

而在“中英互译”功能中,小英则运用了微软必应词典的机器翻译技术。微软开发了专门的机器学习算法以便从语料库中获取大规模的语言翻译知识,让翻译不再雷人。通常,人们在说英语的时候会习惯性的使用个人熟悉的高频词汇,而不愿意去尝试新的词汇。了解学习者这一特点的“微软小英”会在翻译词汇时给用户更多的选择,如“了不起”可以用“amazing”、“extraordinary” 或“terrific”等。让用户在使用中得到一些新的表达方式,为口语增色。

除此之外,“微软小英”还深知把握时间的重要性。如今的上班族工作都十分繁忙,不少人每天只有在地铁上或者睡前才有十几分钟的时间来练习英语。对此,微软小英会根据用户每天的生活/学习习惯在适当的时间提醒用户持续学习,贴心的提醒推送提高了用户坚持下去的可能性。而“微软小英”轻松的话风和学习节奏也不会增加“拼命三郎”们的生活负担,每天随手点一点,随口说一说,就可以有不小的提高。

“微软小英”提供了攻克英语口语难题的三个锦囊:1、基础发音;2、日常交流;3、词汇积累。曾经需要多个APP完成的工作,现在一个“微软小英”就全部搞定!

在被剁成渣的时间里,在鸭梨山大的工作外,智能的微软小英帮你把坚持学习英语的生活方式进行到底!

微软小英是如何炼成的?

在小英的情景模拟、情景对话、发音挑战和易混音练习模块中都融入了口语发音打分功能,那么小英是如何对用户的发音进行评测的呢?

小英的口语评测系统,是搭建在一个由机器学习训练成的神经网络的语音识别系统上,基本处理流程是利用语音识别模型,根据跟读文本(情景对话和情景模拟中是自动识别出的文本),对用户的录音进行音素层级的切分。每一个小单元再和其相应的标准发音模式进行匹配,发音越标准则匹配越好,得分也越高。每一个单词的得分则是相关音素得分的加权平均,句子层面的得分是各单词得分的加权平均。系统中各个标准发音的模型是深层神经网络在几百个发音标准的美式英语数据库中训练而成的。

在易混音练习模块中,除了单词的标准发音序列,小英后台还会构造包含易混音的扩展词网络,然后根据用户的实际录音,自动的识别出其实际的发音序列,通过对比即可找出其发音错误。下面给大家一个例子:下图给出的是单词‘thanks’的正确发音序列(s ih ng k s)和一个可能的错误发音序列(th ih ng k s),系统根据用户发音,自动识别出与用户发音最接近的路径。若识别的序列为thih ng k s, 则判定用户s错发成了th。通过这些常见易混音的练习,小英可以帮助用户不断地纠正错误,从而练就一口标准发音。

如果用户对自己的常犯发音瑕疵比较了解,则可以直接选择易混淆音素对进行区分性练习。但很多学习者对自己的发音问题并不了解,也不清楚哪些音素经常发错,哪些音素对分不清。针对这一点,小英还提供了一个独特的功能:把脉问诊。在用户进行发音挑战或情景模拟时,小英后台默默地对用户的各个发音进行分析,统计出用户最常见的错误发音和最易混淆的音素对。因此,经过一段时间的练习和积累,小英就能对用户的发音习惯了如指掌,为用户制定个性化的学习计划。在易混音练习模块中,最顶端的音素对就是小英推荐的该用户最常犯错的易混音。

小英的情景模拟和情景对话功能,是基于微软亚洲研究院多年积累的各项技术之上完成的。为了不但能够从发音的标准程度,并且能从语义和语法层面进行评价,小英采用了包括语音识别,口语评测,自然语言理解,机器翻译等多项技术。用户在微信中上传自己的回答以后,小英先用语音识别来理解用户说了什么内容,然后根据情景相关度(类似微软小冰中的自然语言理解技术)和语法语义的正确性进行回答内容上的打分,最后和发音打分的结果综合给出一个实际得分。所以你会发现即使你的发音再标准,如果”答非所问“的话依然得不到高分。

技术集结,成就智能

微软全球资深副总裁,微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士曾说:“微软将引领一场‘无形突破’,计算转向云端,人们将能够从海量数据中获得集体智慧并创造更多奇迹,同时整个计算机生态都将以用户为中心而不断演进。未来,技术将会像空气一样无处不在,以隐形的方式渗透到各个不同的领域,提升生活及工作方式。”微软小英正是在这样的背景下应运而生的。

在微软内部,从管理层到普通员工都共同经营着创新的企业文化。而其中,微软亚洲研究院仿佛创新的源泉,为微软的众多产品和服务不断提供源于基础研究的技术突破。微软鼓励极客创新精神,鼓励思考、质疑与碰撞,鼓励跨领域、跨小组合作,让极客们可以不惧失败地大胆尝试,创造出最贴近用户需求的智能服务和产品。这样的环境成就了微软小英,小英背后集结了微软亚洲研究院多个研究小组在各自研究领域的多年积累,比如自然语言理解、计算机视觉、语音识别等方面的技术突破。

未来,希望“微软小英”可以帮助越来越多的国人在英语交流中获得自信,让身在校园或职场的你不断取得更大的进步。


 

计算语言学思想碰撞的浪潮:ACL 2016

$
0
0

作者介绍:

黄丹青,是微软亚洲研究院实习生,本科毕业于中山大学,目前是中山大学和微软亚洲研究院联合培养博士生。她的研究兴趣为knowledge computing和question answering。

闫昭,是来自北京航空航天大学的同学,今年博三,在微软亚洲研究院NLC组已经实习了两年多了,他的研究兴趣是question answering和dialogue system。

备受关注的ACL

ACL会议是计算机语言学和自然语言处理最顶尖的会议之一,每年都吸引了许多学者投稿及参与。今年8月初ACL 2016在德国柏林洪堡大学举办。柏林是一座具有深厚文化底蕴以及历史沧桑感的城市,洪堡大学更是柏林最古老的大学,先后出过29名诺贝尔奖获得者。其校训是校友马克思的名言:“从来哲学家都在解释这个世界,而问题在于改变这个世界”。在这个知名学者倍出的大学里,尤其学校创始者Wilhelmvon Humboldt,他是位出色的语言学学者,ACL 2016可谓是带来了又一波计算机语言学思想碰撞的浪潮。

会议上所用的conference book

此次会议共收到1290篇投稿,接收328篇,其中长文231篇,短文97篇,总体接收率25%,与往年差不多。超过1600多人注册参加此次会议。微软、谷歌、亚马逊等IT巨头都参与了企业展示。从中可以看到,ACL受到了越来越多学术界与工业界的关注。从接收的论文来看,研究领域十分的多样化,使用的模型更新速度也很快,毫无疑问,其中深度学习(deep learning)相关的占据了半壁江山。整个会议日程安排得很好,美中不足的是由于论文数量多,一天安排了多达7个session同时进行,感兴趣的几个报告都赶在同一个时间段了。

精彩纷呈的ACL

会议举办了两场特邀讲座,分别是来自加州大学的Amber Boydstun以及爱丁堡大学的Mark Steedman。Amber Boydstun主要的研究方向是政治学而并非语言学,但她引进了语言学中Tone和Frames等理论分析文本研究媒体和政治之间的联系。她结合了心理学、新闻学以及计算机科学等多个学科的理论,这可能也是大会想要传递的一个信息:鼓励大家对语言学理论以及其他学科的运用。

另外一场讲座则是由著名的Combinatory Categorial Grammar (CCG)的发明人之一,英国爱丁堡大学的Mark Steedman教授带来的“On Distributional Semantics”,场面相当火爆。他回顾了目前基于词汇的表面意思或者隐含意思这两大类构造分布式语义的方法,以及在QA,机器翻译等的一些应用,整个介绍十分完整,同时他指出,语义任务中要解决的最难问题不是逻辑运算,而是在同一语义下能表达的语言是多变的,“如何定义内容(content)并使之能够支持逻辑运算和常识推理”是关键。进而,教授讲述了他们在语义逻辑表达概率化方面的一些相关工作。(讲义链接http://homepages.inf.ed.ac.uk/steedman/papers/semantics/acl16a.pdf)

海报展示(一)

海报展示(二)

另外,组委会还根据不同的话题,安排了总共44场报告。其中,至少被安排了两场报告的主题包括,Parsing(4场),Word Vector(3场),MachineTranslation(3场),Word Meaning(2场),Question Answering(2场),Semantic Parsing(2场)。 本次大会所有的报告均在洪堡大学的校园内的阶梯教室进行,其中Audimax和Kinosaal是两个可以容纳听众最多的两个。Word Vectors,Semantic Parsing, 以及Question Answering的报告均被安排在了这两个大厅中进行。我们多多少少可以从组委会对于报告的安排,一窥当前自然语言处理领域的热点话题。

会议的重磅新闻之一就是终身成就奖的颁发,得奖者是斯坦福大学的教授Joan Bresnan。谈起她,可能最多人提起的应该是她在70年代定义了一种语法框架,LFG(lexical functional grammar),强调结构对语言的重要性,提出了句法结构、参数结构、形态结构等,成为了许多机器翻译工具的理论基础。她的得奖感言主题是:Linguistics:The Garden and the Bush。这个题目十分形象地体现了她的工作: 在真实场景下语言并不像花园那样可以单纯用理论去刻画,而是像灌木丛那样,因此她把统计的方法引入到语言学研究。

会议挑选了十篇outstanding论文,deep learning相关的占了绝大部分。而今年大会的最佳论文奖并非任何一篇关于深度学习的文章,而是一篇讨论符号语义性的文章——来自加州大学伯克利分校E. Dario Gutierrez的工作Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric Learning for Kernel Regression。该论文主要研究词形式和词义之间是否有联系的问题(比如一些url结尾的单词curl,furl等都与”卷曲”的意思相关)。论文的贡献在于,从全局更好的找到从词形式到词义的映射关系,通过实验分析对之前不同工作得出的不同结论做了一个解释和统一。作者用很简单直观的统计学习模型解决十分纯粹的morphology形态学问题,加上对这个任务的一个分析总结,逻辑十分清晰,读起来十分舒服。

大会的最佳学生论文奖授予了剑桥大学Steve Young组的Pei-Hao Su。他们的论文On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems,提出了一个在线学习框架,可以显著减少在语音对话系统中使用强化学习所需的数据标注量,并减弱用户反馈中数据噪音对于对话系统策略学习的影响。

微软在ACL

微软有20多位研究员参加了ACL 2016,是本次大会上一个最为重要的研究团队之一。微软研究院的首席研究员Bill Dolan第一时间在他的博客上发布了题为“Microsoft NLP researchers convergeat ACL 2016, edging ever closer to human-like conversational experiences”的博客 (原文请见: https://www.microsoft.com/en-us/research/microsoft-nlp-researchers-converge-acl-2016-edging-ever-closer-human-like-conversational-experiences ),博文介绍了微软研究院本次大会的与会情况。根据Bill的统计,本次微软研究院共为与会者带来了1个Tutorial,2个workshop,以及17篇被录用的论文。下面我从中选了一些我们亲身参加了的部分,为大家详细介绍一下:

其中的一场Tutorial (Understanding Short Texts)是由微软亚洲研究院的王仲远以及前微软亚洲研究院研究员王海勋共同讲解的。仲远通过数据说明了短文本分析在大量互联网应用中的重要性,分析了短文本理解中的一些特点与挑战,并介绍了多种基于知识库的显示表达模型及应用(Knowledge Based Explicit Representation Models)。 而海勋则从隐式表达模型的角度对短文本分析进行了讲解,并做了最后的总结。(讲义链接:http://www.wangzhongyuan.com/tutorial/ACL2016/Understanding-Short-Texts/)

来自微软亚洲研究院的王仲远及前研究员王海勋正在共同讲解tutorial

ACL论文是如何写成的

黄丹青:

我们团队的工作是《How Well Do Computers Solve Math Word Problems? Large Scale Dataset Construction and Evaluation》。在计算机自动解数学题这个任务上,之前的工作都是基于一些小规模而且多样性不足的数学题集,我们认为这样得出来的结论可能不太有代表性。因此我们使用半自动的方法搜集标注了多达1万8千道小学数学题,并在此基础上对现有系统重新评估。从目前来看计算机的自动解题能力还是十分薄弱,接下来我们会专注于如何提高这种计算机的这种能力。

从定义任务,提出想法,到一步步完成论文的过程中,微软亚洲研究院的导师都给我了十分有用的帮助和指导。除了技术支持,他们更多的是教会了我如何更全面地思考分析问题,做每一步之前都要思考背后的motivation,如何严谨地论证每一个细节。我十分佩服他们对事情的洞察力以及对全局的把握能力。

这次收获很多,除了对自己相关工作有更多交流见解之外,还了解了其他领域最前线的发展方向,发现能借鉴的有很多。参加ACL让我感觉到,大家都怀着对学术的热情,踏实地专注于自己的研究,通过众人之力一步一步推动着计算机更好的发展。这让我能更沉下心来继续我往后的研究。

闫昭:

在本次ACL中,我们的文章DocChat: An Information Retrieval Approach for Chatbot Engines Using Unstructured Documents讲述了一种基于检索与排序直接从非结构化文档中选取句子作为聊天机器人回复的方法。以往的方法无论是基于检索的还是基于生成的,都会依赖大量的对话句对作为训练数据。而在给定领域的情况下,大量的对话语料是比较难以获得的,但普通的文本就容易获取的多。我们的方法现在已经运用于新一代的微软小冰跨平台商业解决方案之中,助力小冰的自主知识学习技能。

非常庆幸我参与了DocChat这个项目,参与了一个解决实际产品问题的全过程。从对问题的分解,模型的构建,到实验的验证,数据的分析,最后到论文的撰写,参与整个过程让我受益非凡。非常感谢我的mentor段楠研究员,以及NLC组所有的研究员和同学,感谢他们对我的帮助以及所营造的科研学习氛围。

近些年,自然语言处理在很多方面取得了非常快的发展,也衍生出了很多新的科学问题。参加这次大会,让我近距离的接触了这些最前沿的成果,让我有机会与NLP领域的同仁交流与学习。在我个人比较关心问答和对话系统领域,我听到了很多精彩的报告,这些带给了我许多关于未来研究方向的思考,更是激励我做好眼下研究工作的动力。




 

微软识花:精细物体识别是怎么做到的

$
0
0

这个星期,估计很多人的心情是这样的…… 

更有甚者,估计出去玩的行李都已经收拾好了…… 

虽然硬件装备已经准备齐全,但是你的软件装备呢? 

十一,各个公园,商场等城市的各个角落都摆上了给祖国母亲庆生的鲜花,妆点着节日的气氛。天安门广场上的巨型花坛,也吸引了来自全国各地游客的驻足和拍照。那么,这些花坛上都有哪些花呢?这时候,你可以默默掏出“微软识花”应用,深藏功与名。 

400种花卉一键识别 

“哇,这朵花好美!这是什么花?” 

“额,我来上网搜一下……”(然而搜索起来却无从下手) 

很多人都遇到过这种措手不及的小尴尬,尤其是带着小孩子或者小伙伴旅游和遛弯时,只能一脸茫(meng)然(bi)地面对Ta的好奇心。毕竟植物专家说,全世界已经发现的花至少有25万种。即使你知道是什么种类,也很难说出关于花的故事来。 

而微软亚洲研究院推出最新款智能识别应用——一位可以随身携带的植物专家“微软识花”,可以帮你破解花的秘密。拿出手机,打开App,拍张照片,一键识别,随手解救好奇心。微软识花应用所能识别的花卉覆盖了中国的绝大多数花卉。微软识花的打开方式应该是这样的…… 

首先,打开微软识花应用,现场拍摄或从手机图库里打开一张花儿的照片,将花朵移动至指定位置。然后,应用会自动识别出花朵的名称和类型,并显示出匹配度,告诉你花的基本特征、药用价值等。以上动作完全可以在不联网的条件下实现!这就意味着,当你在流量捉襟见肘的情况下,照样可以用没有网的手机识别出新奇的花卉品种。 

知道是什么花还不过瘾?别急,“微软识花”有一个独特的“花语”功能。赏花要懂花语,花语是人们赋予花的一种象征,可以用来表达人的某种感情与愿望。不同的花有不同的花语,在没有了解花语时就乱送别人鲜花,结果只会引来别人的误会。花语虽无声,但此时无声胜有声。对于每一种花,系统都会附上一段娓娓道来的花语。比如“六道木”的花语是“对你的念想沿六条直线自下而上,终于在顶端开出了最好看的花”,是不是恰似你现在的心情呢?一键分享到朋友圈,用最适合你心情的曼妙花语来表达你此刻的心意吧! 

大家在使用时或许还能发现藏在应用里的两个彩蛋。 

微软识花应用带有一个专门的花儿搜索包,将400种园艺花卉收录在系统中,按字母顺序排序。也许有的花你只听说过名字,没见过“真容”,那么这款应用就可以帮你提前见识一下。只有没听过,没有搜不到。400种花基本涵盖了我国城市绿化和公园常见的花卉品种,想看哪种花都可以搜索到。 

另外,如果你玩腻了识花,微软识花还有另一个有趣的功能等待你开掘:那就是对其他常见的日常物体进行识别。拿件衣服、摆个文具来测测这款应用的“智商”,听起来也是挺有趣的事呢!对于常用物体的识别采用了微软亚洲研究院最先进的图像识别技术。在内部测试中,识别精度可以达到90%。 

精确识别:不仅仅是人工智能 

除了大火的博物君,在微博上还有许多类似的账号如@深山虫吟ChenZ、@果壳自然控、@开水族馆的生物男等等也吸引着大家的眼球,这些不同的账号背后代表的通常是某一类垂直的专业知识。这些账号的大受欢迎也从侧面说明了精细物体识别有着极高的门槛,对于人类而言需要的是长时间的训练和知识的积累,此外还要求极为细致的观察能力。例如对于人们来说,可能很轻而易举地看出图片上的植物到底是花还是草,但却很难判断出花儿的具体种类。而由于计算机识别图像的方式原理与人类有所不同,因此这一类精细物体识别对计算机而言则相对简单。 

这款应用使用流程很简单,背后的技术却不见得那么简单。市场上已经有一些识猫狗等动物的应用,而相比于识猫识狗,花的识别更具有挑战性。狗的种类不超过300种,而对花来说,已经被发现的野生植物就有几十万种,还有大量奇形怪状的新品种在不断地涌现。而微软亚洲研究院多媒体搜索组的研究员们在精确识别技术方面有着长久的积累,他们正希望做这样一些有挑战性的事情。 

这款App主要应用了深度学习技术。研究员们借助中科院植物所提供的260万张花的鉴定照片,对机器识别模型进行训练。但是在弱监督的条件下,对260万张图片进行机器学习是一个相对低效率的过程,因为人的抽象能力和想象能力是计算机很难做到的。研究员傅建龙介绍道:“传统的深度学习技术是一个自下而上的学习过程,让计算机在底层的高维数据里学习隐藏的高层语义表达。如果我们能在人工智能之外加入人类智能,对机器的深度学习进行指导,把自下而上和自上而下的学习过程相结合,会大大提升深度学习的精度和效率。”把人类的经验和人工智能相结合,才能迸发出增强智能的魔力。研究员们正是在这方面下了很大功夫。 

总所周知,分类学家对种类繁多的生物界做了一个阶层划分,即制定了“界门纲目科属种”的分类系统,做精确识别也需要一层一层递进,才能提高识别的准确性。在识花方面,主要是需要机器对“科-属-种“三个基本层级有一个提前的认知。研究员先加入一个花卉本身的层级结构,将它作为一种先验的知识,来指导机器学习。研究员们考虑到层级的信息,例如,不同的科的植物之间会不会有相关性?于是他们通过捕捉这样一种相关性来训练模型。 

按照“科-属-种”的层级划分,首先确定花的“科”,再通过一些细节的特征,例如花瓣的分布、形态等来确定它归于哪个“属”,最后通过花瓣的颜色、纹理等更为细微的特征来具体判断它属于哪个“种”。一朵花就是这样被计算机识别出来的,当然每一种花的识别过程也是“因花而异“的。 

那么人类是如何识别出花的种类的呢?假设现在摆在我们面前的是一朵花的照片。我们首先会注意到这张图片中花出现的区域,确定这张图片上是否存在花,以及一共有几朵花,并排除旁边的草地等干扰项。接下来,你可能会将你的注意力放在花的一些关键特性上,如花的颜色、形状、大小等等。通过这些关键部位的特征,例如花是单朵顶生,颜色为黄色白色相见,形状呈杯型或碗型等特征,可以大致确定这是一朵郁金香。 

研究员们基于以上人类观察物体、对物体的种类进行判断的过程,独具创新地开发了一个自动的视觉多级注意力模型,并结合深层神经网络技术,用于图像的处理与识别。第一级是物体级别的关注,即自动关注到图片中花所在的区域,而排除其他不相关的因素,如杂草等。第二级之后则是由粗到精的部位级别的关注,即关注到花的具体部位,然后对花朵的部位特征进行学习和识别。 

众所周知,深层神经网络技术在处理图像问题上的效果显著。但一直以来,深层神经网络都被称之为黑盒子,大家对它了解都不算充分,深层神经网络的理论方面还有待突破。但当黑盒子打开之后,大家能从中学习到很多的东西。研究员们通过一些可视化的策略,了解这些网络究竟学到了什么样的内容,看到每个卷积模板(filter)都代表什么样的语义。其实,卷积神经网络的中间层一些部位的信息已经可以自动学出来了,我们就把这些自动学出来的的模式(pattern)自动进行归类。这些归类出来的每一个聚类都可以理解成是花的某一个部位的集合。虽然模型本身并不知道其中的某一个聚类究竟是花瓣还是叶子或是花蕊,但它已经知道这是属于某个部位的信息,这样就构建了部位检测模型。将由原始图像生成的每个候选框都经过每个部位检测器,而每个部位检测器则会自动检测出这个候选框内最接近这个部位的区域,这样就实现了第二级——部位级别的关注。 

弱监督学习与大规模数据 

提高图像识别系统的准确度,数据量始终是一个绕不开的关键问题。数据量越大越准确,那么最终训练出来的模型准确度也会相应地提升。对于花朵识别问题,研究员们起初是邀请一些植物学家们对花的图像进行种类标注。但研究员很快发现,这种标注数据的方式无论是从成本上还是时间效率上都算不上是一个最佳的选择。那么,有没有可能通过群体的智慧来解决这个问题呢?研究员们最终选择从由植物专家提供数据的专业网站爬取数据,并利用弱监督学习(Semi-supervised learning)的方式进行数据的训练。

监督学习(Supervised learning)和无监督的学习(Unsupervised learning)概念大家已经不算陌生。前者会对数据进行标注,而后者则是对输入的数据集直接进行建模。研究员们在这里采用弱监督学习的方式是希望模型能够生成比较准确、清晰的标注,但前期的数据并不能完全提供这一类的信息,需要模型自己去推断。在看图识花的这个例子里,弱监督学习中的“弱”包含了这几个方面。第一点弱的地方在于用于机器学习的数据集只有图像级别的标注,即植物学家在标注图片时只标注了这张图片上有什么花,但是并没有标注花在哪,也并没有标注出最需要注意的关键识别区域在哪里(但人类判断的最关键的识别区域未必是计算机认为的最关键的识别区域)。其次,研究员使用的网络上大规模标注的数据的时候,这些数据并不一定是准确的,而且这类数据有着很多的噪声。此外,这些数据大多比较零散,结构化并不是很好。因此,弱监督学习的方式既可以兼顾到数据质量的不足,又可以保证用于训练的数据量的庞大,最终保证了入驻每个人手机中的微软识花应用的准确性。 

携手植物专家:跨界玩创新 

正如前面所言,植物专家的帮助对提高花卉的识别能力起到了基础支持的作用。这次“微软识花 “app的开发是微软亚洲研究院和中国科学院植物研究所多年来学术合作的成果。中科院植物所不仅提供了260万张花卉的识别图片,还提供了经过专家鉴定的中国常见花列表。而微软亚洲研究院的研究员们利用先进的技术开发出识别花卉的算法,并把识别结果挑选出来,经植物所专家鉴定。经过了两三次迭代的过程,才得到了最终训练机器识别的样本集合。中科院植物所植物专家的帮助对提高花卉的识别能力起到了基础支持的作用。此外,科学出版社为我们提供了花卉的专业知识。 

这次合作缘于一次机缘巧合。去年,在中科院植物所举办的一次研讨会上,微软亚洲研究院常务副院长芮勇博士展示了研究院在计算机视觉方面的最新技术,植物所的专家很感兴趣,希望可以把最新的识别技术应用到我国的植物调研和科研中去。植物所的专家有这样一个初衷,那就是了解全中国的植被分布。之前由基层调研人员通过翻阅手册来判断各地有哪些花,但是基层人员的专业素养不可控。如果能够借助计算机技术帮助他们识别,那么速度和广度要提高很多。而微软亚洲研究院在深度学习算法和计算机视觉方面有着领先的技术基础,可以帮助他们做一些目前做不到的事。同时微软亚洲研究院的研究员们也希望借此机会,将精确识别技术更好地得到应用,并且在应用中进行进一步锤炼和创新。 

跨学科的学术合作也是微软亚洲研究院长期耕植的领域。“对于任何物种的分类都是艰难的,”芮勇表示。“关于这项技术的难点在于让计算机如何辨别细微的差异。而真正大的数据都在跨学科领域里产生的。我们与中科院植物所的这次合作为微软识花提供了大量的专业数据,让我们的计算机技术得以更好地应用。同时,微软的技术也在不断加速交叉学科的新突破。” 

技术让生活更便捷 

一款看似简单的应用背后却是微软长期以来在机器学习领域的技术积累和跨界合作的成果。微软亚洲研究院不仅重视基础研究的突破,还注重将基础研究的成果应用到更加广阔的生活和学术中去,让技术为人们真正带来改变。 

在谈及微软识花之后的技术走向时,研究员傅建龙提到了多个发展方向。第一点是加入更多花卉的种类,将识别的范围拓展到多个国家,并且提供多语言的产品以及提供更多的平台。今后出国旅游也可以带上这位植物专家,帮你识别万千花卉。第二点是提高识别的精确度,在学术合作中推进数据库在质量和范围上的提升。第三点是拓展产品的科普功能,丰富关于花的知识,提供更多的互动功能,从而实现更好的科普。不仅让你知道是什么花,还为你拓展在博物知识方面的涉猎,让你离“博学之才“更近一步。第四点,研究员希望持续不断地精进识别算法模型,并实现离线版本与在线版本的无缝切换,让微软识花这一类精细物体识别技术也能以API的形式开放出来,登陆在像微软认知服务(Microsoft Cognitive Services)一样的人工智能服务平台,造福更多的开发者们。最后一点是希望该项目能对专业研究者的科学研究带来便利,比如帮助植物专家发现新的物种、帮助基层调研人员精确识别花卉品种等。不管你是普通大众,还是专家学者,让学术研究服务更多的人,一直是微软亚洲研究院的目标所在。

目前,微软识花应用已登录iOS应用商店,供大家免费下载啦!想随身携带一位植物专家吗?想听听Ta的花语和秘密吗?快去试一试吧!

扫描二维码或点击下方链接即可下载微软识花应用

​下载链接:https://itunes.apple.com/cn/app/wei-ruan-shi-hua/id1153109870?l=en&mt=8


 

亚马逊,谷歌,Facebook,IBM和微软:为了AI,是的,我们在一起了

$
0
0

美国时间9月28日,也就是几个小时前,亚马逊,谷歌,Facebook,IBM和微软宣布成立了一家非盈利组织:人工智能合作组织(Partnership on AI),目标是为人工智能的研究制定和提供范例,推进公众对人工智能的了解,并作为一个开放的平台来吸引民众及社会的参与和讨论。 

为了AI,是的,我们在一起了。 

AI合作组织(Partnership on AI)的目标包括三个方面:一、为人工智能的研究提供示范,涉及的领域包括伦理、公平、和包容性;透明性、隐私性和共同使用性;人和AI系统之间的合作;以及相关技术的可靠性与鲁棒性。二、从专业的角度促进公众对人工智能的理解与科普, 并定期分享人工智能领域的进展。三、为人工智能领域的研究人员提供一个可供讨论和参与的开放式平台,让研究者们之间的沟通更简单无阻。 

同时,该组织也分享了他们的四大使命:一,促进专家之间的交流,这些专家不仅限于计算机科学领域的,还包括心理学、哲学、经济学、社会学、法学等领域的专家共同讨论,并对研究问题提供专业的指导。二、促进AI领域人员之间的交流。无论是AI技术的开发者还是使用者,以及可能会受人工智能影响的各个行业(如医疗健康、金融服务、交通运输、商业、制造业和媒体等)之间的交流、研发及应用。三、提供第三方的研究支持。针对人工智能的伦理、安全、隐私、鲁棒性的优秀研究、应用或是服务都有机会得到该组织包括资金在内的多方面的支持。四、促进信息介质材料的发展,这些介质包括在人工智能的核心领域以及相关学科当前研究中使用到的,以及在未来发展中可能会使用到的材料。 

除了五大科技巨头公司加持之外,该AI合作组织的理事会成员阵容也十分豪华。小编从微软雷德蒙研究院院长Eric Horvitz的脸书账号上扒下来他与其他成员的合影。你认识几个?(从左至右分别是微软雷德蒙研究院院长Eric Horvitz、IBM 伦理研究员Francesca Rossi、Facebook AI实验室负责人Yann LeCun,以及Google DeepMind联合创始人Mustafa Suleyman)。 

而微软雷德蒙研究院院长Eric Horvitz及Google DeepMind联合创始人Mustafa Suleyman目前共同担任了AI合作组织的联合主席。“我们正在邀请很多不同的研究实验室和机构,” Mustafa Suleyman表示,“我们鼓励AI领域能有更多各种各样的努力与尝试,这十分重要。我们将尽可能真正地保证组织的开放性。”

微软雷德蒙研究院院长Eric Horvitz另一个更被大家熟悉的身份是“AI先生(Mr. AI)”。他曾任美国人工智能学会主席,在他的资助下,一个名为“人工智能百年研究”(AI100)”的宏大研究计划在斯坦福大学展开,它的主要内容是分析和预测人工智能将如何影响人类,从国家安全到公众心理以及个人隐私,几乎涉及了生活工作中的各个方面。这个将持续一百年的研究已于本月初推出了他们的首份研究报告:斯坦福「人工智能百年研究」首份报告:《2030 年的人工智能与生活》 

AI合作组织的理事会成员将会根据特定的标准,由企业、学术机构以及其他非盈利机构的成员组织。“未来几周内,我们将公布加入AI合作组织的非企业成员以及组织内的其它组成部分。” Suleyman表示。在该组织公布的新闻稿中提到,他们已经在与人工智能发展协会(Association for the Advancement of Artificial Intelligence , AAAI)以及艾伦人工智能中心(Allen Institute for Artificial Intelligence , AI2)就加入组织一事进行洽谈。而AI合作组织的资金支持也将全部来源于亚马逊,谷歌,Facebook,IBM和微软这五家创始公司。虽然这些公司在商业上都存在彼此的竞争关系,但这并不妨碍他们选择走在一起。 

如今,人工智能这个概念离大众已经越来越近,我们也看到了人工智能背后蕴含的无限可能。从能够陪你插科打诨的微软人工智能姐妹花微软小冰和小娜,到用人工智能技术解决人类最艰巨的难题之一——癌症;从人工智能会听会说会翻译,到会看会想会识别;从看不见的隐形革命,到看得见的第四次工业革命……尽管现阶段的人工智能还不可避免的存在各种不足,但我们相信在人工智能的帮助下,人们的生产力能继续提高,每个人的计算体验也会进一步提升,而这个世界,正因为这些技术变得更加美好。这些也正是微软不断努力的方向。 

了解更多AI合作组织的相关信息,请访问官网http://www.partnershiponai.org/ 



 

Ta说:2016微软亚洲研究院第二届博士生论坛

$
0
0

“聚合多元人才创造无尽可能,让每一位优秀博士生得到发声成长机会”可以说是这次微软亚洲研究院博士生论坛最好的归纳了。自去年首次举办以来,这项旨在助力青年研究者成长的项目迅速得到了业界和学界的广泛关注。在刚刚落幕的第二届微软亚洲研究院博士生论坛中,微软亚洲研究院请到了来自澳大利亚、新加坡、日本、韩国、中国大陆、香港和台湾等国家与地区的50多位优秀博士生参与。他们有着不同的肤色、不同的研究领域,但在微软亚洲研究院的短短的三天里,与会者们都感受到了蓬勃跳动的“青年智慧”。

“本届博士生论坛作为优秀博士生交流学习的盛会,在注重经验传递的同时,更强调青年研究者们的主动参与、表达思考与自我发掘。” 本次论坛主要负责人学术合作经理孙丽君女士介绍道。在9月19日至9月21日的三天活动中,一系列丰富新颖的活动充分体现了这一点。微软亚洲研究院常务副院长马维英博士首先为大家带来的题为 “人工智能和第四代工业革命” 的主题演讲,总结了微软在人工智能领域的成就、展望了未来该领域的发展。霍强、郑宇、刘云新、罗翀、刘铁岩、童欣等研究员分别讲述了他们在语音识别、城市计算、无线网络、视频处理、深度学习以及图形学等方面研究的最新突破,带给大家一场丰富的知识盛宴。微软亚洲研究院常务副院长芮勇博士向同学们分享了“如何用微软学术搜索助力科研生涯”。最后一天的圆桌论坛则由微软亚洲研究院副院长潘天佑博士主持,邀请到微软亚洲研究院首席研究员Thomas Moscibroda博士和首席研究员张冬梅博士、以及微软亚洲研究院创新工程总监田江森博士进行了关于如何将想法变为现实的讨论。另一方面,同学们在技术工作坊、小组讨论等环节,向与会嘉宾及微软研究员展示了自己最新的研究进展。

毫无疑问,博士生论坛的焦点便是本次到来的优秀博士生们,在看到他们优异表现的同时,我们更想知道:他们是谁?他们在干什么?他们的背后,又有着怎样生动的故事?围绕学术选择、科研道路、活动感想等话题,我们挑选了若干问题,采访了此次邀请到的优秀博士生代表,下面便是本次采访的精华内容,希望你能有所启发。

优秀博士生简介:利文浩  (左)

研究方向:系统安全和移动安全,操作系统和虚拟化    院校: 上海交通大学

Q:  利文浩同学,大家都说你是科研界的“乔布斯”,在上海交大攻读博士期间就将研究项目和创业结合了,能简单分享一下你的创业项目吗?

利文浩:谢谢,我博士期间研究的主要是移动系统、硬件安全领域,科研成果也较早就得到了认可。我同时还创办了TrustKernel,主攻专业的系统安全服务。我们团队大部分的产品项目是在之前自己的学术研究工作基础上,结合我们在产业中实际遇到的问题与需求进行进一步延伸与完善。我们是一个技术导向型的团队,很多新的项目主要以解决目前技术方案的不足而提出,里面有很多同时也是学术研究需要解决的问题。所以这两者并不冲突,只是相比以前单纯的研究工作来说需要投入更多的时间与精力。现在我们已经完成的项目有T6、CrossOver、AdAttester和T6-M。它们都是应用在不同移动服务中的安全环节。其中T6这款产品,已经用在了支付宝、微信支付、银联这些移动支付工具和NFC钱包上,还有华硕等OEM厂家也有采用我们的产品。我希望我们的产品能够给全世界的用户带来真正的安全、便利和卓越体验。

博士生简介:张洁

研究方向:  软件测试和程序分析 院校:北京大学

Q: 张洁同学你好,你的研究已经取得了不少的成果,能和大家分享一下么?你是如何一步一步完成目前的进展的呢?

张洁:好的,在学术上我印象比较深的成就就是在2016年ISSTA上,我的论文被ACM International Symposium on Software Testing and Analysis接受,同时被提名当年的“Best paper”候选,后来Lars Grunske教授也希望把我的研究收录到他的教学讲义中,让我惊喜地意识到我的成果在学界已经有了一定影响力。取得这样的成就,我觉得经验和观察很重要:有观察力的人往往对身边的新事物、新点子更加敏感、好奇,这样,他们本身的热情和经验就会驱动他们去思考这些问题,找到一些好的突破口。当然,这之中我的导师张路教授对我的影响很大,他特别优秀,我也十分仰慕他,在很多情况下,他对学生们因材施教的教育方法帮助我更快地找到了适合自己的科研道路。

博士生简介:黄宇轩(左一)

研究方向:计算机视觉、增强现实     院校:台湾大学

Q: 宇轩先生,作为一名眼科主治医生,奋斗在医疗的第一线的同时,你怎么会想到攻读计算机领域的博士呢?

黄宇轩:是的,我是一名在职医生,又在进行计算机科学研究。你知道在台湾,医生是最顶级的职业,大家都会疑惑,为什么我有空走计算机这条路。因为我觉得,这两者的结合才是两门学科的魅力所在。在之前的临床实践中,我意识到计算机技术对解决病患的价值和巨大潜力,因此萌生了攻读计算机博士的想法。实践证明我的选择是对的,目前,我在利用增强现实技术做一套白内障手术培训体系,他将帮助许多新手模拟真实手术场景提升了手术水平。在2015年,我的研究项目 Socpe 获得了UIST 2015的最佳原型奖 和SIGGRAPH 2015 AR/VR大赛的top 10名次。这一成果让我感到十分欣慰,也坚定了我继续从事技术研究的信心。

博士生简介:Shin Hwei Tan

研究方向:计算机软件  院校:新加坡国立大学

Q: Shin Hwei同学, 能谈谈你最骄傲的一次研究经历么?

Shin Hwei Tan: 好的,首先我很骄傲我选择了软件工程这一领域,因为现在的软件存在不少问题,但它们都不能自动修复,所以我希望能开发软件自动修复系统,帮助企业、个人减少这种经济损失。当然,最让我骄傲的是一次经历是一个软件领域内的知名教授借鉴了我发表的论文,并在我的基础上进行了深入研究,而我还只是个学生,这是一次对我很大的鼓励,我曾经被提名为微软亚洲研究院2013年微软学者候选人,现在自己的研究在学界能够产生影响,可以说也是我一直坚持软件科研的动力吧。

博士生简介:Tae-Hyun Oh(右)

研究方向: 计算机视觉    院校:韩国科学技术院

Q: Tae-Hyun Oh同学我们知道科研生涯同时也是一次个人的成长,有没有发生过什么事,给你带来了很大的启发呢?

Tae-Hyun Oh:印象比较深的一次就是,我第一次向CVPR投递论文,那篇论文是基于我的硕士毕业论文写的,分数很高,当时的评审员都通过了,但意想不到的是被一位细心的区域主席发现了论文中的一处论证错误,因此拒绝了我的论文。当时得到这个消息,我一度非常沮丧。但我没有放弃,在完成修改后,这篇文章终于以优异的表现被ICCV录用了,它也成为我博士生涯的一个重要转折点。如果没有那次的被拒绝经历,我现在就可能不会把这个算法完善的这么好,后来我意识到,论文被快速地接受并不是最重要的,最重要的是它的质量。其实做研究就如同攀岩一样,重要的不是你爬的有多快,而是一步一个脚印,每一步都踩到实处。

博士生简介:Jun Nishida

研究方向:人机交互     院校:筑波大学

Q: Nishida同学你好,我们听说你从初中开始就自主进行了计算机研究,是什么驱动你这么早就超越同龄人开始科研工作呢?

Jun Nishida: 因为兴趣,我从小就很喜欢计算机。小时候,我发现身边有很多需要帮助的人,比如残疾人,但是因为缺乏有效的科学手段,我们很难去帮到他们。但我发现,其实通过计算机和人工智能,很多问题都能解决。因此我一直在尝试,希望能用自己的力量去帮助有需要的人,从初中我就开始了现在人机交互可穿戴设备领域的研究,为了更好地设计、展示产品,我选修了大学里艺术与设计学院的课程,并且经常和设计实验室的教授讨教经验。后来有了自己的作品,我也因此获得了很多荣誉和在更大平台上交流的机会,曾经被邀请过到斯洛文尼亚总统皇宫进行展示,但是我的初心和兴趣一直没变过 。

Q: 我们对你在人机交互和穿戴设备上的研究很好奇,能具体谈谈你的研究项目吗?

Jun Nishida: 我的研究主要是利用可穿戴设备的人机交互,去延展人的认知和活动能力,并应用到病人康复、残障支持、教育等社会问题层面。第一个项目是:利用视点转换器和被动式外骨骼手使其具有儿童视角的可穿戴外套。无论是建筑设计还是产品设计,我们往往无法站在儿童的视角观察事物,而这一外套,就很好地帮助了设计师站在更多人的角度进行设计。第二个是可穿戴动觉I/O设备,用于运动障碍病人的肌体康复和运动训练,这套设备将康复师的动作转化为电信号同步传导到病人肌肉,从而实现更准确的复健训练;当时为了观察现有的医学设备交互情况,我参加了大学医院神经外科部的一项实习。现在这些项目都已有了产品,软硬件工程都是我自己完成的,可以说,我自己就运作着一个 “公司” 。

博士生简介:魏莹

研究方向:社会计算   院校:香港科技大学

Q:魏莹同学,能分享一些你的荣誉,并讲讲在你取得这些荣誉的过程中,谁对你的影响最大吗?

魏莹:我很荣幸获得了今年的AAAI奖学金,还有2014年的KDD最佳论文候选、SIGKDD奖学金等,这个过程中,我的导师起到了很大的帮助。虽然我的导师可能比较繁忙,并没有像助理教授那样给予我很多的指导,但是正因为这样培养了我很多独立思考和探究研究方向的能力;我导师特别注重学生的逻辑和表达能力,所以通过博士期间的训练,我的逻辑表达能力有了很大的提升;我的导师特别严厉,如果在没有想清楚科研问题或者没有做足够的实验验证猜想的时候,一定会得到批评。但是正是因为这样,我的心理承受能力变得强大,我认为这也是一个成功的人必备的要素。

以上便是部分博士生们带来的分享,他们有着各不相同的研究道路,却都有着一颗渴望优秀、敢于拼搏的心。微软亚洲研究院希望把这种品质传递给更多人,使计算机研究领域永远有后来者创造奇迹。下一届博士生论坛,我们又将见到哪些面孔,让我们拭目以待!



 

Ta说:2016微软亚洲研究院第二届博士生论坛

$
0
0

“聚合多元人才创造无尽可能,让每一位优秀博士生得到发声成长机会”可以说是这次微软亚洲研究院博士生论坛最好的归纳了。自去年首次举办以来,这项旨在助力青年研究者成长的项目迅速得到了业界和学界的广泛关注。在刚刚落幕的第二届微软亚洲研究院博士生论坛中,微软亚洲研究院请到了来自澳大利亚、新加坡、日本、韩国、中国大陆、香港和台湾等国家与地区的50多位优秀博士生参与。他们有着不同的肤色、不同的研究领域,但在微软亚洲研究院的短短的三天里,与会者们都感受到了蓬勃跳动的“青年智慧”。

“本届博士生论坛作为优秀博士生交流学习的盛会,在注重经验传递的同时,更强调青年研究者们的主动参与、表达思考与自我发掘。” 本次论坛主要负责人学术合作经理孙丽君女士介绍道。在9月19日至9月21日的三天活动中,一系列丰富新颖的活动充分体现了这一点。微软亚洲研究院常务副院长马维英博士首先为大家带来的题为 “人工智能和第四代工业革命” 的主题演讲,总结了微软在人工智能领域的成就、展望了未来该领域的发展。霍强、郑宇、刘云新、罗翀、刘铁岩、童欣等研究员分别讲述了他们在语音识别、城市计算、无线网络、视频处理、深度学习以及图形学等方面研究的最新突破,带给大家一场丰富的知识盛宴。微软亚洲研究院常务副院长芮勇博士向同学们分享了“如何用微软学术搜索助力科研生涯”。最后一天的圆桌论坛则由微软亚洲研究院副院长潘天佑博士主持,邀请到微软亚洲研究院首席研究员Thomas Moscibroda博士和首席研究员张冬梅博士、以及微软亚洲研究院创新工程总监田江森博士进行了关于如何将想法变为现实的讨论。另一方面,同学们在技术工作坊、小组讨论等环节,向与会嘉宾及微软研究员展示了自己最新的研究进展。

毫无疑问,博士生论坛的焦点便是本次到来的优秀博士生们,在看到他们优异表现的同时,我们更想知道:他们是谁?他们在干什么?他们的背后,又有着怎样生动的故事?围绕学术选择、科研道路、活动感想等话题,我们挑选了若干问题,采访了此次邀请到的优秀博士生代表,下面便是本次采访的精华内容,希望你能有所启发。

优秀博士生简介:利文浩  (左)

研究方向:系统安全和移动安全,操作系统和虚拟化    院校: 上海交通大学

Q:  利文浩同学,大家都说你是科研界的“乔布斯”,在上海交大攻读博士期间就将研究项目和创业结合了,能简单分享一下你的创业项目吗?

利文浩:谢谢,我博士期间研究的主要是移动系统、硬件安全领域,科研成果也较早就得到了认可。我同时还创办了TrustKernel,主攻专业的系统安全服务。我们团队大部分的产品项目是在之前自己的学术研究工作基础上,结合我们在产业中实际遇到的问题与需求进行进一步延伸与完善。我们是一个技术导向型的团队,很多新的项目主要以解决目前技术方案的不足而提出,里面有很多同时也是学术研究需要解决的问题。所以这两者并不冲突,只是相比以前单纯的研究工作来说需要投入更多的时间与精力。现在我们已经完成的项目有T6、CrossOver、AdAttester和T6-M。它们都是应用在不同移动服务中的安全环节。其中T6这款产品,已经用在了支付宝、微信支付、银联这些移动支付工具和NFC钱包上,还有华硕等OEM厂家也有采用我们的产品。我希望我们的产品能够给全世界的用户带来真正的安全、便利和卓越体验。

博士生简介:张洁

研究方向:  软件测试和程序分析 院校:北京大学

Q: 张洁同学你好,你的研究已经取得了不少的成果,能和大家分享一下么?你是如何一步一步完成目前的进展的呢?

张洁:好的,在学术上我印象比较深的成就就是在2016年ISSTA上,我的论文被ACM International Symposium on Software Testing and Analysis接受,同时被提名当年的“Best paper”候选,后来Lars Grunske教授也希望把我的研究收录到他的教学讲义中,让我惊喜地意识到我的成果在学界已经有了一定影响力。取得这样的成就,我觉得经验和观察很重要:有观察力的人往往对身边的新事物、新点子更加敏感、好奇,这样,他们本身的热情和经验就会驱动他们去思考这些问题,找到一些好的突破口。当然,这之中我的导师张路教授对我的影响很大,他特别优秀,我也十分仰慕他,在很多情况下,他对学生们因材施教的教育方法帮助我更快地找到了适合自己的科研道路。

博士生简介:黄宇轩(左一)

研究方向:计算机视觉、增强现实     院校:台湾大学

Q: 宇轩先生,作为一名眼科主治医生,奋斗在医疗的第一线的同时,你怎么会想到攻读计算机领域的博士呢?

黄宇轩:是的,我是一名在职医生,又在进行计算机科学研究。你知道在台湾,医生是最顶级的职业,大家都会疑惑,为什么我有空走计算机这条路。因为我觉得,这两者的结合才是两门学科的魅力所在。在之前的临床实践中,我意识到计算机技术对解决病患的价值和巨大潜力,因此萌生了攻读计算机博士的想法。实践证明我的选择是对的,目前,我在利用增强现实技术做一套白内障手术培训体系,他将帮助许多新手模拟真实手术场景提升了手术水平。在2015年,我的研究项目 Socpe 获得了UIST 2015的最佳原型奖 和SIGGRAPH 2015 AR/VR大赛的top 10名次。这一成果让我感到十分欣慰,也坚定了我继续从事技术研究的信心。

博士生简介:Shin Hwei Tan

研究方向:计算机软件  院校:新加坡国立大学

Q: Shin Hwei同学, 能谈谈你最骄傲的一次研究经历么?

Shin Hwei Tan: 好的,首先我很骄傲我选择了软件工程这一领域,因为现在的软件存在不少问题,但它们都不能自动修复,所以我希望能开发软件自动修复系统,帮助企业、个人减少这种经济损失。当然,最让我骄傲的是一次经历是一个软件领域内的知名教授借鉴了我发表的论文,并在我的基础上进行了深入研究,而我还只是个学生,这是一次对我很大的鼓励,我曾经被提名为微软亚洲研究院2013年微软学者候选人,现在自己的研究在学界能够产生影响,可以说也是我一直坚持软件科研的动力吧。

博士生简介:Tae-Hyun Oh(右)

研究方向: 计算机视觉    院校:韩国科学技术院

Q: Tae-Hyun Oh同学我们知道科研生涯同时也是一次个人的成长,有没有发生过什么事,给你带来了很大的启发呢?

Tae-Hyun Oh:印象比较深的一次就是,我第一次向CVPR投递论文,那篇论文是基于我的硕士毕业论文写的,分数很高,当时的评审员都通过了,但意想不到的是被一位细心的区域主席发现了论文中的一处论证错误,因此拒绝了我的论文。当时得到这个消息,我一度非常沮丧。但我没有放弃,在完成修改后,这篇文章终于以优异的表现被ICCV录用了,它也成为我博士生涯的一个重要转折点。如果没有那次的被拒绝经历,我现在就可能不会把这个算法完善的这么好,后来我意识到,论文被快速地接受并不是最重要的,最重要的是它的质量。其实做研究就如同攀岩一样,重要的不是你爬的有多快,而是一步一个脚印,每一步都踩到实处。

博士生简介:Jun Nishida

研究方向:人机交互     院校:筑波大学

Q: Nishida同学你好,我们听说你从初中开始就自主进行了计算机研究,是什么驱动你这么早就超越同龄人开始科研工作呢?

Jun Nishida: 因为兴趣,我从小就很喜欢计算机。小时候,我发现身边有很多需要帮助的人,比如残疾人,但是因为缺乏有效的科学手段,我们很难去帮到他们。但我发现,其实通过计算机和人工智能,很多问题都能解决。因此我一直在尝试,希望能用自己的力量去帮助有需要的人,从初中我就开始了现在人机交互可穿戴设备领域的研究,为了更好地设计、展示产品,我选修了大学里艺术与设计学院的课程,并且经常和设计实验室的教授讨教经验。后来有了自己的作品,我也因此获得了很多荣誉和在更大平台上交流的机会,曾经被邀请过到斯洛文尼亚总统皇宫进行展示,但是我的初心和兴趣一直没变过 。

Q: 我们对你在人机交互和穿戴设备上的研究很好奇,能具体谈谈你的研究项目吗?

Jun Nishida: 我的研究主要是利用可穿戴设备的人机交互,去延展人的认知和活动能力,并应用到病人康复、残障支持、教育等社会问题层面。第一个项目是:利用视点转换器和被动式外骨骼手使其具有儿童视角的可穿戴外套。无论是建筑设计还是产品设计,我们往往无法站在儿童的视角观察事物,而这一外套,就很好地帮助了设计师站在更多人的角度进行设计。第二个是可穿戴动觉I/O设备,用于运动障碍病人的肌体康复和运动训练,这套设备将康复师的动作转化为电信号同步传导到病人肌肉,从而实现更准确的复健训练;当时为了观察现有的医学设备交互情况,我参加了大学医院神经外科部的一项实习。现在这些项目都已有了产品,软硬件工程都是我自己完成的,可以说,我自己就运作着一个 “公司” 。

博士生简介:魏颖

研究方向:社会计算   院校:香港科技大学

Q: 魏颖同学,你在读博期间获得了许多荣誉包括香港政府奖学金等,能否分享一下你读博期间做研究的一些体会? 

魏颖:我觉得对于一个博士生,找到一个好的课题非常重要。如我的导师所说,一个好的课题可以作为博士毕业论文的题目,更可以作为毕业后几年甚至更久持续钻研的方向。我觉得找到一个合适的题目可以至少从以下三个方面考虑:第一个最重要的方面就是兴趣,一个持久让你感到兴奋的问题就是合适的方向。我个人非常喜欢我自己目前的课题迁移学习,因为它符合人类学习的自然规律,是机器学习必然要发展的趋势。第二个方面是视野,越开阔的视野越助于选出有影响力的课题,在这个方面我的导师给予了我很大的帮助和指导;第三个方面就是分析个人的优势和劣势。以我自己为例,我的优势可能并不在数学的理论证明上,而在设计模型和应用上。

以上便是部分博士生们带来的分享,他们有着各不相同的研究道路,却都有着一颗渴望优秀、敢于拼搏的心。微软亚洲研究院希望把这种品质传递给更多人,使计算机研究领域永远有后来者创造奇迹。下一届博士生论坛,我们又将见到哪些面孔,让我们拭目以待!


 

微软对话语音识别技术达至人类专业水平,开启人工智能新征程

$
0
0

一个月前,2016年9月14日,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate, 简称WER)低至6.3%的突破 ,创造当时该领域内错误率最低纪录。

一个月后,10月18日,微软进一步将词错率降低至5.9%,首次达成与专业速记员持平而优于绝大多数人的表现:上周末,微软人工智能与研究部门的研究员和工程师在论文中展示了他们这一创纪录的语音识别系统。如需查阅论文可到文末点击“阅读原文”,或按以下信息检索:Achieving Human Parity in Conversational Speech Recognition, https://arxiv.org/abs/1610.05256

这5.9%的词错率是什么概念?

在行业标准Switchboard语音识别任务测试中,人类对照组(由专业速记员组成)将对话语音转录成文字,目前有记录的最低词错率就是5.9%,这就意味着微软的语音识别系统的语音识别能力已经高于世界上绝大多数人而与人类专业高手持平,创造了一项新的世界纪录。

更加令人感到兴奋的是,从6.3%到5.9%,微软人工智能与研究部门只花了一个多月的时间,这让我们有理由相信,计算机真正超越人类语音识别能力那一天已经不远了。

微软首席语音科学家黄学东博士表示,“在对话语音识别中,我们已经实现了和人类同等的水平,这是一个历史性的突破,意味着有史以来第一次有计算机能像人类一样识别对话中的每一个单词。并且,我们团队花了不到一年时间就实现了这个目标,这远远超出大家的期望。”就连负责微软人工智能与研究部门的微软全球执行副总裁沈向洋博士也笑言,“要是在五年前,我是绝对不敢相信我们可以实现这个目标的。”

针对语音识别的研究可以追溯到上个世纪七十年代DARPA(Defense Advanced Research Projects Agency,美国国防部先进研究项目局,主要致力于美国国防高新技术的研究、开发和应用)资助的一个相关项目。此后几十年,越来越多研究机构和大型公司陆续加入其中。“这次突破是过去二十多年语音识别技术不断积累的结果,”微软主管语言及对话研究组的研究员Geoffrey Zweig称。

此次语音识别的里程碑式突破将对消费者和商业产品产生深远影响,因为语音识别技术能够显著增强人们的日常计算体验。这些产品包括像XBOX的娱乐设备、像微软小娜(Cortana)的生产力工具以及能实现实时语音到文本转录的个人人工智能助手。“这项技术将使小娜变得更强大,切实地让小娜的助理服务更智能。”沈向洋补充道。

“筑梦为马”

Geoffrey Zweig将他们这一系统的成功归功于他们采用的最新的神经网络技术;让研究实现质的飞跃的关键就在于他们采用了一种神经语言模型,该模型在空间中被表现为连续的向量,计算机能通过该模型得知比如“fast”和“quick”是具有紧密联系的近义词。“这让模型能充分概念化每一个词汇。” Zweig解释道。

随着深层神经网络在语音识别和图像识别等领域大显身手,这一技术正变得炙手可热。

深层神经网络使用大量数据(称为训练集)来训练计算机系统识别来自图像或声音等输入的模式。为达到和人类同等识别水平的里程碑,微软团队使用微软基于多年技术积累开发的一个本地化深度学习系统CNTK,CNTK工具包已于一年前在GitHub上开源,目前包括微软人工智能个人助理小娜和混合现实全息眼镜HoloLens的语音识别都是基于CNTK实现的。

黄学东博士表示,CNTK跟其他开源软件最大的区别是它能做大规模、分布式的机器学习,同时保证强大的性能;可以说,微软的语音识别技术可以一次又一次刷新纪录,在很大程度上就要归功于CNTK这个开源工具,它极大地提高了团队的研究速度,最终在今天实现了与人类专业能力看齐的目标。

回报来得如此迅速,从事语音识别研究已有三十多年的黄博士告诉我们,“5.9%的结果是在凌晨三点半取得的,我直到几小时后一大早醒来才得知,当时已有团队成员第一时间在社交媒体上分享自己成功的喜悦……这对我来说简直是多年梦想一朝成真。”

后排左起:Wayne Xiong, Geoffrey Zweig, Frank Seide;前排左起:黄学东, Dong Yu, Mike Seltzer, Jasha Droppo,Andreas Stolcke;摄影:Dan DeLong

与此同时,来自微软亚洲研究院视觉计算组的研究员也实现了自己所在领域的里程碑式突破,在图像识别MS COCO(Microsoft Common Objects in Context,常见物体图像识别)图像分割挑战赛中获得第一名。这项挑战赛主要考察在图像中确定某些对象的位置的技术。微软亚洲研究院常务副院长郭百宁博士表示,图像细分技术的难度远超人们的想象,因为计算机必须精准标识出物体在图像中出现的边界,“这应该是图像识别中最难的部分。”

该团队去年设计了一个极深的深层神经网络系统,称为深层残差网络(简称ResNet,deep residual networks)。该系统一出手就屡获殊荣,比如此次在图像分割上的突破成果也是基于该系统,成绩比第二名高出11%,并且,相较于去年COCO图像分割挑战赛第一名的成绩也有飞跃性的进步。对此,郭百宁博士自豪地表示,“微软一直以来都是图像识别领域的领导者。”

从识别到真正理解,“我们不会止步于5.9%”

尽管近年来科学家们在计算机视觉和语音识别等方面都取得了巨大突破,但他们深知前面还有许多工作要做。

仍以对话语音识别技术为例,微软团队的词错率虽然实现了与人类专业速记员持平的5.9%,但这并不代表计算机就能完美识别出每一个单词。事实上,即使是人类也无法做到完美,计算机的错误率就意味着计算机一样会在人类常常难以准确辨别的内容面前败下阵来:无论是计算机还是人类,都会发现“蓝瘦”、“香菇”(“难受”、“想哭”)不好对付。

“必须继续努力!”Zweig说。他们接下来的努力方向之一,就是确保语音识别技术能在类似人声喧哗的朋友聚会或背景声嘈杂的高速公路上开车这样一些更复杂的现实生活场景都能判别准确,同时重点关注如何完善实现的方法,帮助计算机在多人说话的场合为每位发言者分配名字,还要确保计算机能不论发言者的年龄、口音和音量大小而识别出各种语音。

从长远来看,研究人员将重点研究如何教计算机不仅将人们嘴里发出的声音信号变为文字,更要理解人们话语中的含义。这样一来,计算机就能准确回答用户的问题或采取相应行动。“下一个前沿技术就是从识别到理解。“Zweig 说。

从更宏观的角度,沈向洋博士指出,我们正在远离我们必须了解计算机的世界而逐步接近计算机必须了解我们的世界,真正的人工智能仍在遥远地平线那一边,“在计算机能真正明白我们的语言或示意之前,我们还有很长的路要走。”



 

区块链:从入门到精通

$
0
0

​回想9月里在上海参加以太坊第二届开发者大会,依然感到整个会议议程紧凑、干货十足,必须给我们的热心读者分享一下。

1. 什么是区块链(Blockchain)?

要说近期得到各行各业关注和讨论的热点,区块链必须算一个:迄今为止,2016年全球最大的投资项目都与区块链相关,投资金额分别在5500万美元和6000万美元,国内最大的一笔区块链项目也在9月底以超过2000万美元的投资规模宣布。

区块链的魅力在哪里?

若说今天的互联网是信息通过TCP/IP协议进行点对点的传递,是信息互联网,那么,价值(比如电子货币、电子资产等)怎样才能脱离第三方进行点对点的转移?区块链技术就提供了一种可能。

区块链是去中心的分布式记账系统。系统中的节点无需互相信任,通过统一的共识机制共同维护一份账本,每个节点都有一份完整的数据记录。区块链- Blockchain, 成块(block)的交易通过密码学算法连接在一起,使得整个账本公开透明、可追踪、不可篡改。

比特币作为全球通用的加密互联网货币,就是基于区块链技术发展起来的,而区块链上智能合约的支持,使更广泛的、比特币以外的数字资产的点对点转移变成现实,这就不难理解,为什么区块链技术会作为价值互联网的基石而引人注目了。

​2 什么是以太坊(Ethereum)及其开发者大会(Devcon2)?

以太坊(Ethereum)作为全球最为知名的区块链项目之一,同时拥有全球最大的区块链开源社区。

什么是以太坊?它是一个有智能合约(SmartContract)功能的公共区块链平台。我们用智能手机打个比方,如果说以太坊好比智能手机的操作系统,那么智能合约就是上面打在的应用app。有了以太坊,用户可以直接开发自己的区块链应用,而无须担心底层的区块链系统。

此次是第二届以太坊开发者大会,不仅以太坊的核心团队成员悉数到场,还汇聚了来自世界各地的以太坊行业代表、开发者和社区成员。微软是此次大会的顶级赞助商,将与以太坊继续合作打造Microsoft Azure云端“区块链即服务”(BaaS: Blockchain-as-a-Service)。

​1 以太坊紫色革命

以太坊创始人Vitalik Buterin 在会上发布了描述下一代以太坊(以太坊2.0)关键改进的紫皮书(Mauve Paper),直指以太坊存在的两大问题:以工作量证明(proof-of-work)为基础的共识机制低效、耗能、不绿色环保,以及以太坊公链系统吞吐量 (throughput)和容量均不足以支撑全球大范围高频次使用。

针对第一个问题,紫皮书提出一个新的基于权益证明(proof-of-stake)的共识机制,命名为Capser,能让参于“挖矿”的方式,从原来重金购入大量通用计算机或专门定制“矿机”并消耗电力能源进行大量“无用”计算来争夺区块的构造和收益权,转变成直接将资金兑换为以太币注入以太坊区块链,“挖矿”相关的智能合约(Smart Contract)自动根据资金的注入量成比例随机分配区块的构造和收益权。配合一套设计精巧、赏罚分明的经济学激励措施,这一新的共识机制有望使以太坊公链变得更安全、更高效和更绿色。

​不过,基于权益证明的新共识机制的复杂度显著高于基于工作量证明的现有共识机制,部分社区成员对新机制的可靠性和正确性还存有疑虑,仍有待投入大量精力和时间以共同完善和验证。

针对第二个问题,关于吞吐量和容量的局限,紫皮书提出了缩短区块产生间隔时间(block time)和分区(sharding)这两个解决方案。

在保证安全的前提下,新的算法把区块产生间隔时间从12秒降低为4秒,使吞吐量提升为现在的三倍。新的分区机制将区块链分为80个相对独立的分区(sharding),以太坊的每个节点无需处理全网所有事务(transaction)和储存全网所有的数据,只要关注其中一个或几个分区的事务和数据即可,所有节点通过分工配合来完成覆盖所有分区的目标。这么做能使以太坊的容量增大为现有的80倍。同时,由于各分区的事务可以并发处理,吞吐量再获提升,变为现有水平的240倍(3 X 80)。

但这么做也是有代价的:分区之前,一个事务无论涉及到多少个智能合约,对所有这些智能合约状态的修改都能原子化地完成,这个性质极大简化了智能合约的编程和推理。分区之后,一个事务如果涉及到跨区的智能合约调用,由于跨区调用只能通过异步的方式完成,一个事务会被分段执行而失去原子性,这在本质上改变了智能合约的执行模型,增加了推理和编程的复杂度。这就是扩容的代价。

尽管如此,作为价值互联网的核心基础设施,由以太坊代表的支持智能合约的区块链技术平台正以激动人心的速度不断突破技术难题向前发展,值得进一步的跟踪、研究与参与。

2. 智能合约的安全

简而言之,智能合约就是一段用来直接控制电子资产交易的计算机代码。智能合约与区块链的关系可以类比为手机应用与智能手机,智能手机为手机应用提供计算平台,而多样的手机应用极大地丰富了智能手机的应用场景。类似地,智能合约可以和区块链技术无缝对接,使区块链可编程化、可定制化,智能合约因此赋予了区块链智能,使区块链可以突破汇款这一传统的应用,让区块链可以应用在更复杂的逻辑中。

智能合约区别于普通程序代码的强大之处,在于它被公开而不可更改地储存在区块链之上,在定义好的内外部条件下得到区块链全网节点的忠实执行。任何人都不可能单方面篡改和阻止智能合约的执行。这是智能合约值得信赖的根本原因,却也是智能合约的“天生缺陷”,因为这个性质使智能合约的漏洞不能得到及时修复,利用漏洞的攻击行为也难以被及时阻止,从而造成实实在在的危胁。

这方面已经有了实际的例子,最有代表性的就是The DAO攻击。The DAO项目作为区块链业界最大的众筹项目,目的是给基于以太坊的创业团队和项目提供重要的资源,但是其编写的智能合约存在“递归调用漏洞”的问题。不幸的是,在程序员修复这一漏洞及其他问题期间,一个不知名的黑客开始利用这一漏洞收集The DAO代币销售中所得的以太币,导致The DAO损失了接近5000万美元。为挽回巨大损失,以太坊社区采取了充满争议和极具道德风险的硬分叉(hard fork),回滚到攻击发生前的区块,重新生长出一条不包含攻击结果的区块链。新生成的链虽然符合社区的主流民意,但由于违背了区块链不可篡改的原则,至今仍然受到社区一部分成员的抵制。

​值得特别强调的是,这不是以太坊平台的本身漏洞,而是以太坊上某些智能合约出现了漏洞。新加坡国立大学的博士研究生Loi Luu在此次大会介绍了他关于智能合约安全性的论文[1],分析了以太坊区块链上19366个智能合约,发现大约44%的智能合约存在安全风险。

有效防范这些风险是智能合约得到广泛应用的前提,因此,开源社区和学术界一样都在抓紧解决智能合约的安全问题。由来自康奈尔、加州大学伯克利分校、伊利诺伊大学厄巴纳-香槟分校和以色列理工学院等学术机构的研究人员组成的IC3研究组在会上提出了解决智能合约安全问题的三板斧:对智能合约进行形式化验证,在智能合约中内建危机应对机制,建立发现和修补智能合约漏洞的激励机制。微软研究院、法国国家信息与自动化研究所和哈佛大学三个研究机构的研究人员也在近期共同发表文章,阐述在对以太坊智能合约平台本身(以太坊虚拟机)和智能合约的形式化验证方面进行了前沿探索[2]。

3 Web 3:去中心化的下一代Web基础设施

以太坊生态系统中的重要成员,去中心化储存系统Swarm,其核心开发者Viktor Trón在会上通过一系列演讲,描绘了一个以以太坊为核心的去中心化的Web愿景:Web 3。

​在这个宏大的愿景中,以太坊作为一个去中心化的计算平台,辅以Swarm和IPFS(InterPlanetary File System)作为去中心化的加密储存平台,以及以Whisper为代表的去中心化的消息传递平台,构成一整套以P2P网络为核心的下一代Web基础设施。基于这种基础设施开发的去中化应用(Dapps),直接使用由分布于全球的P2P网络提供的存储、计算和消息服务,具有高容错、抗攻击、高可用、反审查等特点。这使得去中化的应用开发者不再需要架设和维护专门的服务器,而是通过应用的使用者直接向P2P网络购买所需的计算和加密存储服务来使用这些应用,天然就获得了自己数据的拥有权和控制权。这跟现有的Web架构下,所有用户数据天然集中于由应用或网站的开发者架设和控制的服务器的情况,有着革命性的区别。让这一切成为可能的,正是以区块链技术为基础的全球性去中心化的电子货币系统。

Web 3作为一种去中心化的云计算平台,是对现有的集中式云计算平台的有益补充。现有的集中式云计算平台有着去中心化平台所不具有的低成本、高效率、高性能、功能丰富等特点,而去中心化的云计算平台由于不被单一实体控制,更适合构建中立性要求极高、跨机构的信任基础设施。这两者不是互相取代的关系,而是共存共生、相互借鉴而共同发展的关系。展望这两种云计算平台在未来的碰撞和交融,一定异常精彩,必将促进云计算技术和云计算生态系统的进一步发展,推动云计算技术更为深刻和广泛的影响人类生产生活的方方面面。

3.微软BaaS –

重要的事情放在最后:微软一直积极支持整个区块链开源社区和生态系统的发展,今年已是连续第二届成为以太坊开发者大会唯一的顶级赞助商,不仅在自己的公有云平台Azure上推出了完全开放的区块链服务(Blockchain-As-A-Service),提供各种区块链项目和技术的一键部署和开发测试平台,还在这次大会发布了代号为Bletchley的区块链生态系统框架的V1版本。

微软的Bletchley框架,兼容所有区块链系统和技术,为这些区块链系统的落地商用提供访问控制、身份认证、加解密、智能合约安全验证、代码安全执行容器、开发调试、大数据分析和机器学习以及区块链应用及智能合约市场等服务,并以此为基础构建一整套第一方和第三方的相关软件服务以及各种行业解决方案。

Project Bletchley工作流程示意图

​特别值得一提的是名为Cryplet的代码安全执行容器,它将基于硬件的安全隔离执行环境容器化,以按需云服务的方式,为区块链跟外部世界交互的关键代码提供一个任何人都无法窥探、篡改的安全执行环境。Cryplet不仅适用于将智能合约依赖的外部世界的事件(如股价、天气情况等)以安全和来源可验证的方式注入区块链,还能根据区块链状态安全和可信的操作外部世界和触发外部的事件。Cryplet的不可窥探性使其特别适合运行需要保密的私有算法和处理敏感的数据,大大的扩展了区块链系统的应用边界。除此之外,Azure也与中国区的区块链平台和创业公司合作,提供了本地化的区块链应用市场服务,方便本土的区块链系统在Azure上的一键布署,助力区块链技术在中国的发展。

更多会议详情请戳:http://www.blockchainweek2016.org/index_cn.html

以及你们要的招募帖来了!

微软亚洲研究院的区块链项目

在微软亚洲研究院,我们Cloud & Mobile Group 也于半年前开始展开区块链技术的研究,设计的新技术已经获得区块链方面的美国专利。从基础的一致性协议理论,到提高区块链性能和扩展性的系统优化,我们都取得一些进展。同时,我们和Azure中国的团队一起设计和开发可落地的区块链的应用。

在10月16日的2016年开源年会,我们讲解了更多区块链和智能合约的技术细节,以及演示如果在Azure上方便部署和开发区块链的应用,请戳: http://www.huodongxing.com/go/coscon2016.

而随着相关研究迅速开展,我们也开放了多个实习职位,有区块链、分布式系统、分布式数据库或者分布式理论背景的同学如果感兴趣请发简历到ying.yan@microsoft.com,并在邮件主题注明“区块链实习”。

参考论文:

[1].  Loi Luu, Duc-Hiep Chu et al. "Making Smart Contracts Smarter"

[2].  http://research.microsoft.com/en-us/um/people/nswamy/papers/solidether.pdf

作者简介:

闫莺,微软亚洲研究院主管研究员,从事区块链技术,大数据分析和挖掘,数据库应用的研究。发表国内外顶级会议期刊论文30余篇,专利10余项。

陈洋,研究员,微软亚洲研究院云计算与移动计算研究组,从事云计算平台架构、大数据系统、编译的研究。


 

HI AI:人机协同 赋能未来(上篇):机器棋手背后的人脑实力

$
0
0

编者按:

计算机领域的热点总是在不断更替,从大数据到云计算再到人工智能,在这些热点的背后是专家学者们在这些领域一点一滴聚沙成塔的技术突破。关于人工智能,我们见证了近年来它从默默无闻到炽手可热的过程。继去年《我们需要什么样的机器人》之后,微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文再次撰文,与我们进一步分享他对人工智能的见解与洞察,归纳起来就是《HI AI:人机协同赋能未来》。在这个系列的三篇文章里,洪小文博士将与读者交流AlphaGo战胜李世石这一标志性事件背后的意义,深入浅出地探讨人类智能与人工智能的区分与联系,以及我们应当如何看待人类与人工智能的关系。

《机器棋手背后的人脑实力》是《HI AI:人机协同赋能未来》三篇系列文章的上篇。在本文中,洪小文博士从AlphaGo战胜职业九段棋手李世乭说起,分析了这一事件背后所展示的人脑不可替代的优势。

从国际象棋、中国象棋到围棋,在所有不依赖运气而只考较实力的智力游戏领域,机器在与人类的对决中已展现出极为显著的优势。

在赢了与世界围棋冠军、职业九段棋手李世石的比赛之后,可以预计,AlphaGo无需多长时间便能横扫整个围棋世界。而当它战胜了所有可能与它匹敌的人类顶尖棋手后,它便会将“世界围棋第一高手”的荣耀保持到永久——除非又出现另一位算法更先进的机器棋手。

弈棋,这曾在过去无数个世代里为人类所自矜和赞咏的智力神话就这样被冷冰冰的机器打破,难怪很多朋友会自然延伸出机器越来越聪明的结论。的确,从人工智能技术发展的角度看,AlphaGo不啻为一座里程碑。和上个世纪末因击败人类国际象棋王者卡斯帕罗夫而名噪一时的“深蓝”不同——当年,“深蓝”的胜利可以主要归因于其运算速度足够快,且算法也得到了改进,但AlphaGo能创下纪录并不意味着其硬件能力已强大到可以穷举三尺棋枰上的所有组合。

穷举法简单说就是列出达成某个目标的所有可能性,并对每一种可能性都进行验证,进而确定通往结果的步骤是否可行。事实上,在AlphaGo这个围棋程序诞生前,靠穷举法下围棋基本是缘木求鱼,因为需要计算的可能性实在太多,靠现在的计算机还难以完成。让AlphaGo有别于“传统”的计算机弈棋机器的两根技能支柱,分别在于深度增强学习(Deep Reinforcement Learning)和自我对局(self-play)。在策略网络(Policy Network)与价值网络(Value Network)的训练下,AlphaGo不再遵循从存储的海量棋谱中搜索最佳应手的路数,而是能够自行生成对对手棋路的模拟、仿真及得失风险评估。

机器棋手确实为我们这些人工智能相关技术的研究者带来了很多启示。

第一,这种围棋程序的自我博弈模式是否可以推及到别的领域——让图像识别系统生成无限图像(如人脸)来模拟,让语音识别系统生成各种嘈杂环境下的语音来锻炼辨别力,让实时翻译程序生成语法无误的例句乃至长文并译解为别种语言……类似模式若能在其他人工智能研究的旁支得以推及,将有可能大大推动这一领域的学术进展和应用变现。

第二,尽管机器在围棋人机大战中取得了胜利,但其算法却是由人开发出来的,在我看来,这更能彰显人脑而非电脑的智慧。信息科技发展至今,无论从记忆还是运算能力看,人脑都再没可能赢电脑——就像比拼加减乘除和开根号,永远都是电脑快过人脑,但后者强于前者的地方在于,是人类发明了加减乘除和开根号的算法。下围棋又何尝不是这样?人也是在掌握了算法规律的前提下,将“思考”的能力赋予了机器。AlphaGo的背后是云,是无数台计算机,若单论计算资源与能力,它远远超过它的对手李世石,但人类棋手却能在这样的背景下与机器一竞高下,显然更了不起。再说,人脑还是某种意义上的清洁、低能耗系统——人类下围棋时动脑思考所消耗的能量与同一时间机器棋手所耗费的电能相比,全然不是一个量级。也就是说,有一些特定的事,如果由人来做,显然比依赖计算机来得更简单、更经济,因而也就更智能。

第三,即便是承认机器下围棋的技艺已然比人类更强,但这并不意味着机器也能理解围棋(以及国际象棋、中国象棋等)蕴含的文化和哲学之美,不意味着机器能在对弈的过程中感受到那种唯有人才能体会的快乐与激情。在中国,围棋自古便被视为一种君子之技、怡情之艺,相传“尧造围棋以教子丹朱”,而后世之所以有那么多人嗜下围棋,所为的绝不仅仅是在咫尺之枰与黑白疆域间捭阖争胜,而更多的是借围棋来体悟世间至道、生存哲理。再回想阿城先生的小说《棋王》,主角王一生因能痴于棋,故能极于棋——故事的高潮是他以一敌九、大获全胜,但背后的思想却是“呆在棋里”、与世无争,是“夫唯不争,故天下莫能与之争”的道与禅。这境界是机器永远都不可能理解的。事实上,今天的人工智能能够辨认猫和狗,却不理解,也就是说只能做到某件事,而不是理解某件事,不理解为什么是这样。

还有个有趣的问题:在人类的围棋堡垒被攻陷后,有没有哪些智力游戏是机器始终无法做到百战百胜的?当然有。

我们将有助于益智的棋牌类游戏分为以下三种:第一种是机器用穷举法便可以所向无敌的游戏,譬如五子棋,其博弈树复杂度没那么高,几乎每一步都有最佳算法。第二种是不太容易用穷举法来保证胜利的游戏,国际象棋、中国象棋和围棋便是典型——如果延续穷举法的思路去“硬啃”,即便穷尽全世界10亿台计算机的计算能力,要彻底推算出棋枰上每一步落子的全部可能性也要花费1017到10140年。

主流棋类游戏复杂度分析

​第三种游戏除了和运算能力有关,还引入了运气元素,以至于运算能力的强弱不能完全决定胜负结果,例如麻将、德州扑克、桥牌等。玩这类游戏,人机对决是胜负难料——虽然假设玩无数局下来,胜率一定是机器更高,但机器无法保证自己每局必胜。毕竟,说到记牌、算牌,人脑固然弱于电脑,而且电脑还可以根据无数过往牌局来推测打哪张牌的赢率较大,但在无法看到其他对手底牌且不能通过察言观色、注意对手的小动作等方式来作出判断的情况下,电脑无法精确评估出胜算,也就不可能连战连赢。也正是由于存在着运气的元素,麻将等游戏的趣味性才大大增加——即便对手的头脑更好、技艺更高,也还是有人愿意加入战局一试运气。

小结一下我对机器棋手的看法,那就是,在人类开发的算法的加持下,机器棋手取得了胜利,但这恰恰证明了人脑的强大与优越。

当计算机的运算功能已经如此强大,那么人脑和计算机应该保持何种关系呢?在下一期,洪小文博士将会和大家讨论这个问题。我们将持续连载《HI AI:人机协同赋能未来》的系列文章,敬请期待,同时欢迎你提出自己的看法。



 

【开源】微软发布认知工具包:让机器学习更快、更大

$
0
0


昨天(10月26日),微软发布了更新版的微软认知工具包(Microsoft Cognitive Toolkit,曾用名为深度学习工具包CNTK,Computational Network Toolkit)。这是一个用于深度学习的系统,能够基于CPU 和 英伟达GPU加速例如图像识别、语音识别、搜索等相关领域的进步。

如果你现在还没有打开过微软认知工具包(Microsoft Cognitive Toolkit)的页面,你肯定不是一个合格的深度学习开发者。:D(项目地址:https://github.com/microsoft/cntk更新注释:https://github.com/Microsoft/CNTK/wiki/CNTK_2_0_beta_1_Release_Notes或直接访问阅读原文上周(10月18日),微软首席语音学家黄学东博士带领下的团队在对话语音识别技术在产业标准Switchboard语音识别基准测试刷新自己的纪录,词错率低至5.9%,达到了人类最专业的水平,并保持着业内最优水平。当时,黄学东博士在接受采访时表示,这一成就在很大程度上要归功于CNTK这个工具,它极大地提高了团队的研究速度,最终实现了与人类专业能力看齐的目标。事实上,包括微软人工智能助理小娜(Cortana)和混合现实全息眼镜HoloLens的等微软重磅产品中的语音识别功能也都是基于CNTK来实现的,可以说CNTK是微软的秘密武器,而CNTK的开源也是希望更多的开发者们能够基于它轻松开发出各种有趣的人工智能应用。

此次更新版具有更强的性能表现和学习能力。黄学东博士为我们总结了该版本的三个主要特点: 

这是当前最快的分布式深度学习工具包

能处理大规模的、可投入应用的任务,例如小娜语音与微软认知服务

结合了1.x版本用户的反馈,在C 之外新增了Python。

跨平台的高效工作能力可以说是微软认知工具包的关键优势,这也是加速研究突破的关键因素。从6.3%到5.9%的语音识别词错率的突破,黄学东博士团队只用了一个多月的时间。而在此前,语音识别每0.1%的突破都是基于这个领域的学者们长达数月的积累和尝试才能实现的。该工具包在针对需要跨多台机器运行大数据集时表现极佳。当然了,为开发消费者产品和专业产品,这种大规模部署对跨多个 GPU 的深度学习来说是必需的。此外,此工具包还支持强化学习(reinforcement learning)的使用。

“使用微软认知工具包的一个关键理由是其可以针对大型数据集跨多 GPU 和多机器进行有效地扩展,”微软合作伙伴工程经理 Chris Basoglu表示。

让机器学习更快、更大、更强

在微软,一个拥有超过5,000名计算机科学家和工程师的人工智能与研究(Artificial Intelligence and Research)部门正致力于让人工智能普及至每一个人的日常生活中,改善人们的计算体验。而位于北京的微软亚洲研究院的研究团队作为该部门的重要组成部分,则承担了人工智能基础研究的使命。他们也为此次微软认知工具包的更新贡献了诸多创新成果。 

残差网络(ResNet):训练更深的网络模型

去年,微软亚洲研究院的一组研究员在ImageNet图像识别挑战赛中凭借惊人的152层深层残差网络(deep residual networks),以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。相关的工作论文也在CVPR(计算机视觉领域的顶级会议) 2016 上获得了最佳论文奖。研究员们在论文中分享了他们的工作成果之后,学术界和工业界对这一创新工作的基础上进行了多种尝试。

现在,微软亚洲研究院网络图形组也为微软认知工具包改进了残差网络(ResNet)的实现,提高了准确率。此外,他们还对单个节点上的内存问题进行了优化,这意味着微软认知工具包也能训练出百层以上的ResNet,也可以帮助语音识别等领域训练更大的模型。

BMUF:解决并行训练困境

今年三月,微软亚洲研究院语音组在ICASSP 2016 大会上提交的论文Scalable Training of Deep Learning Machines by Incremental Block Training with Intra-Block Parallel Optimization and Blockwise Model-Update Filtering首次较好地解决了大数据机器学习并行训练中经典的两难问题,在保证训练模型的性能的同时,让训练速度在增加GPU的条件下几乎实现了线性增长,这一突破对大数据机器学习的效率提升意义重大。该论文一经发布便引起轰动,目前,有很多厂商已经将BMUF(Blockwise Model-Update Filtering)融入了他们大规模并行机器学习的实际应用中。

除上述内容以外,微软认知工具包与微软亚洲研究院机器学习组还有着许多更深入的合作。例如在未来几天微软认知工具包还将开放的Multiverso等等。Multiverso是一个基于参数服务器的框架,用于训练大数据与机器数量的机器学习模型。 在这样的框架下能够实现高效的异步多机训练,在机器集群规模比较大或者集群中各个机器的性能有差异是能够保持很高的并行效率。并且Multiverso提供了灵活接口来实现各种同步异步的多机算法,让分布式机器学习的研究人员能够很容易地进行分布式机器学习的创新性实验。更多相关内容,将由微软亚洲研究院机器学习组的研究员于11月30日至12月2日在北京召开的微软技术大会(Microsoft Ignite China)上为大家进行讲解。

人人可用的人工智能

从广义上说,机器学习是一种需要用到大量数据(被称为训练集)的人工智能技术,从而能教会计算机系统学会识别图像或声音等输入中的模式。

比如说,可以用一个包含了各种水果和蔬菜图片的训练集来训练一个深度学习系统,之后该系统能学会自己识别水果或蔬菜的图片。它获得的数据越多,它的表现就会越好;所以每次当它遇到一个新的、长相奇怪的茄子或扭曲的苹果时,它都可以调整自己的算法以使其变得更为准确。

这类的成果不只是研究的里程碑。由于机器学习的进步,加上计算马力的大幅度增长,我们如今有了像微软实时语音翻译Skype Translator 这样面向普通大众的产品,还有像微软小娜(Cortana)这样能够听懂你所说的、并帮助你完成一些订机票和设定备忘录等任务的人工智能个人助手。

如今,无论是科技巨头还是小型初创企业都看到了机器学习背后的种种可能性。微软更新这款认知工具包正是为了让更多的开发者不再拘泥于诸多限制,从而把精力发挥到自己天马行空的创意上,让开发者们有机会轻松开发出各种人工智能的有趣应用。

随着微软认知工具包(前称CNTK)变得越来越流行,微软听取了更多的来自开发者们的需求。例如许多开发者不能或不想写大量代码,于是微软创造出一个自定义系统,能让开发者更简单的配置深度学习系统而不需要额外的代码。又例如开发者想将自己的 Python 或 C 代码与该工具箱的深度学习能力结合起来,或是一些研究人员想要使用该工具包进行强化学习研究——这类研究可能最终引向真正的人工智能,也就是系统能够自己做复杂的决策——在今天这最新版本的微软认知工具包中,你能看到这些来自开发者的声音都一一得到反馈。

最初,微软认知工具包是由一群做语音的研究者们推出的,主要目的是为解决自己在研究中遇到的问题,但如今,你可以看到它被用于各种不同的使用场景中,成为普及人工智能的工具和例证。

还想了解更多?微软亚洲研究院官方微信群分享还会针对CNTK等微软开源及工具做更多深入分享,敬请期待吧~






 

微软发布Microsoft Concept Graph和Microsoft Concept Tagging模型

$
0
0

当我们在讨论人工智能时,请注意,我们通常在讨论弱人工智能。

虽然我们现有的资源与之前可谓不同日而语——部署在云端的海量计算资源已经像水和电一样唾手可得了;互联网所容纳的信息也远远超过了过去几千年来人们所有的知识储备;以深度学习等为代表的机器学习算法的发展,也让计算机能够从这些庞大的数据中获取知识。

但是我们也不得不正视一些事实,当前的人工智能更多的是针对某个具体的问题,发展对应的算法和技术,有人称之为“拼图式”的工作方法:我们做出了视觉模块、再拼上语音模块、推理模块——把每个子领域的功能做好,然后再组合出一个完整的智能系统出来。

微软一直在为这份属于全人类的人工智能大拼图贡献力量。从底层的可编程芯片FPGA,到Azure云平台的部署,从微软认知工具包(Microsoft Cognitive Toolkit),到应用层面的能供每一个没有人工智能背景也能开发出属于自己的智能应用的微软认知服务……随着人工智能拼图不断趋于完整,科学家们始终会问自己:计算机真的能像人类一样智能了吗?

今天,我们很高兴地宣布,微软亚洲研究院正式发布Microsoft Concept Graph知识图谱 和Microsoft Concept Tagging 模型,用于帮助机器更好地理解人类交流并且进行语义计算。Microsoft Concept Graph是一个大型的知识图谱系统。其包含的知识来自于数以亿计的网页和数年积累的搜索日志,可以为机器提供文本理解的常识性知识。(了解更多信息,请访问https://concept.research.microsoft.com/

Apple是什么

10月初,你的微博、微信可能都被一首叫《PPAP》的神曲占领了。什么,你还没听过?那让我们先来看看这首曲子:

这首歌是有日本谐星古坂和仁(PIKO太郎)于8月25日发布在YouTube上的,一开在日本小范围内炒红;后来由新媒体9GAG发布,其浏览数据立马飙升。9月25日,9GAG在Facebook上传了PPAP,被大V转发以后,迅速火起来。目前,这个视频的播放量已经过亿,并且荣登美国公告牌单曲榜Hot 100。能登陆Hot 100是个什么概念呢?对于亚洲歌曲上榜历史数据来说,最近的一次,是2012年鸟叔的 《江南Style》蝉联了7周亚军的位置。

这首魔性的神曲的歌词非常简单易学:“I have a pen. I have an apple. Apple-pen!”

小编为什么要把这个魔性的神曲分享给大家呢?下面问题来了:当PIKO太郎说出“I have an apple.”时,你第一反应这个“apple”是一种水果,还是一家公司?

你也许会意识到,很多时候帮助你做出判断的并不是一些能够清晰列在书本的知识,而是大量常识性的概念。例如“笔是一种写字的工具”、 “笔是竖直形的可以捏在手里”、“苹果是一种水果或一家公司”等等概念,都有助于我们对歌词的判断和理解。

当下,计算机究竟有多智能了?它可能能轻而易举的战胜一个三四十岁经验丰富的世界顶尖棋手,但是它的学习能力以及完成一般任务的能力可能都远不及一个三四岁的孩童。研究员们从人类的学习成长过程开始入手,试图找到逐步实现机器智能的解决方法。

这个问题的答案可能是“常识”——理解是万物的基础。人们在正式上小学、初中接受系统性教育开始,已经早早地开始了学习的过程。这种与生俱来的本能能让你进入小学之前已经了解诸如“糖是甜的食品”、“水是一种液体”这一类基础的概念,并且随着年龄的增长,这种并不属于某个专业领域的开放性常识也在人们的认知中日积月累,并不断丰富。

微软亚洲研究院今天发布的Microsoft Concept Graph就在试图让计算机复制这些常识性概念,其核心知识库包含了超过540万条概念。除了包含一些被绝大部分通用知识库包含的概念,例如“城市”、“音乐家”等,Microsoft Concept Graph还包含数百万长尾概念,例如“抗帕金森治疗”、“名人婚纱设计师”、“基础的水彩技巧”等,而这些概念在其他的数据库中很难被找到。除了概念,Microsoft Concept Graph同样包含了大量数据空间(每条知识概念都包含一系列的实体或者子概念,例如“太阳系”底下可能就会包括“水星”、“火星”、“地球”等等)。

Apple是甜的

当你看到“Apple是甜的”这句话时,你几乎可以肯定这里的“Apple”指的是我们最常见的那种水果。在这几毫秒的时间里,你触发的是“根据上下文语境确定语义”这一技能。微软亚洲研究院的研究员们同样也为计算机点亮了这棵技能树。

Microsoft Concept Tagging模型可以将文本词条实体映射到不同的语义概念,并根据实体文本内容被标记上相应的概率标签。例如“微软”这个词可以被自动映射到“软件公司”和“科技巨头”等概念,并带有相应的概率标签。这个模型让计算机拥有常识性的计算能力,让机器“了解”人类的意识,从而让机器可以更好地理解人类的文本交流。具体来说,概念模型根据人类的概念推理将实体或者短语映射到大量自动习得的概念空间(向量空间)。这种映射关系是人类和机器都可以理解的。因此该模型提供了文本理解所需的文本概念映射、短语语义化理解等功能。

Microsoft Concept Tagging模型区别于以往常见的文本推理模型的根本区别是他是基于网络之上的一个推理模型,将文本映射到一个显式的知识空间,将文本概念化。以搜索引擎为例,绝大多数的用户的查询词数量是很少的,搜索引擎在返回结果时需要将查询词进行额外的信息化,将很短的文本映射到大量的概念空间里面,从而解释了这一段文本。传统的模型对于文本的推理几乎不可解释,而Microsoft Concept Tagging模型用不同的概念去描述一个词,并给出对应的概率,使机器能够更好地理解文本,另一方面可计算的显性词向量也体现了我们人类智能与人工智能相结合的理念(HI AI,human in the loop)。例如社交网络的设置中,工程师可能会人为设置一些关键字去屏蔽一些不当言论,但是并不是每一个敏感词工程师都能准确找到。例如工程师屏蔽了“希特勒”、“纳粹”,却忽略了“法西斯”,现在Microsoft Concept Tagging模型就能对已有的概念进行延展,在系统中找到其他类似的相关性很大的关键字,做更多智能的扩展。

理解是万事万物的基础

“我们想做的,是让计算机能够更好地理解人类。”现负责Microsoft Concept Graph 和 Microsoft Concept Tagging 模型的微软亚洲研究院资深研究经理闫峻博士说,“理解是万事万物的基础,我们用计算机抓取过去这些不成文的开放领域的常识,能够帮助计算机更具象地了解这个世界。”


图(从左至右)为微软亚洲研究院研究员纪蕾,资深研究经理闫峻,研究员张大卫

对于这类知识图谱,学术界和工业界都有参与,但始终离不开一些根本问题:如何去获取实体、实体和实体之间的属性和关联。在过去,知识库系统和人类的思考方式差异巨大。例如“奥巴马生日”,过去计算机能理解这个词的含义,但是却不能直接给你回答,而此次微软开放的Microsoft Concept Graph 和 Microsoft Concept Tagging模型就希望能为人们提供一个更智能化知识图谱,借助它,从实体到抽象概念,计算机都能够理解。

谈及Microsoft Concept Graph 和 Microsoft Concept Tagging模型的下一步计划,闫峻博士表示目前该模型暂只能支持英文,还要和高校合作完成中文的支持工作。在完成中文的知识库构建之后,再逐步扩展到多语言版本。其次,人类的语言还涉及到比喻、夸张和玩笑等高层次跨领域的抽象表达方法,这也是接下来需要让机器不断学习的方向。最后,从短文本的理解到长文本的理解,如理解两个完全不同的故事,但语义层面在表达同样的道理,也是他们接下来不断努力的方向。

Microsoft Concept Graph 和 Microsoft Concept Tagging模型可以应用于不同的文本处理应用,包括搜索引擎、自动问答系统、在线广告系统、推荐引擎、聊天机器人、以及人工智能系统等。目前这个模型已经进入了微软的多个产品和服务中。微软亚洲研究院资深研究经理闫峻博士表示:“我们希望Microsoft Concept Graph和Microsoft Concept Tagging模型的发布可以推动知识挖掘、自然语言处理等领域的发展,最终推动人工智能的进步。“


 

微软发布Microsoft Concept Graph和Microsoft Concept Tagging模型

$
0
0

当我们在讨论人工智能时,请注意,我们通常在讨论弱人工智能。

虽然我们现有的资源与之前可谓不同日而语——部署在云端的海量计算资源已经像水和电一样唾手可得了;互联网所容纳的信息也远远超过了过去几千年来人们所有的知识储备;以深度学习等为代表的机器学习算法的发展,也让计算机能够从这些庞大的数据中获取知识。

但是我们也不得不正视一些事实,当前的人工智能更多的是针对某个具体的问题,发展对应的算法和技术,有人称之为“拼图式”的工作方法:我们做出了视觉模块、再拼上语音模块、推理模块——把每个子领域的功能做好,然后再组合出一个完整的智能系统出来。

微软一直在为这份属于全人类的人工智能大拼图贡献力量。从底层的可编程芯片FPGA,到Azure云平台的部署,从微软认知工具包(Microsoft Cognitive Toolkit),到应用层面的能供每一个没有人工智能背景也能开发出属于自己的智能应用的微软认知服务……随着人工智能拼图不断趋于完整,科学家们始终会问自己:计算机真的能像人类一样智能了吗?

今天,我们很高兴地宣布,微软亚洲研究院正式发布Microsoft Concept Graph知识图谱 和Microsoft Concept Tagging 模型,用于帮助机器更好地理解人类交流并且进行语义计算。Microsoft Concept Graph是一个大型的知识图谱系统。其包含的知识来自于数以亿计的网页和数年积累的搜索日志,可以为机器提供文本理解的常识性知识。(了解更多信息,请访问https://concept.research.microsoft.com/

Apple是什么

10月初,你的微博、微信可能都被一首叫《PPAP》的神曲占领了。什么,你还没听过?那让我们先来看看这首曲子:


这首歌是有日本谐星古坂和仁(PIKO太郎)于8月25日发布在YouTube上的,一开在日本小范围内炒红;后来由新媒体9GAG发布,其浏览数据立马飙升。9月25日,9GAG在Facebook上传了PPAP,被大V转发以后,迅速火起来。目前,这个视频的播放量已经过亿,并且荣登美国公告牌单曲榜Hot 100。能登陆Hot 100是个什么概念呢?对于亚洲歌曲上榜历史数据来说,最近的一次,是2012年鸟叔的 《江南Style》蝉联了7周亚军的位置。

这首魔性的神曲的歌词非常简单易学:“I have a pen. I have an apple. Apple-pen!”

小编为什么要把这个魔性的神曲分享给大家呢?下面问题来了:当PIKO太郎说出“I have an apple.”时,你第一反应这个“apple”是一种水果,还是一家公司?

你也许会意识到,很多时候帮助你做出判断的并不是一些能够清晰列在书本的知识,而是大量常识性的概念。例如“笔是一种写字的工具”、 “笔是竖直形的可以捏在手里”、“苹果是一种水果或一家公司”等等概念,都有助于我们对歌词的判断和理解。

当下,计算机究竟有多智能了?它可能能轻而易举的战胜一个三四十岁经验丰富的世界顶尖棋手,但是它的学习能力以及完成一般任务的能力可能都远不及一个三四岁的孩童。研究员们从人类的学习成长过程开始入手,试图找到逐步实现机器智能的解决方法。

这个问题的答案可能是“常识”——理解是万物的基础。人们在正式上小学、初中接受系统性教育开始,已经早早地开始了学习的过程。这种与生俱来的本能能让你进入小学之前已经了解诸如“糖是甜的食品”、“水是一种液体”这一类基础的概念,并且随着年龄的增长,这种并不属于某个专业领域的开放性常识也在人们的认知中日积月累,并不断丰富。

微软亚洲研究院今天发布的Microsoft Concept Graph就在试图让计算机复制这些常识性概念,其核心知识库包含了超过540万条概念。除了包含一些被绝大部分通用知识库包含的概念,例如“城市”、“音乐家”等,Microsoft Concept Graph还包含数百万长尾概念,例如“抗帕金森治疗”、“名人婚纱设计师”、“基础的水彩技巧”等,而这些概念在其他的数据库中很难被找到。除了概念,Microsoft Concept Graph同样包含了大量数据空间(每条知识概念都包含一系列的实体或者子概念,例如“太阳系”底下可能就会包括“水星”、“火星”、“地球”等等)。

Apple是甜的

当你看到“Apple是甜的”这句话时,你几乎可以肯定这里的“Apple”指的是我们最常见的那种水果。在这几毫秒的时间里,你触发的是“根据上下文语境确定语义”这一技能。微软亚洲研究院的研究员们同样也为计算机点亮了这棵技能树。

Microsoft Concept Tagging模型可以将文本词条实体映射到不同的语义概念,并根据实体文本内容被标记上相应的概率标签。例如“微软”这个词可以被自动映射到“软件公司”和“科技巨头”等概念,并带有相应的概率标签。这个模型让计算机拥有常识性的计算能力,让机器“了解”人类的意识,从而让机器可以更好地理解人类的文本交流。具体来说,概念模型根据人类的概念推理将实体或者短语映射到大量自动习得的概念空间(向量空间)。这种映射关系是人类和机器都可以理解的。因此该模型提供了文本理解所需的文本概念映射、短语语义化理解等功能。

Microsoft Concept Tagging模型区别于以往常见的文本推理模型的根本区别是他是基于网络之上的一个推理模型,将文本映射到一个显式的知识空间,将文本概念化。以搜索引擎为例,绝大多数的用户的查询词数量是很少的,搜索引擎在返回结果时需要将查询词进行额外的信息化,将很短的文本映射到大量的概念空间里面,从而解释了这一段文本。传统的模型对于文本的推理几乎不可解释,而Microsoft Concept Tagging模型用不同的概念去描述一个词,并给出对应的概率,使机器能够更好地理解文本,另一方面可计算的显性词向量也体现了我们人类智能与人工智能相结合的理念(HI AI,human in the loop)。例如社交网络的设置中,工程师可能会人为设置一些关键字去屏蔽一些不当言论,但是并不是每一个敏感词工程师都能准确找到。例如工程师屏蔽了“希特勒”、“纳粹”,却忽略了“法西斯”,现在Microsoft Concept Tagging模型就能对已有的概念进行延展,在系统中找到其他类似的相关性很大的关键字,做更多智能的扩展。

理解是万事万物的基础

“我们想做的,是让计算机能够更好地理解人类。”现负责Microsoft Concept Graph 和 Microsoft Concept Tagging 模型的微软亚洲研究院资深研究经理闫峻博士说,“理解是万事万物的基础,我们用计算机抓取过去这些不成文的开放领域的常识,能够帮助计算机更具象地了解这个世界。”


图(从左至右)为微软亚洲研究院研究员纪蕾,资深研究经理闫峻,研究员张大卫

对于这类知识图谱,学术界和工业界都有参与,但始终离不开一些根本问题:如何去获取实体、实体和实体之间的属性和关联。在过去,知识库系统和人类的思考方式差异巨大。例如“奥巴马生日”,过去计算机能理解这个词的含义,但是却不能直接给你回答,而此次微软开放的Microsoft Concept Graph 和 Microsoft Concept Tagging模型就希望能为人们提供一个更智能化知识图谱,借助它,从实体到抽象概念,计算机都能够理解。

谈及Microsoft Concept Graph 和 Microsoft Concept Tagging模型的下一步计划,闫峻博士表示目前该模型暂只能支持英文,还要和高校合作完成中文的支持工作。在完成中文的知识库构建之后,再逐步扩展到多语言版本。其次,人类的语言还涉及到比喻、夸张和玩笑等高层次跨领域的抽象表达方法,这也是接下来需要让机器不断学习的方向。最后,从短文本的理解到长文本的理解,如理解两个完全不同的故事,但语义层面在表达同样的道理,也是他们接下来不断努力的方向。

Microsoft Concept Graph 和 Microsoft Concept Tagging模型可以应用于不同的文本处理应用,包括搜索引擎、自动问答系统、在线广告系统、推荐引擎、聊天机器人、以及人工智能系统等。目前这个模型已经进入了微软的多个产品和服务中。微软亚洲研究院资深研究经理闫峻博士表示:“我们希望Microsoft Concept Graph和Microsoft Concept Tagging模型的发布可以推动知识挖掘、自然语言处理等领域的发展,最终推动人工智能的进步。”



 
Viewing all 620 articles
Browse latest View live