开源|微软开源生物模型分析器（BMA）：一款基于云的生物研究工具

February 6, 2017, 8:21 pm

≫ Next: 未来，你准备好了么？

≪ Previous: 行为识别：让机器学会“察言观色”第一步

微软近日在GitHub上开源了“生物模型分析器”（Bio Model Analyzer，简称BMA）。这是一款能够帮助生物学家模拟细胞互动和通信过程的基于云的工具。

生物模型分析器（BMA）能够创建计算机模型，让研究人员将健康细胞的正常代谢过程与疾病发作时的异常代谢过程进行对比。“在硅基上”（即使用计算机而非较为传统的模型）从事这项工作，将允许研究人员以更快的速度检测比以前更多样的可能情况。

微软英国剑桥研究院编程原理及工具研究组资深研究员、剑桥大学生物化学系副教授Jasmin Fisher认为，BMA还可以加速有关药物间相互作用和抗药性等领域的研究，并可能最终为患者提供更为个性化和有效的癌症治疗方案。

Jasmin Fisher

BMA是微软利用计算机科学加速癌症研究和治疗突破的研究项目之一。Fisher在2016年的一篇报道中说：“我们正努力变革生物学日常研究的方式。”

GitHub链接：https://github.com/Microsoft/BioModelAnalyzer

BMA官网：http://biomodelanalyzer.org/

拓展阅读

一种治疗癌症的方法：调试系统

（注：该部分节选自《微软：用计算机技术治愈癌症，这不是在开脑洞》）

Jasmin Fisher不寄望于彻底治愈癌症，而是希望能控制它。她相信，在她有生之年可以做到这一点。作为微软英国剑桥研究院编程原理与工具研究组资深研究员、剑桥大学生物化学系副教授，她认为，并不是说癌症会永远消失。而是一旦你能够管理它并知道如何控制它，它就不再是个问题。

为此，Fisher和她的团队认为需要利用技术理解癌症——或者更具体说是让正常细胞变成癌细胞的生物过程。了解了问题所在，你就需要知道如何修复它。Fisher把计算方法引入癌症研究，她就像计算机科学家看待计算机程序一样看待癌症研究。她的目标是了解让细胞执行命令或以特定方式行动的程序或指令集。一旦开发了一个描述细胞不正常行为的计算机程序并与癌细胞的行为对比，你就可以找出改正不正常行为的方法。她说：“如果知道了如何开发这些程序，你就可以调试它们，那它就不再是个问题了。”

生物模型分析器（Bio Model Analyzer，BMA）

当然，这虽然听上去很简单，实际却很复杂。Fisher和她的团队正在研究的一种方法叫生物模型分析器（Bio Model Analyzer，BMA）。这个基于云的工具让生物学家可以对细胞之间的互动和通信以及它们的连接进行建模。该系统可创建一个计算机化的模型，对比健康细胞的生物流程与生病后的异常流程。这反过来让科学家可以看到导致癌症的人体中数百万基因和蛋白质之间的互动，并快速制定最好、危害最小的方式为患者提供个性化治疗。

Fisher项目团队的成员、英国剑桥皇家社会大学研究员BenHall说： “我使用BMA研究癌症，了解癌症的形成过程，以及正在进行的通信。”Hall说，BMA有很多用途，包括如何及早检测癌症并了解如何更好地治疗癌症，通过建模找出哪些药品最有效以及癌症在什么时候会产生抗药性。

下面是BMA可能发挥作用的一种方式：假设一名患者得了一种罕见并且致命的脑癌。使用BMA，医生可以把有关该患者的所有生物信息输入该系统。然后，他们可以使用该系统进行各种实验，例如对比癌症患者与健康人的信息，或模拟患者的身体对各种治疗方法的反应。使用笔和纸，甚至简单的计算机程序进行这种计算是不可能的，因为人体中互相配合的数百万分子、蛋白质和基因存在太多的变量。为了开发Fisher预想的这种解决方案，研究人员需要开发强大的计算模型，能够建立这些极为复杂的模型，并运行所有可能的解决方案以寻找异常情况。

由于能够使用计算机而不是纸和笔或试管和烧杯进行这些实验，研究人员可以快速地测试更多的可能性。这反过来更好地了解癌症如何发展、演进以及与身体其它部分的互动。Jonathan Dry是制药公司AstraZeneca的首席科学家，他的团队与Fisher的团队合作。他表示：“我认为这会加快研究，因为我们能够检验比在实验室中多得多的可能性。”Dry说，由于过去检验任何假设都极为困难，研究人员不得不专注于自己偏好的假设，猜测什么可能最有潜力。BMA等系统让他们可以尝试所有想法，使得他们更有可能找到正确的方法——并且更有可能找到“黑马式”的方法。Dry认为，如果每一个假设都来被检验，放在过去这是不可能的。而有了这些模型则使得研究人员可以检验所有可能性，从而能找出更为科学的治疗方案。

改进和个性化癌症治疗

微软和AstraZeneca一直在使用BMA来更好地了解药品在白血病患者体内的相互作用和抗药性。借助BMA，两个研究团队能够更好地了解不同的患者为什么对特定治疗方法有着不同的反应。Dry说，BMA对于更加个性化的癌症治疗或精准医疗来说有着巨大的潜力。研究人员希望BMA这样的系统最终可以让研究人员和肿瘤医生详细了解具体的癌症病情，在检验时纳入可能影响治疗的其他因素，例如患者是否有其它疾病以及患者吃的其它药是否会与治疗癌症的药产生反应。“这真正正视了每个患者都是不同的，可能存在很大的不同这一现实”，Dry表示。

对于生物学家来说有用的计算机系统

Fisher认为，BMA这样的系统有望革命性地改变人们对癌症的看法，但只有生物学家愿意使用它们才能取得成功。经常使用BMA工作的设计师David Benque说，该系统在开发时就考虑到尽可能让生物学家感到熟悉并且可以理解。Benque多年来一直在使用生物学家可以理解的语言来开发工具，在视觉上模拟科学家在实验室中可能用到的东西。在Fisher看来，这样的系统迫切需要方便生物学家的使用。否则，就不会在治疗癌症方面实现突破。她说：“每个人都意识到癌症研究中需要计算能力。了解到这一点是一件事，说服医生实际使用这些工具又是另外一件事。”

↧

未来，你准备好了么？

January 13, 2017, 2:35 am

≫ Next: 微软认知服务：人工智能人人皆享

≪ Previous: 开源|微软开源生物模型分析器（BMA）：一款基于云的生物研究工具

虚无缥缈、难以捉摸的未来，因为科技和创新，变得有迹可循。

“预言，是人类探索未来的渴望。人类文明，在科学预言提出、验证、实现的循环中不断前行”。

因为科学，我们一步步接近未来，并为之惊叹。抽象的科学，在科学家面前逐渐抽丝剥茧，化身于大家的聊天朋友小冰，人工智能助理小娜，支持多人、多语言、跨设备的现场翻译技术的Microsoft Translator等具体可感的产品，极大便利了人类生活，让我们可以更加肆意大胆地去想象一个可近可远、可抽象可具体的未来。

1月14日（本周六），未来论坛2017年会暨首届未来科学颁奖典礼将在北京国贸大酒店拉开帷幕。届时，百余名跨界意见领袖将齐聚北京，为大家带来一场史无前例的思想盛宴，畅谈我们可以期待的未来。如此盛会，自然不容错过。在此次论坛上，微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋，以及微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文也参与其中，与各位大牛畅谈人工智能。

部分出席嘉宾

人工智能可以有思想和情绪么？小冰能成为大家真正意义上的知心朋友么？机器人会如《西部世界》中那般觉醒，反抗人类么？沈向洋和洪小文将针对这些大家关心的问题，与大家一同探讨人工智能等科技的未来。

沈向洋将在1月14日下午一点带来主题演讲《有情商的人工智能，让世界更美好》，随后将加入洪小文主持的对话环节，与斯坦福大学计算机科学系终身教授李飞飞，普林斯顿大学 Paul & Marcia Wythes 讲席教授、美国工程院院士李凯，清华大学计算机系教授、中国科学院院士张钹一同憧憬人类智能与人工智能的“共进化”。

如此大咖云集的盛会，怎能错过？敬请锁定微软研究院AI头条后续报道。

未来，你准备好了么？

↧

微软认知服务：人工智能人人皆享

February 8, 2017, 2:00 am

≫ Next: 微软亚洲研究院开源图数据查询语言LIKQ

≪ Previous: 未来，你准备好了么？

微软实时语音翻译Skype Translator、必应搜索、微软小娜（Cortana）人工智能虚拟助手，这些大家耳熟能详的应用背后潜藏的对话翻译技术、知识编纂和语义理解等技术，无一例外都来自于机器学习的神奇能力。而眼下，这种智能正越来越广泛的进入更多第三方应用，成为人们日常生活中必不可少的环节。

在推进人工智能普及化的进程中，微软认知服务扮演了重要角色。它由25款工具集合而成，让毫无机器学习专业背景的开发人员也可在其应用中轻松添加诸如情绪识别、图像识别和语音识别以及语言理解等智能的功能。

“微软认知服务集微软所有机器学习和人工智能之大成，通过易于使用的API将它们提供给开发人员，免去他们从无到有的自创技术之苦，”微软雷德蒙研究院语音及对话组首席研究员Mike Seltzer说。“在大多数情况下，建立一个先进的机器学习模型需要巨大的时间、数据、计算投入和过硬的专业背景，”他解释道。

以语音识别工具为例，Seltzer和同事们花了十多年时间来研究算法，才使得微软语音识别技术能够在嘈杂环境中依然可以正常使用，并能应对特定用户群体和情形下的术语、方言和口音。

近日，微软发布了这项认知服务工具的公开预览版。第三方应用程序开发人员已可通过自定义语音服务（Custom Speech Service）使用这项灵活的技术。

微软表示，另外两项认知服务工具——“内容审阅”（Content Moderator）和“必应语音API”（Bing Speech API）将在下个月正式上线。“内容审阅”允许用户隔离和审查图片、文字或视频等数据，以筛除不需要的资料（如可能令人不悦的语言或图片等）。“必应语音API”则可将音频转换为文本，理解内容意图，并再将文本转换回语音。

微软认知服务功能十分强大，它可帮助开发人员将智能技术应用于图片和视频等视觉数据的处理上，企业及机构用户则可以用它来强化各自的服务。例如，商务智能企业Prism Skylabs在其Prism Vision应用中加入了计算机视觉API（Computer Vision API），以帮助组织机构搜索闭路电视和安防摄像头所拍摄的内容，从而寻找特定的事件、物品和人员。

微软人工智能及微软研究事业部全球资深副总裁Andrew Shuman指出，整套认知服务工具集发端于微软普及人工智能的愿景，旨在将微软在人工智能和机器学习领域的专业知识广泛地提供给开发社区，为最终用户创造更加愉悦和强大的体验。

Andrew Shuman
微软人工智能及微软研究事业部全球资深副总裁

“如今，软件能够观察人类、聆听、应答并了解周边的物理世界，这堪称一次重大突破，因为它使界面变得更加人性化、更自然、更易于理解，因此在很多不同场景中更具冲击力，”Andrew说。“即将到来的这个时代会从真正意义上以更有趣的方式强化和丰富计算机的能力，并惠及更广泛的人群。”

新体验、新故事

微软认知服务都能给人们带来哪些新体验，激发哪些新创意呢？

以Alexander Mejia为例，在成长的过程中，他总是抢着尝试有最先进图形及技术创新的最新游戏，追逐音响和视觉效果更佳的时髦玩意儿以及将剧烈的身体动作转化为屏幕上角色行动的新交互方式。

近年来，在担任游戏行业创意总监的工作中，Mejia意识到来自新体验的劲道正在减退——计算能力的成倍提升并未带来游戏兴致的倍增。“接下来会怎样？”他问道。“能够带来全新体验、让游戏玩家们尖叫的技术飞跃又是什么？”

这个问题催生了一次新一代虚拟现实技术的演示。他戴上头盔，开启了一次狂野的过山车之旅。肾上腺素奔涌的体验又回来了！他说，这种体验让人震撼。

“在虚拟世界中，你会相信那些东西就是真的，”他说。“如果我们把一个人物放在你面前，你会做什么？你会试着与他交谈吗？”

这个想法后来发展成为一项商业计划。Mejia成立了自己的公司——Human Interact，并着手研发虚拟现实中的讲故事体验和技巧。该公司的成名作《星舰指挥官（Starship Commander）》可让玩家在以超光速穿越时空的同时控制故事情节，并在每个回合中与各色虚拟人物交谈。

为了实现真实而快节奏的动作，Mejia和他的同事需要准确和响应敏捷的语音识别功能。“一定要做到这一点，任何人在任何时候说的任何话，【语音识别引擎】都要能够理解，并且沿着脚本中正确的路径运行，”他解释道。他随后补充说：“这，就是微软认知服务的魔力。”

创建自定义语音模型，解锁更多场景

现代语音识别技术依赖于机器学习统计模型，可借云计算和大数据之力，将声音片段转换为文本，构成口语内容的精确转录。

例如声学模型，它是一种分类器，能将特定语言的音频短片段标记为几个音素或声音单元。这些标签与来自相邻片段的标签结合，就可以预测目标语言中将要说出的词汇。预测过程由一部将每个单词拆分成音素的目标语言字典作为索引。

同时，语言模型通过衡量目标语言中每个被预测单词的常见性，对预测进一步精确细化。语音识别系统在处理发音类似的单词时，更常见的单词被选中的概率更高。这些模型还会考虑上下文，以便做出更准确的预测。Seltzer解释说：“如果前文是‘The player caught the（选手抢到了）’，那么‘ball（球）’被选中的可能性就要大于‘fall（掉落，与ball发音相近）’”。

微软先进的语音识别引擎背后的声学模型其实是深层神经网络，这种分类器源于人类大脑模式识别理论的启发。研究人员借助在云中运行的高级算法和数千小时的音频数据，对该模型进行了训练。

2016年10月8日，微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率（word error rate, 简称WER）低至5.9%的突破，创造了当时该领域内错误率的最低纪录。这意味着微软语音识别系统已经能够像人一样识别谈话中的词汇，极具里程碑式的意义。而这项标准化测试所采用的基准已被学术界和业界研究人员沿用了20多年，具有极强的权威性。

“现在，如果你把从未接受过嘈杂的工厂对话数据训练的同样一款系统放在真正的嘈杂工厂里，它是不可能出色的完成任务的，”Seltzer说。“这就是微软自定义语音服务（Custom Speech Service）大显身手之处。”

该服务允许开发人员针对嘈杂工厂车间的声音和工人们的术语，自定义声学和语言模型。例如，可以训练声学模型在液压设备和钻床的轰鸣中识别语言；而语言模型则可加以更新，以便对工厂特有的术语（例如螺母、螺栓和汽车部件等）词汇赋予优先权重。

究其根源，自定义语音服务利用一种算法将微软现有的语音识别技术运用于第三方开发人员提供的数据。从已经通过大量数据进行过训练的模型着手，所需的与特定应用相关的数据量就会大大减少。在开发人员自有数据不足的情况下，语音识别系统会重新恢复到已有模型上。

“基本的理念是，系统越专注，它们的表现就越好，”Seltzer说：“自定义语音服务的任务就是让用户能够使系统专注于自己真正在乎的数据上。”

属于你的虚拟现实

Human Interact公司的《星舰指挥官》的故事发生在一个科幻的世界里，其中不少单词和地名都是开发者创造出来的。当Mejia用这些关键词和短语训练自定义语音服务时，他发现这套新系统的错误率只有构建早期原型的开源语音转文本软件的一半。

接着，Mejia求助于微软语言理解服务来解决另一个难题——理解玩家话语的意图。“有很多不同的方式来表达‘开始行动’”，他解释道。“比如，‘我们走、自动驾驶、带我离开、超光速行进、启动超级驱动’等，这些都是玩家在我们的游戏进行中会用到的表达方法，特别是在紧急时刻，因为这种时候你往往并没有太多时间思考。”

目前已开放公共预览的语言理解服务允许开发人员在机器学习模型中对分类器进行训练，通过加载用户可能脱口而出的事物类型子集，并标记这些话语的意图，就可以理解自然语言的意图。

位于埃及开罗的微软先进技术实验室主任Hussein Salama解释道，这项服务在后端利用了十多年来有关如何借助有限数据集对分类器进行训练的研究。Salama目前正在领导这项服务的开发工作。

“人们通常需要机器学习领域的专家来帮助选择正确的技术、提供正确的数据集、训练分类器，然后对它们进行评估，”他说：“有了语言理解服务，我们简化了这一步骤。只要提供一些语句和几个带有意图的短语示例，语言理解服务就可以开始训练可以精确理解此类意图的模型。”

就《星舰指挥官》而言，这种自定义功能实现了无缝连接：从示例中学习如何从非训练数据组成部分的自然语言命令中推断出意图。“这种理解从未训练过事物的准确程度着实令人惊讶，”Mejia说：“这就是人工智能。”

● 了解微软认知服务全球版：

https://www.microsoft.com/cognitive-services；

● 了解微软认知服务中国版:

https://www.azure.cn/home/features/cognitive-services

↧

微软亚洲研究院开源图数据查询语言LIKQ

February 9, 2017, 1:58 am

≫ Next: AAAI |如何保证人工智能系统的准确性？

≪ Previous: 微软认知服务：人工智能人人皆享

近日，微软亚洲研究院通过GitHub 平台开源图数据查询语言LIKQ （Language-Integrated Knowledge Query）。LIKQ是基于分布式大规模图数据处理引擎Graph Engine的一种可用于子图和路径查询的数据查询语言。它可以让开发人员无需学习新的领域相关的特定查询语言，直接使用原生C#代码即可构建知识图谱语言，从而使海量图数据的实时检索和集成变得触手可得。

Graph Engine（分布式图处理引擎）是微软亚洲研究院于2015年发布的基于内存的分布式大规模图数据处理引擎，可以帮助用户高效地处理大规模图数据。发布一年多以来，Graph Engine受到了来自学术界和工业界的广泛关注。截至2017年1月底，Graph Engine的SDK工具包下载量已接近三万次。众多领域的科研人员和开发者利用Graph Engine开发出了各种充满创意的应用。

而基于Graph Engine的查询语言LIKQ则可以帮助用户更方便、直观地查询和检索Graph Engine所处理的图数据。开发者可以将LIKQ直接嵌入到编程语言（例如C＃和JavaScript）中，而不需要学习新的领域相关的特定查询语言。例如，在一个知识图谱的前端应用中，开发者可以将LIKQ直接嵌入到前端JavaScript中来实现实时高效的知识图谱访问。同时，LIKQ还具备灵活的可扩展性，用Lambda表达式表达的任意计算逻辑都可以被直接嵌入到查询语句中，从而实现强大的服务器端计算。比如在数据查询中，开发者可以方便地嵌入通过Lambda表达式自定义的数据过滤条件来进行灵活的图模式匹配。

此前，基于Graph Engine的LIKQ，已被应用于微软认知服务的学术图谱检索API中，用户可以通过微软认知服务对微软学术图谱进行实时的路径和模式匹配查询。

未来，微软将继续维护、开发LIKQ和Graph Engine，并与开源社区中的开发者们一道进一步提升其功能和算法，以帮助更多开发者和研究团体更好地使用Graph Engine来处理大规模图数据，产生更多的创意应用和科研创新。

更多信息，请访问 https://github.com/Microsoft/GraphEngine；

Graph Engine官网：https://www.graphengine.io。

↧

AAAI |如何保证人工智能系统的准确性？

February 13, 2017, 2:21 am

≫ Next: 守护城市安全：时空数据深度学习

≪ Previous: 微软亚洲研究院开源图数据查询语言LIKQ

注：本文译自AI is getting smarter; Microsoft researchers want to ensure it’s also getting more accurate(https://www.microsoft.com/en-us/research/blog/ai-getting-smarter-microsoft-researchers-ensure-ai-accuracy）

马里兰大学计算语言学和信息处理实验室计算机科学助理教授Marine Carpuat与语言学教授Philip Resnik

就在10年前，利用技术手段实现自动对话翻译、图像识别、甚至是计算机看图说话之类的想法似乎还只是在实验室里的有趣科研项目，远非人们日常生活中的务实应用。

而近年来人工智能技术的进步改变了人们的想法。眼下，越来越多的人开始依赖于使用机器学习等技术构建的系统。这一切变化引起了人工智能研究人员的新思考：如何确保众多此类系统的根基——算法、训练数据乃至测试工具系统——做到精确，并且尽可能无偏差。

微软自适应系统和交互组（adaptivesystems and interaction group）研究员Ece Kamar说，研究人员和开发人员的动力来自于他们意识到尽管系统本身并不完美，但已经有许多人会把重要的任务交托给它们。“这就是为什么我们必须要搞清楚，系统究竟会在哪里犯错误，”Kamar说。

微软自适应系统和交互组研究员 Ece Kamar

上周在旧金山开幕的AAAI人工智能会议上，Kamar和微软的其他研究人员将发表两篇研究论文，它们旨在综合运用算法和人类专业知识，消除数据缺陷和系统缺陷。另外，另一组微软研究人员团队即将发表一个语料库（语料库Microsoft Speech Language Translation (MSLT) Corpus，下载链接https://www.microsoft.com/en-us/download/details.aspx?id=54689），它可以帮助从事语音翻译研究人员测试其双语会话系统的准确性和有效性。

支撑人工智能的底层数据

开发人员在借助机器学习创建工具时，他们通常会依赖所谓的“训练数据”来训练系统执行特定任务。例如，为了教会系统识别各类动物，开发人员可以向系统展示诸多动物的图片，由此训练它们分辨猫和狗等物种之间的差异。

理论上，人们可以向系统展示它此前从未见过的狗猫图片，而系统应仍能够准确地对它们进行分类。但是，Kamar解释道，训练数据系统自身有时会存在一些所谓的盲点，而这将导致错误的结果。假设我们仅用白猫和黑狗的图片对系统加以训练，那么此后向系统展示一张白狗的图片时，它就有可能产生错误关联，并将白狗误认作猫。

出现这些问题的一部分原因在于许多研究人员和开发人员所使用的训练数据集并非专门设计用于学习其手头的特定任务的。原因很简单，已有的存档动物图片等现成的数据要比另起炉灶构建新数据集来的更快、更便宜——但是，反复检查这些数据的安全性则变得更加重要。

“如果没有这些举措，我们就不会明白出现了什么样的偏差，”Kamar说。Kamar及其同事在他们的研究论文——Identifying Unknown Unknowns in the Open World: Representations and Policies for Guided Exploration（下载链接：https://www.microsoft.com/en-us/research/publication/identifying-unknown-unknowns-open-world-representations-policies-guided-exploration）中介绍了一种新算法，该算法可用于识别预测模型中的盲点，帮助开发人员和研究人员修复这些问题。虽然这现在还只是一个研究项目，但Kamar他们希望它最终可以发展成为开发人员和研究人员用于识别盲点的实用工具。“任何与机器学习相关的企业或学术机构都会需要这些工具，”Kamar说。

Kamar及其同事在AAAI会议上发表的另一篇研究论文（On Human Intellect and Machine Failures: Troubleshooting IntegrativeMachine Learning Systems，下载链接：https://www.microsoft.com/en-us/research/publication/human-intellect-machine-failures-troubleshooting-integrative-machine-learning-systems）则希望帮助研究人员弄清楚一个复杂的人工智能系统中各种不同类型的错误将如何导致不正确的结果。由于人工智能系统所执行的任务越来越复杂，所依赖的多个组件之间也会相互纠缠，因此对它们进行解析的难度可谓出人意料。假设一个自动图片说明编写工具将泰迪熊图片描述成了搅拌机。你可能会认为问题出在被训练用于识别图片的组件上，但最后却发现真正的问题出现在设计用于编写说明的组件上。为此，Kamar和同事设计了一种方法，为研究人员提供指导，帮助他们通过模拟各种修复方案来找出问题根源，从而解决这些问题。

“人机共生”（human in the loop）

Kamar表示，在从事包括上述项目在内的各种研究的过程中，她都受到了自己曾参与的“AI 100”（人工智能百年研究）项目的强烈影响。该项目在斯坦福大学展开，由Horvitz夫妇赞助，其目的在于探索未来100年间人工智能将如何影响人类。它的主要内容是分析和预测人工智能对人类的影响，从国家安全到公众心理以及个人隐私等等，几乎涉及了生活、工作中的各个方面。

Kamar说，她从这项工作中获得的教益之一，就是明白了确保研究人员深入参与系统开发、验证和故障排除全过程的重要性——研究人员称之为“人机共生”（human in the loop）。这有助于确保我们所创建的人工智能将可以增强人类能力并以实际行动反映人们的意志。

测试对话翻译的准确性

开发人员和学术研究人员创建语音识别等系统时，他们可以利用被广泛认可的方法来测试其准确性：诸如Swtichboard和CALLHOME之类的对话数据集。

但是，Microsoft Translator团队的高级项目经理Christian Federmann指出，可用于检测双语对话语音翻译系统，如Microsoft Translator现场翻译功能（Live Feature）和Skype Translator实时语音翻译技术的标准化数据集并没有那么多。

所以他和同事们决定创建一个。

高级项目经理 Christian Federmann

微软口语翻译语料库（Microsoft Speech Language Translation (MSLT) Corpus，下载链接：https://www.microsoft.com/en-us/download/details.aspx?id=54689）已于上周公开发布，并可供任何人使用。它允许研究人员对照一套包含法语、德语和英语的多回合双语会话数据集，衡量其自有会话翻译系统的质量和有效性。

该语料库由微软聘请的会说两种语言的朗读者制作而成，旨在创建一套标准来帮助人们测试其各自对话语音翻译系统的运行效果。“你需要高质量数据才能进行高质量测试，”Federmann说。事实上，对话语音和双语翻译相结合的数据集至今仍然如凤毛麟角。

马里兰大学计算机助理教授Marine Carpuat从事的是自然语言处理研究，她说自己想测试对话翻译算法的运行效果时，经常不得不依赖于可免费获取的数据，例如欧盟文件的官方翻译等。

这些翻译资料原本并非用于测试对话翻译系统，而且它们也未必能反映出人们在实际生活中更为随意和自发的互相交谈方式，她解释道。这样，她就很难了解当人们希望翻译常规对话时——特别是伴随着各种停顿、迟疑语和口头禅时，她的翻译算法是否仍然适用。

Carpuat是这套语料库的早期试用者之一，她说语料库有“立竿见影”之效。“这样我就可以亲自检测，看看一套已知非常适用于正规文档数据的系统在尝试处理口语对话时会发生什么情况，”她说。

微软团队希望这套免费提供的语料库能够惠及整个对话翻译研究领域，并帮助创建更加标准化的尺度，借助它，研究人员就可以把自己的研究成果与他人的研究技术进行对比。

Microsoft Translator团队首席技术项目经理Will Lewis也是本项目的参与者，他认为：“这将有助于推进整个领域的发展。”

首席技术项目经理 Will Lewis

↧

守护城市安全：时空数据深度学习

February 14, 2017, 2:27 am

≫ Next: 开源|微软开源的这个系统能让无人机等装置安全地自主航行

≪ Previous: AAAI |如何保证人工智能系统的准确性？

上周，在旧金山召开的人工智能国际顶级会议AAAI 2017上，来自微软亚洲研究院的郑宇博士及其团队的论文Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction首创性的将时空数据与深度学习结合起来，利用时空深度残差网络用于预测城市人流问题。

提及这项研究，郑宇博士介绍到：“这个系统背后的模型研究，其目标是预测整个城市里每个区域在未来时刻有多少人进、有多少人出，从而使得管理者能迅速了解每个区域的公共安全状况，及时采取预警措施。”他补充，“例如在上海市两年前跨年夜的踩踏事件之前，如果有这样的系统，就可以提前给民众发信息，告知他们这里未来会有多少人进来，提醒民众注意，并建议是否需要提前离开。我们这项研究的想法也正是起源于这次事件。”

微软亚洲研究院主管研究员郑宇

可扩展的整体预测模型

今天，在贵阳的“块数据”实验室里的一块大屏幕上，贵阳市被分为若干个1KM*1KM的小格子，它实时地输入新数据，以热度图（heat map）的形式不间断的预测每个区域会有多少辆出租车的进和出。这是一个以贵阳出租车实时上传的数据作为样本，基于云计算和大数据的系统。

该系统具有极强的扩展性，任何可以用于人流数据预测的来源，无论是正在采用的出租车数据，还是手机信号、地铁刷卡记录等，都可以通过论文Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction中提出的这套系统模型进行运算，得到相应的某地将有多少人进和出的结果，并预测未来十几个小时的城市人流情况。

传统的人流预测方法一般是预测个人行为。理想状态下，只要统计某个区域里的每个人从哪来去哪里就能测算出该区域有多少人进、多少人出。但这样的统计本身有很大的障碍，准确性很难保证，并且涉及隐私问题。除此之外，传统方法还有一些基于物理学模型、交通动力学模型或是土木工程的经典模型等，但这些始终难以应对大规模的人流预测。

郑宇博士及其团队提出的这套方法是一种整体预测，不涉及个人隐私。该系统将整个城市划分成若干个相同大小的格子，进行同时预测。整体性预测的必要性在于区域和区域之间具有相关性，不能单独预测，在预测 A 区域的时候，其实A区域的变化对B区域和C区域同样可能产生影响，反之亦然。因此，把深度学习的思想引入进来进行整体预测，与传统方法相比具有诸多优势。

基于对时空数据的深度理解

这项工作其实面临着诸多难点，其中一个重要原因是：影响人流量的因素非常之多。可能包括：与区域里面前一个小时有多少人进和出有关系；与周边区域有多少人进和出也有关系；甚至很远的地方有多少人进和出等等……但是这些区域之间的关系又是相互影响的。

另一个难点是，人流的变化还受很多外部因素的影响，例如天气和事件等等。

第三点，人流量的预测是一种时空数据，它包括时间属性和空间属性。不同于图像数据和文本数据等，这种特别的属性就意味着传统的深度学习方法不能直接应用。

为什么传统的深度学习方法不能直接拿来用？这包括以下四点原因。

第一，空间属性。空间有距离，空间有层次。根据地理学第一定律，地理事物或属性在空间分布上互为相关，一个空间单元内的信息与其周围单元信息有相似性。即在地图上，两个点的距离越远，可以认为该两点的如空气质量、温度等属性可能差异越大。

第二，城市的天然层次性。一个城市它有很多区，每个区又由很多街道社区组成，它有天然的层次。不像图像数据中的像素，像素和像素之间并不存在层次感。城市的区域、街道等这些地理信息里都蕴藏着明确的多层次的语义信息。

以上两点是空间上的不同。

第三，时间变化的周期性。在相邻两个时间点之间，城市的交通容量和人流可能是一个平滑变化的趋势。例如7点和8点的人流可能是平滑变化的，这很容易理解。但周期性则是一种属性，城市的交通流量也好、人流也好，它是有一个往复的周期性。比如说今天早上8点的车流量和昨天早上8点的车流量可能很像，但是今天早上8点和今天中午12点的车流量却大相径庭，尽管今天中午12点钟离今天早上8点钟只有4个小时，而昨天早上8点钟离今天早上8点钟有24个小时，但反而是昨天同一时间的数据却更为相似。不同于传统的视频数据和图像数据，周期性是时空数据的特有属性。

第四，时间变化的趋势性。其实，周期性也不是固定的，它有一种趋势性的上扬和下降，这就叫趋势性。什么叫趋势？比如冬天天气越来越冷了，天亮的时间越来越晚，大家出门的时间就会越来越晚，因此早高峰来的时间就会越来越晚，这种趋势性慢慢渐变的过程，并不是一个固定的数值，不是说永远早高峰都是8点钟来。

当空间属性和时间属性结合在一起，人流数据作为时空数据的一种，就区别于以往的视频、图像和文本等数据，已有的深度学习方法是无法直接奏效的，这也是研究这类数据的难点所在。

时空残差网络

说完了研究难点，那么郑宇博士及其团队是如何解决这个意义非凡的研究难题的呢？

如上文贵阳市“块数据”实验室的大屏幕所显示的，郑宇博士及团队创造性地把城市划分成若干个均匀且不相交的网格。例如采用1KM*1KM的格子把城市划分成网格，接下来把收到的人流数据，例如手机数据或者是出租车轨迹等代表人流量的数据，投射在网格里面。第三步，以网格为单位计算每个格子里分别有多少人流量的进和出。第四步，根据这些数据生成简单的热度图。例如某个方格颜色越亮，则说明这个地方人越多。

因此，某一个时间点的数据就能生成一张二维的平面图。多个时间点的数据生成对应的图像，就变成了一个时序。此外，研究员同时挖掘出了数据对应的事件和天气信息。这些就构成了数据的输出。

有了这些数据，是否可以直接用上深度学习了呢？答案是否定的。根据论文的描述，我们还要经过以下几个步骤。

第一，把最近几个小时的数据，即把最近这几帧的数据，输入到一个深度残差网络里面，即时空残差网络，来模拟相邻时刻这些时间点的人流变化的平滑过程。

第二，把对应时间点不同日期的对应时刻，例如周一的两点钟和周二的两点钟，以及周五的两点钟，这些同一时刻的数据作为输入，来模拟周期性。

第三，模拟趋势性，即从更长的时间维度进行模拟。例如将每个月的第一周，第二周和第三周周一的下午三点钟的对应数据作为输入，从而模拟趋势性。

以上三点均通过同样的深度残差网络分别模拟三个属性：平滑、周期、趋势。通过这些关键帧的抽取，只要用几十帧的关键帧作为输入，就可以体现出城市几个月时间里所包含的周期性和趋势性，这极大地简化了网络结构，但同时保证了训练的质量和效果。

接下来，将这三个结果进行融合，在这一阶段仅考虑时间属性和空间属性。因为外部因素，例如事件和天气等更多的是全局的、更广域的影响。因此下一步，再把外部的天气、事件等因素做二次融合。

那么，空间的特性在这里是如何模拟的呢？

我们都知道，深度卷积神经网络的过程是这样的——在将城市区域划分成若干个格子之后，把相关的区域进行卷积运算合并到一个值，你可以认为通过一次卷积之后，相关周围地区的人流的相关性就能有所了解。卷积多次之后，相当于把更远的地方属性都卷积到一起了。如果你想研究距离很远的两个地方的相关性，那就对网络层次的深度提出了要求。在上海外滩的踩踏事件中，外滩观景平台的人流对冲被认为是事件的主要原因，但造成大规模人流对冲的原因仍不清楚。而该模型既可用于解释人流对冲的原因和趋势，另一方面还能对人流疏散问题提供解决方案。

但另一方面，一旦网络的层次比较深，就会让训练变得非常复杂、非常困难，精度也无法保证。为了保证训练效果好、提高训练精度，研究员们引入了残差网络结构来解决这个问题。这样既保证了人流量的空间相关性，又使得训练精度变得更好。

在论文Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction中，郑宇博士及研究团队用四年内的北京市出租车GPS轨迹数据和纽约自行车租赁的公开数据进行了验证。这套模型的通用性也保证了其他类似数据同样可以用于人流量的预测问题。

郑宇博士介绍道：“这篇论文可以认为是（在国际知名学术会议上）真正把深度学习有效用在时空数据上的第一个研究成果，具有重要意义。”而深度学习在时空数据方面的应用，目前也是微软亚洲研究院城市计算组的重点研究方向。

为城市喝彩

关于城市计算的研究已经走过了近十年的时光。从2008年初开始，通过分析和融合城市中的各种大数据，郑宇博士和团队实现了一系列关于智能交通、城市规划、环境和能源等的实际案例。相关技术不仅被应用于微软的产品，并且还在多个城市为政府决策提供服务。

城市计算作为一个交叉学科，包括城市感知及数据捕获、数据管理、城市数据分析、服务提供四个环节。与自然语言分析和图像处理等“单数据单任务”系统相比，城市计算是一个“多数据多任务”的系统。城市计算中的任务涵盖改进城市规划、缓解交通拥堵、保护自然环境、减少能源消耗等等。而在一个任务中又需要同时用到多种数据。比如，在城市规划的设计过程中，我们需要同时参考道路结构、兴趣点分布、交通流等多种数据源。

在城市计算的中文页面介绍上，郑宇博士写道：“更具体的说，城市计算是一个通过不断获取、整合和分析城市中多种异构大数据来解决城市所面临的挑战（如环境恶化、交通拥堵、能耗增加、规划落后等）的过程。城市计算将无处不在的感知技术、高效的数据管理和分析算法，以及新颖的可视化技术相结合，致力于提高人们的生活品质、保护环境和促进城市运转效率。城市计算帮助我们理解各种城市现象的本质，甚至预测城市的未来。”

注：城市计算的中文页面网址：https://www.microsoft.com/en-us/research/project/城市计算/ （请直接复制网址至浏览器中打开）

如何成为一个帮助城市建设，为城市喝彩的数据科学家？郑宇博士给出了以下几点分享。

首先，数据科学家是区别于数据分析师的概念，后者通常都是针对明确的任务和明确的数据进行处理。而数据科学家往往需要自己找出问题，找出对应的数据。例如，如何解决城市的雾霾问题等。

其次，数据科学家需要会分析问题，知道这个问题和什么因素相关，也知道用什么样的数据体现这样的问题。不仅如此，他还需要知道过去解决方案的优缺点，并博采众长，提出自己的解决思路。

再来，数据科学家要看懂数据，理解数据背后的洞察。例如路面上的GPS轨迹，它不光反映了路面的交通容量和速度信息，它也反映了人们的出行规律。我们知道每个人的上车地点和下车地点，如果我们有很多人的出行规律，就可以进一步反映这个区域的经济、功能甚至环境。进而可以用领域A的数据去解决领域B的问题，做到跨数据多元融合。

还有就是要了解各种模型，包括数据管理、数据挖掘、机器学习、可视化等等，以及云计算平台问题。

郑宇博士总结道，一个好的数据科学家应该是站在云平台上面看问题，想数据、关联模型，并把这些模型有机地组合起来，部署到我们的云平台上面，让它产生鲜活的知识，最终解决行业问题。

这，也是郑宇博士和城市计算团队一直追求的方向，也是他们为城市喝彩的一种含蓄的表达方式吧。

↧

开源|微软开源的这个系统能让无人机等装置安全地自主航行

February 16, 2017, 4:49 am

≫ Next: 以梦为马—— 记第七期微软创新人才学院《高级软件工程》结课

≪ Previous: 守护城市安全：时空数据深度学习

注：本文译自Microsoft shares open source system for training drones, other gadgets to move safely on their own，（点击网址https://blogs.microsoft.com/next/2017/02/15/microsoft-shares-open-source-system-training-drones-gadgets-move-safely/#dRqLi5TfTzLJmjee.99 即可查看）

拥有正常视力的人走在街上，能轻易区分需要避让的物体，例如灌木丛、小台阶和玻璃门等，以及无需避让的物体，例如建筑物、行人的影子、玻璃的反光以及云彩等。

在多数情况下，人们也能预计到自己即将遇到什么障碍，例如知道在街角应该注意过往车辆并准备迈步跨下马路牙子。

上文提到的区分和预计的能力对人类而言相对容易，但这两种能力对基于人工智能的系统来说还是件难事。这就是为什么自动驾驶汽车或无人机送快递直至目前仍属新兴技术的重要原因之一。

而微软的研究人员们正在努力改变这一点。他们最新研究的一套新工具——AirSim，将可以供其他研究和开发人员用于训练和测试机器人、无人机以及其他功能装置，让它们能够在现实世界中自主、安全地运行。目前该工具的测试版本已在GitHub网站上发布。

注：GitHub链接>https://github.com/Microsoft/AirSim

这套工具是“空中信息技术和机器人技术平台”（Aerial Informatics and Robotics Platform）研究项目的组成部分之一。它包含允许研究人员快速编写代码来控制空中机器人和其他功能装置的软件以及一套高度逼真的模拟器，用于收集在虚拟世界中对人工智能系统进行训练和测试所需数据，而后再将系统部署至现实世界中。

注：“空中信息技术和机器人技术平台”（Aerial Informatics and Robotics Platform）链接>

https://www.microsoft.com/en-us/research/project/aerial-informatics-robotics-platform

负责该项目的微软研究员Ashish Kapoor说，他们希望这些工具能够推动人工智能的功能装置研发取得重大进展，使人们可以放心把开车、送快递甚至洗衣服等工作交给机器去做。

“我们的远景目标是切实创建可以在现实世界中运行的系统，”他说。该项目与许多其他人工智能研究项目的区别之处在于，后者专注于训练人工智能系统在有明确规则的任务中获得成功——例如棋类游戏。Kapoor表示，微软这项工作则希望帮助研究人员开发更为实用的工具，在安全的前提下帮人们完成日常要做的工作。

“这就是AI的下一次飞跃，能真正以现实世界的系统为考量，”Kapoor说。

模拟现实世界

假设你想教会一个空中机器人分辨墙壁和阴影的区别，你可能想要验证自己的理论而又无需让无人机撞墙数百次。

直到最近，模拟器尽管对此类测试有所协助，但其逼真程度仍不足以准确反映现实世界的复杂性。这对开发能够像人类一样准确感知周围世界的系统而言至关重要。

现在，得益于图形硬件、计算能力和算法的巨大进步，微软的研究人员表示，他们已经可以搭建能够提供更真实环境视角的模拟器。空中信息技术和机器人技术平台的模拟器以最新图形学技术为基础，可以准确地呈现阴影和光线反射等微妙事物，这给计算机视觉算法带来了重大改变。

“如果你真的想让这种高保真的感知技术发挥作用，就必须用非常逼真的细节来渲染场景——例如要设置日光的晃眼、街上的积水等场景，”首席研究软件开发工程师Shital Shah说。他也是模拟器的核心开发人员之一。

由于这种新型模拟器的场景十分逼真，但却并不是真的，因此研究人员可以放心将它当作一个安全、可靠且廉价的自动系统试验场。

这有两个优点：第一，研究人员可以无限次地让昂贵的无人机、机器人或其他功能装置发生“坠毁”，但又丝毫不会真正损毁价值连城的装置、破坏真实建筑物或对人身造成伤害。

第二，它允许研究人员更快、更好地进行人工智能的研究。其中包括收集用于构建算法的训练数据，教导系统做出安全的反应，并进行比如强化学习等需要大量试错的人工智能研究。

研究人员表示，这款模拟器可以帮助他们更快地实现目标，尽快在几乎不存在任何试错余地的现实世界场景中开始测试甚至应用他们的系统。

支持智能机器人系统开发

除模拟器外，空中信息技术和机器人技术平台还包含一个软件库，允许开发人员快速编写代码，以操控基于大疆和MavLink这两个时下最流行平台的无人机。通常情况下，开发人员必须花时间去学习这些独立的API，并为每个平台单独编写代码。

研究人员预计不久将在该平台上添加更多工具，同时他们希望软件库和模拟器将有助于推动整个领域的发展。例如，这些工具将可以帮助研究人员开发更高超的感知能力，帮助机器人辨认其所处环境中的各项元素，并将门禁等真正的障碍与阴影等虚假的障碍区别开来。这些感知能力也将帮助机器人理解诸如自己距离某个行人有多远等更为复杂的概念。

同样，空中信息技术和机器人技术平台还可以帮助开发人员在机器人等功能装置在规划能力方面取得突破，其目的是协助功能装置预测即将发生的状况以及如何应对，就像我们人类在穿过街道时预计会有汽车驶过那样。这种人工智能会密切模仿人类在现实世界中行动的方式，这也是创建可供日常安全使用的现实系统的关键所在。

整个平台设计为可用于需要环境导航的任意类型自主系统。“实际上，我可以使用同样的代码基底来操控滑翔机或驾驶汽车，”Kapoor说。

机器人技术的普及化

目前，研究人员在这一平台上的探索还不到一年的时间，但他们充分利用了计算机视觉、机器人学、机器学习与规划等领域过去几十年间积累的经验。Kapoor说，他们取得了如此快速的进展，一部分原因是微软研究院的独特架构，在这里，背景迥异的研究人员很容易就能开展协作。

研究人员决定开放该项目的资源，以进一步促进可自主运转人工智能助手的研发。虽然许多人都相信未来无人机、机器人和汽车能够自行运转，但现阶段这些系统中的大多数仍然高度依赖人类的指引。

研究人员还注意到，许多机器人学和人工智能研究人员并没有时间或资源来自主开发这些工具，或者在现实世界中进行此类测试。这也是研究人员决定共享研究成果的另一个主要原因。“我们希望让机器人技术人人共享，”参与这个项目的研究员Debadeepta Dey说。

他们还希望空中信息技术和机器人技术平台将有助于快速启动相关协议和法规的标准化，以便规范人工智能助手在现实世界中的运转。Kapoor指出，每个会开车的人都知道要遵循一套标准化的交通规则，例如应在道路的哪一侧行车、何时停车避让行人以及开车的限速等等；但目前还不存在针对人工智能助手的类似标准。

他说，随着自主系统日益进入主流，有了微软提供的这样一个系统，研究人员就可以开发一些最佳案例且能全面推广，以提高自主系统的安全性。“整个生态系统需要演进，”Kapoor说。

↧

以梦为马—— 记第七期微软创新人才学院《高级软件工程》结课

February 17, 2017, 12:35 am

≫ Next: 观点|微软研究院的产业研究周期

≪ Previous: 开源|微软开源的这个系统能让无人机等装置安全地自主航行

“在上这门软件工程课之前，你接触过软件开发吗？”“没有”，来自中国科学技术大学的董萌同学在被问到此前是否有相关软件开发经验的时候这样说道。她是参加第七期微软亚洲研究院创新人才学院培养项目的一员，目前已经在微软亚洲研究院待了近六个月。

微软创新人才学院是隶属于教育部创新人才培养实验区的教学改革项目，自2010年起，该学院每年从合作高校招收优秀的大四学生接受为期一年的科研培训，旨在帮助他们发掘科研潜力，激发创新能量。除了在研究员的指导下参与科研和工程项目，微软亚洲研究院还为他们量身定制了课程。在其中的软件工程课上，同学们在微软亚洲研究院资深开发经理殷秋丰老师的指点下体验了产品开发的完整生命周期，其成果还将有机会转化到微软的产品中给成千上百万的真实用户使用。

“克服困难，将细节做到极致，与用户许下一个美丽的约定”

“北航门口的哈尔滨烤冷面”——当听到这个小组名字的时候，大家都忍俊不禁。问及为何会取这样的小组名时，来自北京航空航天大学的刘乾同学笑了起来， “我们团队由来自北航和哈工大的同学组成，哈尔滨烤冷面是北航附近很流行的小吃，我们当时灵光一闪定下了这个很接地气的名字”。与组名相比，汇报会上几位同学完成的项目更令人过目不忘。

“我们的项目叫小英配音，为用户提供英文电影配音体验。首先，用户可以挑选一段自己喜爱的英文电影片段，接下来就可以模仿电影中的角色进行配音了。我们会给用户的每一小段配音进行打分，用户不满意则可以重新再配。最后，我们将用户的配音和电影片段糅合在一起，形成完整、流畅的视频。” 聊起团队项目时刘乾神采飞扬，“项目一开始，我们就把能否被微软小英采纳作为衡量项目质量的重要指标。微软小英是同学们十分喜爱的学习英语口语的好帮手，畅想一下如果我们这个项目被加载到微软小英中，并且能被大量用户使用甚至刷爆朋友圈，那将会多么的令人激动和自豪！”

然而这支充满理想和激情的团队却在一开始遇到了困难，因为缺乏相关经验，微信服务号开发调试复杂，加上测试号因为录音次数过多而遭遇阻碍，使得大家有些消沉。不过成员们很快开始了基于同学以及指导老师的反馈在细节上寻求突破点“我们很快重新申请了两个测试号分别部署了开发和稳定版本，开发版本的代码只有在新测试号上测试稳定后才能正式发布，这使得稳定版测试号不会因新代码的输入而产生严重Bug。”

“小英配音”不久之后将正式入驻微软小英，然而作为一个细节控，刘乾认为自己团队的产品还有很大的提升空间 “现在还有一些细小的问题，比如iOS上滑动不太流畅，视频切换时播放缓慢等等，虽然课程结束了，但是我们会继续逐一攻破这些问题，给用户带来最好的体验。”他说话时的一脸认真，仿佛郑重地为未来的配音用户许下了一个美丽的约定。

小英配音demo界面以及“北航门口的哈尔滨烤冷面”团队（从左到右依次为侯宇泰、陈双、王永超、鲍航波、刘乾）

“时间有限，在不完美中寻求完美”

项目成果未来将正式纳入微软产品的，还有“中山-科大”团队，他们为微软的大数据分析利器 —Power BI添加了新的可视化功能。“曾经尝试操作Power BI时，被其强大的数据处理和展示功能所震撼，没想到在软件工程课上能有机会为它添砖加瓦。”来自中山大学的曾艳红同学说。

“同学们不仅根据用户的反馈在Power BI 的插件Infographic Designer里增加了对折线图、缩放功能、灵活设置坐标轴等功能的支持，还在短短的两周内将Infographic Designer的代码迁移到Power BI的新API上。根据我的以往经验这类工作在实现起来非常的琐碎和棘手，没有简单的解决方案，没想到他们在这么短的时间内就完成了。”汇报会上，秋丰老师对该团队赞赏有加。

团队主要的开发者之一，来自中国科学技术大学的刘思远表示“本来在旧版的API上已经完成了所有开发，但突然要搬迁至Office Store。当时距离结课时间已所剩不多，我们没时间多想，立刻就入手开始熟悉新的开发环境，加班加点完成了这一对用户的承诺。”

左图：“中山-科大”项目组曾艳红、刘思远庆祝项目答辩结束。右图： Infographic Designer新功能之灵活设置坐标轴功能展示。

“分工学习——高效的团队合作”

“很早就从师兄师姐那里听说过微软创新人才学院的软件工程课，也用过师兄师姐开发的软件，感觉很棒。今天我们有机会发布自己的软件，真的很有成就感。”来自中国科学技术大学的刘丹阳和黄红艳在项目汇报后兴奋地说。他们的小组名叫ASE753，开发的项目是English writing ，一款架设在微软Azure云平台上希望帮助用户提高英语写作能力的网站。

由于团队成员均无软件开发经验，ASE753小组在一开始确定软件的形式问题上就遇到了磕绊。他们请教了微软小英团队的微软亚洲研究院资深研发工程师夏炎，学习了几种常用形式并比较了其优势。“最开始我们想做一个UWP软件，但是考虑到网站受众更广，最终选择了以网站为形式展示来开发内容。 ”刘丹阳提到。在项目推进的过程中，团队合作是ASE753团队学到的第二课。“刚开始大家都很不熟悉，经常完不成Sprint中的任务，后来我们会先充分讨论下个阶段的目标、任务分解并合理分工，项目进行起来就顺畅多了”。

项目中需要大量关于 Azure云平台、MVC框架等相关的知识，但团队成员之前对此并无太多涉猎，如何在有限的时间内可以让大家迅速获取相关知识并完成项目开发呢？ASE753小组想出了分工学习的学习方式——大家分别了解不同角度的知识，然后分享给团队，这种方式让同学们很快地掌握了项目开发所需的相关技术。来自中国科学技术大学的黄红艳说“我们在这个过程中不仅学习和实践了所学的知识，更重要的是我们懂得了如何进行高效的团队协作。虽然课程结束了，但那种大家一起努力完成一件事的开心和成就感我们都将会一直记得。 ”

来自中国科学技术大学的董萌同学以及她所担任项目负责人的“X-Space”小组对此也深有感触，“只有不断地汇集大家的智慧，才能真正做出有益于用户的产品。”该小组的History Manager项目可以帮助用户更好地管理浏览器记录，从而更好地进行分类、汇总，并标记出重点浏览过和操作过的网页，对于经常需要查找资料的学生有很大的帮助。

左图：刘丹阳同学代表ASE753团队做报告；右图：董萌同学代表X-Space团队作报告

结语

“软件工程课是微软培养创新人才不可或缺的重要训练，它的意义远远超出‘提高学生的动手能力’。一次成功的软件工程实践需要高质量的需求分析、制定项目计划、管理项目周期、控制风险和质量、团队内部的高效协作，以及与技术提供者的有效沟通等等。比起基础课程重视知识点的授予，软件工程课更注重训练学生在高效的团队合作和沟通的基础上，去定义问题以及有计划地解决问题的能力。大四的同学们正在逐步接触并从事研究工作，而这两种能力对于他们未来独立地承担研究项目具有重要的意义。“ 微软亚洲研究院学术合作经理、人才项目负责人孙丽君女士在听完项目报告后说，“看到同学们在短短的几个月内就可以完成如此高质量的项目，我们为其进步深感骄傲，也坚信优秀的他们会在未来的道路上不断取得更好的成绩！”

↧

观点|微软研究院的产业研究周期

February 20, 2017, 3:55 am

≫ Next: 企业大数据挖掘：为员工构建职场知识图谱

≪ Previous: 以梦为马—— 记第七期微软创新人才学院《高级软件工程》结课

注：本文译自Microsoft Research and the industrial research cycle，点击网址即可查看。

https://www.microsoft.com/en-us/research/blog/microsoft-research-and-the-industrial-research-cycle

作者：微软研究院软件工程研究（RiSE）组研究经理Thomas Ball

产业研究周期

大约14年前我升任经理时，曾经对微软研究院的新进员工这样说：

微软研究院不仅为你提供了如学术界一样充分探索和增进科学知识的自由，同时还有额外的要求，这就是将你的科学追求与公司的问题结合起来、致力推动微软的发展，这一要求也会随着你的年资增长而提高。

这个说法至今仍然是成立的；一如我17年前加入微软研究院时那样，这也反映了微软研究院在推进科学前沿研究的同时也要给公司带来正向推动的双重使命。

我借用“产业研究周期”模型来解释微软研究院的运作方式。研究人员可以自由地选择研究问题，并在各自学科（周期的左侧）探索，以推进科技的进步。同时，他们也有责任和机会在进行了充分探索的前提下将自己的注意力集中在他们认为可能对公司（周期右侧）产生影响的领域。在理想情况下，他们对科学研究问题的解决方案的探索最终会影响到公司的技术应用。他们从公司实践领域获得的经验不仅会用于验证科学知识，还会在下一阶段推动科学新方向的探索。一名研究人员在其职业生涯中将沿着这个周期做许多次往复。

长期影响

探索与专注很难兼顾，更难以俱佳！相反，人们需要在某些阶段进行探索，而在此后的多年间做到专注。

我借用“影响力”图来解释影响的不同形式。x轴表示科学影响的水平。y轴表示对微软影响的程度（参见上图）。个人影响以曲线之下的面积来表示。个人影响曲线的形状随着时间推移而变化，既取决于他在产业研究周期中所处的阶段，也取决于他在公司内的资历增长。

在探索阶段，个人影响曲线的形状一般是水平的，这是因为他的主要受众还局限于科学界。在专注阶段，个人曲线的形状通常是垂直的，并建立在先前探索阶段的基础之上。

随着个人在公司的年资增长，公司本身对于他专注于微软影响力的期望也在提高。另一方面，初级研究人员享有更多的探索自由。微软研究院新招聘的博士生仍有许多工作要做，才能在自己的领域建立起公认专家的声誉。虽然有些人可能确实在职业生涯的早期阶段就开始与产品团队互动，但我们并不要求初级研究人员直接着手为公司解决问题。

我们鼓励研究人员积极著述，但微软研究院并不强调发表数量。质量是我们的首要目标。

渠道与合作伙伴

微软研究院在科研上的投资可能不会立即对微软产生影响，但从长远来看将为公司培养新的力量/能力。我借用“长期作战”示意图来说明，要将科学结果转化为公司影响力离不开协调而长期的努力。

我用以下三个例子说明发挥影响力的路径，这需要与合作伙伴长期共事、建立关系和信任，以及通过解决问题的新方案来改变公司文化。

自动的驱动程序检测和缺陷发现

1999年底，Sriram Rajamani和我在微软研究院创立SLAM项目，旨在探索自动发现设备驱动程序中代码缺陷的新方法。Windows驱动程序质量组终于在2002年成形时，Byron Cook、Jakob Lichtenberg和Vladimir Levin加入了团队，推出了一个基于SLAM引擎的静态驱动程序验证器（SDV）。SDV的第一个版本是在2004年与Windows一起交付的。在过去10年间，不同梯队的微软研究院研究人员与驱动程序质量团队密切合作，对SDV的底层分析引擎改进/迭代了三次。

相关论文：

SLAM2: static driver verification with under 4% false alarms （http://dl.acm.org/citation.cfm?id=1998508 ）

The Yogi Project: Software Property Checking via Static Analysis and Testing（http://rd.springer.com/chapter/10.1007/978-3-642-00768-2_17）

Powering the static driver verifier using corral（http://dl.acm.org/citation.cfm?id=2635894）

从实证软件工程到软件工程师工具

2004年，我聘请Nachi Nagappan进入微软研究院，在微软雷德蒙研究院带领实证软件工程（Empirical Software Engineering）研究。在5年时间内，Nachi及其同事Brendan Murphy、Jacek Czerwonka、Christian Bird和Thomas Zimmermann通过对产品版本历史、错误数据库和其他数据源的分析，研究了影响软件质量和开发人员生产力的关键问题。

为了将此类分析扩展到整个公司层面，Wolfram Schulte加入团队，并与Nachi、Brendan和Jacek一起创建了CODEMINE，这是一个用于收集和分析微软软件工程开发过程数据的数据分析平台。该项目于2009年前后启动（代号为SWEPT），并于2013年结束，它让我们得以深入了解微软各个产品组的软件工程开发问题。CODEMINE对于一个名为“软件工程师工具”的新团队的形成至关重要，而正是这个团队使公司转向了基于云的软件工程基础设施。

计算机科学教育

此后，微软研究院于2011年启动了Touch Develop项目（www.touchdevelop.com），力求实现在智能手机上编写智能手机脚本。Touch Develop出乎人们意料的运用是在K-12计算机科学教育方面——教师们发现，孩子们痴迷于对他们的智能手机编程，使之能够响应环境刺激。

它演变成了一个与BBC合作的项目，旨在创建一款带有易用编程平台（基于Touch Develop）的小型物理计算设备。总计100万台上述设备（名为micro:bit）于2016年交付，足够让英国的五年级学生人手一台。正是由于BBC micro:bit的成功，微软目前正投资开发一个用于计算机科学教育的全新编程平台。

用团队影响力解决大问题

今天，我们注意到有些公司正在开发超大型分布式系统。亚马逊、Facebook、谷歌和微软都已建立了这样的系统，并致力优化系统的性能、可靠性、可用性、安全性和隐私性。微软Azure就是一个这样的系统，能够提供计算、存储和网络服务，并且能够与越来越多的移动设备和物联网终端进行交互。

从硬件资产到底层操作系统代码再到面向用户的服务逐级优化，这是成功的关键所在，并为研究人员提供了跨越多个领域的机会，这些领域包括系统、正规方法、软件工程和编程语言等。

下面是RiSE组深入参与其中的四个与云计算相关的大规模新项目：

P语言正在改变着微软程序员承担构建大型异步系统任务的方式。P语言已经用于开发Windows中USB 3.0驱动程序以及微软Azure中的服务。

Everest项目（Project Everest）正在构建一个高性能、符合标准、经过验证的HTTPS完整生态系统实施，上到HTTPS API下至包括RSA和AES等在内的加密算法。

Parade项目（Project Parade）通过将运行时的依赖关系作为符号值来处理，实现了大量看似顺序性应用程序的并行化。这个项目的成果大幅度提升了目前流行的机器学习和大数据算法的性能。

Premonition项目旨在通过创建新技术，自主定位、收集和通过计算手段分析蚊子所携带的血源性病原体，在病原体爆发前检测到它们。

你想加入产业研究周期吗？

无论你处于探索阶段还是专注阶段，微软研究院都将带你走上令人兴奋的旅程。如果你有兴趣加入我们的旅程，请访问微软官网的求职页面。

英文网址>>https://www.microsoft.com/en-us/research/careers

中文网址 >> http://www.msra.cn/zh-cn/jobs/default.aspx

↧

企业大数据挖掘：为员工构建职场知识图谱

February 21, 2017, 3:24 am

≫ Next: 张冬梅：带领数据探索的梦之队

≪ Previous: 观点|微软研究院的产业研究周期

微软亚洲研究院有一位大名鼎鼎的个人助理，昵称EDI（音同Eddie），从帮助员工预订会议室到更新梳理公司内部“八卦”信息，随叫随到全年无休；不仅如此，EDI对员工们的喜好也堪称了如指掌，知道你最喜欢什么时候、最常在哪里开会，也知道你最关心哪些新闻。这份体贴赢得了越来越多员工的信任和喜爱，目前在研究院中已经有超过一半的会议是由EDI来安排——是的，你没猜错，EDI是人工智能。

职场知识图谱

EDI为何如此聪明？一方面，EDI拥有精准的自然语言理解和对话能力；另一方面，利用深度学习和社交网络融合等前沿技术，EDI为每个用户构建了一张关于他们的职场知识图谱。本文首先介绍如何构建用户的职场信息图谱，这是EDI个人助理的“大脑”，后续文章将介绍如何赋予EDI自然语言理解和对话能力，让它能为主人愉快地工作，欢迎有兴趣的读者继续关注。

“The more it has, the more it’s him.” 在英剧《黑镜》第二季第一集当中，女主人公通过和机器人对话的方式怀念自己逝去的男友。借助大数据的力量，这个机器人能够从主人公男友的社交网络甚至私人邮件中抽取和整合他的个人信息、关系网络和语言习惯，构建属于这位男生的个性化知识图谱，从而实现对他惟妙惟肖的模仿——如上图台词所说，系统抓取到的信息越多，机器人模仿的语言行为就越和他本人相似。

若说《黑镜》里的机器人是基于关于用户的全方位知识图谱，那么，本文要介绍的EDI 则专注于用户的一个侧面，即用户的职场知识图谱。

在一个机构里，我们把员工的职场知识图谱叫做EDI Graph（Enterprise Deep Intelligence Graph），图谱内的信息包括员工的部门、技能、项目、文档、时间、会议室和办公室等，其中每条信息又有各自丰富的属性，信息与信息之间也存在丰富的关联；这些信息的来源主要分为企业内部数据和互联网数据两部分，其中，企业内部数据主要包括内部网页、文档、会议记录、员工基本资料等数据，互联网数据则主要包括维基百科、学术论文、LinkedIn等公开数据。如何将来自公司内部、社交网络、Web等不同来源的异构数据进行梳理和融合、构成一张完整的职场知识图谱，这是构建EDI Graph的关键技术。只要有了图谱，就能构建EDI Bot，让这个昵称为EDI的机器人拥有“大脑”，能进行理解和分析，了解每个员工的专长以及从事的工作内容，成为员工贴心的个人助理。

与《黑镜》里的机器人相似，EDI也是知道信息越多就越能了解人以及人与人之间的关系，越接近员工的工作知己。

信息融合

“EDI, where is BJW1?”

对于同一件事，人们往往会有不同的表达，这是人与机器的一大不同。举例：“BJW1”是英文“北京微软西1号楼“的简称，但人们在不同情境下可能还有其他表达方式，比如“BJW-1”、“Beijing West 1”、“Microsoft Tower 1，Beijing，China”以及“微软1号楼”等，这些表达上的差异无法用简单的字符串匹配或缩写匹配的方式来完成相似度的计算。那么，EDI该如何知晓它们所指的其实是同一个地点呢？

我们的做法是将这些千变万化的表达看作不同的语言，通过机器翻译技术，找到词与词之间具有的某种翻译关系，从而实现相似词语的融合。

首先，利用种子规则，找到信息中高准确度的种子节点对，利用种子节点对中属性的不同表达，构建平行语料库。之后，使用深度学习技术构建翻译模型，完成不同信息源之间的属性“翻译”。通过机器翻译，不仅能计算简单字符串匹配无法计算的相似表达，甚至还能计算不同语言中同一表达的相似度，让EDI 能够吸收消化更多更广泛的信息来源，对用户的表达做出更准确的判断。

“Hi EDI, schedule a meeting with David now.”

得到不同表达的相似度之后，如何精准对应也是一门学问。例如，只要给个人助理EDI发送一条非常简洁的信息“帮我和David订个会议室”，EDI就能帮助员工准确预订好会议室。然而只要打开微软员工目录，就会发现名为David的员工大约有两千名，EDI如何分辨他们并从中确定要和用户开会那个David究竟是哪一个呢？要知道，这两千位名为David的员工，有些位于同一部门，甚至职务也都相同，这时，单单通过机器翻译得到的属性相似度，可能无法做出正确的对应。

精确匹配的突破口在于不同David的职场知识图谱，其网络结构也是不同的，我们使用协同训练（Co-Training）的方法，迭代地进行图结构信息的匹配。在每一轮迭代中，首先利用当前已匹配的实体对，更新神经网络翻译模型，并利用更新后的模型完成属性间的相似度计算；同时，根据当前已匹配节点计算待匹配节点的公共相邻节点对，通过结合属性匹配和图结构，可以得到新的匹配集合，如此迭代直到收敛。

简单说，EDI能将职场知识图谱中同一个David的信息融合到一起，把不同的David放在各自节点上，然后通过参会历史、项目合作、内部的汇报关系等等，了解公司同事之间的远近，从而锁定用户真正想找的David，完成用户交给的安排会议并预订会议室的任务。

信息分析与理解

《黑镜》中的机器人系统对主人公男友在社交网络上的电邮、照片、视频甚至聊天记录进行了深入的分析和学习，从而实现对其惟妙惟肖的模仿。同样，EDI在掌握丰富的信息之后，也需要进一步分析和理解这些数据，才能深入了解企业中的每一个员工。

在一个企业中为员工构建职场知识图谱，最为基本也最为重要的一点，就是构建出每位员工的工作内容时间线，通过时间线我们就可以了解到“who，when，what”，即：谁，在何时，做过什么事情。

有了这些结构化的知识，如果想知道谁在做Cortana相关的项目，只需要问“Who is working on Cortana?”，EDI就能给出你想要的答案。这对构建企业智能应用具有极为重要的意义。

顺带指出，项目名称的抽取也不简单。我们无法通过简单地标注数据、训练模型或是基于规则的方法来进行抽取，因为不同行业、不同领域对于项目的表述可能千变万化，那么EDI是如何抽取出工作内容以及相关项目的名称呢？

我们认为，项目的名称都是语义完整的短语——例如，在“微软亚洲研究院在丹棱街5号”这句话里，“微软亚洲研究院”就是一个语意完整的短语——于是，我们先从企业内部的数据抽取出语意完整的短语，再从这些短语中划分出项目的名称。在微软内部，各种文档、网页等总量在千万这个数量级，而统计规则例如互信息、熵等，在数据量较大的时候可以有效地完成对短语的切分。因此，我们在递归神经网络（Recursive Neural Network）模型中通过后验正则化（Posterior Regularization）引入互信息、熵等统计量定义的偏序切分规则，在完成短语划分的同时，得到其对应的语意向量表示，最后通过度量语意信息来判断其是否是一个项目的名称。

小结

有了基于企业内部和互联网大数据构建员工的职场知识图谱EDI Graph，就能让机器人个人助理EDI Bot拥有聪明的“大脑”，为用户提供贴心的服务。我们将在后续的文章具体介绍EDI Graph怎么被运用到机器人的工作场景中，以及怎样通过平台让机器人获得与人进行自然语言对话的能力，敬请关注，也欢迎你就这一题目分享自己的见解和经验。

【大数据挖掘组】

微软亚洲研究院大数据挖掘组致力于从大数据中挖掘信息构建海量知识图谱，以提高人工智能应用中的知识推理和自然语言理解能力。大数据挖掘组的研究方向包括数据挖掘、大数据、深度学习、自然语言处理、智能聊天机器人等。十多年来，该组成员的研究成果对微软的许多重要产品及应用产生了深刻影响，包括人立方、微软学术搜索、读心机器人、微软知识图谱（Satori）、智能聊天机器人开发平台等。

大数据挖掘组现招聘实习生，工作内容涉及machine learning、big data mining、NLP等领域，工程和研究均可，根据个人兴趣和能力确定工作内容。要求编程能力较强；有一定的沟通能力，有责任心；对machine learning、big data mining、NLP有热情和兴趣；高质量的完成工作；半年以上实习期。感兴趣的同学可以下载并填写申请表（申请表链接： http://www.msra.cn/zh-cn/jobs/interns/intern_application_form_2014.xls)并将其与完整的中英文简历（PDF/Word/Txt/Html形式）一同发送至：MSRAih@microsoft.com

↧

张冬梅：带领数据探索的梦之队

February 24, 2017, 2:38 am

≫ Next: 张冬梅：带领数据探索的梦之队

≪ Previous: 企业大数据挖掘：为员工构建职场知识图谱

张冬梅微软亚洲研究院首席研究员

13年前，2004年的那个夏天，张冬梅坐在回国的飞机上，思忖着即将到来的新生活，有着几分期许，也有几分兴奋。“回国前不知道会发生什么，会和什么人工作，很多东西都是未知的。”，张冬梅如是说道。那时的她，正准备加入微软亚洲研究院。

光阴如白驹过隙， 13年后的今天，张冬梅已经成为微软亚洲研究院首席研究员，她带领的软件分析组（Software Analytics Group）成绩斐然。他们通过与微软Power BI产品组的合作，将“快速洞察”（Quick Insights）、“信息图设计”（Infographic Designer）等技术成功地转化到Power BI产品中。同时，两个团队下一步的合作更是为Power BI 构建了良好的产品愿景，让该产品在商业智能（Business Intelligence，简称BI）领域最权威的报告之一——Gartner魔力象限2017中身居领导者象限的高位，并在未来布局能力（Completeness of Vision）上一骑绝尘，领先所有厂商。

事实上，正是由于张冬梅博士带领的微软亚洲研究院软件分析组的研究，让微软在智能数据发现（Smart Data Discovery）这个前沿领域实现了从无到有，从“零”到“领”的突破。这项来自于研究院的前沿技术研究也为Power BI展示了清晰的未来布局方向。说起这个话题，张冬梅十分自豪。而令她更为骄傲的是她所带领的团队。这是由一群追求完美不知疲惫、对技术的热情多年来只增不减的研究员们所组成的“梦之队”。

做一个人人投入的项目，让所有人都能参与其中。

对于张冬梅博士所带领的软件分析组而言，研究工作涉及到多个领域以及它们的交叉和合作。

软件分析组以软件和系统在开发、运行、维护整个生命周期中的问题作为研究对象，研究课题主要围绕以下几个方面：一是软件系统的质量（Quality），如可靠性、性能、以及安全性等；二是用户体验（Experience），如用户界面、用户使用方式、以及用户黏度等；最后是软件的开发效率（Productivity）。软件分析是一个大数据分析、机器学习与软件系统学科相结合的交叉研究方向，这就需要研究团队在大规模数据的存储与计算、数据挖掘、机器学习、软件学科、以及信息可视化和人机交互等多个研究领域内有深厚的基础。

张冬梅博士说：“日常工作中，我们使用大数据分析、机器学习和信息可视化技术来解决软件系统和在线服务的生命周期中的各种问题；同时，这些在实际生产实践中遇到的问题与挑战也为我们在大数据、机器学习、软件学科等方面的基础算法和理论的研究提供问题和灵感。事实上，包括‘Quick Insights’在内，我们有很多研究课题与项目设想都是基于这种理论与实践相互作用的过程中产生的。”

注：了解Quick Insights，阅读《成为数据专家，你只差一个Quick Insights的距离》

一般情况下，研究组内会有多个项目同时展开，每个项目的规模不会太大。做一个人人投入的项目，把项目做到应有的规模，这是张冬梅一直酝酿着的一个想法。2014年11月，随着Quick Insights 项目（内部代号：IN4）的开始，她的想法逐渐成为现实。所谓IN4，指的是INteractive（互动）、INtuitive（直观）、INstant（瞬时）和INsights（洞察），这也代表了这个项目的目标：打造出一种交互式、直观、快捷的分析数据获取洞察的方式，为用户提供全新的数据分析体验。

如今的大数据时代对数据分析产生了很高的需求，这种需求不仅仅局限在软件领域，各行各业都会有。虽然商业智能在过去几十年内实现了快速发展，市场上已经存在不少相关工具，但张冬梅团队发现了一个有趣的现象：在用户使用这些工具的过程中，用户总是处于主动的位置，而工具总是处于被动的位置。例如，工具只有在用户进行查询时，才会调取数据告知相应信息，再根据用户制表画图等要求进行相应操作。在这个过程中，工具本身并不会主动分析提取数据中的信息，并向用户进行展示和推荐。这样的发现让团队开始思考：为什么不能让这些工具更加智能，让工具在交互中根据用户的需求变得主动呢？

这是我们想要的效果么？

这样的展望让团队成员一拍即合，决定开启IN4项目。面对多维度、大规模的数据，如何让系统自动搜寻有趣的数据特征，即所谓的insight（洞察），是团队在项目最初阶段面临的重多挑战之一。要解决这个问题，团队需要回答更多问题，比如说，什么是insight？（需要一个严谨具体的定义）如何挖掘数据？（需要一套高效的算法）挖掘出insight后如何向用户表达呈现？如何用自然语言描述？这些具体问题让团队成员逐渐聚焦四大关键技术：Excel Magic（元数据理解），Auto Insights（insight挖掘），MetroEyes（双向交互）和Power Story（insight描述）。根据这些具体的技术需求，张冬梅将团队分为多个小组，大家同时开展研究。

因为IN4的研究目标是提供端到端的数据分析服务系统原型，所以针对任何一个要素，研究员都需要一边做技术研究，一边做工程设计。从2014年11月到2015年3月，这短短的5个月时间，对每个研究员来说都是一段紧张而难忘的时光。张冬梅尤其记得当时每周五组会，大家聚在一起汇报各小组进展。作为压轴节目，负责交互设计和系统集成的研究员侯志涛会将大家的成果汇总进行演示，那时大家最经常说的一句话就是：这是我们想要的效果么？如果答案是否定的，接下来就会是进一步的讨论、反馈和改进。周周如此，周而复始。

“这是我们能拥有的最好的合作伙伴之一”

时间快进到5个月后，2015年3月。在微软总部举行的技术节（TechFest）上，软件分析组首次在公司内部展示IN4。就在这场R（Research研究）与D（Development产品开发）的交流活动上，IN4项目和Power BI首次相遇，并被Power BI产品团队一眼相中。时任Power BI工程总监的Nick特意改变行程与张冬梅的团队开会，并表示出强烈的合作意向：Power BI需要这样的能力，让我们两个团队一起来完善它。

在微软技术节结束后的三个月内，双方的紧密合作促使项目进展迅速。7月，IN4的产品原型Quick Insights已经初见端倪。到了12月，Quick Insights正式上线。在短短9个月的时间内，从实验室里的技术原型到能够被无数用户使用的正式产品，效率之高让人惊叹。

和传统的数据分析工具相比，Quick Insights改变了用户与工具的交互模型，使工具在交互中变得主动。当用户上传数据之后，它的算法能够主动对这些数据进行分析，将分析结果以insights的形式进行组织和排序，并将排名在前的insights提供给用户。不仅如此，Quick Insights会选择适合的可视化方式来呈现这些insights，并配合文字说明以方便用户理解。在五个月之后，两个团队合作推出了第二个功能发布，增添了contextual/scoped insight（特定范围内的洞察）的新功能，让系统可以针对已有图表和分析给用户推荐相关性更高的分析建议。

你们怎么总给我送来圣诞礼物？

微软亚洲研究院软件分析组与Power BI团队的合作不会止步于此，双方的合作过程也给予了张冬梅和团队源源不断的研究灵感。

2016年8月，张冬梅团队和研究院创新工程组共同完成了为Power BI特别研究开发的“信息图设计”（Infographic Designer）技术。它可以将已有数据进行丰富多样的可视化呈现，用户可以通过精确控制形状、颜色和布局来控制列表、条形图和柱形图等具体外观，使得用户可以高度具象化地对数据进行描述和展示。这一技术也为Power BI填补了可视化功能的一项空白。

在Infographic Designer于10月底走向大众之后，张冬梅团队又为他们带来了另一个惊喜——Anna Talk。这是一种通过自然语言对话进行交互的商业智能和数据分析工具。微软亚洲研究院院长洪小文博士在2016年“21世纪的计算大会”的演讲中向与会者展示了Anna Talk。

例如当用户上传了过去几年某地的啤酒销售数据，Anna Talk会像一个经验丰富的人工智能分析师一样，主动提醒你关注去年5月份的销售异常数据，也会主动问询你是否需要调出过去几年内的5月销售数据作为对比。此外，Anna Talk还能抛弃原有的搜索查询界面，转而使用自然的人机对话，你可以像与助理对话一样跟Anna Talk进行对话，让她帮你调出你想要的数据并自动生成报表。从原有的自然语言问询到对话，从被动回答到主动引导，从分立用户界面到无缝多模态界面， Anna Talk将重新定义数据分析的体验。

张冬梅给Power BI团队展示了Anna Talk，并得到了高度的好评。Anna Talk为Power BI在自然语言与数据分析相结合的方向上提供了新的思路，被时任Power BI负责人的Nick称为“美好的圣诞礼物”。

这次交流再一次印证了张冬梅及其团队多年的坚持 – 从实际问题中获得灵感，做最好的研究，走在产品应用的前面。研究者身上必须肩负着探索未来的责任与远见。而在微软，这种远见可以让研究成果更快落地，创造社会价值。

一切都离不开数据和分析

让人惊喜连连的张冬梅将这些成绩都归功于团队和大家始终如一和坚持不懈的努力。回想过去13年，张冬梅表示自己和团队这些年来工作的核心一直围绕着数据和分析。这种十几年如一日的坚持并不多见。值得欣慰的是，因为软件分析本身就是交叉学科，且团队从第一天开始就是横向纵向研究并重，这使他们的研究范围从不会禁锢于某个范围，而是发散性的、可延伸的。这种坚持也让团队在数据分析领域积累深厚，视野开阔，能够厚积薄发，开发出Quick Insights、Infographic Designer 等极富前瞻性又具有实际应用性的项目。

张冬梅及其团队

自2004年从微软总部加入微软亚洲研究院至今，张冬梅已经在这里度过了13个春秋，和组内同事也早已亲如家人一般。谈到团队，张冬梅满满的骄傲。软件分析组内的研究员有着多元的技术背景，这让大家可以集思广益，优势互补。同时，团队里的每一个人都有着对科研孜孜不倦的热情与追求，不知疲倦，这也让张冬梅作为一个女性领导者备受鼓舞。回想13年前在飞机上思考未知生活的自己，张冬梅笑了，她觉得自己很幸运，能够加入这样一个团队，和这样一群满怀激情的人一起努力，一起创造。面向未来，她也充满希望，期待着更多的探索和挑战。我们也期待着她和她的团队在未来给大家带来更多的惊喜。

↧

张冬梅：带领数据探索的梦之队

February 24, 2017, 2:40 am

≫ Next: 让人工智能解数学题，可能没你想象的那么简单

≪ Previous: 张冬梅：带领数据探索的梦之队

张冬梅微软亚洲研究院首席研究员

做一个人人投入的项目，让所有人都能参与其中。

对于张冬梅博士所带领的软件分析组而言，研究工作涉及到多个领域以及它们的交叉和合作。

注：了解Quick Insights，阅读《成为数据专家，你只差一个Quick Insights的距离》

这是我们想要的效果么？

“这是我们能拥有的最好的合作伙伴之一”

你们怎么总给我送来圣诞礼物？

微软亚洲研究院软件分析组与Power BI团队的合作不会止步于此，双方的合作过程也给予了张冬梅和团队源源不断的研究灵感。

一切都离不开数据和分析

张冬梅及其团队

↧

让人工智能解数学题，可能没你想象的那么简单

February 28, 2017, 3:01 am

≫ Next: 为了实现全息通讯，科学家们正在努力求解

≪ Previous: 张冬梅：带领数据探索的梦之队

导读：约1500年前的古代数学著作《孙子算经》中记载了一个有趣的问题：“今有雉兔同笼，上有三十五头，下有九十四足，问雉兔各几何？”这就是今人所谓的鸡兔同笼问题。如今这个问题小学生们解决起来可能都轻而易举，但对于人工智能而言可能并非如此。在人工智能火热的今天，我们想聊聊如何让计算机具备解此类问题的能力——即数学解题。

智能答题任务

如果说一套系统就能解决所有问题的“通用人工智能”离人们的生活还很遥远，那么让人工智能系统解决具体的某一项、或某一类问题已经是一个切实可行的小目标。近几年智能解题逐渐成为人工智能的一大研究热点。随着这项研究的日益火热，人们想通过让人工智能参加“考试”，与人类选手进行公平、公开的比试，从而衡量目前人工智能系统的“智能”水平。

在全世界范围内，有多家研究机构正在从事这一方面的研究。例如日本国立情报学研究所开发了一个项目Todai Robot，他们让机器人挑战大学试题，目标是2021能够考上东京大学。艾伦人工智能研究所(Allen Institute for Artificial Intelligence) 也举办了一项比赛，来自全世界的几千个团队纷纷提交了自己的软件系统来挑战8年级的科学题目，最终，该比赛的第一名仅能达到59%的正确率。在中国，国家科技部2015年也开启了“高考机器人” 项目(863计划中的类人智能项目)，让人工智能系统和全国的文科考生一样，挑战2017年高考语文、数学、文综三项科目，研究相关类人答题系统。超过30多家高校和科研机构（清华大学、中科院自动化所等）联合参与了该项目。

意料之外但又情理之中的是，目前各个人工智能系统的表现普遍在理科解题上弱于文科解题。究其原因：目前机器学习更多强调的是对记忆、计算等相关内容的储存和运用，而对于逻辑理解和推理这一模块还没有很好的解决。数学解题，作为理科考试的一部分，十分考验计算机的理解能力和推理能力，针对数学解题之上的研究成果非常有可能定义计算机智能的新层次。有鉴于此，数学解题应该也正在成为人工智能的一块重要拼图。

难点和挑战

尽管鸡兔同笼问题已经成为小学数学中的常见题型，然而该问题对于计算机来说却是一个极大的挑战。具体来讲，为了得到最终答案计算机需要通过理解题目的文字描述来得到相关数学表达，计算机需要具备逻辑推理能力来对得到的数学表达进行算术演算，计算机还需要具有一定的有关现实世界的常识从而能够约束和简化题目。

首先，数学解题需要多种层次的自然语言理解。对于一道题目的文字描述，计算机需要知道并理解其中包含的概念。举个例子，“一加一等于几”以及“小明有一个苹果和一个梨，问小明有几个水果”，同样本质是“1 1=？”的两道题，在题型概念上是一样的，表达方式却截然不同。计算机需要知道如何把以上两道问题都抽象成两个对象相加，这就涉及到所谓的自然语言理解。

事实上，抽取题目中各个概念变量的关系也十分具有难度。数学题要求的是精确，如果题目变换了一个词，变量之间的关系可能就会改变，整个解法也会不一样。比如下面两道追赶问题:

(1)两辆车同时往同一方向开，速度分别为28km/h和46km/h，问多少小时后两车相距63km？

(2)两辆车同时往相反方向开，速度分别为28km/h和46km/h，问多少小时后两车相距63km？

两道题描述很类似，但是车的方向关系导致了两题的解法大不相同。如何捕抓出这种细微的差别也是一大难点。这也是所谓的自然语言理解的一部分。

其次，在一定程度上理解文字之后，数学解题需要通过逻辑推理生成解题公式。如下图Hosseni 2014的工作，把数学题通过自然语言处理得到几个变量状态之后，需要推理得到各个变量状态之间的关系得出数学公式。在他给出的例子中，计算机通过学习能得到动词“give”代表两个状态相减。

Hosseni 2014训练一个分类器判断一个动词属于加/减

最后，计算机需要具有一定有关现实世界的常识去理解自然语言里面一些隐式的指代。比如圆周率为3.14，速度乘以时间等于路程等等。在鸡兔同笼问题中，鸡有两条腿、兔有四条腿是隐式包含的条件，只有知道这些常识才能正确的解答问题。

历史与现状

智能答题系统最早可以回溯到20世纪60年代。1964年提出的STUDENT（Bobrow 1964）系统可以视作早期答题人工智能实现的代表：输入有规定的描述方式的数学题，人工定义一组关键词和关系（如EQUAL, SUM, PRODUCT），把自然语言（linguistic form）通过模式匹配映射到对应的函数关系表达。例如句子“the number of advertisements is 45”可转化为函数表达方式（EQUAL (NUMBER OF ADVERTISMENTS）45）。之后的CARPS系统（Charniak 1968）能够把自然语言表示成为成树状结构，再匹配生成公式解答，此外它嵌入了很多数学模型的知识，如面积、体积、维度等等。但CARPS系统仅限于解决比率问题 （ratio problem）。

2008年之前多数关于智能答题系统的工作都是基于预定义的模式匹配规则，这类工作主有两个主要的缺点：（1）定义的规则覆盖率小，能解决的问题十分有限，而在真实场景下数学题目的描述往往是比较自由、不太受限的；（2）评测比较模糊，这些系统很少给出评测结果以验证其有效性。

在这之后有了很多不同的尝试。比如SoMaTePs系统（Liguda & Pfeiffer 2012）尝试用扩张语义网（Augmented Semantic Network）表示数学题，抽取题目的对象(object)作为节点，节点之间的关系包括加减乘除。ARIS 系统（Hosseini 2014）让机器学习题目中的动词，并对这些动词进行加减二分类，把数学题看作以动词为关系的状态转移图，但这个方法目前只解决一元加减问题，不考虑乘除。

MIT 于2014年在国际计算语言年会(ACL 2014, Kushman 2014) 上提出了一种基于统计学习的方法（命名为KAZB），引入了模板的概念 (比如“1 1”和 “1 2”同属于一个模板x = a b) 。根据公式的标注把数学题归类成不同的题型，抽取题目中不同层次的特征（如有关词汇、词性以及语法等），使用统计学习技术自动判断题型。但是此类方法的一个缺点为：无法解决训练集之外的题型。比如训练集只出现过两个数相加，机器无法泛化解答三个数相加的问题。之后百度ZDC（Zhou et al. 2015），微软研究院（Upadhyay 2016）的研究团队也在同样的方法框架下分别做了不同的优化改进。在一个开放的评测数据集上（即ALG514，含有514道题），三个系统准确率在上分别是68.7%，78.7%以及83%。

随后，华盛顿大学的ALGES系统（Koncel-Kedziorski et al. 2015）定义了Qset的概念(一个Qset包括Quantity，Entity，Adjective等属性)。首先抽取一道问题的Qset，利用线性整数规划把Qset和加减乘除生成可能的公式，再选出最有可能的公式解出答案。目前限定于一元一次方程。他们同时构建了一个508道题的数据集，系统获得的准确率在72%左右。

艾伦人工智能研究所除了考虑数学文字题之外，还有关于几何看图题的研究。GEOS (Seo et al. 2015) 根据几何数学定义了一组数学概念以及函数，对图和文字分别构建了不同的分析器(parser)。他们在186道SAT的数学题上获得的准确率大概是60%左右。

下表对以上一些具有代表性的系统做出了总结。给出一道数学题文字描述，系统需要涵盖三大部分：自然语言理解，语义表达和映射以及数学推理得出解决公式和答案。

应用场景

作为一种有趣的人工智能问题，数学解题相关的研究和努力不仅有助于推动机器智能的进步，同时也会在众多实际应用场景中产生价值。

线上教育

近几年兴起的中小学生学习平台，该类应用普遍会支持如下功能——学生可以采取对准题目拍照，或者文字语音方式来输入数学题，学习平台识别题目并给出解题思路。由于此类平台具有庞大的题库，因此可以通过识别匹配题目来实现上功能。该应用的用户量已经突破一亿，在教育市场份额巨大。但是这些平台中所有的题目需要人工预设解题思路，受限于此，题库的扩展存在一定约束。人工智能数学解题的成功解决将会大大提升此类平台。

知识问答系统

作为新一代的知识搜索引擎的代表，WolframAlpha能理解用户搜索问题并直接给出答案，而不是返回一堆网页链接。其中WolframAlpha被搜索过的一类典型的问题就是数学问题。输入数学题，它能给出数学模型、解题步骤以及答案。数学解题是此类引擎的核心构件之一。

智能问答

智能对话系统的终极目标是实现人机自由对话，计算机能够响应来自用户的各种问题。其中，自然也包括数学解题。微软小冰实际上已经开始了这方面的尝试，它目前已可以解决比较简单的算术题。

SigmaDolphin——微软亚洲研究院的数学解题

SigmaDolphin是微软亚洲研究院在2013年初启动的解题项目。Sigma即西格玛大厦，是微软亚洲研究院的诞生地；而Dolphin则是该系统被赋予的期望——像海豚一样聪明。

目前SigmaDolphin主要有两个研究成果。

● Dolphin解题

SigmaDolphin定义了一套针对数学解题的抽象表示语言（被命名为Dolphin Language），包含了数学相关的类和函数。该语言人工定义了1000多种数学类型以及7000多种从Freebase和其它网页自动抽取的概念类型，加上其定义的函数和数据结构，使得该语言十分适合表达数学概念及运算，并能很好地构建出一个精准的数学解题系统。同时Dolphin Language具有大约1万条语法规则，把自然语言解析成Dolphin Language的表示，继而进行推理得到数学公式。有关该方法的详细介绍已经发表在EMNLP 2015, 题为“Automatically Solving Number Word Problems by Semantic Parsing and Reasoning” 。

“what is 1 plus 2”的Dolphin语言表示形式

● Dolphin18K数据集

目前该研究领域正在使用的数据集规模都相对较小，而且题型都比较简单。众所周知，机器学习的关键是数据，特别关键的是数据规模。然而，数学题库需要提供公式和答案，人工标注十分耗时。微软亚洲研究院团队采用半自动地方法从雅虎问答获取数学题，经过人工筛选题目，并自动抽取公式和答案作为标注，构建一个新的数据集Dolphin18K。该数据集包含了1万8千多道数学题。有关该数据集的详细介绍已发表在ACL 2016，题为“How Well Do Computers Solve Math Word Problems? Large-Scale Dataset Construction and Evaluation”。过往的系统在各自的数据集上都有高达60%至80%的准确率，但由于评测的数据集都在几百道题目的规模上，而且都有不同的题型限制，导致其得出的结论可能不够有代表性。对比之前的数据集，Dolphin18K题目数量增加了10倍以上，涵盖了不同年级、不同难度的数学题，且题型更加全面丰富，更具有挑战性。目前，在Dolphin18K的评测上，过往的这些数学解题系统平均只能获得20%左右的准确率，说明了数学解题并没有想象中的那么简单。

如上所述，目前智能解题任务仍然存在众多的挑战。但我们仍可以期冀，通过不断的数据积累和方法创新，智能解题系统的能力终将逼近甚至超过人类——答题能力能从及格逐渐提升至100分的水平。

参考文献

Daniel G. Bobrow. 1964. Natural Language input for a computer problem solving system. MIT technical report, 1964.

Charniak E. 1968. CARPS, a program which solves calculus word problems. MIT technical report, 1968.

Mohammad Javad Hosseini, Hannaneh Hajishirizi, Oren Etzioni, and Nate Kushman. 2014. Learning to solve arithmetic word problems with verb categorization. EMNLP 2014.

Danqing Huang, Shuming Shi, Chin-Yew Lin, Jian Yin and Wei-Ying Ma. 2016. How well do computers solve math word problems? Large-scale dataset construction and evaluation. ACL 2016.

Rik Koncel-Kedziorsk, Hannaneh Hajishirizi, Ashish Sabharwal, Oren Etzioni, and Siena Dumas Ang. 2015. Parsing algebraic word problems into equations. TACL 2015.

Nate Kushman, Yoav Artzi, Luke Zettlemoyer, and Regina Barzilay. 2014. Learning to automatically solve algebra word problems. ACL 2014.

Christian Liguda and Thies Pfeiffer. 2012. Modeling math word problems with augmented semantic networks. NLDB 2012.

Anirban Mukherjee and Utpal Garain. 2008. A review of methods for automatic understanding of natural language mathematical problems. Artif. Intell. Rev. 29(2): 93-122, 2008.

Minjoon Seo, Hannaneh Hajishirzi, Ali Farhadi, Oren Etzioni, and Clint Malcolm. 2015. Solving gemometry problems: Combining text and diagram interpretation. EMNLP 2015.

Shuming Shi, Yuehui Wang, Chin-Yew Lin, Xiaojiang Liu, and Yong Rui. 2015. Automatically solving number word problems by semantic parsing and reasoning. EMNLP 2015.

Lipu Zhou, Shuaixiang Dai, and Liwei Chen. 2015. Learn to solve algebra word problems using quadratic programming. EMNLP 2015.

知识挖掘组

知识挖掘组致力于通过知识发现和数据挖掘理解和服务这个世界。研究组聚集了包括数据挖掘、机器学习、自然语言处理、信息检索和社会计算等领域的多学科研究员，主要从事如下研究方向：网络实体搜索和知识挖掘，服务于真实世界的语义计算框架应用，基于大规模行为数据的用户理解。

注：更多介绍前往项目网站:https://www.microsoft.com/en-us/research/project/sigmadolphin请点击网址查看。

↧

为了实现全息通讯，科学家们正在努力求解

March 2, 2017, 2:49 am

≫ Next: 演讲|Thomas Moscibroda: 人工智能与科技金融

≪ Previous: 让人工智能解数学题，可能没你想象的那么简单

注：本文译自Partnership yields key breakthroughs in VR’s “grand challenge”，点击网址 https://www.microsoft.com/en-us/research/blog/partnership-yields-key-breakthroughs-vr-grand-challenge/即可查看。

“虚拟现实”（VR）这个概念大家已经不再陌生，作为潜力巨大的新兴技术，VR有望颠覆工业设计、医学等诸多专业的研究方向和领域。早在2008年，美国国家工程院便评选出“21世纪十四大工程挑战”，“改进虚拟现实”这一挑战便赫然其中，与之同在的还有“预防核恐怖”和“保护网络空间”等重要挑战，虚拟现实的重要地位可见一斑。正因如此，微软才一直致力于改进和创新VR和3D沉浸式通讯方式，并将该技术应用于微软Kinect Xbox 360传感器、Surface Hub、HoloLens和Windows Creator等微软的产品和服务中。

学术合作

让虚拟现实技术真正走进人们的生活、实现更加沉浸式的沟通建立在3D几何捕捉和信号传输技术的革新上，而这是建立在十几年如一日长期的基础研究上的。因此，微软启动了名为CORE（collaborative research）的学术合作项目，来自日本国家信息学研究所副教授Gene Cheung博士便是该学术合作项目的合作伙伴之一，而他本人多年来也致力于解决上述问题。

Gene Cheung博士日本国家信息学研究所副教授

共赢突破

利用Kinect传感器等深度感测设备，研究人员开发了一种可以更好地为图像降噪并复原图像细节的算法。更重要的是，他们发明了利用自然图像和深度图像增强图像信号平滑度的方法，这一发明可谓是该领域内的重大突破。

图：使用我们的方法（右）原始4位图像（左）和位深度增强图像到8位的示例

微软研究院资深研究员Dinei Florencio与Gene Cheung博士的合作研究“速率限制3D表面估计”和“多维3D深度图的精确增强”已有一定的进展。“这两条研究线是我们最近合作中最活跃的，”Florenicio说。“我们正向更好的沉浸式通信体验一步步迈进，我相信Gene的研究能带来一些非常基础的贡献。该项目的其他核心成员还包括微软研究院的张察和香港科技大学毕业的万鹏飞。

未来

Florencio和Chueng正引领主动光传感是否可以准确检测信息性生物信号方面的研究，例如面部的脉搏、呼吸频率和体温的变化，以此分析对受试者情绪，判断其是否撒谎。在这个项目中，研究员们需要解决的首要问题则是能否扩展主动光感测试以揭示阴影或远距离人类受试者的相同细节。

微软研究院资深研究员梅涛表示：“这个项目非常有趣，因为它试图通过生物信号以实现更有效的面对面交流。”该项目负责人Cheung教授提出一种新颖的想法，使用完全非接触和非侵入性的主动成像，通过分析室内有源图像传感系统中构造的温度图像和深度图像来解决这个问题。

Cheung教授计划在项目完成后公开该研究工具。我们期待着这次合作能有更多的进步和成就，同时也希望研究人员探索这一领域，拓展虚拟现实技术的前沿，早日实现《星球大战》中莱娅公主全息通话的愿景。

↧

演讲|Thomas Moscibroda: 人工智能与科技金融

March 6, 2017, 1:36 am

≫ Next: 号外|微软亚洲研究院入驻「知乎·机构账号」

≪ Previous: 为了实现全息通讯，科学家们正在努力求解

金融业无国界，这也在全世界范围内提供了众多的商业机会。当我们提到科技金融（Fintech）的发展的时候，就离不开背后技术的支撑，我们称之为人工智能。人工智能正在改变我们的时代，就像几百年前蒸汽机引发的工业革命一样。

上周末（2月25日）在厦门召开的2017首届科技金融国际峰会上，来自微软亚洲研究院的首席研究员，云计算及移动计算组（C&M）创始负责人，清华大学交叉信息科学研究院（IIIS）网络科学方向讲席教授Thomas Moscibroda为大家分享了题为《人工智能与科技金融》的演讲。演讲内容（有部分删减）整理如下：

人工智能与科技金融

金融，是计算机技术非常核心的应用方向之一。当我们大家在讨论科技金融的时候，很多人都会提到区块链，诚然区块链是科技金融中非常重要的技术，但它并不是唯一的。事实上，如今还有很多引领数字时代变革的技术具有极大的潜力。其中，我认为有三点十分值得关注。

第一，云计算

第二，大数据和人工智能

第三，区块链

在今天的演讲中，我会更多的从技术角度探讨科技金融的问题。

首先，云到底是什么样的概念？

云包含很多东西，在它的最底层是它的基础设施，例如记忆芯片、CPU处理器等。

再上面一层是基础设施的服务和技术。例如微软认知服务里大家能够体验的人脸识别，语音识别等技术都是基于云平台所提供的技术。

今天，微软Azure公有云已经覆盖全球38个区域。同时，“云”也是一个混合的概念，这就意味着如果一家公司，有资金支持，有IT基础设施，有数据和软件，你就可以用这些元素构建公司的“云”。同时，云技术现在已经变得越来越安全，也逐步赢得了更多人的信任，云技术也相应的获得了更多的投入。

我可以和大家分享一个我的个人体验来说明这一点。起初，我问我们的客户，“你把你的业务挪到云计算上有什么感受？”很多人会觉得不安全，例如可能会有数据泄露问题。当他们真的把业务放到微软的云平台上之后，他们会发现其实云平台可能比自己公司内部的系统更安全，而且使用云平台还能对用户的隐私性，对数据使用的情况有更多的管控空间。从安全性上来说，这可能比公司原有的IT部门所做的更好。所以，从结果来讲，越来越多微软的潜在用户已经挪到了微软的云计算平台上。目前，在全球“财富500强”企业中，有 85%的企业采用了微软云服务。

为什么我们说云技术至关重要？其中一个原因就是，微软云技术意味着当一家公司选择了云平台之后，就能立刻享受到云计算带来的好处，例如无穷无尽的计算能力、最先进的人工智能算法、最强大的大数据引擎。微软拥有超过100个遍布全球的大型数据中心。在这样一个数据中心的内部，你可以看到FPGA技术、很多数据的融合。对于从事高频交易来说，云就是他们能找到的最快的数据处理中心。

从机器棋手战胜人类的背景来看，人工智能如今已经取得了长足的进步。同时，在图像识别、语音识别上也看到了人工智能超越人类或与人类比肩的实力。

不久前，我还参与了一次中国非常流行的直播，我在花椒直播使用德语与观众进行互动。借用微软的Microsoft Translator实时语音翻译技术，观众能实时看到中德双语字幕以及听到中文的语音，Microsoft Translator在其中完美扮演了“同声传译”的角色。

为什么说人工智能技术十分重要？因为我上述提到的这些技术所使用的人工智能算法是具有极强的通用性的，它可以用于围棋，用于翻译，同样也可以应用于金融技术。而这些算法，在过去几年当中，取得了非常显著的进步。例如还在2012年的时候，最好的神经网络算法仅有8层，而今这些算法无论是从层数还是准确性上都得到了很大的发展。因此，我们能看到交易算法都可以基于云技术得到升级。

当我们在讨论大数据，我们讨论的最多的是由结构性的数据来源。我们来分析其中某一个数据的意义。针对数据我们有许多不同层次的算法，与此同时人们也拥有了不受限于某一个公司的庞大的数据量。当我们在讨论数据的预测性，我们甚至可以用大数据预测改变你的投资规律、投资模式。所有这些功能都能够为金融科技带来巨大的变革。例如供应链金融、例如感知，这些都将带来巨大的冲击。

接下来，我想来讨论一下区块链。

区块链这个概念大家都应该很熟悉了，似乎每一个人都在讨论区块链的巨大潜力。但它的分布性，共享性，安全性等仍是我们关注的问题。此前，我们需要一个中央集权性的机构占据垄断地位，拥有所有的数据。但是有了区块链技术，情况就变得不一样了。

区块链技术其实有一定的门槛，近年来它有很多重要的技术进步，当然也有一些浮躁的声音。但是真正抓住了这项技术的核心的人还很少，还有很多人看不到这个技术的重要之处。那么，区块链究竟是由哪些核心部分组成的呢？我认为有四点是非常重要的。

第一点是它数据的结构。比如说我们有一个客户Thomas，他想要给别人十元钱，那么这笔交易就立刻在一个区块中被记录下来，然后这个交易立刻被加密，和先前的区块连接起来。这就是我们为什么说这个是区块链，因为整个链上都是各个不同的小区块，这个问题的核心是一旦这个交易数据建立起来了，就不能再改变了。在传统的结构当中，一个新的数据诞生之后你还是可以对这个数据进行修改，但是区块链一旦被计入就绝不可能被改动。这样的数据结构可以保证每一个数据都是不可改变的，同时也是可以被追踪的。

第二个问题是网络问题。因为区块链技术的一项核心理念就是我们不相信彼此，所以在每一个数据的中心，我们都有各自独立的、相同的十元钱交易的记录。

第三个问题是共识协议问题。这个问题也是众多研究学者和学术会议正在讨论的问题。什么是共识协议？比如说你、我、他三个人，我给你付了十元，他付给我了十元，那么大家必须要对交易过程和内容达成共识，否则之后就可能产生分歧。所以在区块链中需要有共识协议来决定每一个交易中究竟什么事情先发生，什么事情后发生。

第四，智能合约。上面提到的三个层次是所有典型的区块链系统都具备的。智能合约出现在新的区块链系统中。智能合约就是有自己存储空间的一段代码控制的账户，有了它我们可以随意定义数字资产的语义和流通规则。它也正是近期使得区块链成为热点的原因之一。

从研究上来说，结合整个研究领域的想法，我们认为区块链有三大技术方面的挑战。

第一个问题是区块链如何用利用自己的长处让传统数据中心变得更有效率。虽然我们经常在讨论区块链，但不可否认的是传统的数据库是非常成功、非常流行，且深受大家欢迎的。比如说我们的支付宝和微信支付，这些本质都算是传统支付方式。在传统支付上，每一秒都可能有上亿的用户进行上亿的交易，普通人非常依赖于传统的数据中心。因此我们需要讨论的问题是，区块链如何用利用自己的长处让传统数据中心变得更有效率，更好用。

第二个问题是区块链的效率、隐私问题。在区块链中，每一个人都在分享自己的数据，而且每一个交易记录都需要被所有人核实、记录和存储。一方面，这个过程会使区块链对传统数据中心而言更慢。另一方面，区块链双方的交易过程中第三方必须知道，且会去核实这个交易的合法性和正当性，而每一个人都能知道交易双方的中间数据，这也带来了隐私问题。

第三个问题是关于智能区块链。在微软亚洲研究院，我们组正在进行相关的研究探索工作。我们可以设想一下，如果在区块链（比如以太坊）中通过智能算法，能分析挖掘出来人们数字资产在各个应用（智能合约）中的状态和流动趋势，那将能够完成更多你想象不到的事情。

谢谢大家的倾听。

此外，今晚微软亚洲研究院主管研究员秦涛博士还将在钛媒体分享对机器学习的思考，欢迎大家踊跃参与~

分享具体信息如下：

↧

号外|微软亚洲研究院入驻「知乎·机构账号」

March 6, 2017, 1:55 am

≫ Next: 闫莺：情不知所起一往而深

≪ Previous: 演讲|Thomas Moscibroda: 人工智能与科技金融

上周，知乎上出现了一个名为“微软亚洲研究院”的账号，他还回答了一个问题……围观地址>>https://www.zhihu.com/question/19895141/answer/149475410

全文摘录如下：

各位知友们，大家好！

我是位于中关村丹棱街5号的微软亚洲研究院。初来乍到，请多关照。

微软亚洲研究院作为一家正经、严肃的科研机构，于1998年正式建院，是微软在亚太地区设立的研究机构，也是美国本土外规模最大的一个。通过吸纳全球各地的专家学者们鼎力合作，一心搞研究的微软亚洲研究院已经成长为世界一流的计算机基础及应用研究机构，致力于推动整个计算机科学领域的前沿技术发展，并将最新研究成果快速转化到微软全球及中国本地的关键产品中，帮助消费者改善计算体验。同时，微软亚洲研究院着眼于下一代革命性技术的研究，助力公司实现长远发展战略和对未来计算的美好构想。我们曾被称为“世界上最火的计算机实验室” ，” 比尔盖茨的人才后花园 “，国内更多的人称我们 “IT界的黄埔军校”。

那么问题来了，我们到底在做什么？

一句话概括：我们是搞计算机基础和应用研究的。

目前，微软亚洲研究院共有200多名科学家和工程师，以及300多名访问学者和实习生，主要从事五个领域的研究：

自然用户界面

新一代多媒体

以数字为中心的计算

互联网搜索与在线广告

计算机科学基础

截至2016年10月，微软亚洲研究院在国际顶级学术会议与一流学术期刊上公开发表了4000余篇论文，其中有50多篇荣获“最佳论文”奖，众多技术突破为全球计算机前沿技术的发展引领了新的方向。同时，微软亚洲研究院还积极参与制定行业标准，并发布和开源了一系列核心技术项目，以帮助更多业界科研人员和开发者解决技术障碍，探索计算机技术应用领域。

另外，我们还致力于将科研成果产品化。从微软亚洲研究院诞生出来的新技术层出不穷，它们对微软公司产生了非常重要的影响。众多从微软亚洲研究院诞生的创新技术转移到了微软产品中，包括：Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect、Power BI等，以及近年来以微软小冰、Cortana、Skype Translator、认知服务等为代表的人工智能产品。

近年来，我们基于“Deployment-Driven Research”以实践驱动的研究理念，孵化了很多广受欢迎的应用和技术项目，包括微软自拍、微软小英、微软识花、微软对联/字谜、Urban Air、小鱼天气等。

微软亚洲研究院一直怀揣开放的心态，以“创一流科研水平、培养一流人才”为目标，广泛建立合作伙伴关系，与中国高校和科研机构保持良好的研究合作关系，交流研究经验，分享研究成果。秉承“根植中国，服务中国”的宗旨，微软亚洲研究院以“架起中外学术交流的桥梁”为己任，旨在为中国地区的IT院系搭建与亚太同行交流合作的平台，给广大师生带来最前沿的计算机技术和理念，提高中国的科研水平和人才素质，以实现区域的共同发展。

欢迎志同道合的朋友加入我们。

那么问题又来了，我们来知乎做什么？

回答问题。知乎是一个认真分享知识的地方，而我们拥有知识并且热爱分享知识。知乎社区给我们提供了一个可以讨论和分享的平台，对于每一个认真的提问，我们都会认真的尽我们的能力回答，与大家分享来自微软亚洲研究院的行业洞见。

开设专栏。我们也会在知乎平台上开设人工智能系列专栏文章，包括微软亚洲研究院的最新研究成果的展示，为人工智能相关的研究提供范例，从专业的角度促进公众对人工智能的理解。

最后一个问题，我们会如何与大家进行互动？

大家可能已经注意到了，在撰写这个问题的答案之前，我们已经提前回答了这个问题>>自然语言处理怎么最快入门？我们还注意到，在知乎上关于微软、微软亚洲研究院以及计算机科学相关领域的讨论还有很多，这些问题都非常适合我们回答。每周我们都会从大家的邀请和提问中筛选问题进行回答，力图全面的向大家展示计算机科研的魅力。

最后的最后，这个账号的答案都是谁撰写的呢？

大家都知道，微软亚洲研究院共有200多名科学家以及300多名访问学者和实习生，这里的每一位专家都是我们知乎账号的智囊团。关注我们，你可以阅读到来自计算机科学领域各个不同方向的专家们的见解。这就意味着回答你问题的可能是微软亚洲研究院院长，也可能是各位在各自领域深耕多年的研究员们。这也许是大家近距离接触某国际顶级学术会议主席、领域主席，或是新晋IEEE fellow和ACM Distinguished Member等微软亚洲研究院科学家们的最好机会哦！那么，请不要犹豫快向我们提问吧！

以上。

↧

闫莺：情不知所起一往而深

March 7, 2017, 11:22 pm

≫ Next: 秦涛：深度学习的五个挑战和其解决方案

≪ Previous: 号外|微软亚洲研究院入驻「知乎·机构账号」

闫莺微软亚洲研究院移动及云计算组主管研究员

从很小的时候开始，闫莺可能一直都是大人口中“别人家的孩子”。学习成绩始终名列前茅；文艺细胞与体育细胞兼具；本科到博士一路保送，未曾经历过高考和研究生考试；直博一年级发表的第一篇论文便被ICDE录取（国际数据库一级会议），第二篇论文就拿了中国数据库年会的最佳论文。拥有这似乎开挂一般的经历，闫莺博士谦虚地将这些归结于自己的运气，殊不知，这看似“毫不费力”的背后，是她一直以来的百分努力。

目前，在STEM（S代表Science科学，T代表Technology科技，E代表Engineering工程，M代表 Mathematics数学）这类学科的教育中，女性参与的比例仍然较少。但我们相信，榜样的力量是无穷的。为此，在一年一度的三八国际妇女节之际，我们照例向大家分享来自微软亚洲研究院的女性研究力量。闫莺，微软亚洲研究院移动及云计算组主管研究员，就是我们今天故事的主角。

#MakeWhatsNext#改变世界，微软鼓励更多女孩加入STEM

念念不忘，两度擦肩

12年前的2005年，闫莺迎来在复旦大学周傲英教授数据库实验室的第二年。也是在这一年，她荣获由微软亚洲研究院所颁发的“微软学者奖学金”。这是微软于1999年启动的一项面对亚太地区重点高校的计算机科学、应用数学等专业低年级博士生的项目，用于发现、鼓励和资助优秀的、有潜力的低年级博士生更好地展开基础研究工作。闫莺回忆道，正是在这次颁奖典礼上，她遇到了自己的偶像——如今微软全球执行副总裁沈向洋Harry博士。回忆起颁奖典礼，闫莺言语间仿佛还透露着当年的兴奋激动：“当时是Harry给我颁奖的，我到现在还记得当初和他握手的感受！”多年后的今天，闫莺依然珍藏着两人当时握手的照片。

闫莺一直珍藏的2005年“微软学者奖学金”颁奖典礼照片

这次和微软亚洲研究院的交集让闫莺开始对这个“世界上最火的计算机实验室”念念不忘。“微软学者奖学金”为每位获奖者提供微软亚洲研究院的实习机会，但由于当年研究院没有与她研究方向相近的数据库研究组，这次实习终究没有成行。在闫莺眼里，这是自己与研究院的“第一次擦肩而过”。

三年后的2008年，闫莺复旦博士毕业，众多offer中就包括彼时还属于微软亚洲研究院的微软亚洲互联网工程院。但因对上海的执念，闫莺选择加入刚成立的SAP中国研究院首席科学家实验室，成为首批研究员之一。2009年，微软互联网工程院的刘激扬再次向闫莺伸出橄榄枝，希望她加入微软，闫莺动心了，不过那时的微软亚洲互联网工程院已从微软亚洲研究院孵化出去。就这样，闫莺与微软亚洲研究院第二次擦肩而过。

心之所向，柳暗花明

在微软的搜索部门工作了两年之后，闫莺博士决定是时候回到自己的研究之路上来。微软也为像她这样的员工提供了这样的机会——能够根据自己的兴趣和想法申请交换到自己想去的部门。一如既往的，她在申请和面试微软亚洲研究院的过程都很顺利。

但在最终offer到手之前，闫莺发现她即将成为一位母亲，在欣喜的同时也有一丝忐忑。让闫莺暖心的是，身边优秀的同事都十分照顾这位新的“战友”，闫莺在感激的同时也不免对自己提高了要求：毕竟刚来这里，好强的她非常想尽快证明自己能力。闫莺的老板张铮和周礼栋在这段时间里扮演了重要角色：一向严格的他们在考虑到闫莺身体状况的前提下，给她安排了各种工作和机会，让她得以施展能力和才华。对此，闫莺选择了用出色的工作成果以表达她的感激。

刚来不久，闫莺所在的团队就接到了来自产品团队的需求，希望研究员们可以研究一种新方法来优化数据分析性能，应对日益增长的数据分析需求。在此之前，闫莺团队曾通过采样来优化大数据性能，但抽取的“数据摘要”常常不准确。一番研究后，他们决定通过将采样比例和误差率控制在同一个比例关系中来控制误差。在得到产品组的认可之后，团队便开始着手研究，扩展已有方法。那时的实验室，时常可见闫莺和张铮聚在一起热火朝天地讨论。两个月后，微软亚洲互联网工程院举行内部黑客马拉松，应用闫莺团队研究成果进行数据查询的项目组一举获得该次比赛冠军。第一项研究成果在短时间内如此收官，闫莺颇为自豪。

后来，团队又在此基础上进行方法扩展，与产品部门进行了多次合作，把可用的数据采样查询扩展得更多。基于此项研究撰写的第一篇论文便被数据库领域顶级国际会议VLDB收录；针对随机数据查询任务而进一步优化的第二篇论文进而被数据库领域顶级会议SIGMOD收录。对于绝大多数科研人员而言，研究者常需要在前沿研究和技术落地间权衡，但闫莺所在团队的研究，一方面能在微软的产品里实现落地，另一方面在顶级会议上发表论文，在两个方面都获得了可喜的成果。来到微软亚洲研究院最初的项目成果便如此丰厚，对闫莺许是意料之外，但对熟悉她的人来说，这完全是情理之中。

在微软亚洲研究院的第一个三八妇女节，闫莺一直记忆犹新。那天，老板张铮手持鲜花来到她的座位，看似轻描淡写说道：楼下顺的花，节日快乐。这暖心的举动让闫莺格外感动，“整个研究院里的氛围其实都是这么温馨”。

多重角色，游刃有余

如今的闫莺，身兼多职。在工作中，她是研究员，是实习生的导师“莺姐”。而回到家里，她又是一位母亲、女儿和妻子，需要照顾家庭。事业和家庭间的平衡对很多职场女性来说似乎都是一个难题，但这看似忙乱的生活，对闫莺来说却是游刃有余。

作为微软亚洲研究院移动及云计算组主管研究员，闫莺目前负责微软中国智能区块链的创新和研发。实际上，这个项目源于半年多前闫莺读到几篇相关文章，彼时正集中研究数据库的闫莺立即产生了兴趣——这个看起来简直是为我们量身打造。一番研究过后，闫莺将这个想法告诉了老板Thomas Moscibroda——微软亚洲研究院首席研究员、云计算及移动计算组创始负责人——并得到对方大力支持。

一念之间，渐行渐远。仅仅半年多，闫莺团队设计的新技术已经成功申请了区块链方面几项美国专利。从基础的一致性协议理论，到提高区块链性能和扩展性的系统优化，各方面都取得了相当进展。目前，团队正与Azure美国团队一起设计和开发可落地的区块链的应用。面对这样一位异常高效的员工，老板Thomas Moscibroda如此评价闫莺：自几年前加入我们团队，她在每一个方面都令我惊艳。实力之外，她更有远见，研究工作从数据库到大数据系统再到现在的区块链，每一项都是业界前沿。作为她的经理，我非常庆幸有这样一位员工在我的团队。

【研究员视角】区块链：从入门到精通

一文读懂区块链上的隐私与监管问题

研究工作之外，闫莺同样是一名出色的导师，被实习生们亲切地称呼为“莺姐”。“莺姐”在与实习生交流时有一个最基本的问题：你来这里实习的目的是什么？是发论文，求推荐信，接触产品组，还是单纯的体验？根据对方的回答，闫莺会与之细致分析，并给出相应意见建议和工作安排。而对于想要申请学校或工作的实习生，她都会主动提供修改简历等实在的“一条龙服务”，细心程度可见一斑。“正是因为她的细致和用心，绝大多数实习生在实习期满后都获得了最初所想：无论是论文、推荐信、还是完整的产品体验”，Thomas说到。

张宪是北京大学博士生，去年年底加入闫莺所在的区块链研究组，他眼中的“莺姐”专业、十分严格而不失亲切。“她常与我们分享生活中的点滴趣事，比如今天看到什么文章、听了哪些演讲、思考到哪些问题，她都会主动与我们分享”，张宪如是说道，“她还会吐槽我的口音，关心我的学业。这样的老板，交流起来真的轻松”。平时在工作中，高标准的闫莺对实习生们也非常温柔体贴，请喝咖啡是常事，加班到了饭点就直接带着大家吃饭。有这样的老板，实在是一大幸事”，张宪感慨道。

虽然工作并不轻松，但闫莺从未缺席孩子的成长。无论多忙，她要求自己每天必须抽出至少一小时与孩子交流玩耍。自小便爱好广泛的闫莺希望孩子也能健康快乐地成长，培养自己的兴趣。捏泥人、画画、唱歌、弹琴……这是闫莺常与孩子一起参与的亲子项目。

闫莺和孩子的泥人作品

理科生出身的她在育儿方法也有自己独特的方式：她常常根据孩子的所需所想为自己制作一份checklist，罗列出近期需要和孩子一起完成的项目，并定期检查。“如果月末发现checklist上的项目都完成了，我会很满足；否则，我便会反思自己”。作为计算机科学研究者的她还曾志愿到孩子幼儿园做助教，给孩子们上科技课，讲解最新的人工智能。“小朋友们都很兴奋，我也挺有成就感的”。闫莺觉得，自己可能不是最完美的妈妈，但她会一直朝着这个方向努力。

闫莺在孩子幼儿园的科技课上讲解人工智能

数次擦肩后，闫莺对微软亚洲研究院早已是情不知所起，一往而深。回忆起自己的研究之路，闫莺满是感恩，认为自己一路以来都有着几分运气。殊不知，当优秀成为一种习惯，好运便不是馈赠，而是情理之中。值此三八妇女节，闫莺也鼓励更多的女生学习计算机，加入这个行业。如今科技早已无处不在，并将深刻地影响我们的未来生活。未来，我们期待更多的女性像闫莺一样投身科学，探索未知科技，领略这个领域不一样的魅力。

↧

秦涛：深度学习的五个挑战和其解决方案

March 9, 2017, 2:01 am

≫ Next: 演讲|谢幸：如何让机器拥有像人一样的思维？

≪ Previous: 闫莺：情不知所起一往而深

编者按：日前，微软亚洲研究院主管研究员秦涛博士受邀作客钛媒体，分享他对深度学习挑战和解决方案的思考，本文为秦涛博士在钛坦白分享的实录整理。

大家好，我是微软亚洲研究院的秦涛，今天我将分享我们组对深度学习这个领域的一些思考，以及我们最近的一些研究工作。欢迎大家一起交流讨论。

先介绍一下我所在的机器学习组。微软亚洲研究院机器学习组研究的重点是机器学习，包含机器学习的各个主要方向，从底层的深度学习分布式机器学习平台(AI的Infrastructure)到中层的深度学习、强化学习、符号学习算法以及再上面的机器学习理论。

人工智能近年的进展

从1956年达特茅斯会议上人工智能的诞生开始，到如今人工智能已经发展了61年，这期间人工智能历经风雨，经历了数次高潮也有数次低谷，每次高潮都是因为核心技术的提出引起了人们极大的兴趣，吸引了大量的资金的投入。但同时由于大家的期望值远远超过了技术所能够达到的高度，因此当人们发现巨大的资金和人才的投入不能达到预期成果的时候，人工智能的冬天也随之而来。幸运的是，现在我们正处于人工智能的第三次浪潮，并且目前看来，距离下一个冬天还是挺远的。从媒体的报道，大家可能都能了解到，人工智能在各个方向都取得了非常大的进展，不管是研究上、实践上，还是应用上。下面我们简单回顾一下人工智能近年来在各个方向取得的进展。

早在2012年，微软就在“21世纪的计算”大会上展示了一个同声传译的系统，这个系统其实相当复杂：当微软研究院创始人Rick Rashid用英文演讲的时候，这个系统首先需要将英文的语音识别成英文的文本，然后通过一个翻译系统把英文翻译成中文，然后再把中文文本合成成为中文的语音。整个复杂的过程都是通过深度学习的技术来支撑的。

在2015年底，发生了一件对计算机视觉领域而言非常重要的事情，就是微软亚洲研究院的研究员提出了一个新的基于CNN的深度模型叫做残差网络，这个残差网络深度高达152层，取得了当时图象识别比赛上面最好的成绩。到现在为止，深度残差网络在计算机视觉的研究中被广泛使用，并且被集成到微软还有其他大公司的产品中。

再到后来，2016年初，可能大家都知道，AlphaGo这个系统打败了围棋世界冠军李世石，这非常出乎人们的预料，特别是AI专家的预料，因为大家普遍认为，机器要在围棋上战胜人类可能还需要20年。在2016年下半年，微软宣布了另外一项AI上的进展，就是在日常对话的语音识别中，微软的技术已经达到了人类的水平，这也是非常了不起的，因为如果大家关注一下我们日常的讲话，就会发现，其中有很多停顿，并且带一些语气词，与朗诵或者新闻播音相差很大，这种日常对话识别要达到人类的水平是很不容易的。

从以上的简单回顾可以看出，人工智能的第三波浪潮和深度学习是分不开的。深度学习里最经典的模型是全连接的神经网络，就是每相临的两层之间节点之间是通过边全连接；再就是卷积神经网络，这个在计算机视觉里面用得非常多；再就是循环神经网络RNN，这个在对系列进行建模，例如自然语言处理或者语音信号里面用得很多，这些都是非常成功的深度神经网络的模型。还有一个非常重要的技术就是深度强化学习技术，这是深度学习和强化学习的结合，也是AlphaGo系统所采用的技术。

深度学习的成功主要归功于三大因素——大数据、大模型、大计算。现在可以利用的数据特别是人工标注的数据非常多，使得我们能够从数据中学到以前没法学习的东西。另外技术上的发展使得训练大模型成为了可能，例如上千层的深度神经网络，这个在四年以前都觉得不能想象的事情，现在都已经发展成为现实，并且在产品中都有了很广泛的使用。再就是大计算，从CPU到GPU，可获取的计算资源越来越丰富。

大数据、大模型、大计算是深度学习的三大支柱，因此这三个方向都是当前研究的热点，例如如何从更多更大的数据里面进行学习，如何训练更大更深的模型。非常深的模型，当前更成功的例子是在计算机视觉里面，但如何把这种更深的模型引入到自然语言处理里面，还需要研究，例如当前几个大公司的神经机器翻译模型，都是利用较深的RNN，但是还是远远达不到残差网络的深度。从大计算这个方面来讲，整个演变过程是从CPU到GPU到FPGA，再发展到现在有些公司定制自己专有芯片，国内的有一些创业公司，也都在做一些AI芯片，专门为AI来设计一些硬件。大计算另外一个角度就是深度学习的平台和系统，这个可以说是各大AI或者是互联网公司的着重发力的地方，例如微软的CNTK、DMTK，再比如TensorFlow、Torch，以及学术界的开源平台包括Theano、Caffe、MxNet等等。可以预计，在短期内，各大公司还会在这个领域做非常激烈的竞争，希望能够吸引第三方公司使用他们的平台和系统。

俗话说成也萧何败也萧何，大数据、大模型、大计算是深度学习成功的三大支柱因素，但他们同时也为深度学习的进一步发展和普及带来了一些制约因素。

挑战1:标注数据代价昂贵

前沿1:从无标注的数据里学习

大家都知道，深度学习训练一个模型需要很多的人工标注的数据。例如在图象识别里面，经常我们可能需要上百万的人工标注的数据，在语音识别里面，我们可能需要成千上万小时的人工标注的数据，机器翻译更是需要数千万的双语句对做训练，在围棋里面DeepMind当初训练这个模型也用了数千万围棋高手走子的记录，这些都是大数据的体现。

但是，很多时候找专家来标注数据是非常昂贵的，并且对一些应用而言，很难找到大规模的标注的数据，例如一些疑难杂症，或者是一些比较稀有的应用场景。这里我们做一个粗略的分析，看看标注数据的代价有多高。比如说对机器翻译而言，现在如果我们请人工来翻译，一个单词的费用差不多是5—10美分之间，一个句子平均长度差不多是30个单词，如果我们需要标注一千万个双语句对，也就是我们需要找专家翻译一千万句话，这个标注的费用差不多是2200万美元。

大家可以看到数据标注的费用是非常非常高的，让一个创业公司或者一些刚刚涉足人工智能的公司拿这么大一笔资金来标注数据是很难或者是不太可行的。因此当前深度学习的一个前沿就是如何从无标注的数据里面进行学习。现在已经有相关的研究工作，包括最近比较火的生成式对抗网络，以及我们自己提出的对偶学习。

生成式对抗网络的主要目的是学到一个生成模型，这样它可以生成很多图像，这种图像看起来就像真实的自然图像一样。它解决这个问题的思路跟以前的方法不太一样，它是同时学习两个神经网络：一个神经网络生成图像，另外一个神经网络给图像进行分类，区分真实的图像和生成的图像。在生成式对抗网络里面，第一个神经网络也就是生成式神经网络，它的目的是希望生成的图像非常像自然界的真实图像，这样的话，那后面的第二个网络，也就是那个分类器没办法区分真实世界的图像和生成的图像；而第二个神经网络，也就是分类器，它的目的是希望能够正确的把生成的图像也就是假的图像和真实的自然界图像能够区分开。大家可以看到，这两个神经网络的目的其实是不一样的，他们一起进行训练，就可以得到一个很好的生成式神经网络。生成式对抗网络最初提出的时候，主要是对于图像的生成，现在很多人把他应用到各个不同的问题上，包括自然语言理解，比如说最近我们有一个工作，就是把这种思想应用到机器翻译里面，能够很大幅度的提高机器翻译的准确度。

针对如何从无标注的数据进行学习，我们组里面提出了一个新思路，叫做对偶学习。对偶学习的思路和前面生成式对抗学习会非常不一样。对偶学习的提出是受到一个现象的启发：我们发现很多人工智能的任务在结构上有对偶属性。比如说在机器翻译里面，我们把中文翻译成英文，这是一个任务，但是我们同样也需要把英文翻译成中文，这是一个对偶的任务。这种原任务和对偶任务之间，他们的输入和输出正好是反着来的。在语音处理里面，语音识别是把语音转化成文字，语音合成是把文字转化成语音，也是互为对偶的两个任务。在图像理解里面，看图说话，也就是给一张图生成一句描述性的语句，它的对偶任务是给一句话生成一张图，这两个任务一个是从图像到文本，另外一个是从文本到图像。在对话系统里面，回答问题和问题生成也是互为对偶的两个问题，前者是给定问题生成答案，后者是给定答案生成问题。在搜索引擎里面，给定检索词返回相关文档和给定文档或者广告返回关键词也是互为对偶的问题：搜索引擎最主要的任务是针对用户提交的检索词匹配一些文档，返回最相关的文档；当广告商提交一个广告之后，广告平台需要给他推荐一些关健词使得他的广告在用户搜索这些词能够展现出来被用户点击。

对偶学习试图把这种结构的对偶属性应用在机器学习里。其基本思想比较简单，我们以机器翻译为例子来说明。我们想把一个中文句子翻译成英文，我们可以先用一个中文到英文的翻译模型，把这个句子翻译成英文的句子，因为我们没有英文的标注，所以不知道这个英文的翻译是好还是坏以及有多好多坏。我们再利用从英文到中文的翻译模型，把这个英文的句子翻译成中文的句子，这样一来，我们就得到了一个新的中文句子。整个过程包含了正向翻译和反向翻译互为对偶的两个步骤。然后我们比较原始中文的句子和后来得到的中文句子，如果两个翻译模型都很好的话，这两个中文的句子应该比较相似，如果两个模型不好或者有一个模型不好的话，得到的两个中文句子就不相似。因此我们可以通过这种对偶过程从无标注的数据获得反馈信息，知道我们的模型工作的好还是不好，进而根据这些反馈信息来训练更新正向反向模型，从而达到从无标注数据学习的目的。

我们在机器翻译里面做了一些实验，发现通过对偶学习的过程，我们只需要用10%标注的数据（大概100万英法双语句对），再加上很多没有标注的数据，达到用100%标注数据（1200万英法双语句对）训练的模型的准确度。大家回想一下，我们前面有个粗略的估计，一千万个训练语料标注的费用差不多2200万美元，如果我们能把标注的人工费用从2200万美元降到200万美元，这会是一个非常好的结果，能够大大降低公司运营成本提高运营效率。

最近我们在对偶学习的研究上有一些新的进展，把对偶学习这种基本思想应用到其他的问题里面，像图像分类、图像生成，以及对自然语言的情感分析。我们发现这种结构的对偶属性可以从不同角度帮助机器学习，提高学习算法的准确度。

从无标注的数据进行学习，我们预计在未来三到五年还是非常重要的一个问题，并且对我们实际的应用也会有很大的帮助。很多问题以前是因为受限于没有标注的数据，没有办法用深度学习技术，如果我们能够从无标注的数据进行学习，那么很多应用很多问题里面都可以应用深度学习技术。

挑战2:大模型不方便在移动设备上使用

前沿2:降低模型大小

现在常见的模型，像图像分类里面，微软设计的深度残差网络，模型大小差不多都在500M以上。自然语言处理的一些模型，例如语言模型（language modeling）随着词表的增长而变大，可以有几G、几十G的大小，机器翻译的模型也都是500兆以上。当然500M的大小大家可能觉得没有多大，一个CPU服务器很容易就把这个模型给load进去使用。但是大家要注意到，很多时候深度学习的模型需要在一些移动设备上使用。比如说手机输入法，还有各种对图像做变换做处理做艺术效果的app，如果使用深度学习的话效果会非常好，但是这种模型由于它们的size太大，就不太适合在手机上应用。大家可以设想一下，如果一个手机的app需要加载一个500M甚至1G以上的模型恐怕不太容易被用户接受。

因此当前深度学习面临的第二个挑战就是如何把大模型变成小模型，这样可以在各种移动设备上使用。因为移动设备不仅仅是内存或者存储空间的限制，更多是因为能耗的限制，不允许我们用太大的模型。近两年来，有一些相应的工作，今天我主要介绍两种：第一种是针对计算机视觉里面的CNN模型，也就是卷积神经网络，做模型压缩；第二种是我们去年做的，针对一些序列模型或者类似自然语言处理的RNN模型如何做一个更巧妙的算法，使得它模型变小，并且同时精度没有损失。

通过模型压缩的技术缩减模型的大小

对卷积神经网络而言，近一两年有一些项目，主要是采用模型压缩的技术缩减模型的大小。模型压缩的技术，可以分为四类：

一个是叫剪枝，大家知道，神经网络主要是由一层一层的节点通过边连接，每个边上有些权重。剪枝的意思很简单，如果我们发现某些边上的权重很小，这样的边可能不重要，这些边就可以去掉。我们在把大模型训练完之后，看看哪些边的权重比较小，把这些边去掉，然后在保留的边上重新训练模型；

模型压缩的另外一种做法就是通过权值共享。假设相邻两层之间是全连接，每层有一千个节点，那么这两层之间有一千乘一千也就是一百万个权值（参数）。我们可以对一百万个权值做个聚类，看看哪些权值很接近，我们可以用每个类的均值来代替这些属于这一类的权值，这样很多边（如果他们聚在同一类）共享相同的权值。如果我们把一百万个数聚成一千类，就可以把参数的个数从一百万降到一千个，这也是一个非常重要的一个压缩模型大小的技术。

还有一个技术可以认为是权值共享的更进一步，叫量化。深度神经网络模型的参数都是用的浮点型的数表达，32bit长度的浮点型数。实际上没必要保留那么高的精度，我们可以通过量化，比如说就用0到255表达原来32个bit所表达的精度，通过牺牲精度来降低每一个权值所需要占用的空间。

这种量化的更极致的做法就是第四类的技术，叫二制神经网络。所谓二制神经网络，就是所有的权值不用浮点数表达了，就是一个二进制的数，要么是 1要么是-1，用二进制的方式来表达，这样原来一个32 bit权值现在只需要一个bit来表达，从而大大降低这个模型的尺寸。

上面这张图显示了多种模型压缩的技术在不同卷积神经网络上的结果。我们可以看到，随着原始网络大小的不同，得到的压缩比是不一样的，特别是VGGNet，一个非常重要的卷积神经网络，能够把大小从原来的550M压缩到11M，并且让人惊奇的是，压缩后分类的准确率没有下降，反而略微有一点提高，这是非常了不起的。

通过设计更精巧的算法来降低模型大小

下面简单提一下我们组是如何对一些序列模型进行压缩，也就是对循环神经网络RNN做压缩，我们提了一种新的循环神经网络叫做LightRNN，它不是通过模型压缩的方式降低模型的大小，而是通过设计一种更精巧的算法来达到降低模型大小。

自然语言相关的应用中，模型之所以大，是因为我们需要把每一个词要做词嵌入（word embedding），把每一个单词表达成向量空间的一个向量。词嵌入的基本思想是，语义相似或相近的词在向量空间里面的向量也比较接近，这样就可以通过向量空间表达词之间的语义信息或者是相似性。因为通常我们的词表会很大，比如说在输入法里面，可能词表需要说上百万。如果我们词表有上百万的词，每个词如果是用一千维的一个向量来表达，这个大小就是差不多是一百万乘以一千再乘以4 Byte（用32位的浮点数来表达），词嵌入向量的总体大小差不多就有4G左右，所以整个RNN模型是非常大的。搜索引擎的词表有上千万的词，仅仅词嵌入向量这部分大小就有40G左右，考虑到输入的词嵌入和输出的词嵌入，整个词嵌入的大小有80G左右了，这么大的模型很难加载到GPU上训练模型和使用，更不用说放在移动设备上使用。

我们的算法的基本思想是：不是用一个向量来表达一个词，而是用两个向量表达一个词，一个行向量一个列向量，不同的词之间共享行或列向量。我们用一个二维的表格来表达整个词表，假设这个二维的表格有一千行一千列，这个表格可以表达一百万个词；这个表格的每一行有一个行向量，每一列有一个列向量，这样整个二维表格只需要两千个向量。如果一个词（January）在第一行第一列的话，它就由行向量X1和列向量Y1来联合表达。考虑一个有一百万个词的词表，原来需要一百万个嵌入向量，通过这样一个二维或者是两个component的表格词嵌入，现在我们只需要一千个行向量和一千个列向量来进行表达，这样大大降低词嵌入向量模型的大小。

我们在很多公共的数据集上做测试，结果表明我们提出的LightRNN算法极大的减小了模型的尺寸，可以把原来语言模型的大小从4G降到40M左右，当这个模型只有40兆的时候，很容易使得我们在移动设备或者是GPU上使用。我们的方法使得深度模型在各种能耗比较低或者内存比较小的设备上的使用成为了可能。并且我们还发现，通过这样一种共享的二维词表的嵌入，我们得到的循环神经网络模型的精度并没有受到很大的影响，实际上LightRNN的精度反而略微有上升，和前面的卷积神经网络压缩的结果比较类似。

挑战3:大计算需要昂贵的物质、时间成本

前沿3：全新的硬件设计、算法设计、系统设计

大计算说起来容易，其实做起来非常不容易，非常不简单。我们微软亚洲研究院研究员提出深度残差网络，这种网络如果在ImageNet这样一个上百万的数据上进行训练的话，用四块现在最先进的GPU卡K80学习训练时间大概要三周。最近百度做的神经机器翻译系统，他们用了32块K40的GPU用了十天做训练，谷歌的机器翻译系统用了更多，用了96块K80的GPU训练了六天。大家可能都知道AlphaGo，它也需要非常大量的计算资源。AlphaGo的模型包含一个策略神经网络，还有一个值网络，这两个都是卷积神经网络。它的策略网络用了50块GPU做训练，训练了3个周，值网络也是用了50块GPU，训练了一周，因此它整个的训练过程用了50块CPU四周时间，差不多一个月。大家可以想一想，如果训练一个模型就要等一个月，并且我们经常要调各种超参数，一组超参数得到的结果不好，换另外一组超参数，可能要尝试很多组超参数，如果我们没有大量的计算资源，一等就是一个月，这从产品的更新换代还有技术创新的角度而言，都不能接受。刚才说了只是AlphaGo训练的复杂度，其实它的测试，比如说比赛的时候，复杂度也非常高， AlphaGo的单机版和人下棋的时候，每次下棋需要用48块CPU 8块GPU，它的分布式版本就用的更多，每次需要用1200块CPU再加上176块GPU。大家可以想一想，地球上有几个公司能承受这么高昂的代价来做深度学习。
因此我们认为，深度学习所面临的第三个挑战是如何设计一些更高级的算法，更快的算法，更有效的算法。手段可能是通过一些全新的硬件设计或者是全新的算法设计，或者是全新的系统设计，使得这种训练能够大大的加速。如果我们还是这种训练动不动就要几十块GPU或者几百块GPU，要等几个星期或者是几个月的话，对工业界和学术界而言都不是好事，我们需要更快速更有效的训练方法。

挑战4：如何像人一样从小样本进行有效学习？

前沿4：数据知识，深度学习与知识图谱、逻辑推理、符号学习相结合

现在的深度学习主要是从大数据进行学习，就是我给你很多标注的数据，使用深度学习算法学习得到一些模型。这种学习方式和人的智能是非常不一样的，人往往是从小样本进行学习。人对图像进行分类，如果人想知道一个图像是不是苹果，只需要很少几个样本就可以做到准确分类。两三岁小孩，开始认识世界的时候，他如果想知道什么样的动物是狗，我们给他看几张狗的图片，并且告诉他狗有什么特征，和其他动物像猫或者羊有什么区别的话，小孩可以很快很准确的识别狗。但是在ImageNet比赛里，像深度残差神经网络，一般来说一个类别大概需要上千张图片才能进行比较充分的训练，得到比较准确的结果。还有一个例子就是汽车驾驶，一般来说，通过在驾校的培训，也就是几十个小时的学习，几百公里的练习，大多数人就可以开车上路了，但是像现在的无人车可能已经行驶了上百万公里，还是达不到人的全自动驾驶的水平。原因在于，人经过有限的训练，结合规则和知识能够应付各种复杂的路况，但是当前的AI还没有逻辑思考、联想和推理的能力，必须靠大数据来覆盖各种可能的路况，但是各种可能的路况几乎是无穷的。

前面提到的小孩子认识世界的过程，很多时候，大人可以把一些经验或者是知识传授给他们，比如说苹果是圆形的，有红色的或者青的苹果，狗和猫的区别在什么地方。这种知识很容易通过语言进行传授，但是对于一个AI或者对于一个深度学习算法而言，如何把这种知识转化成实际模型的一部分，怎么把数据和知识结合起来，提高模型的训练的速度或者是识别的精度，这是一个很复杂的问题。

现在我们组有同事正在做这方面的尝试和努力，我们希望把深度学习、知识图谱、逻辑推理、符号学习等等结合起来，希望能够进一步推动人工智能的发展，使人工智能更接近人的智能。

今年的人工智能国际顶级会议AAAI 2017的最佳论文奖，颁给了一个利用物理或者是一些领域的专业知识来帮助深度神经网络做无标注数据学习的项目。论文里的具体例子是上面这张图里面一个人扔枕头的过程，论文想解决的问题是从视频里检测这个枕头，并且跟踪这个枕头的运动轨迹。如果我们没有一些领域的知识，就需要大量的人工标注的数据，比如说把枕头标注出来，每帧图像的哪块区域是枕头，它的轨迹是什么样子的。实际上因为我们知道，枕头的运动轨迹应该是抛物线，二次型，结合这种物理知识，我们就不需要标注的数据，能够把这个枕头给检测出来，并且把它的轨迹准确的预测出来。这篇论文之所以获得了最佳论文奖，也是因为它把知识和数据结合起来，实现了从无标注数据进行学习的可能。

挑战5：如何从认知性的任务扩展到决策性任务？

前沿5：博弈机器学习

人的智能包含了很多方面，最基本的阶段是认知性智能，也就是对整个世界的认知。我们看到一幅图能知道里面有什么，我们听到一句话知道在说文字。现在对于图象识别、语音识别，AI已经差不多能达到人类的水平，当然可能是在某些特定的约束条件下，能够达到人类的水平。但是其实这种认知性的任务，对人类而言都是非常简单的，比如说一个三五岁的小孩子已经能做得很好了，现在AI所能做的这种事情或者能达到的水平，人其实也很容易做到，只是AI可能在速度上更快，并且规模上去之后成本更低，并且24小时都不需要休息。更有挑战的问题是，人工智能能不能做一些人类做不了或者是很难做好的事情。

像图象识别、语音识别这类认知性的任务，AI之所以做得好，是因为这些任务是静态的，所谓静态就是给定输入，预测结果不会随着时间改变。但是决策性问题，往往和环境有很复杂的交互，在某些场景里面，如何做最优决策，这些最优决策往往是动态的，会随着时间改变。

现在有人尝试把AI用到金融市场，例如如何用AI技术来分析股票，预测股票涨跌，对股票交易给出建议，甚至是代替人来进行股票交易，这类问题就是动态决策性问题。同样一支股票同样的价格，在一周前可能是值得买入，但是一周之后可能就要卖出了，同样一个事件或者是政治新闻比如说是在总统大选之前发生还是之后发生，对股票市场的影响也完全不一样。所以决策问题的一个难点就在于时变性。

决策性问题的第二个难点在于各种因素相互影响，牵一发而动全身。一支股票的涨跌会对其他股票产生影响，一个人的投资决策，特别是大的机构的投资决策，可能会对整个市场产生影响，这就和静态的认知性任务不一样的。在静态认知性任务我们的预测结果不会对问题（例如其他的图像或者语音）产生任何影响，但是在股票市场，任何一个决定，特别是大的机构的投资策略会对整个市场产生影响，对别的投资者产生影响，对将来会产生影响。无人驾驶某种程度上也是比较类似的，一辆无人车在路上怎么行驶，是由环境和很多车辆共同决定的，当我们通过AI来控制一辆车的时候，我们需要关注周围的车辆，因为我们要考虑到周围的车辆对于当前这个无人车的影响，以及我们无人车（如左转右转或者并线）对周围车辆的影响。

当前深度学习已经在静态任务里面取得了很大的成功，如何把这种成功延续和扩展到这种复杂的动态决策问题中，也是当前一个深度学习的挑战之一。我们认为，一个可能的思路是博弈机器学习。在博弈机器学习里，通过观察环境和其他个体的行为，对每个个体构建不同的个性化行为模型，AI就可以三思而后行，选择一个最优策略，该策略会自适应环境的变化和其他个体的行为的改变。

以上是我今天的分享。最后，我们微软亚洲研究院机器学习组正在招聘，大家如果对机器学习的任何一个方向感兴趣，欢迎加入我们。

（本文独家首发钛媒体，根据微软亚洲研究院主管研究员秦涛博士在钛坦白上的分享整理）

↧

演讲|谢幸：如何让机器拥有像人一样的思维？

March 10, 2017, 2:01 am

≫ Next: 如何让人工智能学会用数据说话

≪ Previous: 秦涛：深度学习的五个挑战和其解决方案

机器能否进入人类内心深处去了解她们的性格和情感呢？这些问题在心理学领域已经被思考了上千年。日前，微软亚洲研究院资深研究员谢幸受邀在剧院式演讲平台“造就”上发表主题演讲《如何让机器拥有像人一样的思维》。我们整理了谢幸的演讲视频及演讲内容，全文如下。

大家好，我是微软亚洲研究院的谢幸。今天我想和大家探讨的是，“如何让机器拥有像人一样的思维”。

进入正题之前，我先讲一个我自己的故事。最近，我给我三岁的女儿买了一本绘本，名字是“Can I build another me”，她爱不释手。这本书的主角是一个厌倦了自己规律生活的孩子，他希望能训练出一个机器人代替自己按时午睡、吃饭、去幼儿园，这样他就可以自由自在地玩耍。于是，他买来一个最便宜的机器人，带回家来训练它。在这个过程中，他遇到的第一个问题就是，怎样才能让机器人才能变成他呢？于是，他试图告诉机器人各种关于自己的信息，包括他的姓名、年龄、身高、体重，父母、兄弟和宠物，甚至包括“左撇子”“易烦躁”“袜子经常破洞”这种信息。

我发现这绘本的作者脑洞很大，他也在思考我们所思考的问题。这个故事也告诉我们，要让机器人拥有人一般的思维，第一步便是理解自己。因为这样我们才能告诉机器人，怎样做才能最像自己。今天，我将从以下几个方面与大家探讨这个问题：

1. 人工智能与心理学

2. 人格分类及推测

3. 如何让机器人像人一样思考

在很长一段时间内，我们团队一直从事用户画像的研究。什么是用户画像？简单说来，就是通过用户产生的大数据，去猜测和理解一个人的年龄、职业、兴趣爱好，也可以去描绘一群人的生活规律和移动模式。这让我们开始思考，我们能不能通过这些数据进一步走到人的内心深处，去了解她们的性格和情感呢？这并不容易。但是在研究的过程中，我们发现这些问题在心理学领域已经被思考了上千年。实际上，人工智能和心理学这两个领域实际上早就有交叉。

人工智能的早期开拓者之一，Herbert A. Simon，是著名的跨界学者。他既是计算机科学家，也是心理学家，是经济学家，还是社会学家，甚至还是认知科学家。让人惊叹的是，他在每个领域都取得了同样卓越的成绩：他获得了1975年的图灵奖、1978年的诺贝尔经济学奖、1986年的美国国家科学奖章，及1993年美国心理学会的终身成就奖。右边这位是多伦多大学的Geoffrey E. Hinton教授，深度学习的积极推动者。他既是计算科学家，同时也是一位心理学家。

两年前，我们便开始拜访著名的心理学家和教授，试图进行跨学科合作交流。在这个过程中，我们首先想解决的问题就是人格。从用户生成的大数据中能否计算出人的性格？

虽然人格这个术语在日常生活中很常见，但是给人格下一个准确清晰的定义却并非易事，即使是心理学家们在这个术语的定义上也很难达成共识。人格最早的定义可以追溯到2000多年前(公元前400年)古希腊医学家希波克拉底（Hippocrates）的体液说，他认为人体是由四种体液构成，包括血液、粘液、黄胆汁和黑胆汁，而这四种体液的分布便决定了人的性格：黑色的胆汁产生了忧郁型人格，血液产生了乐观型人格，黄色胆汁产生了冲动易怒型人格，而粘液产生了冷静型人格。尽管希波克拉底的体液说已经被现代医学所否定，但是他关于人格分类的探讨是有启发意义的，以致于后来的心理学家仍然一直探讨这个问题。

在我们与心理学家交流时，我们又发现了一个有趣事实：在现代心理学中，人格的定义其实跟语言的使用有着紧密的关系。其实在计算机科学领域，我们对语言也有很多研究，我们称之为“自然语言理解”。在心理学里面，有一个概念叫“词汇学假说”。什么叫词汇学假说？根据这个假说，我们无需通过观察、研究各种各样的人来研究人格，我们可以简单一些，通过直接观察人类语言中相关词汇。比如说，你介绍一位朋友给我认识，可能会用一大段话来描述他：“他特别喜欢说话；人很多的时候，他特别高兴，话特别多；每次都听到他在说话，是个话痨”等等。其实，一个词即可概括这段话：健谈。因此，心理学家决定整理这些描述性词汇。如果这个词汇不多的话，它们便可成为建立分类体系的基础。基于这些观察，人格理论的先驱奥尔波特(Allport)和奥德伯特(Odbert)于1936年对英语词汇进行了艰难而又系统的调查研究。通过查看词典，他们按照个人特质、暂时的情绪或者行为以及智力与才干这四个类别发现大约18000个单词，并进一步从中整理出四千多个描述性格的词汇。虽然说四千似乎已经很少了，但对于整个用户语言来说，这仍然是很复杂的。试想下，在描述一个人性格的时候，如果要给这四千个描述维度分别打分，这该是多大的工作量。因此，他们想在此基础上进一步缩减。在这个过程中，他们发现，这些单词间其实存在一些相关性。比如说，一般外向的人通常也比较健谈，冷静的人通常也比较理智，但他可能也比较内向。如果能定位这些相关性，便可在此基础上对四千多个词进行进一步归类。

近二十年来，人格研究者关注与支持最多的人格定义是五因素模型，也常常被称之为“大五人格理论”。如图所示，大五人格包括了五个高度概括的人格因素：外向性 (Extraversion)，尽责性 (Conscientiousness)，神经质 (Neuroticism)，随和型(Agreeableness)和开放性(Openness)。每个人格因素下还有一些细分特质(比如外向性下包括了是否经常参加活动、是否热心肠等)。这样，以后你在介绍朋友时，可以将他描述为“比较外向，但不太随和，可能比较情绪化的一个人”。方式很简单，但是描述很全面。实际上，整理这些词汇以及生成人格分类体系大多是依赖数据驱动，与计算机科学有很多很紧密的联系。那我们能不能自动的计算用户的大五人格呢？其实这也是有可能的。

在传统人格测量中，心理学家往往采用访谈和调查问卷这种形式，需要耗费大量的人力、财力和时间，受测者往往局限于几十人到几百人的规模，不可能实现大规模用户的测量。在座很多人可能都做过心理问卷调查，一般来说有上百道题。我不知道有多少人会认真填写这上百道题，可能大家都是一路打“三”——一到五分打个中间分，这样的结果其实没什么意义。这个工作的确非常麻烦，并且很多时候受访者自己其实也不知道该打几分。比如说，比较内向是打一还是二？其实都非常模糊。但是，心理学中还有一种人格测量的方法，叫做行为测量，通过观察个体的行为来进行测评。行为测量的理论基础是人格理论中的人类行为的一致性。既然人格能够解释人际之间的稳定的个体差异，那么个体行为表现出的差异性就跟个体的人格息息相关，因此通过观察个体行为使得预测人格变成了可能。只是在计算机技术得到广泛应用之前，心理学家很难收集到用户足够丰富的行为数据，因此数据的匮乏导致了行为测量在传统心理学中并没有被广泛采用。

然而，近年来，随着互联网、智能手机和各种传感设备的普及，用户的行为数据被广泛收集，再加上人工智能方法在建模用户方面的推进，使得通过行为数据测量人格的方法在计算机和心理学的交叉领域得到了快速的发展。我们的研究工作在此基础上更进一步，提出“人格推测模型”，利用社交媒体上的异构数据（比如头像照片、发表的文字、表情符使用以及社交关系等）来预测大五人格。比如说针对图片，我们可以采用深度残差网络的方式，算出语义表示，再将这些图片聚成某些类别，如卡通、自拍、合影、动植物。其实在这个过程中，我们仍然需要和心理学家合作。用基于行为数据的人工智能方法进行人格预测，首先需要收集少量用户的调查问卷结果作为标注。通过标注用户行为特点及人格特征，将它们之间的映射和联系输入模型中，以训练出一个好的模型。

实际上，我们找了一批志愿者，他们提供了自己的数据，并完成了问卷调查，这样我们便拥有两方面数据。在训练完模型后，新的用户便无需完成用户调查，模型可以自动计算其人格。我们可以来看看计算结果。听起来是不是很抽象？但其实也很具体。例如，我们可以计算用户发表文字和性格间的关系。大五人格有五个维度，我们可以计算出文字和每一个维度间是特别正相关或者特别负相关。例如一个经常在朋友圈写青春和自我的人可能比较外向，而常写失败和面对的用户外向性得分便很低。还有一些用户可能会写时代、社会、成功这些听起来非常正能量的词汇，我们发现这些人尽责性比较高。相反，有些人可能经常写随便、萌萌、气质这些词，我们发现他们尽责性比较低。尽责性低并不是一个贬义词：在这个模型中，在乎结果的人尽责性比较高，在乎过程的人尽责性比较低。这两个极端都有它的优势，并无好坏之分。

我们还通过计算大五人格和用户头像类簇的皮尔逊系数，展示了与大五人格强烈正相关或者负相关的类簇（每个类簇选取了2张图片显示）。这样的计算揭示了一些有趣的现象：比如外向性得分高的用户喜欢使用包含笑脸的头像，而得分低的用户往往在头像中遮挡了面部表情或者使用侧脸；开放性得分高的用户往往使用和朋友在一起的照片作为头像，而开放性得分低的用户的头像很多是自拍照。我们的实验结果表明单单使用头像照片，就能使个体性格预测的准确性到达0.6。我们不仅对每种维度上的行为数据提出了针对性的特征提取策略，而且使用集成学习技术（Ensemble）有效融合了不同维度的行为数据来提升大五人格预测的准确率，使得个体大五人格预测的准确性到达0.75以上。

在理解用户之后，下一步就是如何利用这些知识来帮助机器人产生像人一样的思维。人类希望机器人能实现的重要行为之一就是聊天，微软也提出了“Conversation as a Platform（对话即平台）”的概念，认为未来所有人机界面都将转变为对话界面。

两年前我看过一部电视剧，至今记忆犹新，是英剧《黑镜(Black Mirror)》第二季第一集“be right back”。这部电视剧描述了一家人工智能公司，它可以通过一个人的社交媒体和在线聊天数据合成一个虚拟人，来模仿人物原型的性格特点和他的女友进行对话。这看起来很科幻，但实际上离我们已经并不遥远。2016年10月一篇新闻报道中也提到，来自俄罗斯的创业者Kuyda为了纪念去世的朋友Roman，用他的8000条短信数据训练了一个聊天机器人，并于2016年5月正式发布。

尽管技术已经前进了一大步，但就算是目前最好的聊天机器人也还无法让人感觉他是一个具有稳定性格和情感、活生生的人。这就涉及到如何让机器人的语言和行为更具有个性。

随着社交网络盛行，带有用户标签的语言数据变得容易获取。就像前面提到的新闻报道描述一样，如果我们有足够的关于某个人的数据，就有可能训练出一个和他个性一样的聊天机器人。当然，我们还可以通过一群人，例如儿童、学生、甚至诗人的数据来训练出具有一类人特点的机器人。例如，我们是否可以收集所有现代诗人的数据，用这些数据来训练一个出口成诗的机器人？其实现在也是可以做到的。但是，随着研究的深入，我相信最终我们还会遇到瓶颈，例如到底如何才能让机器人具备更加真实的人类性格与情感，这还是需要和心理学家合作。

其实，最早的聊天机器人Eliza就是一个心理咨询师。大概50多年前，MIT的一位研究员Joseph开发了Eliza，在与用户聊天时，Eliza引入了心理学家罗杰斯提出的个人中心疗法(Person-Centered Therapy)，更多强调对话态度，比如尊重与同理心。Eliza其实自己并不主动说新内容，它更多的是一直在引导用户说话尽可能倾诉。看似讨巧的Eliza项目取得了意外的成功，它的效果让当时的用户非常震惊，其中就包括了它的创造者Joseph。其实，Joseph当时给这个项目起名字为ELIZA是有出处的。不知大家是否看过《卖花女》？在这个戏剧里，Eliza处在社会底层。为了进入社会上层社会，她努力学习上层人民用的语言，使她看起来像一个上层人士，但最终伪装被拆穿。Joseph将这个机器人命名为ELIZA，就是希望机器能够伪装成人，但他没想到的是，这个伪装竟还不容易被拆穿。以致于后来产生一个词汇，叫ELIZA效应，即高估了机器人能力的一种心理感觉。ELIZA效应其实现在也很常见，比如击败顶尖高手的AlphaGo一出现，人们便觉得电脑已经具有下围棋的灵感，人工智能马上要超越人类。但其实，AlphaGo背后所有的程序都是人写的。所谓的灵感，所谓的智能，实际最终都是程序实现的。

受 ELIZA项目启发，微软亚洲研究院也开展了DiPsy项目，这个项目的目标是让机器人能够和人聊天，帮助他们克服心理上的问题。在这个项目中，我们借鉴了心理咨询中常用的认知行为疗法(Cognitive Behavior Therapy) 和正念疗法(Mindfulness)。DiPsy的特点是以自然、有效的方式引导对话，让用户尽情倾诉。它还会研究用户心理过程，在数据驱动下，对用户的心理特质与精神障碍作出诊断。我们采取认知行为疗法（CBT）或早期干预，在各种治疗性的语境中，改变用户的思维与行为方式，帮助存在风险的用户缓解并管理心理问题。

在未来，我们期待这个项目能帮助解决实际的社会问题，例如农村留守儿童的心理疏导。在前不久举办的未来论坛上，微软全球执行副总裁沈向洋说，他想要解决三个和人脑息息相关的疾病：儿童自闭症、中年忧郁症、老年痴呆症。我希望我们的技术能帮助他做到这一点。

当然，这些研究项目很多都还在起步阶段，我们希望最终能实现让机器拥有像人一样的思维，并在人需要时能提供不仅帮助，还能陪伴。当你孤独时，至少有个AI与你在一起。

↧

如何让人工智能学会用数据说话

March 13, 2017, 3:42 am

≫ Next: 程序编写程序：泛用人工智能领域的一颗明珠

≪ Previous: 演讲|谢幸：如何让机器拥有像人一样的思维？

上周，微软亚洲研究院知识计算组与我们分享了人工智能是怎么解数学题的，不知道大家是否有所启发呢？接下来让我们一起来看看人工智能是怎么用数据说话的吧。此前，我们在微信上分享了观点|宋睿华：好玩的文本生成，今天我们主要聊的是基于结构化数据的文本生成。

什么是结构化数据的文本生成

美联社机器人撰写财经报道，微软机器人自动生成对联，谷歌机器人自动写诗，一时间，机器人自动写作成为学术界和产业界关注和讨论的热门话题【1，2】。

机器人写作又称文本生成。从广义上讲，一些传统的自然语言处理任务，例如机器翻译、文本摘要、对联生成、诗词生成等都属于文本生成的范畴。这些任务的共同点是用户输入非结构化的文本，机器根据任务目标输出相应的文本。

不同于这些任务，本文主要与大家分享的是基于结构化数据的文本生成，即用户输入结构化的数据，机器输出描述和解释结构化数据的文本。（注：为了简便，下文中的文本生成均指基于结构化数据的文本生成。）该任务的特点是基于数据和事实说话。文本生成的典型商业应用包括财经和体育类新闻报道的生成、产品描述的生成、商业数据的分析和解释、物联网（Internet of Things）数据的分析和解释。图1给出了天气预报自动生成的例子。其中，图1a是各种感知器采集到的结构化的天气数据，机器将图1a中的数据作为输入，输出图1b中的天气预报。

图 1天气预报的自动生成（此例来源于论文【3】）

接下来，本文尝试从商业应用和技术发展两个方面来总结文本生成的领域现状。

文本生成的商业前景

近些年，随着文本生成技术的发展，工业界也诞生了一些专注于文本生成的明星创业公司，例如Narrative Science（前5轮共融资2950万美元），Automated Insights（前3轮共融资1080万美金，并于2015年被美国私募股权基金 Vista Equity Partners以8000万美金的价格收购），Arria NLG（第一轮获得了4027万美金融资）等。这几家明星初创企业的产品也涵盖了文本生成在不同商业领域的应用。

Narrative Science的主要产品是Quill，该产品可以帮助第三方公司分析和解释商业数据。其客户多为金融服务和咨询公司。此外，Narrative Science还特别开发了Quill for Google Analytics，该工具可以实时的将Google Analytics所统计的各种复杂的用户访问数据转化成简单的文字说明，帮助Google Analytics的用户免去阅读各种复杂图表的痛苦，让用户能够快速理解其站点的流量数据，为优化站点提供建议。

Automated Insights的主要产品是WordSmith，该产品已经在美国联合通讯社（The Associated Press）和雅虎得到成功应用，用于撰写财新和体育类报道。让人惊叹的是，美联社在采用Automated Insights的文本生成技术后，每季度可以撰写的财报新闻数量从300篇增加到了4300篇，生产力得到了极大的提高【2】。

Arria NLG则主要与英国国家气象服务局Met Office合作，自动生成天气预报。这是文本生成技术在物联网领域的一个典型应用。如图1所示，各种感知器每天可以采集到大量的结构化数据。但解读这些数据的困难在于：一方面感知器采集的数据量非常大，另一方面数据的解读需要专业知识。基于结构化数据的文本生成技术首先需要从大量的数据中筛选出重要信息，然后生成易于阅读和理解的天气预报文本内容。

文本生成的技术发展

>>>>挑战

基于结构化数据的文本生成任务主要包括两个挑战【4】：

第一，说什么（What to say）

第二，怎么说（How to say）

如图1所示，机器首先需要决定说什么，这就意味着机器需要从输入的若干数据记录中选择要描述的记录（图1a中被高亮的数据记录）；然后决定怎么说。简单的来说就是机器需对选定的数据记录，用自然语言描述出来（图1b）。

>>>>评测

Dimitra Gkatzia等人【5】对文本生成任务的评测方法进行了总结。不一样的是Dimitra Gkatzia等人【5】分析了近10年发表在自然语言处理领域相关会议和期刊（ACL、EMNLP、NAACL等）上关于文本生成的论文，并将相关工作所采用的评测方法归为两大类：内在（Intrinsic）评测和外在（Extrinsic）评测。

内在评测关注系统生成文本的正确性、流畅性和可理解性等。内在评测方法又可分为两类：（1）通过采用自动化的评测方法（如BLEU, NIST和ROUGE等）对比系统生成的文本和人工写作的文本之间的相似度，以此来衡量系统生成文本的质量；（2）通过调查问卷等方式，由人们从正确性、流畅性等角度出发直接对系统生成的文本进行打分，来评价系统生成文本的质量。

外在评测关注于评价系统生成文本的可用性，即评价系统生成的文本对于用户完成特定任务是否有帮助。

Dimitra Gkatzia等人【5】的分析表明，现阶段文本生成的相关工作多采用自动化的内在评测方法——即利用计算机对比系统生成文本和人工写作文本之间的相似度，原因是此类评价方法更加便捷、成本较低。而外在的评测方法成本较高，采用此类评测方法的论文较少，但是此类评测方法能更好的标示出系统的可用性。

>>>>方法

早期的文本生成系统多是基于规则的，Reiter等对规则系统进行了归纳总结【4】，认为文本生成系统可以分为三个较为独立的模块：（1）内容规划（Content planning），即选择描述哪些数据记录或数据域；（2）句子规划（Sentence planning），即决定所选择的数据记录或数据域在句子中的顺序；（3）句子实现（Surface realization），即基于句子规划的结果生成实际的文本。可以认为，内容规划主要是解决“说什么”，而句子规划和句子实现主要是解决“怎么说”。

在该框架下，针对不同模块，若干基于统计的模型被提出。Barzilay等提出先将数据记录和句子进行对齐，然后学习模型解决内容选择【6】。Percy Liang等提出了一个概率图模型同时解决内容规划和句子实现【7】。具体来说就是该生成模型首先选择生成哪些数据记录，然后选择生成数据记录中的哪些数据域，最后生成描述数据域的文本。

近几年，随着深度学习方法在自然语言处理领域取得突破，研究人员也尝试将神经网络的方法应用于文本生成。基于神经网络的方法又分为基于神经语言模型（Neural Language Model）的方法和基于神经机器翻译（Neural Machine Translation）的方法。

其中，Wen等提出了Semantic Controlled LSTM（Long Short-term Memory）模型用于对话系统中的文本生成【8】。该模型在标准LSTM的基础上引入了一个控制门读取结构化数据信息，并控制结构化数据信息在语言模型中的输出。该论文获得了2015年EMNLP会议的最佳论文。Kiddon等提出了神经清单模型（Neural Checklist Model），用于解决RNN（Recurrent Neural Networks）模型对结构化数据中的信息重复生成的问题【9】。Kiddon等将该模型应用于菜谱的生成，即输入菜名以及食材清单，机器输出相应的菜谱。基于结构化数据的文本生成存在数据稀疏的问题，即结构化数据中的许多数据值（实体名、数值等）出现次数非常少，使得模型的学习变的困难。Lebret等将拷贝动作（Copy-action）引入神经语言模型，用于解决数据稀疏的问题【10】。Lebret等将该模型应用于维基百科的人物传记生成，即输入人物的信息框（Infobox），机器根据信息框中的人物信息，输出人物的文本描述。

受神经机器翻译模型【11】的启发，Mei等将基于结构化数据的文本生成任务视为一个翻译任务，即输入的源语言是结构化数据，输出的目标语言是文本【3】。很自然的，神经机器翻译模型可以解决怎么说的问题。为了进一步解决说什么的问题，Mei等在神经机器翻译模型的基础上引入了对数据记录的重要性进行建模的机制，即越重要的数据，其先验概率越大，越有可能在文本中被表达出来。

基于神经语言模型的方法和基于神经机器翻译的方法在特定数据集上都取得了较大的进步，其本质仍然是Sequence-to-sequence方法的胜利。

>>>>数据

为了推动文本生成技术的发展，研究人员们将相关数据集共享给学术界研究使用。本文对部分数据集进行了收集和整理：

（1）斯坦福大学的Percy Liang教授共享了一份天气预报数据集【7】。这份数据集包括了美国3753个城市（人口大于10000）连续三天的天气预报。

数据集下载地址为：https://cs.stanford.edu/~pliang/data/weather-data.zip

（2）德克萨斯大学奥斯汀分校的Raymond J. Mooney教授共享了机器人足球赛的数据集【12】。这份数据集包括了2036场机器人足球赛的数据统计和评论。

数据集下载地址为：http://www.cs.utexas.edu/~ml/clamp/sportscasting/data.tar.gz

（3）Facebook共享了维基百科人物传记的数据集【10】。这份数据集包括了728,321篇从维基百科获取的人物传记。

数据集下载地址为：https://github.com/DavidGrangier/wikipedia-biography-dataset

（4）剑桥大学的Tsung-Hsien Wen共享了基于服务的人机对话数据集【8】。这份数据集包括了248轮餐馆领域的对话和164轮酒店领域的对话。

数据集下载地址为：https://github.com/shawnwun/RNNLG/tree/master/data/original

总结和展望

综上，基于结构化数据的文本生成技术已经在商业领域获得了初步的成功，深度学习技术的发展和大数据的积累也推动着相关技术的进步。相信该领域会在技术、数据和商业的三重驱动下取得更大的突破。

参考文献

【1】刘挺，机器人来了，记者去哪儿，http://wenting.baijia.baidu.com/article/165162

【2】徐曼，国外机器人新闻写手的发展与思考，http://media.people.com.cn/n1/2016/0105/c401845-28014693.html

【3】Mei, Hongyuan, T. T. I. UChicago, Mohit Bansal, and Matthew R. Walter. 2016. What to talk about and how? Selective Generation using LSTMs with Coarse-to-Fine Alignment. In Proceedings of NAACL-HLT.

【4】Reiter, Ehud. 2007. An architecture for data-to-text systems. In Proceedings of ENLG.

【5】Gkatzia, Dimitra, and Saad Mahamood. 2015. A Snapshot of NLG Evaluation Practices 2005-2014. In Proceedings of ENLG.

【6】Barzilay, Regina, and Mirella Lapata. 2005. Collective content selection for concept-to-text generation. In Proceedings of EMNLP.

【7】Liang, Percy, Michael I. Jordan, and Dan Klein. 2009. Learning semantic correspondences with less supervision. In Proceedings of ACL.

【8】Wen, Tsung-Hsien, Milica Gasic, Nikola Mrksic, Pei-Hao Su, David Vandyke, and Steve Young. 2015. Semantically conditioned LSTM-based natural language generation for spoken dialogue systems. In Proceedings of EMNLP.

【9】Kiddon, Chloé, Luke Zettlemoyer, and Yejin Choi. 2016. Globally coherent text generation with neural checklist models. In Proceedings of EMNLP.

【10】Lebret, Rémi, David Grangier, and Michael Auli. 2016. Neural text generation from structured data with application to the biography domain. In Proceedings of EMNLP.

【11】Bahdanau, Dzmitry, KyungHyun Cho, Yoshua Bengio, and Roee Aharoni. 2014. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of NIPS.

【12】Chen, David L., and Raymond J. Mooney. 2008. Learning to sportscast: a test of grounded language acquisition. In Proceedings of ICML.

作者简介

微软亚洲研究院副研究员刘璟

刘璟博士，微软亚洲研究院副研究员。他的研究兴趣包括信息抽取、文本生成和社会计算。至今为止，他在这些领域的顶级会议上发表了10余篇论文，如ACL、SIGIR、WSDM、EMNLP、CIKM等，并已获得两项国际专利。刘璟博士还曾任ACL、EMNLP、NAACL、EACL等国际会议和TOIS、TWEB等国际期刊的评审委员。

知识计算组简介

知识计算组致力于通过知识发现、数据挖掘与计算来理解和服务这个世界。研究组聚集了包括数据挖掘与计算、机器学习、自然语言处理、信息检索和社会计算等领域的多学科研究员，主要从事如下研究方向：实体链接、搜索和知识挖掘与计算，基于结构化数据的文本生成，服务于真实世界的语义计算框架应用，基于大规模行为数据的用户理解。十年来，该组成员的研究成果对微软的重要产品产生了影响，包括必应搜索、微软学术搜索、微软认知服务等。

知识计算组现招聘实习生，工作内容涉及机器学习和自然语言处理等领域，工程和研究均可，根据个人兴趣和能力确定工作内容。要求编程能力较强；有一定的沟通能力，有责任心；对机器学习、自然语言处理、人工智能有热情和兴趣；高质量的完成工作；半年以上实习期。

感兴趣的同学可以下载并填写申请表（申请表链接： http://www.msra.cn/zh-cn/jobs/interns/intern_application_form_2014.xls)并将其与完整的中英文简历（PDF/Word/Txt/Html形式）一同发送至：cyl@microsoft.com

↧

拓展阅读

一种治疗癌症的方法：调试系统

生物模型分析器（Bio Model Analyzer，BMA）

改进和个性化癌症治疗

对于生物学家来说有用的计算机系统

部分出席嘉宾

新体验、新故事

创建自定义语音模型，解锁更多场景

属于你的虚拟现实

支撑人工智能的底层数据

“人机共生”（human in the loop）

测试对话翻译的准确性

可扩展的整体预测模型

基于对时空数据的深度理解

时空残差网络

为城市喝彩

模拟现实世界

支持智能机器人系统开发

机器人技术的普及化

“克服困难，将细节做到极致，与用户许下一个美丽的约定”

“时间有限，在不完美中寻求完美”

“分工学习——高效的团队合作”

结语

产业研究周期

长期影响

渠道与合作伙伴

自动的驱动程序检测和缺陷发现

从实证软件工程到软件工程师工具

计算机科学教育

用团队影响力解决大问题

你想加入产业研究周期吗？

职场知识图谱

信息融合

信息分析与理解

小结

【大数据挖掘组】

做一个人人投入的项目，让所有人都能参与其中。

这是我们想要的效果么？

“这是我们能拥有的最好的合作伙伴之一”

你们怎么总给我送来圣诞礼物？

一切都离不开数据和分析

做一个人人投入的项目，让所有人都能参与其中。

这是我们想要的效果么？

“这是我们能拥有的最好的合作伙伴之一”

你们怎么总给我送来圣诞礼物？

一切都离不开数据和分析

智能答题任务

难点和挑战

历史与现状

应用场景

线上教育

知识问答系统

智能问答

SigmaDolphin——微软亚洲研究院的数学解题

知识挖掘组

学术合作

共赢突破

未来

人工智能与科技金融

那么问题来了，我们到底在做什么？

那么问题又来了，我们来知乎做什么？

最后一个问题，我们会如何与大家进行互动？

最后的最后，这个账号的答案都是谁撰写的呢？

念念不忘，两度擦肩

心之所向，柳暗花明

多重角色，游刃有余

人工智能近年的进展

挑战1:标注数据代价昂贵

前沿1:从无标注的数据里学习

挑战2:大模型不方便在移动设备上使用

前沿2:降低模型大小

挑战3:大计算需要昂贵的物质、时间成本

前沿3：全新的硬件设计、算法设计、系统设计

挑战4：如何像人一样从小样本进行有效学习？

前沿4：数据 知识，深度学习与知识图谱、逻辑推理、符号学习相结合

挑战5：如何从认知性的任务扩展到决策性任务？

前沿5：博弈机器学习

什么是结构化数据的文本生成

文本生成的商业前景

文本生成的技术发展

前沿4：数据知识，深度学习与知识图谱、逻辑推理、符号学习相结合