澳门新濠天地线上娱乐官网 彩票走势

娱乐金花代理-清华2019最新AI发展报告出炉!400页干货,13大领域一文看懂

作者:匿名 时间:2020-01-11 17:41:46

娱乐金花代理-清华2019最新AI发展报告出炉!400页干货,13大领域一文看懂

娱乐金花代理,当前,人工智能正处在爆发期。我国在人工智能领域的科学技术研究和产业发展起步稍晚,但在最近十余年的时间里抓住了机遇,进入了快速发展阶段。在这个过程中, 技术突破和创造性高端人才对人工智能的发展起着至关重要的作用。 本周,清华大学ai研究机构aminer发布了《2019中国人工智能发展报告》,报告遴选 13 个人工智能的重点领域进行重点介绍,包括:机器学习、知识工程、计算机视觉、自然语言处理、语音识别、计算机图形学、多媒体技术、人机交互、机器人、数据库技术、可视化、数据挖掘、信息检索与推荐等。

本期的智能内参,我们推荐清华大学的研究报告《2019中国人工智能发展报告》,对人工智能 13 个领域的人才情况及技术发展等内容进行了挖掘分析。如果想收藏本文的报告(2019中国人工智能发展报告),可以在智东西头条号私信回复关键词“nc419”获取。

本期内参来源:清华大学aminer

原标题:

《2019中国人工智能发展报告》

作者: 李涓子 唐 杰

机器学习已经成为了当今的热门话题,但是从机器学习这个概念诞生到机器学习技术的普遍应用经过了漫长的过程。在机器学习发展的历史长河中,众多优秀的学者为推动机器学习的发展做出了巨大的贡献。

学者地图用于描述特定领域学者的分布情况, 对于进行学者调查、分析各地区竞争力现况尤为重要,下图为机器学习领域全球学者分布情况:

▲机器学习领域全球学者分布

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。 从该地图可以看出,美国的人才数量遥遥领先且主要分布在其东西海岸;欧洲中西部也有较多的人才分布;亚洲的人才主要分布于我国东部及日韩地区;其他诸如非洲、南美洲等地区的学者非常稀少;机器学习领域的人才分布与各地区的科技、经济实力情况大体一致。 此外, 在性别比例方面,机器学习领域中男性学者占比 89.8%,女性学者占比 10.2%,男性学者占比远高于女性学者。

我国专家学者在机器学习领域的分布如上图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比,中国在机器学习领域学者数量较多。

▲ 机器学习领域中国学者分布

对本领域的高水平学术会议论文进行挖掘,解读这些会议在近年的部分代表性工作,会议具体包括:

international conference on machine learning

conference and workshop on neural information processing systems

我们对本领域论文的关键词进行分析,统计出词频 top20 的关键词,生成本领域研究热点的词云图,如上图所示。其中, 出神经网络(neural networks)、深度学习(deep learning)、强化学习(reinforcement learning)是本领域中最热的关键词。 icml 和 neurlps 是机器学习领域非常具有代表性的会议,限于报告篇幅,我们选取 icml 和 neurlps 近十年若干最佳论文进行解读。

icml 2019 年最佳论文

论文题目: challenging common assumptions in the unsupervised learning of disentangled representations

中文题目: 挑战无监督分离式表征的常见假设

论文作者: francesco locatello, stefan bauer, mario lucic, gunnar rätsch, sylvain gelly, bernhard schölkopf, olivier bachem

论文地址: https://aminer.cn/pub/5c04967517c44a2c74709162/challenging-commonassumptions-in-the-unsupervised-learning-of-disentangled-representations

论文解读: 文章主要从理论和实践两方面对这一领域中的一些基本假设提出了挑战。文章从理论上证明,如果没有对所考虑的学习方法和数据集产生归纳偏置,那么解耦表示的无监督学习基本上是不可能的。文章还采用了完善的无监督解耦学习实验方案,进行了一个超级大规模的实验研究。最后还发布了disentanglement_lib,这是一个用于训练和评估解耦表示的新库。由于复制这个结果需要大量的计算工作论文还发布了超过 10000 个预训练的模型,可以作为未来研究的基线方法。

论 文 题 目 : rates of convergence for sparse variational gaussian process regression

中文题目: 稀疏变分高斯过程回归的收敛速度

论文作者: david r. burt, carl e. rasmussen, mark van der wilk

论文地址: https://www.aminer.cn/pub/5cede106da562983788e64b9/rates-ofconvergence-for-sparse-variational-gaussian-process-regression

论文解读:这篇文章来自英国剑桥大学。自从许多研究人提出了对高斯过程后验的变分近似法后,避免了数据集大小为 n 时 o(n3) 的缩放。它们将计算成本降低到 o(nm2),其中 m ≤ n 是诱导变量的数量。虽然 n 的计算成本似乎是线性的,但算法的真正复杂性取决于 m 如何增加以确保一定的近似质量。论文证明了稀疏 gp 回归变分近似到后验变分近似的 kl 散度的界限,该界限仅依赖于先验核的协方差算子的特征值的衰减。这些边界证明了直观的结果,平滑的核、训练数据集中在一个小区域,允许高质量、非常稀疏的近似。这些边界证明了用m≤n 进行真正稀疏的非参数推理仍然可以提供可靠的边际似然估计和点后验估计。对非共轭概率模型的扩展,是未来研究的一个有前景的方向。

计算机视觉(computer vision),顾名思义,是分析、研究让计算机智能化的达到类似人类的双眼“看”的一门研究科学。即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。确切地说,计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能。总之,计算机视觉系统就是创建了能够在2d 的平面图像或者 3d 的三维立体图像的数据中,以获取所需要的“信息”的一个完整的人工智能系统。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为计算机视觉领域全球学者分布情况:

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。 从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚洲也有较多的人才分布,主要集中在我国东部及日韩地区;欧洲的人才主要分布在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;计算机视觉领域的人才分布与各地区的科技、经济实力情况大体一致。

▲ 计算机视觉领域全球学者分布

此外,在性别比例方面,计算机视觉中男性学者占比 91.0%,女性学者占比9.0%,男性学者占比远高于女性学者。

计算机视觉学者的 h-index 分布如下图所示,大部分学者的 h-index 分布在中间区域,其中 h-index 在 20-30 区间的人数最多,有 706 人, 占比 34.7%,小于 20 的区间人数最少, 有 81 人。

我国专家学者在计算机视觉领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比,中国在计算机视觉领域学者数量相对较多。

▲计算机视觉领域中国学者分布

对本领域的高水平学术会议论文进行挖掘,解读这些会议在 2018-2019年的部分代表性工作。 会议具体包括:

ieee conference on computer vision and pattern recognition

european conference on computer vision

论文题目: encoder-decoder with atrous separable convolution for semantic image segmentation

中文题目:具有空洞分离卷积的编码–解码器用于语义图像分割

论文作者: liang-chieh chen, yukun zhu, george papandreou, florian schroff,hartwig adam

论文出处: proceedings of the european conference on computer vision (eccv). 2018:801-818.

论文地址: https://link.springer.com/chapter/10.1007%2f978-3-030-01234-2_49

研究问题:

语义分割是计算机视觉中一项基本且重要的研究内容, 它是为图像中的每个像素分配语义标签。 在深度学习语义分割任务中经常会使用空间金字塔池化和编码–解码器结构。空间金字塔池化可以通过不同分辨率的池化特征捕捉丰富的上下文信息,但网络中具有步进操作的池化或卷积会导致与对象边界有关的详细信息丢失。这可以通过空洞卷积提取更密集的特征图来缓解, 但大大增加了计算资源的消耗。而编码-解码器结构则可以通过逐渐恢复空间信息来捕获更清晰的对象边界。通过组合两种方法的优点,提出新的模型—deeplabv3+。

近年来,巨量数据的不断涌现与计算能力的快速提升,给以非结构化视觉数据为研究对象的计算机视觉带来了巨大的发展机遇与挑战性难题,计算机视觉也因此成为学术界和工业界公认的前瞻性研究领域,部分研究成果已实际应用,催生出人脸识别、智能视频监控等多个极具显示度的商业化应用。

近两年大多数研究都集中在深度学习、检测和分类以及面部/手势/姿势、 3d传感技术等方面。 随着计算机视觉研究的不断推进,研究人员开始挑战更加困难的计算机视觉问题,例如,图像描述、事件推理、场景理解等。单纯从图像或视频出发很难解决更加复杂的图像理解任务,一个重要的趋势是多学科的融合,例如,融合自然语言处理领域的技术来完成图像描述的任务。

图像描述是一个融合计算机视觉、自然语言处理和机器学习的综合问题,其目标是翻译一幅图片为一段描述文字。目前主流框架为基于递归神经网络的编码器解码器结构其核心思想类似于自然语言机器翻译。但是,由于递归网络不易提取输入图像和文本的空间以及层次化约束关系,层次化的卷积神经网络以及启发自认知模型的注意力机制受到关注。如何进一步从认知等多学科汲取知识,构建多模态多层次的描述模型是当前图像描述问题研究的重点。

事件推理目标是识别复杂视频中的事件类别并对其因果关系进行合理的推理和预测。与一般视频分析相比,其难点在于事件视频更加复杂,更加多样化,而最终目标也更具挑战性。不同于大规模图像识别任务,事件推理任务受限于训练数据的规模,还无法构建端到端的事件推理系统。目前主要使用图像深度网络作为视频的特征提取器,利用多模态特征融合模型,并利用记忆网络的推理能力,实现对事件的识别和推理认知。当前研究起源于视频的识别和检测,其方法并未充分考虑事件数据的复杂和多样性。如何利用视频数据丰富的时空关系以及事件之间的语义相关性,应是今后的关注重点。

场景理解的目的是计算机视觉系统通过分析处理自身所配置的传感器采集的环境感知数据,获得周围场景的几何/拓扑结构、组成要素(人、车及物体等)及其时空变化,并进行语义推理,形成行为决策与运动控制的时间、空间约束。近年来,场景理解已经从一个初期难以实现的目标成为目前几乎所有先进计算机视觉系统正在不断寻求新突破的重要研究方向。 利用社会–长短记忆网络(sociallstm)实现多个行人之间的状态联系建模,结合各自运动历史状态,决策出未来时间内的运动走向。此外神经网络压缩方向也是是目前深度学习研究的一个热门的方向,其主要的研究技术有压缩,蒸馏,网络架构搜索,量化等。

综上所述,视觉的发展需要设计新的模型,它们需要能考虑到空间和时间信息;弱监督训练如果能做出好的结果,下一步就是自监督学习;需要高质量的人类检测和视频对象检测数据集;结合文本和声音的跨模态集成;在与世界的交互中学习。

1994 年图灵奖获得者、知识工程的建立者费根鲍姆给出知识工程定义—将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。在大数据时代,知识工程是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需要利用知识工程为大数据添加语义/知识,使数据产生智慧(smart data),完成从数据到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答案、为决策提供支持、改进用户体验等目标。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为知识工程领域全球学者分布情况:

▲知识工程领域全球学者分布

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。 从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸; 欧洲及亚洲东部也有较多的人才分布;其他诸如非洲、南美洲等地区的学者非常稀少; 知识工程领域的人才分布与各地区的科技、经济实力情况大体一致。

此外, 在性别比例方面,知识工程领域中男性学者占比 89.7%,女性学者占比 10.6%,男性学者占比远高于女性学者。

知识工程领域学者的 h-index 分布如下图所示,大部分学者的 h-index 分布在中低区域,其中 h-index 在 20-30 区间的人数最多,有 783 人, 占比 38.9%,小于 20 区间的人数最少, 有 90 人。

我国专家学者在知识工程领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内陆地区的人才较为匮乏, 这种分布与区位因素和经济水平情况不无关系。 同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比,中国在知识工程领域学者数量较多。

▲知识工程领域中国学者分布

对本领域的高水平学术会议及期刊论文进行挖掘,解读这些会议和期刊在 2018-2019 年的部分代表性工作。这些会议和期刊包括:

ieee transactions on knowledge and data engineering

international conference on information and knowledge management

论文题目: convolutional 2d knowledge graph embeddings

中文题目:基于二维卷积的知识图谱嵌入表示学习

论文作者: tim dettmers, pasquale minervini, pontus stenetorp, sebastian riedel

论文出处: the thirty-second aaai conference on artificial intelligence (aaai2018)

论文地址:https://www.aaai.org/ocs/index.php/aaai/aaai18/paper/download/17366/15884

研究问题: 知识图谱的链接预测任务是预测节点之间潜在的关系。传统的链接预测方法专注于浅的、快速的模型,因为这样可以扩展到大规模的 kg 中。但是浅层模型学习到的特征比深沉模型少很多,大大限制了模型的性能。解决该问题的方法之一是增加 embedding 的维度,但是会增加模型参数量,不方便扩展到大规模 kg中。此外,部分现有数据集中有测试集泄露问题:训练集中的三元组稍微翻转一下就可以得到测试集三元组,然后使用基于规则的模型就能达到最佳性能。文章通过构造一个简单的翻转来衡量这个问题严重性,并清洗了部分数据来解决该问题。

近两年知识获取、推理和应用研究取得了显著的进展,主要表现在如下几个方面:

1、资源匮乏情况下的知识获取 。知识图谱的构建始终是知识图谱领域的核心问题之一, 近年来除了传统的有监督的实体、关系、 事件知识获取的研究外,也涌现了一批在弱资源情况下的知识获取方法。例如:在集合扩展(实体集扩展)研究中, learning to bootstrap for entity set expansion 使用蒙特卡洛树搜索策略的 booststrap 方法有效地提升了实体集扩展方法的稳定性,尤其是在与分类体系相关任务的同时优化上。 hiexpan:task-guided taxonomy construction by hierarchical tree expansion 提出一个知识分类体系的扩展框架,模型利用弱监督关系抽取模型,从一个小型的上下位关系树出发,抽取扩展的节点并扩展成一个更加丰富的上下位体系。 fewrel 2.0:towards more challenging few-shot relation classification 提出了少次学习任务,通过设计少次学习机制,能够利用从过往数据中学到的泛化知识,结合新类型数据的少量训练样本,实现快速迁移学习。 comet: commonsense transformers forautomatic knowledge graph construction 提出常识 transformer 架构,将 gpt-2等语言模型与种子知识图谱相结合,学习其结构和关系,根据图表征形成语言模型,从而生成新的知识并将它们添加到种子图中。

2、 知识图谱的知识补全和可解释推理 。传统的表示学习缺乏可解释性,知识图谱推理越来越受到关注, 其中既有使用强化学习方法寻找路径的方法,也有使用实体邻居和注意力权重做可解释性推理方法。 multi-hop knowledge graph reasoning with reward shaping 是基于多跳推理的知识库问答方法,基于强化学习扩展在知识图谱的推理路径, 以获得问题的 正 确 答 案 。 learning attention-based embeddings for relation prediction in knowledge graphs 提出一种基于注意力机制的特征嵌入方法,获取实体邻近范围内的实体和关系特征,引入关系聚类和多跳关系,有效提升了基于多跳推理的知识图谱补全的效果。 iteratively learning embeddings and rules for knowledge graph reasoning 研究如何迭代地进行知识表示学习和规则学习,提出的 itere 模型可以利用学习的规则改进稀疏实体的表示学习,进而提升规则学习和链接预测效果。

3、基于知识图谱的推荐和对话问答 。将知识图谱作为辅助信息引入到推荐系统中可以有效地解决传统推荐系统存在的稀疏性和冷启动问题, 近几年吸引大量研究人员在相关工作。 随着图卷积神经网络, 图注意力机制等技术的逐渐兴起, 基于图表示学习的推荐模型达到了更高的表现效果,并为推荐系统的可解释性提供了帮助。 kgat: knowledge graph attention network for recommendation 利用知识图谱中商品之间的关系,训练了一个端到端的含注意力机制的模型,用于提高推荐系统的能力。 akupm: attention-enhanced knowledge-aware user preference model for recommendation 使用注意力模型,利用知识图谱对用户进行建模,显著提升了推荐系统的效果。reinforcement knowledge graph reasoning for explainable recommendation 结合强化学习的框架和知识图谱推理来提供对推荐结果的解释。 在对话问答方面, 以前对话生成的信息源是文本与对话记录, 但如果遇到词表之外的( out-ofvocabulary) 的词,模型往往难以生成合适的、有信息量的回复,而会产生一些低质量的、模棱两可的回复。 commonsense knowledge aware conversation generation with graph 提出一种基于常识知识图谱的对话模型 ccm 来理解对话,产生信息丰富且合适的回复。

自然语言是指汉语、英语、法语等人们日常使用的语言,是人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语言是指人类社会约定俗成的,区别于如程序设计的语言的人工语言。在整个人类历史上以语言文字形式记载和流传的知识占到知识总量的 80%以上。就计算机应用而言,据统计,用于数学计算的仅占 10%,用于过程控制的不到 5%,其余 85%左右都是用于语言文字的信息处理。

处理包含理解、转化、生成等过程。自然语言处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能、计算机科学和语言学所共同关注的重要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。自然语言理解是指计算机能够理解自然语言文本的意义,自然语言生成则是指能以自然语言文本来表达给定的意图。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为自然语言处理领域全球学者分布情况:

▲自然语言处理领域学者分布

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。 从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;欧洲也有较多的人才分布,主要集中在欧洲中西部;亚洲的人才主要分布在我国东部及日韩地区;其他诸如非洲、南美洲等地区的学者非常稀少;自然语言处理领域的人才分布与各地区的科技、经济实力情况大体一致。此外, 在性别比例方面,自然语言处理领域中男性学者占比 89.3%,女性学者占比 10.7%,男性学者占比远高于女性学者。

我国专家学者在自然语言处理领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏, 这种分布与区位因素和经济水平情况不无关系。 同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比,中国在自然语言处理领域学者数量较多。

▲自然语言处理领域中国学者分布

2019自然语言处理代表性文章是:

论文题目: bert: pre-training of deep bidirectional transformers for language understanding

中文题目: bert: 语言理解的深层双向转换器的预训练

论文作者: jacob devlin ming-wei chang kenton lee kristina toutanova

论文出处: in proceedings of the 2019 annual conference of the north american chapter of the association for computational linguistics.

论文地址: https://arxiv.org/abs/1810.04805

文章介绍一种新的语言表示模型 bert(bidirectional encoder representations from transformers),通过联合上下文信息从未标记文本中预训练深层双向表示形式,只需一个额外的输出层,就可以对预训练模型进行调整,在不需要对特定任务的体系结构进行大量修改的前提下,在多种语言相关任务上获得。

近年来,预训练语言模型在自然语言处理领域有了重要进展。 预训练模型指的是首先在大规模无监督的语料上进行长时间的无监督或者是自监督的预先训练(pre-training),获得通用的语言建模和表示能力。之后在应用到实际任务上时对模型不需要做大的改动,只需要在原有语言表示模型上增加针对特定任务获得输出结果的输出层,并使用任务语料对模型进行少许训练即可,这一步骤被称作微调(fine tuning)。

自 elmo、 gpt、 bert 等一系列预训练语言表示模型(pre-trained language representation model)出现以来,预训练模型在绝大多数自然语言处理任务上都展现出了远远超过传统模型的效果,受到越来越多的关注,是 nlp领域近年来最大的突破之一,是自然语言处理领域的最重要进展。

bert(bidirectional encoder representation from transformer)是 google ai于 naacl2019 提出的一个预训练语言模型。 bert 的创新点是提出了有效的无监督预训练任务,从而使得模型能够从无标注语料中获得通用的语言建模能力。模型的部分细节在前文的论文解读中已经给出,不再赘述。

bert 之后涌现了许多对其进行扩展的模型, 包括: 跨语言预训练的 xlm 和 udify, 跨模态预训练的模型, 融合知识图谱的 ernie, 将seq2seq 等语言生成任务整合入 bert 类模型的 mass, unilm 等。其中几个重要的进展包括:

(1) xlnet 使用 transformer-xl 替代了 transformer 作为基础模型,拥有编码超长序列的能力。 xlnet 提出了一个新的预训练语言任务: permutation languagemodeling(排列语言模型),模型将句子内的词语打乱顺序,从而使得预测当前词语时可以利用双向信息。 xlnet 相对 bert 也使用了更多的语料。

(2) roberta 采用了与 bert 具有相同的模型结构,同样采用了屏蔽语言模型任务进行预训练,但舍弃了 bert 中下句预测模型。此外, roberta 采用了更大规模的数据和更鲁棒的优化方法,从而取得了更好的表现。

(3) albert 模型针对 bert 参数量过大难以训练的问题做了优化,一是对词向量矩阵做分解,二是在层与层之间共享参数。此外, albert 将下句预测模型替换为句序预测任务,即给定一些句子预测它们的排列顺序。

语音识别是让机器识别和理解说话人语音信号内容的新兴学科,目的是将语音信号转变为文本字符或者命令的智能技术,利用计算机理解讲话人的语义内容,使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机交流方式。它是一门综合学科,与很多学科紧密相连,比如语言学、信号处理、计算机科学、心理和生理学等。

语音识别首先要对采集的语音信号进行预处理,然后利用相关的语音信号处理方法计算语音的声学参数,提取相应的特征参数,最后根据提取的特征参数进行语音识别。总体上,语音识别包含两个阶段:第一个阶段是学习和训练,即提取语音库中语音样本的特征参数作为训练数据,合理设置模型参数的初始值,对模型各个参数进行重估,使识别系统具有最佳的识别效果;第二个阶段就是识别,将待识别语音信号的特征根据一定的准则与训练好的模板库进行比较,最后通过一定的识别算法得出识别结果。显然识别结果的好坏与模板库是否准确、模型参数的好坏以及特征参数的选择都有直接的关系。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为语音识别领域全球学者分布情况:

▲语音识别领域全球学者分布

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。 从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚洲也有较多的人才分布,主要在我国东部及日韩地区;欧洲的人才主要集中在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;语音识别领域的人才分布与各地区的科技、经济实力情况大体一致。

我国专家学者在语音识别领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏, 这种分布与区位因素和经济水平情况不无关系。 同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比,中国在语音识别领域学者数量较多且有一定的优势。

▲ 语音识别领域中国学者分布

2019代表论文:

论文题目: x-vectors: robust dnn embeddings for speaker recognition

中文题目: x 向量:用于说话人识别的鲁棒 dnn 嵌入

论文作者: david snyder, daniel garcia-romero, gregory sell, daniel povey and sanjeev khudanpur. x-vectors: robust dnn embeddings for speaker recognition.

论文出处: 2018 ieee international conference on acoustics, speech and signal processing(icassp)

论文地址: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8461375

研究问题: 捕捉说话者特征是语音识别领域具有重大意义的研究内容。 大多数说话人识别系统都是基于 i-vectors 来实现的。 标准的基于 i-vectors 的方法由通用背景模型(ubm)和大型投影矩阵 t 组成,该模型以无监督方式来学习。在早期的系统中,神经网络经训练后,被用来分离说话者,从网络中提取帧级表示, 并将其用作高斯说话者模型的特征。近年来, 使用深度神经网络(dnn)捕获说话者特征是当前非常活跃的研究领域。 dnn 嵌入性能也随着训练数据量的增加而高度扩展。

随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各个步骤,以此来促进在不同环境下语音识别的效率和准确率。研究人员从最简单的非常小词汇量的阅读式的语音识别问题开始,逐渐转向越来越复杂的问题。

近年来智能语音进入了快速增长期,语音识别作为语音领域的重要分支获得了广泛的关注,如何提高声学建模能力和如何进行端到端的联合优化是语音识别领域中的重要课题。

随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各个步骤,以此来促进在不同环境下语音识别的效率和准确率。研究人员从最简单的非常小词汇量的阅读式的语音识别问题开始,逐渐转向越来越复杂的问题。

近年来智能语音进入了快速增长期,语音识别作为语音领域的重要分支获得了广泛的关注,如何提高声学建模能力和如何进行端到端的联合优化是语音识别领域中的重要课题。

语音识别经历了从 2012 年最开始的 dnn 的引入时的 hybrid hmm 结构,再到 2015 年开始吸引大家研究兴趣的 ctc 算法,而后到 2018 年的 attention 相关结构的研究热点。 attention 相关算法在语音识别或者说话人识别研究的文章中出现频率极高。从最开始 attention,到 listen-attend-spell,再到 self-attention(或者 transformer),在不同的文章被作者多次介绍和分析,频繁出现在了相关文章的 introduction 环节中。在 attention 结构下,依然还有很多内容需要研究者们进一步地探索:例如在一些情况下 hybrid 结构依然能够得到 state-of-the-art 的结果,以及语音数据库规模和 attention 模型性能之间的关系。

在近两年的研究中, 端到端语音识别仍然是 asr( automatic speechrecognition)研究的一大热点,正如上文提到的,基于 attention 机制的识别系统已经成为了语音技术研究主流。同时,随着端到端语音识别框架日益完善,研究者们对端到端模型的训练和设计更加的关注。 远场语音识别(far-field asr),模型结构(asr network architecture),模型训练(model training for asr),跨语种或者多语种语音识别(cross-lingual and multi-lingual asr)以及一些端到端语音识别(end-to-end asr)成为研究热点。

在语音合成方面,高音质语音生成算法及 voice conversion 是近两年研究者关注的两大热点, voice conversion 方向的研究重点主要集中在基于 gan 的方法上。 在语言模型方面(language model)的研究热点主要包括 nlp 模型的迁移,低频单词的表示,以及深层 transformer 等。

在说话人识别方面,说话人信息,特别是说话人识别及切分,正被越来越多的研究者所重视。 目前 attention 在说话人方面更类似一种 time pooling,比average pooling 及 stats pooling 更能捕捉对说话人信息更重要的信息,从而带来性能提升。说话人识别技术经历深度学习带来的性能飞跃后,在模型结构、损失函数等方面的探讨已经较为成熟,以 tdnn、 resnet 加上 lmcl、 arcface 的主流模型开始不断刷新各数据集的性能上限。模型以外的因素逐渐成为制约说话人系统的瓶颈。说话人技术目前也逐渐暴露出与人脸识别同样的易受攻击的问题。因此, asvspoof 这样的 challenge 从 2015 年起就开始关注声纹反作弊问题。相信随着此类研究的不断深入,结合声纹系统的性能提升,声纹将有望变成我们的“声音身份证”。

国际标准化组织 iso 将计算机图形学定义为:计算机图形学是一门研究通过计算机将数据转换成图形,并在专门显示设备上显示的原理方法和技术的学科。它是建立在传统的图形学理论、应用数学及计算机科学基础上的一门边缘学科。这里的图形是指三维图形的处理。简单来讲,它的主要研究内容是研究如何在计算机中表示图形,以及利用计算机进行图形的计算处理和显示的相关原理和算法。

在计算机图形学的开创之初,他主要解决的问题是在计算机中表示三维结合图形以及如何利用计算机进行图形的生成处理和显示的相关原理和算法,目的是产生令人赏心悦目的真实感图像,这仅仅是狭义的计算机图形学。随着近些年的发展,计算机图形学的内容已经远远不止这些,广义的计算机图形学研究内容非常广泛,包括图形硬件、图形标准、图形交互技术、栅格图形生成算法、曲线曲面造型、实体造型、真实版图形的计算、显示算法、科学计算可视化、计算机动画、虚拟现实、自然景物仿真等等。

计算机图形学的总体框架可以包括以下几个部分:数学和算法基础、建模、渲染以及人机交互技术。计算机图形学需要一些基本的数学算法,例如向量和几何的变化、几何建模式的三维空间变化、三维到二维的图形变换等等。建模是进行图形描述和计算,由于在多维空间中有各种组合模型,有一些是解析式表达的简单形体,也有一些隐函数表达的复杂曲线,因此需要进行复杂的建模工作。渲染也叫绘制,指的是模型的视觉实现过程,例如对光照纹理等理论和算法进行处理,其中也需要大量的计算。交互技术可以说是图形学交互的重要工具,是计算机图形学的重要应用。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为计算机图形学全球学者分布情况:

▲计算机图形学领域全球学者分布

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。 从该地图可以看出,美国的人才数量优势明显; 欧洲也有较多的人才分布,主要在欧洲中西部; 亚洲的人才主要集中在我国东部及日韩地区;其他诸如非洲、南美洲等地区的学者非常稀少; 计算机图形学的人才分布与各地区的科技、经济实力情况大体一致。

我国专家学者在计算机图形领域的分布如上图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时,通过观察中国周边国家的学者数量情况,特别是与日韩等地相比,中国在计算机图形领域学者数量略多但差距较小。

▲计算机图形学领域中国学者分布

2019优秀计算机图形学论文:

论 文 题 目 : a style-based generator architecture for generative adversarial networks

中文题目:基于样式的生成式对抗网络生成器架构

论文作者: tero karras, samuli laine, timo aila.

论文出处: the ieee conference on computer vision and pattern recognition- cvpr 2019

论文地址:http://openaccess.thecvf.com/content_cvpr_2019/papers/karras_a_stylebased_generator_architecture_for_generative_adversarial_networks_cvpr_2019_paper.pdf

研究问题: 本文针对自动的无监督的习得图像的高层属性(譬如人脸对应的身份信息以及拍摄姿态)以及对于生成的每幅图像产生一些特定的随机化的变换(譬如脸部瑕疵以及头发的细节),生成较为直观且可控的合成结果进行了研究。通过借鉴风格迁移的思想,提出了一种新的对抗网络中的生成器架构。该架构不仅在传统的分布距离的度量上优势明显,并且较好地将控制图像变化的隐变量分离出来进行独立建模。

随着数字化技术和互联网的发展,计算机图形学在许多领域都已经得到了广泛的应用,如遥感图像分析、多媒体通信、医疗诊断、机器人视觉等。当前计算机图形学的研究逐渐向多学科交叉融合方向发展,即有与认知计算、计算器学习、人机交互的融合,也有与大数据分析、可视化的融合;不仅针对三维数字模型, 而且涵盖了图像视频, 与计算机视觉深度交叉。计算机图形学的快速发展,一个潜在的趋势是不再有明确清晰的主题,更多的体现出方法和技术的创新。

针对近两年计算机图形学重要期刊会议的相关论文,对该领域内容热点研究内容和前沿技术方法进行了综合分析。目前,热点研究内容主要集中在自监督学习(self-supervised learning)、全景分割(panoptic segmentation) 、网络结构搜索( neural architecture search) 和生成式对抗网络( generative adversarialnetworks) 等方面。

自监督学习研究早期主要集中在代理任务的设计和选取上,怎样的代理任务才能最好地提取出有益于下游任务的特征以及为何这些代理任务能够有效,这些是理论层面上自监督学习仍需要解决的问题。随着大量围绕着实例判别代理任务的相关工作的提出,有一些工作将其中的核心思想进行展开提出了所谓对比学习的概念。通过将原来两个图片实例特征间的对比延伸到任意两个模态间特征的对比,使得模型学习不同模态间一致的特征表达并用最大化互信息作为新的衡量准则。

在已有的工作中,比较典型的代理任务有将图片分块然后预测不同分块间的相对位置或者将分块打乱后重排得到原图,以及基于图片的上下文信息进行补全和图片不同颜色通道间的相互预测等。目前在图像与图形学领域,取得性能突破的方法主要仍局限在监督学习的框架之下,随着无标记数据的不断爆增和模型性能进一步提升的需求,无监督学习将会越来越受到学术界和工业界的重视。而作为目前无监督学习中的一支,自监督学习因其良好的特征判别能力和对大规模数据扩展能力,也将受到更广泛的关注。

全景分割作为一个统一的任务在 2018 年被提出,它的目标是为图像中的所有像素点都分配一个语义类别和一个实例编号,从另一个角度来说,全景分割算法需要预测出图像中每一个像素点的所属类别和所属实例。在全景分割任务的基础上,近期的进展主要体现在三个方面:(1)从图像整体的角度考虑全景分割,共享网络主干(backbone)形成设计整体网络结构;(2)考虑图像中不同元素之间的交互,建模物体与语义概念之间的关系;(3)提出可学习模块,解决预测结果层面的冲突。接下来,我们将分别介绍有代表性的工作。全景分割作为一个最近被提出的视觉任务,受到了很大的关注,目前方法也在探讨的过程中,具有很大的发展潜力。

目前深度学习的方法在各类图像与图形分析任务中取得了非常大的成功,伴随这一成功而来的是对网络结构设计要求的不断提高。自动化网络设计自然而然地成为了自动化机器学习的下一个目标。早期的相关工作证明了使用强化学习算法可以发现好的网络架构,但是这些方法在计算过程中需要消耗大量计算资源,因此后续的工作都集中在如何减少计算负担上。搜索空间的设计也是一项重要研究热点,同时,研究人员又拓宽了神经结构搜索的视野,将多种优化目标考虑在内,而不仅仅是减少搜索时间和提高网络精度。具有代表性的工作如尝试限制模型参数的数量或类似的方法,以有效地部署在移动设备上。在此基础上,还有一些工作将网络结构搜索技术扩展到搜索深度网络相关组件上。

在图像合成方面,近期最引人关注的工作就是生成对抗网络,生成对抗网络由一个生成网络 g 和一个判别网络 d 组成。生成网络 g 和判别网络 d 在训练阶段使用对抗的方式进行学习,生成网络 g 的目标是生成尽可能真实的图片使得判别网络认为这是一张真实的图片;而判别网络 d 的任务则是判别合成的图像是真实的还是生成的。在这种两者对抗的学习过程中,生成 g 学会如何生成真实的图片。目前在生成对抗网络研究中,条件生成对抗网络、损失函数的改进、模型结构的改进及训练方法的改进是主要研究方向。

“多媒体”一词译自英文“multimedia”,而该词又是由 multiple 和 media 复合而成,核心词是媒体。媒体(medium)在计算机领域有两种含义:一是指存储信息的实体,如磁盘、光盘、磁带、半导体存储器等,中文常译为媒质;二是指传递信息的载体,如数字、文字、声音、图形和图像等,中文译作媒介,多媒体技术中的媒体是指后者。其实,“媒体”的概念范围是相当广泛的。“媒体”有下列五大类:(1)感觉媒体(perception medium)指的是能使人产生直接感觉的媒体。如声音、动画、文本等;(2)表示媒体(representation medium)指的是为了传送感觉媒体而人为研究出来的媒体。诸如语言编码、电报码、条形码等等;(3)显示媒体(presentation medium)指的是用于通信中使电信号和感觉媒体之间产生转换用的媒体。如键盘、鼠标器、打印机等;(4)存储媒体(storage medium)指的是于存放某种媒体的媒体。如纸张、磁带、磁盘、光盘等;(5)传输媒体(transmission medium)指的是用于传输某些媒体的媒体。常用的有如电话线、电缆、光纤等。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为多媒体领域全球学者分布情况。

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚洲东部也有较多的人才分布;欧洲的人才主要集中在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;多媒体领域的人才分布与各地区的科技、经济实力情况大体一致。

▲多媒体领域全球学者分布

我国专家学者在多媒体领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏, 这种分布与区位因素和经济水平情况不无关系。 同时,通过观察中国周边国家的学者数量情况, 特别是与日韩、东南亚等亚洲国家相比,中国在多媒体领域学者数量较多且有一定的优势。

▲多媒体领域中国学者分布

2019优秀论文:

论文题目: beyond narrative description: generating poetry from images by multiadversarial training

中文题目:超越叙事描述:通过多重对抗训练,从意象中生成诗歌

论文作者: bei liu, jianlong fu, makoto p. kato, masatoshi yoshikawa

论文出处: 26th acm international conference on multimedia – acmmm’18

论文地址: https://arxiv.org/pdf/1804.08473v4.pdf

研究问题:本文主要研究了从图像自动生成诗歌的方法。这项任务涉及多个挑战,包括从图像中发现诗意线索(例如,从绿色中获得希望),以及生成满足图像相关性和语言水平的诗意的诗歌。

近年来,随着数字化技术的发展,多媒体技术突飞猛进,音视频技术是当前最活跃、发展最迅速的高新技术领域之一。多媒体分析以文本、图像、声音、视频等多种不同类型媒体的数据为研究对象,主要的研究目的一方面是使计算机具备人类的多媒体(如视、听)理解能力,另一方面是从多媒体数据中挖掘信息和知识、帮助人类更好地理解世界。

多媒体技术研究领域包括多媒体信息处理、多媒体数据压缩编码、多媒体内容分析与检索技术、多媒体交互与集成、多媒体通信与网络、多媒体内容安全、多媒体系统与虚拟现实等。在近几年的研究中,多媒体技术呈现出与计算机体系结构、计算机网络、人机交互、信息安全、社会网络等多学科交叉融合的发展趋势。

近两年多媒体领域研究热点主要集中在大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像、实时视频流化等方面。

由于多媒体数据往往是多种信息的传递媒介(例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播),多模态学习已逐渐发展为多媒体内容分析与理解的主要手段。

在计算图像方面,大规模数据集的构建仍是一个热点研究方向,尤其语义对象的像素级标注需求越来越强烈,能够人机交互标注的过程中不断学习的协同标注方法得到了广泛关注。

无监督学习是多媒体数据分析的长远目标。目前很多领域拥有大量的数据,但是这些数据都是没有经过标记的。因此除了基本的数据勘探和异常检测场景,这些数据基本无法使用。近期在使用未标记的数据来改进(标记数据)监督学习过程方面已经取得了许多进展。

此外自动机器学习(automl)和元学习(meta learning)的最新研究成果及其在多媒体上的应用也逐渐增多。

在图像压缩处理方面,也有一些研究工作将深度学习用于图像或视频压缩后处理,并得到了一定的效果。然而,现有工作的一个主要问题是用于后处理的深度网络较为复杂,计算速度慢,不满足实际应用的需求。如何在处理效果和处理速度之间取得一个折中,是压缩后处理的一个主要挑战。

图神经网络(graph neural network, gnn)在多媒体领域的应用是近两年的热点研究方向,应用场景包括:个性化推荐,如基于多模态图卷积网络(mmgcn)的多模态推荐方法;短视频推荐,如使用基于图的顺序网络进行建模;多视频摘要,如采用图卷积网络衡量每个视频的重要性和相关性;基于文本的行人搜索,如使用深度对抗图注意力卷积网络(a-ganet) 利用文本和视觉场景图学习联合特征空间;视频关系监测,如使用转移图神经网络(dot-gnn) 解决图像外观变化的问题。

随着 mask-rcnn 与 retinanet 的发展,物体检测研究日趋成熟,但即便如此,就应用而言,当前的技术依然存在诸多缺陷,为此,针对现代目标检测的基本框架(backbone、 head、 scale、 batchsize 与 post-processing),神经网络架构搜索(nas)以及细粒度图像分析(fgia)等 3 个方面的潜在难题成为主要研究内容,尤其是后两者,将成为未来视觉物体检测的两个重要研究维度。

人机交互(human-computer interaction, hci), 是人与计算机之间为完成某项任务所进行的信息交换过程, 是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户的可见部分,用户通过人机交互界面与系统交流, 并进行操作。人机交互技术是计算机用户界面设计中的重要内容之一, 与认知学、人机工程学、心理学等学科领域有密切的联系。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为人机交互领域全球学者分布情况:

▲人机交互领域全球学者分布

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸; 欧洲也有较多的人才分布; 亚洲的人才主要集中在日韩地区;其他诸如非洲、南美洲等地区的学者非常稀少; 人机交互领域的人才分布与各地区的科技、经济实力情况大体一致。

我国专家学者在人机交互领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏, 这种分布与区位因素和经济水平情况不无关系。 同时,通过观察中国周边国家的学者数量情况,特别是与日韩等地相比,中国在人机交互领域学者数量较少。

▲人机交互领域中国学者分布

优秀论文:

论文题目: guidelines for human-ai interaction

中文题目: 人工智能交互指南

论文作者: saleema amershi, dan weld, mihaela vorvoreanu, adam fourney, besmira nushi, penny collisson, jina suh, shamsi iqbal, paul n. bennett, kori inkpen, jaime teevan, ruth kikin-gil, and eric horvitz

论文出处: acm chi conference on human factors in computing systems 2019 (chi 2019)

论文地址: https://doi.org/10.1145/3290605.3300233

研究问题: 人工智能(ai)领域的快速发展给用户界面和交互设计带来了新的机遇和挑战。虽然人机交互届对人和 ai 交互的原则原理已经进行了 20 多年的探讨,我们仍需要更多的研究和创新来解决人工智能新技术及其面向人类的应用不断涌现而带来的新科学及社会问题。作者提出了 18 条具有通用性的、可适用于多种应用场景的、针对人和 ai 交互的设计指导,指出现有知识的空缺及未来的探索方向。 这份指南不仅为 ai 设计师提供了具体、可操作的建议,还旨在推动用户体验和工程开发从业者就设计决策的相关问题展开讨论,推动这一领域研究的研究方法:

文章提出了 18 条人工智能交互设计指导,并进行多轮的实例评估来验证其有效性,包括通过一个用户实验,邀请 48 位设计师以这些设计指导为工具来测试 20 项广泛使用的有 ai 技术支持的用户产品。

最近的十年,是人机交互向自然交互蓬勃发展的十年。毋庸置疑,计算机是世纪最伟大的发明,其作用从科学计算工具迅速发展为信息处理和信息交互工具,起引领作用的则是人机交互技术的变革,即以鼠标发明为标志的图形用户界面(graphical user interface, gui)的产生,一改规范命令与计算机交互的命令行界面模式(command lineinterface, cli),gui 提供了普通人与计算机便捷交互的工具和方法,让计算机从实验室走进办公室、走入家庭,十多年前,触屏技术成为产品技术, gui 中的鼠标被人的天然指点(pointing)工具——手指所取代,计算机又变身出手机,成为更多人方便使用的随身掌上工具。

更少依赖操控工具,发展学习和使用成本更小的自然交互技术,一直是人机交互研究的价值追求,最近十年,随着感知和计算技术的进步,自然交互技术创新层出不穷,并能迅速成为新型产品技术, 《麻省理工科技评论》总结和评论人机交互领域的突破技术(breakthroughs),为人机交互技术、未来终端技术的发展建立了一个高端的技术论坛,影响深远。我把这些突破技术分为 3 大类:支持自然动作的感知技术,面向穿戴的新型终端和基于语音识别的对话交互。

人体动作蕴含丰富的语义,动作交互技术一方面需要感知技术的进步,另一方面需要发现或设计有明确交互语义的动作(gesture,姿态,由于人手的灵巧性,手势成为主要的交互动作,通常叫做手势),如今,二维表面上,多指触摸动作在触屏上已普遍可用,三维空间中,嵌入了深度摄像头的手持和固定设备,能比较准确识别人的姿态和动作,做出响应。不同于人脸识别等目标明确的视觉识别任务,动作交互不仅要求视觉识别的准确度,更需要研究基于交互任务的动作表达的自然性与一致性,难以发现和突破,所以,除了动作语义很直白的动作游戏(body game),三维动作交互尚缺少普遍认知和接受的交互动作语义。而无论二维还是三维,手势的不可见性,是动作交互的主要难题。

穿戴(wearable)取代手持(handheld)曾是前几年的一个革命口号,目前看,市场上的确出现了一定规模的新产品,但穿戴仍是补充的地位。穿戴设备中,手环设备基本只有健康和活动检测功能,智能手表可以算做创新终端,但作为缩小版的手机,由于交互界面的缩小和操作方式的限制(通常是小界面上双手参与操作),其承载功能也较手机缩减很多。 vr/ ar(虚拟现实/增强现实)的一个理想载体是头戴式设备,最近几年,多款智能眼镜产品面世,较之前笨重的头盔轻便了许多,逼真的虚拟场景和准确的现实对象识别信息都可以清晰呈现在眼前,并在特定领域开拓着增强体验的应用;然而,智能眼镜尚缺少与其三维真实显示匹配的准确的自然输入技术,以及从眼手绑定在手机上转变到眼手分离的眼镜设备上时,尚未建立起相应的交互模式。

自然语言对话式交互得益于大数据和智能技术的进步,多语言的自然语音识别技术在用户终端上都达到了很高的可用水平,并且,语音识别超越文本输入方式,成为智能软件助理的使能技术,近两年,更是有基于语音接口的家居产品如雨后春笋般出现, vui (voice user interface,语音用户界面)已经成为交互术语。然而, vui 的局限也是显而易见的,相对并行模式的视觉通道,串行模式的语音通道的带宽显然窄的多,出声的使用方式在很多场合是不合适的,但作为一种可用的自然交互技术,有效提升了用户体验。

人机交互作为终端产品的引领技术的作用已经是产业界的普遍认识,欣喜看到很多种自然交互技术和新型交互终端面世,但 gui 仍是交互的主导模式。计算无所不在,交互自然高效是发展趋势,人机交互的研究和开发空间很大,需要综合地探索自然交互技术的科学原理,建立明确的优化目标,结合智能技术,发展高可用的自然交互技术。

机器人广义上包括一切模拟人类行为或思想以及模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人(例如爬虫机器人)。联合国标准化组织采纳了美国机器人协会给机器人下的定义: “一种可编程和多功能的操作机;或是为了执行不同的任务而具有可用电脑改变和可编程动作的专门系统。一般由执行机构、驱动装置、检测装置和控制系统和复杂机械等组成” 。 机器人是综合了机械、电子、计算机、传感器、控制技术、人工智能、仿生学等多种学科的复杂智能机械。

目前,智能机器人已成为世界各国的研究热点之一,成为衡量一国工业化水平的重要标志。机器人是自动执行工作的机器装置,因此,它既可以接受人类指挥,又可以运行预先编排的程序,也可以根据以人工智能技术制定的原则纲领行动。在当代工业中,机器人指能自动执行任务的人造机器装置,用以取代或协助人类工作,一般会是机电装置,由计算机程序或电子电路控制。机器人的范围很广,可以是自主或是半自主的,从本田技研工业的 asimo 或是 tosy 的 topio等拟人机器人到工业机器人,也包括多台一起动作的群机器人,甚至是纳米机器人。借由模仿逼真的外观及自动化的动作,理想中的高仿真机器人是高级整合控制论、机械电子、计算机与人工智能、材料学和仿生学的产物。机器人可以作一些重复性高或是危险,人类不愿意从事的工作,也可以做一些因为尺寸限制,人类无法作的工作,甚至是像外太空或是深海中,不适人类生存的环境。机器人在越来越多方面可以取代人类,或是在外貌、行为或认知,甚至情感上取代人类。

机器人技术最早应用于工业领域,但随着机器人技术的发展和各行业需求的提升,在计算机技术、网络技术、 mems 技术等新技术发展的推动下,近年来,机器人技术正从传统的工业制造领域向医疗服务、教育娱乐、勘探勘测、生物工程、救灾救援等领域迅速扩展,适应不同领域需求的机器人系统被深入研究和开发。过去几十年,机器人技术的研究与应用,大大推动了人类的工业化和现代化进程,并逐步形成了机器人的产业链,使机器人的应用范围也日趋广泛。

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为机器人领域全球学者分布情况:

▲机器人领域全球学者分布

我国专家学者在机器人领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内陆地区的人才较为匮乏, 这种分布与区位因素和经济水平情况不无关系。 同时,通过观察中国周边国家的学者数量情况,特别是与日韩等地相比,中国在机器人领域学者数量较少。

▲机器人领域中国学者分布

优秀论文:

论文题目: robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching

中文题目:通过多 affordance 抓取和跨域图像匹配完成杂乱环境下对新物体的捡放操作

论文作者: andy zeng, shuran song, kuan-ting yu, elliott donlon, francois r. hogan, maria bauza, daolin ma, orion taylor, melody liu, eudald romo, nima fazeli, ferran alet, nikhil chavan dafle, rachel holladay, isabella morona, prem qu nair, druck green, ian taylor, weber liu, thomas funkhouser, alberto rodriguez

论文出处: ieee international conference on robotics and automation, 2018

论文地址: https://ieeexplore.ieee.org/abstract/document/8461044

研究问题: 人类可以在仅掌握少量先验知识的前提下识别和抓取陌生目标物,这一能力一直是机器人研究的灵感来源,也是很多实际应用的核心。为此,提出一种能在杂乱环境下对新目标物进行识别和捡放操作的机器人系统,整个系统可直接用于新目标物(在测试过程中首次出现),而无需额外的数据收集或重新训练。

机器人学习 。 在 ai 兴起的时代,机器人拥有了一种新型的学习方式:深度强化学习。这一新方式借助通用化的神经网络表示,处理复杂的传感器输入,来让机器人从自己的经验活动中直接学习行为。相比传统方式,它解放了工程设计人员们的双手,不再需要程序员们手动设计机器人每一个动作的每一项精确参数。但是,现有的强化学习算法都还不能够适用于有复杂系统的机器人,不足以支撑机器人在短时间内就学习到行为,另外在安全性上也难以保障。

针对这种困境, 2019 年初,谷歌 ai 与 uc 伯克利大学合作研发了一种新的强化学习算法: sac(soft actorcritic)。 sac 非常适应真实世界中的机器人技能学习,可以在几个小时内学会解决真实世界的机器人问题,而且它的一套超参数能够在多种不同的环境中工作,效率十分之高。 sac 的开发基于最大熵强化学习这个框架。此框架尝试让预期回报最大化,同时让策略的熵最大化。一般而言,熵更高的策略具有更高的随机性。从直觉上看,这意味着,最大熵强化学习能取得高回报策略中具有最高随机性的那个策略。 sac 学习一个随机策略,这个策略会把状态映射到动作,也映射到一个能够估计当前策略目标价值的 q 函数,这个 q 函数还能通过逼近动态编程来优化它们。 sac 通过这样的方式,来让经过熵强化的回报最大化。此过程中,目标会被看作一个绝对真的方法,来导出更好的强化学习算法,它们有足够高的样本效率,且表现稳定,完全可以应用到真实世界的机器人学习中去。

责任编辑:admin   本站原创,未经授权不得转载
继续阅读
相关阅读
热新闻

APP下载

客户端下载
推荐
热门