近日,国际计算机学会(ACM)对联想集团首席技术官、高级副总裁、ACM Fellow芮勇博士进行了专访。在专访中,芮博士讲述了自己的学术研究生涯,并对行业未来的技术发展,如智能手机、AR,多媒体计算等进行了分析和解读。
VR网为大家摘录本次专访的部分重点内容如下:
问:您是怎样进入多媒体计算研究领域的?
答:在我读本科和硕士的时候,我的方向是控制理论和大规模系统优化。这些专业知识对我后来在多媒体领域的研究工作,比如“相关性反馈(relevance feedback)”,神经网络和深度学习等,都发挥了重要的作用。
在伊利诺伊大学厄巴纳-香槟分校读博期间,我开始从事多媒体分析和检索的研究。那时,互联网还处于幼年时期,Web浏览器刚刚出现,而搜索引擎还没有诞生。在那个时代,图像搜索的概念相当超前。
当时我遇到了一个很好的机会。美国国家自然科学基金会设立并资助了 “数字图书馆”项目。我有幸参与其中。我把控制理论,信息检索和计算机视觉这三个领域融合起来,进行了深入的跨学科研究,最终,我成为第一批基于相关性反馈实现图像搜索的研究者,为图像搜索创造了一种全新的模式。“相关性反馈”是一种通过用户先前的搜索结果和行为模式分析而优化搜索结果的方法。
获得博士学位后,我开始了在微软18年的职业生涯。在那里,我继续从事多媒体分析、理解和检索,机器学习,计算机视觉和模式识别等领域的研究工作。
现在,作为联想的首席技术官和联想研究院的领导者,我将继续带领团队推进多媒体计算的发展,并将最前沿的多媒体研究成果融入到联想的产品和服务中去。
问:如今这个时代,每天都会产生大量的多媒体数据,那么在未来,多媒体分析和检索有什么能为社会带来重要价值的新兴应用?
答:从技术的角度来说,以深度学习为代表的人工智能算法正在并将继续促进多媒体研究,尤其近期深度学习较好构建了基于多模态(multi-modality)的算法框架,使得跨领域的多媒体数据的有效融合、利用/检索成为可能。
比如图像和视频的描述(captioning)。几年前,描述能做的只是给图像或视频自动打上标签(tag)。而深度学习建立了计算机视觉和自然语言处理之间的连接,可以将零散的标签变成一句基于视觉内容并且通顺连贯的自然语言描述。
随着相关领域和硬件设备的进一步发展,图像/视频描述甚至将支持一段(多句)关于内容的自然语言描述,也将支持更自然的用户交互系统;支持的模态(modality)也会超越计算机视觉和自然语言处理的范围,例如,可以导入语音特征(voice features), 空间深度信息(depth feature), 文本特征(text features)等。
问:智能手机是人们消费多媒体内容的主要渠道之一,联想也是智能手机制造商。根据现有研究和产品开发的进展,您认为未来的智能手机会是怎样的?
答:从技术的角度来看,未来,像人工智能、VR/AR、5G、实时翻译、新电池技术以及全息技术的发展,将深刻改变智能手机和用户的体验。
具体而言,无边框屏(infinity screen),神经网络处理器(NPU),以及更多的传感器可能会出现在智能手机上。在传感器方面,手机将会融合生物特征传感器、深度摄像头,多摄像头以及更好的计算机视觉技术。此外,5G的发展将为智能手机用户带来10倍带宽和零延迟。
智能手机的形态也可能会发生大的变化。其中一个可能性是可折叠手机。比如,2016年,联想研究院研发出业界第一个真正的可折叠手机原型CPlus和Folio。CPlus可以在手机和腕表之间转换形态,而Folio则可以在平板和手机之间随意切换。
问:联想正在进军AR/VR领域,比如联想VR Classroom以及迪斯尼和联想合作推出的《星球大战:绝地挑战》AR设备Lenovo Mirage。AR/VR技术已存在了几十年,为什么现在这些技术正在走向主流?
答:是的,AR/VR技术已经存在了几十年。但近年来的技术突破,比如光学镜头,计算机视觉以及slam,让AR/VR技术开始加速发展,巨大潜力开始显现。另外,AR/VR可以帮助解决很多行业上的痛点问题,也能够给用户带来全新的娱乐体验。