人工智能

商汤科技顾金伟:从计算机科学教授到科技美学的原创者

ainet.cn   2022年02月18日

  编者按:自成立以来,商汤秉持着坚持原创的初心,稳步前行。在商汤,有40位教授引领研发工作,他们为技术创新提供了强大后盾,也进一步推动了商业化成功。

  在智能影像领域,商汤的AI技术已经应用在上亿台手机之中,并成功探索出软硬一体化的业务模式。最近,商汤君采访了智能影像首席科学家顾金伟,聊了聊他对前沿技术及应用的心得,以及如何带领团队披荆斩棘,闯出一条少有人走的路。

  “艳阳十六阴天八,多云十一日暮四”,这样的光圈口诀曾是很多摄影爱好者熟稔的法则。光圈、快门、感光度、白平衡…… 复杂的摄影参数,在自动化相机出现之前,对大众用户来说并不友好。

  如今,智能影像技术,正在让摄影摆脱沉重的设备,帮助小白们成为摄影高手。超分辨率、夜景增强、超清人像、高动态HDR、景深合成、拍后对焦、全景拼接等技术已然成为智能手机的标配,用AI算法使成像更加通透且富有层次感,在画质和美学上进行全自动化的提升。

  在这一领域,商汤通过多年AI技术积累,研发了大量智能影像技术,为业内输出专业而优质的多样化的图像处理方案,支持400多个手机型号,已应用在上亿台手机相机中。

  围绕智能影像和计算摄影这个话题,商汤君在近日采访了商汤智能影像首席科学家顾金伟,深入了解相关技术的底层逻辑,以及他对未来影像技术的思考。

  一篇论文背后的缘分

  金伟的研究领域,一直是在计算摄影与成像。

  他曾担任美国罗彻斯特理工学院助理教授,并先后在华为北美研究中心及NVIDIA担任资深研究员,在学术上有深厚造诣。

  生活中,金伟亦酷爱手机摄影,他习惯用手机记录自己和家人每一个或平凡、或精彩的时刻。

  “工作与兴趣的契合,是一件非常美好的事。”

  2014年底,一篇论文进入了他的视野。这篇论文叫做ImageSuper-Resolution Using Deep Convolutional Networks,来自香港中文大学信息工程系及微软亚洲研究院,其中介绍了一种用深度卷积网络做图像超分辨率处理的方法。

  “计算摄影与成像在工业界的应用非常多,那时候用的都是基于特征的传统图像处理算法。用深度学习网络做图像超分辨率的论文,这算是第一篇。”

  也正是这篇论文,冥冥之中带来了某种缘分。

  在2018年的CVPR(国际计算机视觉与模式识别会议)上,金伟见到了商汤科技创始人、香港中文大学信息工程系教授汤晓鸥,与商汤科技联合创始人王晓刚教授。汤晓鸥教授正是那篇图像超分辨率论文的重要参与者。

  彼时商汤正考虑在北美驻点,扩展国际业务,吸纳更多优秀人才。汤晓鸥教授与王晓刚教授希望金伟能帮助商汤在硅谷建立研究中心。接触之后,金伟感到双方理念一致,于是不久后正式加入商汤,担任研究执行总监,负责硅谷研究中心的工作。

  回忆当时刚加入时的情景,金伟仍然历历在目,招人、办公选址,很多事、各种细节都需要计划和解决。

2018年,商汤科技硅谷办公室成立不久时,顾金伟(右)与商汤联合创始人王晓刚教授的合影

  “当时只有一个小小的办公室,但大家工作热情都很高。”这段时间也是他加入商汤几年中,最为深刻的一段记忆之一。

  持续创新,是最大的核心竞争力

  2018年正是智能手机市场进入白热化竞争的阶段,整体增长越来越趋于瓶颈,各家必须拿出最硬核的技术打动消费者,而手机的影像画质正是核心卖点之一。

  这推动了整个手机产业链都积极将各种最先进的智能化黑科技,应用在手机影像系统中,比如近些年出现的拍月亮、拍太空夜景、视频超级夜景等创新功能。

  “这些对科技创新的真实需求,给我们算法公司提供了非常多难得的机会。”

  得益于影像需求的增长,商汤的AI算法SDK产品成功应用在了各大主要手机厂商的系列产品中,提供包括超分辨率、双摄虚化、人像修复、超级夜景等功能。到目前,已有数亿部手机搭载了商汤的影像技术。

 AI夜景增强效果

  但金伟没有为此而满足,他很快意识到,手机行业的影像技术更新非常快,这样的机会可能转瞬即逝,而且也暗藏不少新挑战。

  “做好一个产品,就算其中90%是靠人工智能技术解决,但并不是说把人工智能算法做好就够了,可能剩下70%的工作量是解决剩下的10%,这才决定了产品最终的差异化。”

  影像画质产品也是这样一个系统工程,最后的产品竞争力,不仅仅是取决于软件算法公司自身,还取决于与上下游厂商的沟通与合作,整个链条非常长,存在很多不可控的因素。

  另一方面,手机厂商也组建有自研算法团队,他们直接接触广大的终端用户,对于产品需求有更快、更准确的判断,而且在引入三方算法的时候,其自研团队可以说既是“裁判”又是“运动员”。

  “商汤在产品和技术先进性等方面,必须要有比较大的创新和优势,才有可能在客户那里保持竞争力。所以,我们的技术路径还有合作布局,都是围绕这种领先性的。”

  在软件方案竞争白热化的趋势下,金伟带领团队做出了软硬一体化的前瞻性转变。

  2019年,商汤开始寻求与全球主流的图像传感器厂商开展紧密合作,将AI算法和传感器进行直接融合,研发软硬一体的解决方案。

  同时,商汤还独立开发AI ISP芯片,充分发挥新型传感器的性能,根据AI算法特点重新设计最优的ISP链路,这是目前市面上很多手机芯片做不到的。

  再加上商汤在AI画质算法的积累,如图像分割、场景的识别和理解等等,将这些结合起来,就形成了在智能影像上的综合优势。

  如今,金伟领导的智能影像部门,可以为移动端提供软硬一体的高清画质解决方案,带来极致和流畅的拍照和视频体验。

  这种解决方案中,硬件包含图像传感器、光学镜头、图像画质处理芯片(ISP)上的算法开发和IP固化,软件则主要包含多帧融合、多摄融合等算法SDK。两者互为一体,能发挥最大的优势。

  曾经一波三折,却打通新的业务模式

  软硬一体的解决方案,相比于仅仅提供算法SDK,更加具有技术壁垒,但其发展过程也是一波三折。

  基于图像传感器的AI算法开发难度十分大,因为硬件的计算能力非常有限,但需要处理的数据却非常大,对画质和功耗的要求也十分严格,这种矛盾让开发难度呈指数级增长。

  “有一家国际领先的影像传感器公司曾经尝试过两次,但都失败了,所以我们一开始找到他们合作的时候,对方也没什么信心。”

  但事件很快迎来转机,2019年一家国内头部的手机厂商希望做基于成像传感器相关的算法开发,这让金伟及部门的同事非常兴奋。

  当时,项目时间非常紧张,很多同事春节也没有休假,最终赶在时间截止前完成了交付。但到了次年初,对方的需求又变了,更希望将这种核心的技术方案交由自研团队去做,合作也因此不了了之。这让金伟和同事们备受打击。

  庆幸的是,在这些波折中,智能影像团队没有落下研发的进度,技术效果与性能都在持续提升。抱着试一试的心态,他们又将技术方案推给了前述的传感器厂商,并最终在2020年7月正式立项。

  但立项只是长征的第一步。

  “一方面,技术上有挑战,我们对将算法转换成硬件语言代码的经验不足;另一方面,人手不够,当时做传统算法SDK的业务也很缺人,我们的硬件语言开发只有两位同事支持,节奏非常紧。”

  更要命的是,项目计划在2021年2月验收,而到1月时,在成像速度与画质达标后,功耗又出现了问题,这在移动端是非常致命的。好在团队成员齐心协力,最终完成交付。

  对于当时的感受,金伟记忆犹新。

  “大家都不知道能不能成功,因为有很多的不确定性,就算做成了,也不确定能否在手机市场上成为爆点。”

  最终,市场奖励了那些勇于坚持创新的人。开发成功后,三四个同类项目紧随而来,更重要的是,这次突破为公司带来了新的业务合作模式,护城河进一步加深。

  现在,商汤的算法在多款新型图像传感器上成功落地,包括新型的RGBW图像传感器,2亿像素全方向对焦的图像传感器,以及多光谱图像传感器。

  这些产品近期将会大规模量产,应用在一些新旗舰手机上,未来还会推广到车载、互娱、机器视觉等领域。

  深挖行业需求,研发可调可控画质技术

  谈及影像技术的未来,金伟认为,可控可调的深度学习技术和基于场景理解的画质提升,会是大趋势。

  “可控可调的深度学习技术,是现在图像画质算法方面非常缺乏的一点。”

  传统的图像处理算法一般有很多有物理意义的参数,可以留给客户去控制调试。图像画质有时候也是一种主观的体验,这种选择权可以让手机厂商灵活地根据用户喜好或者硬件配置去调整调试算法效果。

  但这种可调可控,目前在深度学习中还没有成熟的技术。深度学习技术训练完的网络模型,万一出现问题,只能重新收集数据再训练,它没有办法在运行时去调整。

  “所以,我们在画质方面会强调如何开发可控可调的深度学习算法,让它能够根据客户的需求、硬件的配置,做到更加方便的调控。”

  基于场景理解的画质提升,具体来说,就是让算法识别出拍摄时的场景,比如当按下快门时,如果相机会知道是室内还是室外、夕阳还是婚礼,那这些场景信息会有助于算法调整颜色、对比度、细节等,最终合成出最符合场景画质的图片和视频。

  其实这不仅是一种技术趋势,也隐含了金伟本人朴素的期待。采访中,商汤君问到,智能影像部的愿景是什么?

  金伟说,“我希望所有这些相关的技术和产品,会使手机拍照和视频画质在不久的将来大幅超越单反相机,能更好地记录我们生活中每一个美好的瞬间。”

(转载)

标签:商汤科技 我要反馈 
泰科电子ECK、ECP系列高压直流接触器白皮书下载
亿万克
专题报道