您现在的位置是:首页 > 人工智能人工智能
计算机视觉华人史:权龙与他的学生们
cc博主2024-06-29【人工智能】117人已围观
作者 | 赖文昕
编辑 | 陈彩娴
「简单,是终极的复杂。」
群星闪耀时
1988 年的冬天,一辆火车从法国出发、开往卢森堡。
火车上有一行四人,来自法国南锡,他们精神焕发,兴高采烈地讨论着即将开始的旅程。从南锡到到卢森堡,他们将在卢森堡乘坐飞机,飞往美国佛罗里达参加第二届国际计算机视觉大会 ICCV。
他们中,有唯一一位来自中国的东方面孔,内心尤为激动——这是他第一次去美国,也是他第一次参加国际上的顶级学术会议,有机会与来自世界各地的同行交流切磋。
这位意气风发的青年,就是后来中国计算机视觉大师、香港科技大学计算机视觉实验室的开拓者——权龙。
那一年,权龙 24 岁。
与权龙一同出发的,还有他的博士导师 Roger Mohr、两位研究员 Karl Tombre 与 Gerald Masini。
深度学习浪潮兴起后,华人科学家逐渐成为计算机视觉三大顶会(ICCV、CVPR、ECCV)的参会主力,发表了大量的科研成果,并摘得各大重要奖项。但在上世纪 80 年代,ICCV 大会现场的华人面孔寥寥无几,直到 1988 年法国留学生权龙打破了局面。
1988 年,在法国国立洛林理工学院(INPL)、国家科学研究中心(CNRS)和国家信息与自动化研究所(INRIA)的共同实验室攻读计算机博士的中国学生权龙,在导师 Roger Mohr 的指导下,写了一篇从几何约束研究室内场景图像匹配的论文。
论文被刚刚诞生的 ICCV 接收,成为了实验室的第一篇视觉顶会论文,也标志着华人学者在这个视觉会议上的首次亮相。
1987 年第一届 ICCV 在英国伦敦成立,权龙的导师 Roger Mohr 参加了这个里程碑的会议,从会议现场带回来唯一一本 Proceeding 会议论文集。那时参会人员的「传统」就是必须带一本 Proceeding 回家去读。权龙对这本「孤本」非常珍惜,细心阅读,读完后写了两篇文章,其中一篇在实验室内部反馈很好,果不其然中了第二届 ICCV。
论文地址:https://ieeexplore.ieee.org/document/590050
1988 年的美国之行,为了让大家不负此行,参加 ICCV 之余,Roger Mohr 还联系了各大高校,组织了一次全美知名实验室的游学之旅。权龙第一次参会,就感受到了计算机视觉领域最前沿的学术研讨氛围。
权龙在 1985 年从中国赴法留学。
这个成长于山西太原的中国青年,从小时候在少年宫美术组开始就一直对图像有着浓厚的兴趣。1980 年,权龙考上了北方交通大学(现北京交通大学)通信专业毕业,成绩优秀,在1984年毕业时考取教育部赴法留学研究生。
那时北方交大的信息科学研究所就聚集了一批热爱图像研究的学者,实验室规模庞大,在模式识别、图像理解乃至计算机图形学上均有涉猎。
权龙在本科毕业设计时就跟随时任所长袁保宗以及刚留法回国的周忠钰,后者带着权龙的本科毕业设计,给了权龙不少指导。
权龙出国留学也受到了他哥哥权全的影响。权全在 1978 年以优异成绩考入清华大学,几个月后就被教育部派遣到比利时本科留学,极可能是我国改革开放后山西太原出国留学第一人。 因此,权龙很早对出国留学有所了解,并考取了 1984 年教育部的派遣留学研究生,成为当年北方交大出国留学的 8 名学生之一。
在法国,权龙结识了更早留法的马颂德(原中科院自动化研究所所长)、张正友(现腾讯首席科学家),三人并称为「法国华人视觉三剑客」,而他们在冥冥之中早有渊源:
在北方交大的最后一年,权龙跟随周忠钰做研究,向对方请教留法经验,后者研究图形学,是 1979 年与马颂德同批赴法的学生之一。
到 1987 年,权龙去法国的第二年,在法国国家信息与自动化研究所(INRIA)实习时又结识了同样通过教育部派遣留学的张正友。张正友先在南锡大学计算机系读硕,后又去法国巴黎第十一大学读博。
当时欧洲的人工智能已起步,教育发达,诞生在法国的 Prolog 作为「古早」人工智能语言正引领人工智能以及第五代计算机的发展,权龙去法国的第一志愿也是研究人工智能。
最早在国内接触「人工智能」这门课时,权龙有些失望,因为课程内容翻来覆去只涉及了一些搜索算法,并没有太多他所期待的「智能」。而到了法国后,法国的研究中心涵盖了语音、图像、逻辑、专家系统等多个研究方向,同办公室的两个法国同学甚至已经开始研究为今天的神经网络提供理论基础的「连接主义」。
在前沿的研究环境中,权龙顿时燃起了研究的热情。由于从小对图像与空间感兴趣,权龙决定研究图像理解,由此踏入了计算机视觉的大门。
权龙的导师 Roger Mohr 是法国射影几何与计算机视觉的研究先驱,从到法国的第一天起,权龙就跟着 Roger Mohr 做研究,一直到 2002 年离开法国,整整 16 年都是一个团队。1988 年权龙中 ICCV 论文,1989 年(在法国的第四年)就获得了 INPL 博士学位。
1990 年,权龙加入法国国家研究中心,在 INRIA 担任高级研究科学家。Roger Mohr 作为主要成员在 INRIA Grenoble(格勒诺布尔)开拓计算机视觉小组,权龙成为创始成员,也开始带领自己的学生,并见证了欧洲三维视觉的黄金时代。
1982 年大卫·马尔出版《视觉》一书,从 edge 研究视觉计算成为行业的主流。到 1990-2000 年,行业内出现变化,从 edge 转向研究几何问题,即「三维重建」。上世纪 90 年代,欧洲群英荟萃,欧盟有一个大项目(「欧盟研发框架计划」)聚集了一批研究不变量和几何的人才(主要来自 INRIA 、英国牛津大学、比利时鲁汶大学、瑞典皇家理工学院),成为三维视觉的研究圣地,而欧洲三维视觉的发源地又在法国。
权龙所在的 INRIA 一马当先。1992 年,INRIA 的一位研究员 Olivier Faugeras 发表论文「What Can be Seen in Three Dimensions with an Uncalibrated Stereo Rig」,试图用数学分析双目能让人感知到三维的原因。Oliver 提出「七点算法」,即:通过在非标定相机的两张图像中标出 7 个对应点,就可以计算出获得三维的基础矩阵。这个工作拉开了三维视觉研究的序幕。
三年后、1995 年,权龙发表的「六点算法」,又将三维重建向前推进了一大步。
在「六点算法」,权龙探索了三维重建的最小数据需求,得到「六个点、三幅图像」的方法论,不仅为三维重建的基础理论作出杰出贡献,之后几乎所有基于非标定相机的三维重建技术都受到了这一算法的启发。权龙由此声名大噪,成为三维重建的领军人物。
论文地址:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=4fa70fb737a514afe8e902a9d8fd56f6cc3d6b60
在九十年代,计算机视觉领域最重要的成就之一是发展了一种三维视觉几何技术,即从非标定的图像(uncalibrated images)或运动结构(Structure from Motion)中进行三维重建。只要输入图像存在重叠,就能全自动地计算出所有相机的位置和方向,并重建场景的三维点。
图像的三维重建是计算机视觉、机器人学、摄影测量学和计算机图形学的基础,而三维视觉几何的整个体系建立在两视图、三视图和N视图几何这三个基本要素之上。
两视图几何问题,以基础矩阵(fundamental matrix)为特征,在 1992 年由 Olivier Faugeras 和 Richard Hartley 各自独立解决;三视图几何问题则是由权龙在 1994 年发表的论文《Invariants of Six Points and Projective Reconstruction from Three Uncalibrated Images》中得以解决。
两视图几何在使用七点算法启动计算时是基础性的,但它会导致对应关系歧义。与之相比,三视图几何在唯一性地表征投影结构和消除重建及对应关系歧义方面,既是最小的也是最完整的。
权龙引入的「六点算法」,以封闭形式解决了三视图几何问题,最多提供三个代数解。由于三视图之外没有其他独立的几何关系,三视图几何和两视图几何是多视图几何中唯二的基础几何,因此三视图的六点算法和两视图的七点算法也是图像三维重建中最基础的两个算法。
而由于 N 视图几何本质上是一个代数冗余系统,缺乏通用的代数解决方案,所以只能通过优化方法来解决。1992 年,在 Faugeras 和 Hartley 对两视图几何的代数分析同时,权龙及其同事创新性地提出了一种优化方法,采用空间中的规范投影基,首次实现了多视图的投影重建。
这篇《Relative Reconstruction from Multiple Uncalibrated Images》与 Faugeras 和 Hartley 同年在两视图几何方面的里程碑式研究齐名,其基础性贡献在学术界受到了高度认可。
权龙在三视图与 N 视图这两个关键领域的重要贡献,使他成为三维计算机视觉发展的主要推动者之一。在那个时期,权龙的贡献不仅限于此,还解决了其他视觉几何领域的诸多问题。
「六点算法」也是权龙与一众早期中国计算机视觉华人学者结缘的契机。
「六点算法」发表后,1995 年,权龙去美国波士顿参加 ICCV,在哈佛 David Mumford 实验室结识了当时读博的朱松纯。
1996 年,权龙在学术休假 (sabatical year)时到卡内基梅隆大学拜访 Takeo Kanade,结识了沈向洋。早期计算机视觉领域的华人很少,中国学者联系紧密,权龙与沈向洋的友谊也一直延续至今,乃至影响了下一代在港科大与 MSRA 的学子,这是后话。
从 1990 到 2000 年,三维视觉在欧洲的研究如火如荼。2001 年,Richard Hartley 和 Andrew Zisserman 出版多视几何理论教材《Multiple View Geometry in Computer Vision》,标志着三维视觉领域的基本理论框架确立。
这十年也是群星闪耀的十年,欧洲视觉圈涌现了一批后来名声如雷贯耳的学者人物,如 Oliver Faugeras、Richard Hartly、Andrew Zisserman、Luc Van Gool 等等,权龙作为其中少数的东方面孔,也独树一帜。
相比之下,三维重建在北美学术圈并不活跃,相关研究成果萧条,唯有彼时在通用电气公司研发中心的 Richard Hartley 发表了一系列非常有影响力的工作。实际上,Richard Hartley与牛津团队联系密切,因为他在通用电气的老板 Joe Mundy 曾在牛津学术休假,并与其团队合作过。
INRIA Grenoble 多次邀请 Richard Hartley 前往其实验室,与权龙他们讨论对三维重建的前沿探索,权龙也帮助Richard 在Grenoble 完成了他的著名八点算法。
直到 1999 年,David Lowe 提出著名的 SIFT 算法。
权龙后来告诉雷峰网,因为二人都在计算机视觉中从事感知分组的工作,他从读博开始就读过 David Lowe 的论文,直到现在还会偶尔翻阅 David Lowe 的文章,「David Lowe 写的东西都很深刻,他的成功不是突如其来的。他的成果在很多地方都能直接应用,比如 SIFT,visual features(视觉特征),是为几何而生、为做三维重建定义的。」
在法国,权龙还培养了两位得意门生:第一个博士生 Peter Sturm,他在三维重建奇异性(reconstruction singularity)方面做出了贡献,1998 年在权龙指导下完成的博士论文获得了法国第一个 SPECIF 奖(每年只颁给一篇法国计算机科学博士论文);另一个学生 Maxime Lhuillier,作为准密集方法(Quasi-dense approach)的开创者,也获得了国际模式识别大会(ICPR)的最佳学生奖。
与天才同行、求索三维视觉,充实了权龙的法兰西岁月。
港科大视觉第一人
2001 年,权龙作了一个重要的人生选择:结束 16 年「法漂」,回到中国香港。
促使权龙作出这一决定的,是时任香港科技大学计算机与工程系(CSE)的系主任钱大康。
港科大 CSE 成立于 1991 年,钱大康作为第一批教职人员在 1992 年加入。香港回归后,与大陆的联系加强,香港各高校开始招揽有大陆背景的科学家,香港科技大学(HKUST)新成立的计算机科学系也正积极招聘人员,在三维重建领域声名鹊起的权龙也进入了香港高校的视野中。
与权龙几乎是同时加入港科大计算机科学系的还有杨强,二人加入后,第二年另一位华人科学家倪明选担任 CSE 的系主任。权龙后来向雷峰网回忆,港科大的校领导「都很放手」。
于是,刚到港科大的第一年,权龙就带着积累多年的前沿计算机视觉知识,建立了港科大第一个计算机视觉实验室「 VisGraph」 。「VisGraph」 取「视觉(Vision)」和「图型学(Graphics)」两个含义,实验室坐落在九龙清水湾港科大教学楼的 4204 房间。
VisGraph 实验室内部
在法国的 16 年,权龙教导出了 Peter Sturm 等三维视觉领域的青年佼佼者。回到港科大后,他几乎相当于从零开始,只有 Maxime Lhuillier 跟他来香港。大约一年后,Maxime 将准密集方法推进到了那个时期最佳的 3D 重建算法。
香港回归后,为了吸引内地学生来港深造就业,1998 年开始,香港各高校开始通过合作、委托内地 10 所高校代招内地生。
很快,权龙加入港科大的第一年,就从北京大学招了两名学生:危夷晨与曾钢。
权龙回忆,当时北大向权龙推荐了一批优秀的学生,权龙都很欣赏,但因为科研经费不多,不敢多招,所以只拿了 2 个名额,便同年招来了危夷晨与曾钢。
危夷晨原打算去美国,最后来到香港,算得上是第一批「吃螃蟹的人」。
危夷晨曾进过实验室实习,大概知道自己不喜欢数据库方向、而是偏爱图形学的课程。到港科大后,钱大康给了危夷晨一份导师名单,危夷晨一看,名单上的方向基本都是数据库、计算理论、网络等传统学科,唯一与图形相关的就是权龙的视觉组,于是就选了权龙,可谓「机缘巧合」。
权龙带领团队的风格是追求小而美,而非建一个规模特别大的组,所以权龙一年只招一个博士生。2001 年权龙招了危夷晨与曾钢后,第三个学生就从 2003 年才开始招,2003 年招了谭平,2004 年招了王井东,2005 年招了袁路,2006 年招了方天……
谭平与王井东是通过微软亚洲研究院(MSRA)来到权龙组。前文提到权龙与沈向洋在 CMU 相识、后成为密友,权龙回港科大发展时,沈向洋正在北京 MSRA,谭平与王井东都是通过沈向洋的推荐成为博士生,港科大 VisGraph 实验室与 MSRA 的羁绊也是由此展开。
谭平是湖南娄底涟源人,15 岁就考上了上海交通大学少年班,本科学的是数学,研究生后才转去人工智能领域,在上海交大的模式识别所学习,导师为杨杰。后来模式识别所与图像通讯所合并为了「图象处理与模式识别研究所」,杨杰担任所长。
2001年,谭平在上交大听了一场沈向洋的讲座,彻底燃起对计算机视觉的热情与对 MSRA 的向往,就报名去 MSRA 实习。
在 MSRA 实习的四个月里,谭平跟着沈向洋研究计算机视觉,初步建立了对三维视觉研究的基本认知。谭平记得,当时 MSRA 的研究条件和上海较大有很大落差:上网不方便,没有数码相机、要去图像所排队借,想查最新的 PAMI 论文、但图书馆只有老的杂志,深感内地高校与海外的条件差距。
谭平觉得研究人工智能的终极目标是与机器人应用结合,所以他觉得计算机视觉的能力要求不能只停留在二维图像上,而是要有三维的感知能力才能实现机器人的移动、操作物体等,一直对三维视觉的研究很感兴趣。谭平很早读过权龙的六点算法论文,知道权龙曾留法、是当时全世界范围内三维视觉方向研究成果最出色的几个人之一。
谭平
王井东原与危夷晨、曾钢同是 97 级本科,但由于在清华大学自动化系本科毕业后选择留校读研,师从导师张长水,所以 2004 年才到香港,比危夷晨等人晚了两、三年。
而比王井东晚一年来权龙组的袁路,也是与王井东几乎同一时间在 MSRA 实习的清华学生。袁路对计算机视觉研究十分痴迷,经常会抱着相机睡觉,权龙常说「研究计算机视觉就应该学习袁路」。
方天也是沈向洋推荐和共同培养的博士生。方天的本科就读于华南理工大学计算机系,是一名三维游戏爱好者,觉得「很美、很艺术」。在 MSRA 网络图形组实习时,方天就已经开始研究三维图形学,后来在沈向洋和王立峰的推荐下来了权龙组读博。
由于「精准招生」,权龙组的学生人数基本维持到四、五个学生左右,团队成员之间的关系十分紧密,又都是来自内地,所以常常聚在一起吃饭、讨论学术研究。
那时与权龙学生同一个实验室的还有傅红波。傅红波是危夷晨在北大的师弟,博士导师是权龙的同事戴秋兰,但研究的方向是图形学,因此与权龙组的合作也很多。傅红波很有亲和力,经常会在饭点走到 4204 的门口叫危夷晨、谭平等人去吃饭,氛围很融洽。
除了博士生,权龙团队还有一个格外出众的、来自大陆的硕士生,叫肖健雄,后来圈内人称「Professor X」、创立了自动驾驶明星公司 AutoX。
肖健雄是潮汕人,本科就读于港科大计算机系,性格大胆主动,由于喜欢三维视觉,本科阶段就自己跑去找权龙说想跟他学习三维视觉。因为肖健雄是本科生,一开始权龙没太在意,就让他去实验室找一个师兄合作,肖健雄就找到了谭平、王井东,参与他们的项目,还是本科生时就发了第一篇学术论文、而且中了 2007 ICCV oral。
ICCV 2007 在巴西里约热内卢举办,权龙带肖健雄去参会,出发当天,权龙远远就看到肖健雄提了一个橘红色的手提箱走来,给权龙留下了深刻的印象。权龙问他为什么选择颜色这么出众的箱子,肖健雄回答说是因为这样「easily recognizable(辨识度高)」。
肖健雄脑子聪明、反应也快。后来权龙竞选 2011 年 ICCV 大会主席时,竞争激烈,权龙与澳大利亚的 Richard Hartley 是呼声最高的人选之一,后面由于记票场面混乱,大会就在竞选会议室开了两个门、分别代表权龙与另一位竞选者,投票者从哪个门出去、就表示选谁,肖健雄做了很多参会者的工作,使权龙以几票之差险胜。
所以 2008 年肖健雄本科毕业后,权龙就把他招进了组里读 Mphil。肖健雄的本科与硕士论文都是关于三维重建与街景分析,硕士时期的成果还影响过谷歌无人车的研究(谷歌团队早期研究无人车是以谷歌街景为基础)。
肖健雄申请去美国读博时,权龙给他写推荐信,原先想写「He is a genius」(电影《美丽心灵》纳什推荐信的典故),后来委婉点改成了「outstanding」。拥有出色履历的肖健雄受到美国各大高校的哄抢,最后他选择了麻省理工学院(MIT)。
肖健雄
从头发到地球
2012 年后,计算机视觉的风尚从卷积神经网络识别到视觉生成大模型,但 2012 年之前相当长的一段时间里,三维重建都是视觉研究的核心问题。此外,计算机视觉与图形学两个方向的交叉也很多,权龙领导 VisGraph 也不局限在 CV 的圈子里。
与「唯论文数量」的实验室风格不同,权龙从不要求学生追赶论文「死亡线」,也没有规定学生必须发表多少篇论文才能毕业。他的指导风格随和,给予学生极大的自由度,每个人都可以探索自己感兴趣的方向,所以危夷晨、谭平等人都觉得,在 4204 实验室很有安全感与归属感。
一群优秀的学生聚在一起,彼此之间也很容易形成竞相向上的拉力。谭平回忆,读博时实验室的师兄弟经常一起泡实验室,权龙每天都会来实验室与大家交流,权龙随时来、学生随时在。权龙会过问技术细节、与学生深入探讨问题,治学严谨、热情,常常感染实验室的同学。
谭平记得,权龙在课上做过一个实验,让谭平拿着两支铅笔、笔尖与笔尖触碰。这个过程中,如果谭平蒙上一只眼睛,只有一只眼睛校对,一开始笔尖与笔尖没对齐,就会发现之后再怎么对也对不上。权龙通过一个简单的实验,就让学生体会到,人是靠双目才有深度、立体的感觉,才能使笔尖与笔尖碰上。
当时整个实验室都被权龙点燃,对三维重建的研究热情高涨。
三维视觉的发展大约经过五个阶段:首先是理论阶段,方法是根据单张图片的光影变化将物体的三维形状恢复出来(即「shape from shading」,开创学者是 Bruce Horn);其次是双目或多目阶段,通过多相机从不同角度拍摄构建三维形状,代表有法国 INRIA,代表有 Richard Hartley、权龙等;接着是视觉 SLAM(指相机在运动时通过算法求出相机的三维姿态);最后是与图形学交叉结合,以及挑战动态场景(代表是 XR)。
权龙先前的代表作是六点算法,2000 年后三维重建领域出现了许多新的问题,如稀疏重建。稀疏重建是指从一组稀疏的三维点或特征中恢复出场景的三维结构,一般会先去求解相机位置,然后得到一个表示场景中关键特征点的稀疏点云,其中视觉 SLAM 是一个关键解法。
简单来说,视觉 SLAM 是一项用相机来收集数据点、并创建地图的技术,现已被广泛运用于无人机、扫地机器人以及苹果的「当红炸子鸡」Vision Pro 中。但在千禧年初始,这个方向并不受重视,研究者也寥寥无几,权龙团队是全球最早研究这一方向的团队之一。
作为最早吃螃蟹的人,彼时团队投稿 Visual SLAM 的论文常常被拒,直到 2007 年以后才开始有大量工作出现。谭平回忆,在自己进入实验室的很长一段时间里,权龙与师兄弟们都是在痛苦地「屡败屡战」。
早期物体的三维建模往往是通过在 3D Max 或 CAD 软件中手动拖拽完成,然而,现实世界的复杂性远远超出了这些软件的直观操作范围。即使是一盆花,用 3D Max 进行三维建模也非常痛苦。相比之下,从图像中提取三维信息则简化了物体的建模过程,同时还能保持物体的细节。
所以权龙也很早带领学生研究基于图像的三维建模,后来还开拓了 Image-Based X Modeling(简称 IBM)系列。
2005 年,港科大视觉实验室关于 IBM 的第一个工作发表在计算机图形学顶会 SIGGRAPH 上,建模对象是头发。2006 年,权龙团队又发表了围绕植物的建模,2007 年、2008 年、2009 年实验室的 IBM 工作也相继中了 SIGGRAPH,建模对象也从头发、植物升级到建筑、街道与城市。
如今自动驾驶领域的高精地图,智慧城市的房屋与道路建模等技术成熟,许多工作就是从当时权龙团队的工作延续而来的。
危夷晨与曾钢最早加入研究中,危夷晨主要研究头发建模,后续也发表了数篇相关的文章,曾钢的重点则是与植物有关的建模。
谭平参与的项目最多,历经了从花、街道到整个城市复杂场景的三维建模。王井东擅长用图、半监督等方法处理图像分割问题,将在清华实验室习得的机器学习经验,迁移到以应用为重的项目中。而擅长写程序的方天是一位摄影发烧友,常给文章提供具有「艺术家审美」的建议。
深度学习风潮来临前,SIGGRAPH 是计算机图形学的独有的顶级会议,影响力极高,GPU就是诞生于图形学。而权龙团队的 IBM 系列均被 SIGGRAPH 接收,研究含金量可见一斑。
权龙对港科大视觉实验室学生的一大影响是对事物的执著追求。方天向雷峰网评价,权龙是一个非常纯粹的人,做研究会坚持一个方向。那时他们在港科大研究三维重建,虽然领域人迹罕至、论文屡遭碰壁,但权龙认为这个方向有价值,坚持探索,终成开路人。
谭平记得,读博时他们去参会,权龙在法国早期的学生都已经很成功,是学术圈有名的人物。权龙的地位也很高,但为人却很简单,希望学生去抓住一个最根本的点,将复杂的事情简单化,「有种大道至简的感觉。」方天形容。
有时权龙与学生讨论问题,会一开始提出 a 方案,实验室的学生不相信,总觉得可以搞 b、c、d 等等 N 种方案,结果兜兜转转一圈,发现 a 方案就是最简单的。「人生的许多事,无论是做生意、还是做科研,如果一个人的思想太复杂,就会充满各种各样的小技巧,变得十分疲惫。」
因为权龙,「简单是终极的复杂」不仅是一句印在苹果第一本产品宣传手册中的 Slogan,港科大视觉实验室内各人对简单、纯粹也有内心深处的体会。
一根藤上几朵花
重视产研结合是港科大视觉实验室的传统。得益于权龙与沈向洋、MSRA 的紧密联系,权龙的许多学生也在读博时期就加入了 MSRA 实习,成为北京与香港两地飞的「双城住民」。
读博时,危夷晨、曾钢、谭平、袁路都在 MSRA 实习过,而且是在不同的组,每个人有一位 mentor「靠山」:危夷晨是图形组的以色列老板 Eyal Ofek,曾钢是 Yasuyuki Matsushita,谭平是 Steve Lin,袁路是孙剑。
危夷晨被 SIGGRAPH 接收的头发建模论文就是 VisGraph 与 MSRA 团队合作的成果。
那时 MSRA 是大陆在 SIGGRAPH 的明星团队,沈向洋带着MSRA 横扫 SIGGRAPH。之后,MSRA 图形组每年都能中好几篇SIGGRAPH,孙剑也是在那时候成长起来。从 2003 年到 2006 年,孙剑每年都发两篇 SIGGRAPH。SIGGRAPH 的工作量很大,很讲团队合作,孙剑跟贾佳亚合作,也是在那时候与贾佳亚建立起了深厚的友谊。(更多往事可看雷峰网先前报道:《港中文「1026实验室」往事:贾佳亚与他的学生们》)
2006 年博士毕业,危夷晨就直接加入了 MSRA 的视觉组。
危夷晨的代码写得不错,自我要求很高,一个趣事是,博士快毕业时,权龙让危夷晨整理出一份代码交接给师弟们学习。那套代码相当于 OpenCV 的外包渲染库,后续实验室的师弟们一直在用,后来权龙每次到 MSRA 都表扬危夷晨。
危夷晨在 MSRA 工作了 12 年,期间在物体检测、识别与姿态估计方向的许多工作是微软多个产品的基础,包括 Xbox Kinect,Windows Hello、Bing、Office、Hololens、Microsoft Cognitive Service 以及微软小冰等。其中,Xbox Kinect 一经推出就销量破千万,号称史上最成功的消费级电子产品。
2014 年,危夷晨等人在 CVPR 发表的每秒 3000 帧人脸关键点检测技术,也是第一个能够在 PC和手机上实时运行的全自由度手势跟踪系统,大幅提高了性能和精度,在业界影响巨大,启发了该领域后续一系列的工作。
在 MSRA,危夷晨也思考清楚了自己的发展方向:他更愿意做能落地的产品技术研发,而非单纯的科研。后来,孙剑离开 MSRA 加入旷视,危夷晨也在孙剑的邀请下于2018年加入了旷视、担任旷视上海研究院负责人。
谭平没有在 MSRA 全职工作过,但也以实习生的身份在 MSRA 实习了七年,研究生三年加博士四年。MSRA 为实习生提供免费的双人宿舍,宿舍在北航招待所一块,包吃包住。读博时,谭平每年基本都是几个月在北京、几个月在香港,因此自己调侃为「千年老 intern」。
谭平评价,MSRA 的实习是改变命运的经历,「当时和很优秀的研究人员一起合作,大家志同道合,合作写论文,一点都不觉得苦。第一次投 SIGGRAPH 时,截稿的最后一个星期我干脆就睡在桌子底下,完全不想回宿舍,就觉得还差一点点。」
王井东与危夷晨的经历相似,2007 年博士毕业后加入 MSRA 全职,一共在 MSRA 度过了 14 年后才离开。王井东在微软的日子大体可划分为两个七年:
在第一个七年中,王井东致力于计算机视觉技术在多媒体搜索中的应用。2007年,面对必应图像搜索的挑战,刚博士毕业的他被派去解决多媒体搜索中的图像检索难题,和团队一起开发了基于草图的图像检索技术,显著提升了搜索效率。
围绕图像搜索,王井东从应用转向基础关键算法研究,深入研究了近似最近邻算法(ANN),并设计了一种基于近邻图的 ANN 搜索算法,该算法在2014年被应用于必应的图像搜索和广告中,成为商业产品中的一个创新应用。
进入第二个七年,王井东的研究重点转向了深度学习。早在 2005 年,王井东在香港读博时便参与过卷积神经网络(CNN)车牌识别项目。而在微软,王井东开始探索深度学习算法在新应用中的潜力,并关注视觉网络架构的设计。
2015 年,他提出保持高分辨率表示的想法,并在 2018 年领导团队设计了 HRNet,该架构在 2019 年的 CVPR 上发布,迅速获得了学术界和工业界的广泛关注。HRNet 的设计突破了传统的分类架构,通过高中低分辨率的不断交互融合,保持了高分辨率的特征表示,适用于多种视觉任务。
直到 2021 年,王井东才离开微软,加入百度任计算机视觉首席科学家,为百度多条业务线提供视觉技术支持。
权龙(左)与王井东(右)
袁路是在 2009 年博士毕业后进入 MSRA 视觉计算组工作,至今仍在微软供职,现在是微软云与 AI 认知服务研究部门的首席研究经理,参与研究多模态大模型。
在微软的十五年间,袁路主要钻研计算机视觉、图形学、计算摄影学和应用机器学习,多项研究成果被运用到微软的产品和应用中,包括微软 Pix 相机、OfficeLens、BLINK、Hyperlapse,其主持研究开发的「微软自拍」APP,主打智能美颜、低光照美化照片等功能,曾获得54个国家「最佳新APP」。
曾钢与谭平博士毕业后没有加入微软,而是首先进入了学术界:
2006 年毕业的曾钢先是去了苏黎世联邦理工学院从事助理研究员工作,现成为北大人工智能研究院的研究员与博士生导师。2007 年毕业的谭平先是去到新加坡国立大学电子与计算机工程系任助理教授,2014 年又转去加拿大。
拿到教职后,曾钢和谭平都向权龙请教过如何当一名「青椒(青年教师)」,权龙给了他们三个建议:好好上课,多拿经费,用心带学生。
更彻底的工业主义
2012 年后,深度学习崛起,计算机视觉成为一门显学,受到了资本的热情追捧。对着港科大视觉实验室在三维重建上的研究逐步深入,权龙也开始思考一个新的问题:如何将实验室的研究成果产业化?
港科大历来有产学研结合的传统,高秉强、李泽湘与甘洁组成的「铁三角」是港科大产学研的代表,例如,高秉强投资的安防 CIS 龙头思特威就在 2022 年成功上市。技术成果转化最直接彻底的方式无疑是创业。
权龙和学生们创业的契机可以追溯到 2012 年。
方天在他的博士研究中为一系列基于图像的建模工作做出了贡献。毕业后,方天继续留在实验室当博士后,当时无人机市场开始爆发,智能手机也越来越普及,作为一名摄影发烧友,方天也开始琢磨起用这些新设备拍照。
方天内心的想法是:怎么结合越来越好的数字图像拍摄硬件和自动化的三维重建技术让更多的人可以轻松重建三维模型制作三维内容。
这个想法与权龙一拍即合。而恰好方天在博士期间做了大量的工程开发为这个想法打下了基础。现在万事俱备,只欠东风。
2015 年,权龙就与方天还有别的博士生一起创立了 Altizure。
Altizure 开发了一个3D重建云平台,适用于来自相机、手机和无人机的所有图像,已成功应用于大规模 3D 建模。
同时,他们也开始制作城市级别的实景三维模型,为智慧城市和安防系统提供了基础,还进一步拓展了其技术的应用范围,为测绘和地理信息行业提供大规模数据处理服务。
权龙十分认可方天的想法,在他看来,三维重建技术的核心在于数据的获取。随着硬件设备的普及,智能手机、无人机与无人驾驶中的车载相机都配备了高质量的摄像头,能为三维重建提供了丰富的素材。消费级无人机的普及更是让自动化和大规模的数据收集成为可能。
2015 年 Altizure 成立,权龙与方天就同步推出了同名的核心产品。作为一个创新平台,Altizure 能够将无人机航拍照片转换成三维实景模型。在权龙和方天的规划中,Altizure 将利用无人机飞手的力量,逐步重建出整个地球的三维模型,形成一个众包的 Google Earth。
Altizure 一经发布,便深受无人机爱好者和专业用户的青睐。
起初,Altizure 只开放了网站这一个面向消费者的入口。随着技术的逐渐成熟,权龙和方天意识到,服务应更多地面向企业和政府,即 2B 和 2G 市场。
于是 Altizure 也开始制作城市级别的实景三维模型,为智慧城市和安防系统提供了基础,还进一步拓展了其技术的应用范围,为测绘和地理信息行业提供大规模数据处理服务。
由于出色的三维建模技术, Altizure 很快被国际大厂并购。
而在权龙与方天之后,VisGraph 的第二位创业者是肖健雄。
肖健雄 2009 年去 MIT 读博,隶属于知名的计算机科学与人工智能实验室(CSAIL),专注于大数据驱动的三维场景分析研究,博士期间获得了2012年 Google Research 的最佳论文奖。之后,他加入普林斯顿大学担任助理教授,研究如何将三维视觉应用在机器人领域,开拓了 RGB-D 场景分析和三维深度学习两项创新研究,在无人驾驶、Visual SLAM 和机器人控制等实际应用领域都展现出了巨大潜力。
自动驾驶兴起后,2016 年肖健雄就辞掉了教职、投身创业大潮,创立了自动驾驶技术公司 AutoX,专注在 L4。
继肖健雄之后,VisGraph 的第三位创业者是谭平。
2019 年,进入学术界 12 年后的谭平对工业界还是热情不灭,遂回国投身 AI 产业建设,但过程有些坎坷。
他先短暂加入 360 担任人工智能研究院副院长,与颜水成搭档。当时 360 有意研究自动驾驶,谭平擅长的三维视觉正是高精地图、导航、避障等问题所急需的。后来,360 终止了自动驾驶业务,团队将研究成果转化为了一款扫地机器人。扫地机器人产品上市后,谭平就离开了 360。
后在浅雪的邀请下,谭平加入了阿里人工智能实验室担任视觉首席科学家。
谭平专长 3D 视觉,这方面的人才在国内长期稀缺。当时阿里人工智能实验室的发展很好,有天猫精灵与自动驾驶等团队,谭平想研究 XR,浅雪也在规划相关产品,找到谭平,就加入了阿里。但没多久,公司组织结构调整,阿里人工智能实验室就被解散。之后谭平转去阿里云呆了一年半,21年又转去阿里达摩院担任 XR 实验室负责人。
在 XR 实验室,谭平希望打造一款面向消费者的MR眼镜,将元宇宙这一愿景打造成下一代互联网。在他设想的产品里,显示、交互都将从两维升级到三维。社交、电商、娱乐应用都会被彻底颠覆,用户可以直接沉浸式的和虚拟信息面对面交流。
巅峰时期,阿里的 XR 实验室有 200 多名研发人员,分散在北京、杭州、深圳乃至以色列。然而到了 2022 年,XR 热潮逐渐消退,阿里在 XR 方向的研发策略也有所调整,谭平领导的 XR 项目只做了一年就被紧急叫停,许多员工选择离开,谭平也于年中离职。
因为阿里的这段经历,谭平意识到,如果他想将 XR 技术落地,或许不如参考导师权龙的方式:在高校做产学研孵化。所以 2023 年,谭平加入了港科大任教,研究三维生成模型,又创立了 AI 科技公司光影焕像(Light Illusions)。
谭平在港科大的办公室就在曾经 VisGraph 的 4204 实验室楼下。谭平由此向雷峰网感叹,他在学术界与工业界之间多次兜转跳跃,「又回到了梦开始的地方」。
2021 年,危夷晨在旷视经历了三年多摸爬滚打的创业经历后,意识到需要深入扎根到具有重要价值的行业,需要将人工智能算法和工程、产品等专业更好地结合起来。他选择了医疗行业,加入了数坤科技任联席 CTO。
写在最后
创业公司被收购后,权龙每周都从清水湾往返于铜锣湾的办公室,每次通勤都要花一个小时,很辛苦。但权龙依然选择住在港科大附近。
港科大远离繁闹的市区,自封为「金牌导游」的权龙对校内每个能看到海和岛的景点了如指掌。闲暇之余,权龙还喜欢领着来港科大拜访他的学者、业界朋友们在校园里溜达。权龙的学生们谈到,他的身上总是流露着一种难以模仿的「松弛感」。
极具松弛感的权龙早早选择了三维视觉这条彼时人迹罕至的路「一路走到黑」,从太原、北京、法国到香港,从 ICCV 第一位中稿华人到 ICCV、CVPR 的大会主席。
值得一提的是,权龙更是迎接新 AI 时代前夕的大会主席:2011 年权龙担任 ICCV 大会主席,CNN(卷积神经网络)在下一年诞生;2023 年权龙成为 CVPR 大会主席,生成式 AI在下一年成为焦点。
这一切既是偶然,又是必然。
危夷晨、曾钢、谭平、王井东、袁路、方天、肖健雄、张宏辉、王婧璐,、朱思语、黎世伟、罗梓鑫、张润泽、镇明敏、周磊、申天纬、姚遥、张京阳、陈鸿凯、尚嘉祥等人从权龙的实验室走出,也从三维重建走向计算机视觉的多个方向,并肩同行、又散作满天星。二十年过去,他们成为中国三维视觉的代表人物。
对于三维视觉的探路者来说,他们历经统计学习、深度学习再到大模型时代,几起几落,但始终都在努力跟上时代的前沿,站在视觉的思维去思考眼前的美好世界。
比如,危夷晨告诉雷峰网(公众号:雷峰网),从港科大到 MSRA、旷视、数坤,他一直在尝试打破自己过去的认知和经验。谭平最近将 AGI 话语体系下的「世界模型」与机器人领域的「运动模型」结合起来,也有新的认知,常学常新。
4204实验室的故事已告一段落,但他们的篇章仍未完待续。
(雷峰网前编辑郭思对本文亦有贡献)
本文雷峰网作者 anna042023 将持续关注AI大模型领域的人事、企业、商业应用以及行业发展趋势,欢迎添加交流,互通有无。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
Tags: