中国专业家居装修装饰时尚门户网站
首页 >> 国内财经

李学龙(将港中文建成中国 AI 视觉黄埔军校的人)

来源:峰值财经 发布时间:2023-04-25 浏览量:

将港中文建成中国 AI 视觉黄埔军校的人

香港中文大学的计算机视觉发展在全球享有盛誉,是中国 AI 研究成就的一个重要注脚。2012年,当深度神经网络 AlexNet 以错误率降低40%的成绩,拿下 ImageNet 挑战赛的冠军,在中国南方的这座岛屿上,有一群人已经在深度学习道路上探寻了一段时间。

他们走在时代的前面,率先扛起视觉研究的大旗,推动一项项技术取得突破性发展;他们也得到了时代的馈赠,多数从港中文走出来的少年后来在中国高校、企业中担任要职,形成了计算机视觉领域的“港中文现象”。

值此深度学习崛起十周年之际,雷峰网设立“深度学习崛起十年”系列, 以“十年十个故事”的方式,记录深度学习发展历程中的重要瞬间,展现华人研究者们对深度学习的推动,致敬这一波深度学习浪潮中的中国元素。

本文是“深度学习崛起十年”系列的第三篇。

一九九七年,秋冬时分,位于中国科技大学西区教三楼最东面的信息处理中心迎来了两位「不速之客」。

一位是中科大9406班的学生李学龙。

彼时他刚升大四,准备保研本校,正在找导师,来到信息处理中心、希望提前跟着高年级的学生熟悉科研,然后加入时任中心主任的刘政凯教授门下研究图像处理。

中科大的信息处理中心(IPC)始建于1988年,隶属于电子工程与信息科学系(代号6系),聚集了很多像李学龙一样的6系学生,被称为「IPCer」,研究氛围很活跃。

李学龙到中心后,里面有很多自己熟悉的面孔,但有一个人,穿着洋气,谈吐幽默,不是6系的学生,格外引起他的注意。

这个人,就是汤晓鸥。

将港中文建成中国 AI 视觉黄埔军校的人

将港中文建成中国 AI 视觉黄埔军校的人

李学龙

如果把时间拉回到2001年,像王晓刚这样的天才学生,选择到一个毫无名气、又初初成立的实验室去读书,其实是一件不可思议的事情。

这中间,李学龙的搭线起到了重要作用。

王晓刚来自中科大00班(9600)。那时能进中科大的已经是学霸,能进00班的更是学霸中的学霸:

当时的教育分级化还没有那么严重,许多能上清北的学生都不去清北、而是选择去中科大(如科大讯飞的董事长刘庆峰),而能进00班的,一般都是每年各省报考中科大的前三名。

而且,王晓刚还是00班最出类拔萃的学生之一,在校期间获得过中科大学子梦寐以求的最高奖——郭沫若奖,奖金2000元。AI圈另一位获此荣誉的中科大校友是邓力,全球第一个将深度学习在产业应用上成功落地的人。

将港中文建成中国 AI 视觉黄埔军校的人王晓刚

当时李学龙在中科大信息处理中心读博,与所有人的关系都很近。王晓刚也在中心做研究,李学龙知道汤晓鸥想招一些优秀的学生去香港做研究,就推荐了王晓刚。

同是中科大毕业的汤晓鸥一看,立刻判断出王晓刚的分量,很快动员了王晓刚加入当时才刚成立不到两个月的MMLab。

一年以后,李学龙又推荐了徐东和陶大程,两位9706班的同学去香港。那时,陶大程的数学基础就非常突出,创新和编程能力也很强。

徐东告诉雷峰网,那时国内最火的领域其实是通信,他们同学一度最想去的是研究通讯技术的实验室,因为有机会到UT斯达康(生产小灵通的公司)这样的企业去实习,实习工资很高,一个月就能给到三千。而AI是冷门方向,大家对汤晓鸥正在研究的人脸识别、CVPR等更是毫无概念。

听了李学龙对港中文与汤晓鸥的介绍后,陶大程很感兴趣,徐东则没有太动心,而是选择留在中科大,直到2004年才去MMLab访问。

将港中文建成中国 AI 视觉黄埔军校的人陶大程

王晓刚与陶大程到港中文都是读的研究型硕士(MPhil),两年制。王晓刚是2001年入学,陶大程是2002年入学。

汤晓鸥强调两点:一是科研方面的自学能力,二是研究交流方面的「华山论剑」,即向CVPR、ICCV、ECCV这三大计算机视觉领域的顶会投稿。

这种对在顶级会议发表文章的重视程度,是汤晓鸥在MIT读博时形成的认知。

他一直认为,做研究就像比武论剑,要论剑就要到华山论剑,如果去太行山、大别山论剑,即使声名大噪,也难以与全球其他杰出团队论资排辈。

在汤晓鸥的影响下,实验室的同学们对做高水平的研究也很执着。硕士两年,单单是研究论文,王晓刚就打印了几大箱。因为功夫扎实,加上无比的勤奋,王晓刚硕士两年在CVPR和ICCV上一共就发表了5篇论文。

在他们的努力下,2004年,整个MMLab在CVPR上发表的论文数量甚至达到了7篇,王晓刚、陶大程、李志峰(9400),每人分别有两篇文章被接收,而当年CVPR在全球的论文接收总量也不过三百来篇。

那时举目全球,能在顶级会议上发科研论文的学生也是屈指可数,所以两年硕士结束后,王晓刚和陶大程都相继拿到了世界顶级学府的读博通行证:

2004年,同一年,王晓刚去了美国的MIT视觉组读博,陶大程则被英国的剑桥大学录取。但是,最终陶大程去了伦敦大学伯贝克学院追随计算机视觉的知名学者Stephen J Maybank教授读博。

王晓刚从美国学成归来后继续与汤晓鸥搭档,成为MMLab的灵魂人物,把MMLab推上了一个更高阶的水平,共同创立商汤科技,担任商汤研究院的院长,是中国推动计算机视觉技术产业化的重要人物。

陶大程在英国完成博士学习后,于2007年加入香港理工大学做助理教授,加入京东前在悉尼大学任澳大利亚桂冠教授,不到40岁当选澳大利亚科学院院士。目前就任京东探索研究院的首任院长、京东集团高级副总裁。

在MMLab读研期间,他们奠定了整个MMLab的研究氛围:以顶会「死亡线」(Deadline)为目标制定科研规划,在投稿前熬夜备战冲刺,并且阅读大量的科研论文。

比如后来,林达华到港中文时,汤晓鸥就把王晓刚去MIT读博前留下的几大箱论文给了林达华。林达华制定一个论文阅读计划,规定每天要读X篇论文,到两年硕士毕业时,他已经读了2000多篇论文,基本把当时计算机视觉方向的所有论文都读了一遍,由此入门该方向。

2004年,颜水成也「意外」地来到了港中文。

颜水成是1995年湖南衡阳高考的榜眼,高分考进了北京大学数学系,本硕博连读。2001年开始,颜水成在微软亚洲研究院(MSRA)媒体计算组跟着张宏江实习,期间认识了常来MSRA访问的汤晓鸥,开始相熟。

2002年,汤晓鸥与高新波(重庆邮电大学校长)、张宏江(智源研究院院长)一起在IEEE神经网络期刊上发表了一篇论文(“A Spatial-Temporal Approach for Video Caption Detection and Recognition”),由此与MSRA建立了联系。

2004年颜水成博士毕业时,想到境外的高校当博士后。

当时,刚好汤晓鸥从香港创新科技署拿了600万港币做一个人脸识别项目,同时汤晓鸥又受张宏江和沈向洋的邀请去MSRA领导视觉计算组,需要一个人在港中文领导项目的开展,就找了颜水成。

颜水成于是先去港中文做博士后,研究(3D)人脸识别。

颜水成

颜水成是第一个加入MMLab的清北学子。此前MMLab的生源主要来自中科大,汤晓鸥到MSRA访问后,开始招纳北京高校的学生(如何恺明),MMLab也一度被称为「清北分舵」。

没过几个月,徐东也来到了MMLab访问,还有刘青山、唐明、林达华、曹亮亮等人。

颜水成加入后,还带去了他在北大的班友许春景。许春景先是做研究助理,后又读博。如今,许春景担任华为诺亚方舟计算机视觉实验室主任。MMLab最先去华为的是刘健庄,带了张维,之后还有李振国等人。

这段时期,颜水成、徐东等人的加入对MMLab的发展承接至关重要,因为那时的汤晓鸥受聘去MSRA,经常需要长时间呆在北京。

当时香港的研究比内地发达,但与美国的机构相比还是差一大截,汤晓鸥当时也只是一个副教授,而MSRA是全球科技巨头微软的分舵,向MSRA看齐就是向全球顶尖看齐。

MMLab的研究氛围与MSRA很像,都重视发论文、顶会熬夜赶DDL,所以颜水成和徐东很适应。

颜水成与徐东是在MSRA实习时的好伙伴。在MSRA,徐东跟着张磊,颜水成跟着张宏江,张磊的团队在张宏江领导的大组内,徐东也由此跟着颜水成一起做研究。有一年,他们一起合作投顶会,一口气就投了7篇论文、一下子中了5篇,之后两人研究交流也很紧密。

将港中文建成中国 AI 视觉黄埔军校的人徐东

在MMLab的两年,林达华也取得了很杰出的成果:两年硕士一共中了7篇论文,顺利申请到了MIT读博,实现了当初来到港中文读研时的目标。

汤晓鸥说服林达华到港中文读书的谈话,是一场典型的「汤老师会谈」:

那是2003年。林达华在香港科技大学交换,受权龙的影响对计算机视觉产生了兴趣。当李学龙跟他说港中文相关方向的汤晓鸥老师想招一些学生去做研究时,林达华就给汤晓鸥写了一封邮件,汤晓鸥立刻约他见面。

林达华所交换的港科大位于清水湾半岛,汤晓鸥所在的港中文靠近深圳罗湖。林达华坐接驳公交到附近的地铁站,又坐了一个多小时才到港中文所在的大学站,累得要死。结果见面没多久,汤晓鸥就跟他说,你很有希望上MIT。

这让21岁的林达华很震惊:上MIT,那可是全球最强的学府。林达华此前想都不敢想,但汤晓鸥就这么随意地说了出来。

「汤老师在他整个事业的发展上真的是一个很优秀的HR。」林达华事后笑道。

汤晓鸥用了超过一半的时间去吸引优秀的人才。

林达华告诉雷峰网,汤晓鸥游说人,不是跟人分析加入他的团队后能做什么,而是告诉别人:你在未来能到达一个怎样的、极其有吸引力的高度,并且告诉他们一条清晰可行的实现路径。

据说汤晓鸥游说王晓刚、何恺明等等青年加入他的团队时,也都是类似的「套路」。而且,他看准的人才,会一遍一遍地游说,直到对方同意或再无可能。

他把这些优秀的人聚在一起,还给了大家一种「是在为自己的前程奋斗」的感受,所以团队出成果很容易。

林达华当然很心动,没有多犹豫就决定了去香港读研。后来,林达华也确实去了MIT读博,还跟王晓刚一样成为接棒MMLab发展的重要人物,现在是MMLab的主任。

林达华

再说回颜水成和徐东。

他们当时更多是处于博士毕业、找教职的拐点,而在香港的访问,给他们的简历增加了「国际色彩」。在MMLab访问了6个月后,徐东回MSRA又呆了9个月,然后就去了美国的哥伦比亚大学当博士后,颜水成也去了美国的UIUC当博士后、师从华人视觉鼻祖黄煦涛。

再后来,他们结束在美国的研究生涯找教职时,也是首先将目光定在了香港与邻近香港的新加坡。对于这个决定,黄煦涛也赞同,认为他们应该「Return to Asia(回到亚洲)」,因为他们不是美国本土培养的博士生。

徐东拿了南洋理工大学(NTU)的offer,后来去悉尼大学、现在又返回到了香港,在香港大学任职。颜水成本来是计划与徐东一起去NTU,后来又收到了新加坡国立大学的offer,就去了新加坡,后来无论是辗转在360、依图还是虾皮,也都带出了许多优秀的中国研究者。

MMLab的名声开始远扬:全球的计算机视觉研究者都开始知道这座位于香港北边的实验室。

林达华告诉雷峰网,2005年他去CVPR参会、作演讲时,虽然只是一名硕士生,但已经有很多人知道他、知道汤晓鸥。

但客观来说,此时汤晓鸥的名气和地位跟如今相比还是有较大差距,MMLab与MIT、斯坦福几个高校的顶尖实验室相比,也还不是一个等级。

真正的拐点发生在2009年。

那一年,MMLab发生了两件重要的事:一是MMLab与MSRA合作的论文获亚洲第一篇CVPR最佳论文(何恺明一作),声名大噪;二是王晓刚回归,与汤晓鸥搭档、将MMLab及时搭上了深度学习的春风,让这个实验室、以及与这个实验室相关的人都成为了谈论中国计算机视觉历史时绕不开的话题。

那一年,汤晓鸥也凭借在模式识别和视频处理方向的成就入选了IEEE Fellow(全球电子工程领域最高荣誉)。

将港中文建成中国 AI 视觉黄埔军校的人汤晓鸥与何恺明(右)

汤晓鸥选择加入MSRA的决定,与他当时接受张宏江与沈向洋的邀请担任视觉计算组主任的第二天就决定在北京买房一样,具有深谋远略。

MSRA成为汤晓鸥与内地联系的起点,他在MSRA发现了何恺明、崔靖宇这样的天才学生。2009年他从MSRA离开后,又加入了中国科学院深圳先进技术研究院(简称「深圳先进院」),运用先进院的庞大计算资源帮助MMLab在早期成为全球最早跑通深度学习的团队。

2009年王晓刚回到港中文后,虽然加入的是电子工程系,但与汤晓鸥和MMLab的关系很密切,两人在指导两边学生上找到了很好的配合模式:汤晓鸥负责找前沿的大方向,王晓刚负责带学生执行,成果开始更加爆发,影响了更多 AI 青年。

这一时期的青年,有罗平、欧阳万里、周博磊(现任教于UCLA)、赵丛(大疆首位AI掌舵人)、徐冰(商汤联合创始人)等等博士生,还有赵德丽(阿里达摩院视觉带头人之一)等研究助理,人员规模大约有四十人。

说回深度学习。

汤晓鸥第一次听说深度学习,也是因为MSRA:

2009年,当时在微软雷德蒙工作的中国科学家邓力与深度学习三巨头之一的Geoffrey Hinton第一次将深度学习应用于大规模语音识别,只用了很短的时间就完成了微软一个庞大团队花几个月做的事,在业内小范围引起了轰动。

敏锐的汤晓鸥很快嗅到这个新方向的潜力:他心想,语音的信号与视觉差不多,既然深度学习能在语音上取得惊人的效果,那深度学习也可能在视觉上取得惊人的效果。当即和王晓刚商量。

王晓刚在MIT读博时研究计算机视觉的方法主要是概率图模型,但也听过神经网络,也很感兴趣,坚定要研究神经网络。

徐东告诉雷峰网,事实上,2011年他去UIUC黄煦涛的组里访问时,也有人跟他说过神经网络。他听到之后觉得很有意思,但因为当时在研究视觉域适应,方向不一样,没有精力再去关注这一块。直到2012年AlexNet大火、他才开始用深度学习做图像处理。由此一对比,就更加佩服汤晓鸥和王晓刚早期的科研嗅觉。

对于这个当时很少人关注的方向,汤晓鸥和王晓刚选择了两位学生来探索,其他人继续做原来的工作。这两位被选中的学生分别是欧阳万里和罗平。

欧阳万里

欧阳万里属于电子信息工程系,师从香港视频编解码大牛湛伟权,王晓刚初任教职时与湛伟权共同指导一些学生,就认识了欧阳万里。

罗平比欧阳万里晚两年(2011年)到港中文,此前在中山大学就读,期间跟着朱松纯(现北京大学人工智能学院院长)在湖北莲花山研究院做过很多计算机视觉方向的研究,读博前就已经在ECCV等顶会上发过文章。

罗平告诉雷峰网,最开始他们研究计算机视觉是用玻尔兹曼机(深度学习的前身)。去到港中文后,汤晓鸥让他研究人脸识别,他本来也是用玻尔兹曼机来做,但后来转用深度学习,效果也很好,就果断换了方向。

罗平

这当中,主要角色是王晓刚。汤晓鸥决定要研究深度学习后,王晓刚坚定推进,一直在关注欧阳万里和罗平的研究进度,跟他们一起看国外的相关论文、把控方向等。

一般来说,在读博士生与自己导师的交流不会很紧密,但罗平回忆,博士第一年,他几乎每天都能看到王晓刚。王晓刚的办公室在四楼,罗平的座位在七楼,王晓刚几乎每天都上楼来跟他讨论工作。

那时研究深度学习的条件是很差的。类似Caffe这样的早期深度学习框架还没出现,全球能跑通深度学习的团队屈指可数,他们从零开始,是摸着石头过河。

最开始,他们是用C++写代码在CPU来跑。罗平回忆,他发表在CVPR上的第一篇深度学习文章是在个人笔记本电脑上完成的。

汤晓鸥在深圳先进院有任职,港中文团队与内地学者深入合作,可以申请一些内地的项目,拿到经费后就买了很多CPU。当时他们根本没有拿GPU来跑的意识,结果一个研究做了几个月,都没有获得好的实验结果,调一次参数、又是几个月。

那时王晓刚还是一个处于长聘制(Tenure Track)考核的助理教授,其实是很有压力的。但他们就是失败了又继续、失败了又继续,从来没有过放弃的说法,所以在AlexNet火起来之前就积累了很多经验。

比别人先行那么一点点,就拉开了那么大的差距。

据统计,2011年到2013年期间,港中文MMLab在ICCV和CVPR上一共发表了14篇基于深度学习的研究论文,占了两大顶会在全球范围内接收的深度学习论文总量(29篇)的一半。

港中文学者在全球计算机视觉研究领域封神。

因为汤晓鸥、王晓刚这批人的存在,加上港中文有越来越多的名师与才子(如贾佳亚一脉),每次计算机学科分类排名,港中文或香港总是在「计算机视觉」一列排名前三,基本排名第一。

到了2014年,港中文在深度学习视觉上的研究已经突破了学术与科研的边界,开始体现出落地与产业化的野心:3月的GaussianFace人脸识别算法在LFW数据库上准确率达到98.52% ,首次超过人眼识别率;6月的DeepID系列算法将准确率提升至 99.55% ,突破落地的9字门槛。

资本的嗅觉很敏锐,IDG牛奎光立刻飞往香港拜访了汤晓鸥,在MMLab看了十几个实验demo,很快投出了罕见的、高达数千万美元的天使轮。中国视觉AI市场从此拉开帷幕:2014年10月,商汤成立。

林达华是在2014年8月回到港中文。

他是继王晓刚后第二位从MMLab走出、学成归来后又回到MMLab任教的学生。在他之后,还有欧阳万里、罗平、周博磊等人,他们都在MMLab呆过一段或长或短的时间,见证了MMLab一步步成为中国计算机视觉研究重镇的过程。

林达华向雷峰网回忆,他是2013年决定回港中文的,那时他还不知道汤晓鸥要创业。

从MIT博士毕业后,林达华先是在美国的丰田研究院工作了一段时间,但他的内心还是想去高校,就想找汤晓鸥聊一下。

他告诉雷峰网,即使是离开港中文多年,他对汤晓鸥也还是一个非常信任的状态,所以在元旦回国探亲的时候就特地去香港找了汤晓鸥。

当时汤晓鸥就请林达华和王晓刚一起吃了个饭,谈到香港与内地都有一些非常重要的机会,因为国家在人工智能这块有非常大的投入。除了宏观的趋势分析外,汤晓鸥还站在林达华的角度讲了几个非常实在的点,跟他说:做一个大学教师,最重要的是你的研究资源,要有学生、有研究经费,还有研究的自由度。

林达华当时到美国各个学校去笔试时也了解到,刚当教职的时候是非常艰难的。举个例子,那时他在MIT读博时的好朋友去美国高校任教,一年就要写十几个经费申请方案,几乎每个月一个。

除了钱,还有建立生源。汤晓鸥是亲身经历过这个过程的,所以他说的每一个点都打在了林达华的思考上。这顿饭吃完,基本上他就做出了决定:回港中文。

回去时,MMLab刚好在紧锣密鼓地筹备商汤的成立,他也机缘巧合地成为了创始团队的一员。

多位接近汤晓鸥的人都告诉雷峰网,MMLab的今天能有此成就、乃至港中文能代表中国在全球计算机视觉领域叱咤风云,离不开汤晓鸥对人才的重视。

2016年欧阳万里找教职时,刚开始在香港找不到工作,因为香港高校有个倾向,就是不太愿意招香港自己培养的博士生。

汤晓鸥就主动出马,找悉尼大学电子与信息工程学院的院长谈能否多招一个老师。院长请汤晓鸥帮忙找一个公司一起出资,汤晓鸥就自己出了一半的工资、悉尼大学出另一半的工资,设了一个岗位,把欧阳万里招了进去。

那几年,欧阳万里在悉尼大学的研究做得很不错,汤晓鸥又把他招回了港中文。

2015年徐东在悉尼大学任教时,想申请经费做一个新项目,但一直碰壁。2015年商汤刚成立,其实汤晓鸥的经济也不算宽松,但还是给了徐东大约10万澳币(大约45万人民币)去开展研究。

徐东总结,其实汤晓鸥团队在视觉研究这条路上一直是少数者:无论是人脸识别还是深度学习,他们都是从没有什么人关注这个方向的时候开始研究的,所以他们走得更快,也能走得更远。

甚至是近日很火的生成式AI,他们也是很早就开始摸索并取得成果。罗平告诉雷峰网,2012年他就做过一个人脸生成的工作:把人脸侧脸的图像直接恢复成正脸;2014年,他们在NIPS(后改名 NerulPS)上发表的工作也是人脸生成,网络可以输入任意角度的人脸并输出任意角度的人脸。有趣的是,号称生成式AI鼻祖的GAN模型也是2014年发布。

罗平回忆,那时MMLab与王晓刚EE系的学生一起开会,每个学生都要上台用一句话总结自己想要做的工作,而汤晓鸥的要求是,这句话必须总结到位,只要别人听这一句话,就能立刻判断出这个课题是否有研究的价值,或者论文能否被接收。

汤晓鸥选题就两个标准:一个是开辟一个新方向,另一个是结束一个方向。博士毕业后,罗平先后在MMLab和商汤都呆了一段时间,2019年回到香港大学追求科研后,指导学生和开展研究的要求也是如此。

更神奇的是,在汤晓鸥选择一条冷清的道路时,有李学龙、王晓刚、陶大程、林达华、徐东、曹亮亮等等一批中科大校友与他共闯华山,随后又遇到颜水成、许春景、乔宇、李振国、欧阳万里、何恺明、周博磊、罗平等等同路人继承出新。

他们走在了时代的前面,也得到了时代的馈赠:大多数从MMLab走出来的往日少年,都在四十岁左右的年纪就问冕了院士、ACM Fellow、IEEE Fellow、AAAI Fellow等等顶尖科研荣誉,担任中国多个企业的视觉AI掌门人,成为AI腾飞的中流砥柱。

香港,这座曾经无数人神往的国际大都市或许已褪去昨日的风采,但一代青年与它的短暂交汇所成就的人生却是永恒。

他们在充满不确定性的关口走过,也继续在不确定的探索中前进。将港中文建成中国 AI 视觉黄埔军校的人

参考链接:

1.天下第一铭,汤晓鸥,https://www.it610.com/article/1278144121713737728.htm

2.https://mmlab.ie.cuhk.edu.hk/

3.https://www.ustcif.org.cn/default.php/content/1977/



<
友情链接