6月23日,由中国人工智能学会主办,CAAI 智能传媒专业委员会、中国传媒大学数据科学与智能媒体学院、媒体融合与传播国家重点实验室、新浪新闻承办的主题为“变量激荡 增量涌现”2024全球人工智能技术大会 智能传媒专题活动在杭州拉开帷幕。上海交通大学电子信息与电气工程学院教授、国家杰青获得者翟广涛分享了题为《视觉质量的脑机制探索》的演讲。
翟广涛主题演讲中。
以下是翟广涛演讲实录,内容经编辑略有删减:
感谢大家来聆听这个报告。
智能传媒论坛,我们还是从传媒的角度切入。传媒内容的演进,从PGC、UGC、P-UGC、AIGC,再到全部的AIGC有一个过程,我们在这个演进的过程中会遇到各种各样关于质量的问题。比如在PGC时代,我们有一些压缩传输方面的事情要考虑;在UGC时代是拍摄的环境、拍摄的设备不好;在P-UGC时代,所谓大V产生的内容,是构图、美感方面的内容。在AI-UGC时代,我们产生的图像到底跟我们的预期符合不符合,还有产生的图像本身质量好不好的问题;到了全部AIGC时代,可能质量问题就被解决了。
(图示)一般说到视觉质量这件事,老是拿这个图作为切入,刚才在隔壁我已经用过一次了,有些人听过一遍了。网上的内容80%都是视频,但是80%的视频其中1%的视频看了99%的时间,剩下80%的时间基本上没有人看,主要是因为质量太差。我们去评测质量好不好,可以从主观角度我们自己来看,也可以用计算机来实现,必须用计算机才能满足我们目前的需求。从视觉质量来看,无论是在采集、处理、传输、显示还是在改制的过程中,都有一些让人对它的质量产生不满意的地方。从质量评价研究角度来看,一般我们追溯它到Hubel&T.Wiesel的诺贝尔奖,到D.Marr的计算视觉/计算神经学方面的研究。到了近代,D.Mumford做了一些关于自然图像统计方面的研究,A.Bovik在2000年左右开启了SCM近代我们用的质量评价方面的研究。
再往后看就有点意思了,在2010年左右,K.Friston提出来感知自由能原理,再往下是深度学习的方法、CNN的方法、大模型的方法逐渐得到了应用。但是反过来看,从2010年之后,视觉感知质量的脑机制的研究基本上没有人做了。我们现在有一些工作评测大模型的视觉能力,尤其是Low-level Vision的能力,在这个评测过程中,假设Low-level Vision包括了视觉质量感知的能力,视觉质量感知这个具体的过程由于时间所限不展开介绍了。进一步我们还可以提升多模态大模型的Low-level Vision的能力,比如去判断这个图片是不是模糊,去描述这个图像关于质量方面的内容。这个工作目前比较重要,大家比较关心的一个领域。但是我们一直把跟质量感知相关的内容称之为是Low-level Vision,这个事对不对,至少从我这个角度,我做这个研究已经20年了,很困扰我,就是到底是不是一个Low-level Vision的命令?所以我们近期在这个领域做了一些探索,也跟大家分享一下。
这个探索怎么做?就是我们把人放在磁共振里面去,给人看图片,把响应记录下来,做了一些分析。要解决的问题有三个:第一是我们看一下大脑在观看不同内容、不同质量水平图像的时候到底是什么状态,有没有一个脑区对这个质量比较敏感;第二是探索视觉质量跟脑区连接功能之间的关系;第三是能不能做解码,就是我们能不能从磁共振响应里面去解码我们看过的图像质量。
这个过程有一些基础的知识,不细说了。我们采用了一种混合的模型设计,找了18个被试,基本上都是我们的学生,10男8女。我们的图像是从目前的质量评价数据集里面选的,选图像的时候我们注意的内容分为三类:人脸、物体和场景。质量有高中低三级,一次扫描是4block,一共做8次,总共是32个block,有一些随机发明的设计。人塞到这个磁共振里面,上面有一个镜子,镜子背后有一个显示器,这个显示器和磁共振是兼容的,所以躺在这里能看到图像。打分怎么打呢?人的左手和右手分别有两个手柄,左手有两个按钮,右手有两个按钮,我们可以通过这样的方式收集他对质量的反馈。
有一些有意思的结论,第一个结论是高质量图像的质量评价速度显著快于中低质量,这个好理解,我们看到高质量的时候,我们要做质量评价这件事就做得非常快。低质量图像语义判别速度显著慢于中高质量,这个也非常好理解,给你一个低质量图像,我问你看上去是人脸还是物体,受到质量的影响所以这个比较慢,因为低质量图像中的失真使得语义识别更加困难。第三个是语义对质量判别的速度没有显著影响,就是看不同的图像问你质量好坏,不同图像的内容对这个事没有什么影响。第四个也比较显然,在于分类任务里头,对人脸的响应显然是最快的,因为我们有一个区域是专门进化用来处理人脸的,所以这个评价比较快,这是一个行为学方面的分析。
如果我们做两个任务,内容分类是QAvsCC Task,这两个任务进行比较,也有几个比较有意思的结论。
第一个是在质量评价过程之中,更多的视觉辅助通路被激活了,包括额上回、右脑岛、额下回等等,也就是一些比较高级的视觉区域,在做质量评价任务的时候被激活。
(图示)这是一个功能连接的示意图,左边是做质量评价的时候功能连接,右边是做场景分类的时候功能连接。简单说一下,蓝色是负项连接,红色是正项连接,两种任务都出现了跟体感、运动、调节相关的区域负相关,意思是说我们做这个任务的时候人不动,要控制自己的注意力,这些都是正常的现象。更重要的是下面的这几个结论,质量评价任务涉及了更加复杂的功能连接,这边的功能连接是质量评价的,比场景分类的要更分析一些,因为质量评价任务强调了同时是高级和详细的视觉感知,而内容分类任务倾向于是一种初级和快速的视觉反应。
质量评价涉及了比较高级的皮层,枕下外侧皮层、颞枕叶梭状皮层,抑制了很多非直接相关的体感、运动或注意力资源的分配,确保我们在质量评价过程中对图像的细节比较关注。质量评价的任务之中,两个半球之间的连接功能也更加丰富。
所以通过以上的分析,我们可以得出一个结论,质量评价是一个比较高级的视觉功能,比内容分类至少高级。我们一般认为内容识别算是高级了,因为它牵扯到语义,但质量评价绝对不是一个低级的视觉功能,因为它比语义更高级。
再接下来,不同的质量对于在观看过程中的连接有什么影响呢?在看高质量图像的时候,我们的折回、枕下回、枕中回,这个可能不太熟,但是说V1、V2大家就比较熟了,初级视觉皮层里面V1、V2或者BA17、BA18这样的区域有响应。在看低质量图像的时候,相对较高的视觉皮层,比如梭状回、枕中回、枕上回,这块是视觉相关的区域,V1、V2、V3是从枕叶后端往前排的,这些区域是有激活的。什么意思?看低质量图像的时候,我们更高级的脑区在被激活,看高质量图像的时候,反而是低级脑区在被激活。这可能跟我们一般的印象相反,一般我们认为看低质量图像的时候,你都看不清内容,你的高层脑区不会工作。但实际上恰恰相反,看低质量图像的时候,高层脑区被激活的反而更多。
这是为什么?因为看低质量图像的时候,颞中回、颞下回这种高级的脑区要跟低级的脑区协同工作,去调动我们的记忆,去做所谓的脑补。所以处理次优视觉输入的时候,我们需要动用更多的脑资源,消耗更多的算力,也就是葡萄糖,来保证我们能够理解这个视觉内容。
所以我们可以得到一个结论:低质量图像的主观厌恶是有明确生理解释的。也就是说,我们的画质,我们在做传媒过程之中看到低质量的图像不舒服,不舒服是有原因的,是因为你看到不舒服的图片的时候,你会控制不住地需要做补偿,需要调动你的知识去理解图像的内容,这个过程消耗了更多的葡萄糖,会使得你更累,所以会不喜欢低质量的图像。
克来机电、中重科技、锋龙股份(002931)、大族激光(002008)等股活跃。
(图示)我们在不同脑区的活动跟质量之间的变化有一个结论,从低级脑区到高级脑区,比如这是舌回、枕中回、枕上回、额中回,脑区的激活,在低级的脑区,随着质量的上升,脑区活动的活性是上升的。但是在高级的脑区,随着质量的上升活动是下降的,这是什么意思?如果你看低级脑区,质量越高我的反应越高,在高级脑区,质量越高我的反应越低。也就是说,对于低质量图像的脑补,发生在了低级脑区和高级脑区之间的位置。大概是这个意思,结论是这样的。
再仔细说一下,如果你为了研究到底低质量到高质量的过渡发生在什么地方,就要用一个表征相似性学习的工具,大概是把语义标签或者质量标签跟人脑的响应做一个相关性分析,看这个相关性,如果高的话就比较一致。
(图示)这是对于不同脑区的表征相似性分析的矩阵,可能不太好理解,我们其中把枕下回区域单独拿出来看一下,对于低质量图像分了三块,分别是对人脸、物体和场景,红蓝放到一起了,看不清。对于低质量的图像,我们对于不同的内容其实是混叠了,不太好区分。但是对于比较高质量的图像,这块区域相应来说能看出来区别,比如仔细拿出来看,这个区域相对放得比较开,至少人脸和其他区域分开了。对于高质量的图像,我们能够更好地区分它的语义,这是一个定量的证明。低质量的图像受失真的影响,它在我们脑中的语义编码相对比较混乱,这是一个定量的结果。更进一步,我们可以通过把这个矩阵跟语义标签直接做相关性,这样就可以算不同脑区所蕴含的语义信息的含量。
(图示)这也是一个结果,从左到右是脑区从低到高,左边是距状沟、楔叶、舌回、枕上回、枕中回、枕下回、梭状回,是这么一个传递的过程。看这张图会更明显一些,我们看不同质量图像的时候有几个结论:从低级脑区到高级脑区所蕴含的语义信息逐渐升高,这个非常合理,高脑区是负责处理语义的,在枕上回到枕中回存在一个明显的跳升。所有的图像质量,好的质量语义含量高,中低质量的语义含量比较低。但是这中间的gap,随着脑区的提升而逐渐降低,也就是说,高低质量在高脑区的影响会降低,所以对于低质量的图像补偿是发生在中层脑区,低层到高层之间影响会比较大,到了高层影响比较小了。
所以我们可以得到一个重要的结论,就是枕中回这个区域是质量感知的关键区域,你对于质量的判断好不好,其实是发生在枕中回的位置。可以说X和Y有两个点,它们之间有一个信息传递的过程,如果我们把它想象成H方程的话,X到Y信息传递的过程,它所传递的机制的模式不同,导致了我们对质量感知的最后结果的不同。
(图示)再仔细分析一下,为前面这个结论提供一点证据。我们可以用高层脑区的响应,来预测低层脑区的响应。对于高质量图像,如果我们用高层脑区来预测低层脑区的响应,对于高低质量图像的响应差别,就是一个指征。如果我们在高质量图像情况下,用高层脑区预测低层脑区,对于高低质量图像预测的差是显著的,那就证明我们提取到了信息。反之,如果我们在低质量图像的情况下,用高层脑区去预测低层脑区,你找不到这么显著的区域,这个图中画圈红色的是显著的,P小于0.01。如果用高层脑区预测低层脑区,但是在低质量的情况下,就找不到这么多的显著性,唯一一个显著的是发生在枕中回预测舌回的时候。
所以这就进一步说明了在枕中回位置上,是跟质量相关的关键区域。所以更进一步我们又有一个想法,如果你解码这个视觉图像的时候,你用全部脑区去解码当然可以,但能不能只用枕中回附近的两个脑区?比如枕中回和枕上回这两个脑区,来解码视觉质量。事实上证明,这是单个人的结果,这是把所有人放在一块的结果,这块区域去做解码,只用枕中回和枕上回的解码结果实际上跟用全图是差不多的。也就是说,这块区域确实对应了我们对质量感知的关键区域。
更进一步,枕中回这个区域对于质量感知很关键,但是它单独起作用吗?也不是,你可以用Seed-based Functional Connectivity去发现它跟前面的眶额区域,这显然跟情绪、记忆相关的高层脑区,它们之间的相关性是比较强的。所以我们的质量评价过程,除了枕中回这块比较重要,眶额皮层也比较重要,它同时要联动很多高级的脑区。
做一个总结,说得很简单,但是也是做了不少分析。通过数据各种各样预处理的分析,我们得到了相应的五个结论,这五个结论分别是:
1、质量评价不是简单的视觉任务,激活区域和功能连接至少相比于场景分类是更加复杂的。
2、低质量图像对应着高级脑区的活动增加,大脑功耗相应地增加,这是为什么我们会厌恶低质量图像的原因。
3、失真对低级到高级脑区域编码的负面影响逐渐降低,也就是失真不影响你看清楚这个东西是什么,最终是不影响的,只是在过程之中增加了你的功耗。
4、视觉质量的感知可能是源于高级和初级视觉区间的信息差获取。
5、低质量图像认知过程存在与高级脑区之间的联动,只用我们的枕中回也做不了质量评价,所以需要更高级的脑区联动。
以上是我们的一些发现,跟各位进行了分享。谢谢各位。