网易首页 > 网易号 > 正文 申请入驻

解决CNN固有缺陷,CCNN凭借单一架构,实现多项SOTA

0
分享至

选自arXiv

作者:David W. Romero等

机器之心编译

编辑:陈萍

本文提出了迈向通用 CNN 架构:CCNN,可以用于任意分辨率、长度和维度的数据。

在 VGG、U-Net、TCN 网络中... CNN 虽然功能强大,但必须针对特定问题、数据类型、长度和分辨率进行定制,才能发挥其作用。我们不禁会问,可以设计出一个在所有这些网络中都运行良好的单一 CNN 吗?

本文中,来自阿姆斯特丹自由大学、阿姆斯特丹大学、斯坦福大学的研究者提出了 CCNN,单个 CNN 就能够在多个数据集(例如 LRA)上实现 SOTA !

1998 年 LeCun 等人提出卷积神经网络 (CNN),这是一类广泛用于机器学习的深度学习模型。由于 CNN 具有高性能和高效率等特点,使其在跨序列、视觉和高维数据的多个应用程序中实现 SOTA 性能。然而,CNN(以及一般的神经网络)存在一个严重缺陷,这些架构必须针对特定应用进行定制,以便处理不同的数据长度、分辨率和维度。这反过来又导致大量特定于任务的 CNN 架构出现。

数据可以有许多不同的长度,例如图像可以是 32x32 或 1024x1024。标准 CNN 存在的问题是,它们的卷积核是局部的,这需要为每个长度定制一个精心选择的步长和池化层来捕获整个上下文自定义架构。此外,许多数据本质上是连续的,在不同的分辨率下具有相同的语义,例如图像可以在任意分辨率下捕获,并具有相同的语义内容,音频可以在 16kHz 或 44.1kHz 采样,但人耳听起来仍然是相同的。

然而,由于卷积核的离散性,传统的 CNN 不能跨分辨率使用。当考虑具有相同 CNN 的不同维度数据时,这两个问题会进一步加剧,例如序列(1D)、视觉(2D)和高维数据(3D、4D),因为不同的维度以不同的特征长度和分辨率运行,例如一秒音频的长度很容易达到 16000,这与基准数据集中的图像大小形成强烈对比。

在本文中,研究者提出了迈向通用 CNN 架构。其目标是构建一个单一的 CNN 架构,可以用于任意分辨率、长度和维度的数据。标准 CNN 需要特定于任务的架构,因为其卷积核的离散性将内核绑定到特定的数据分辨率,并且由于构建大型离散卷积核所需的大量参数,它们不适合对全局上下文进行建模。

因此,为了构建一个通用的 CNN 架构,关键是开发一个分辨率不可知的卷积层,该卷积层能够以参数有效的方式对远程依赖关系进行建模。该研究入选 ICML 2022 。

  • 论文地址:https://arxiv.org/pdf/2206.03398.pdf
  • 代码地址:https://github.com/david-knigge/ccnn

本文的贡献如下:

  • 该研究提出 Continuous CNN(CCNN):一个简单、通用的 CNN,可以跨数据分辨率和维度使用,而不需要结构修改。CCNN 在序列 (1D)、视觉 (2D) 任务、以及不规则采样数据和测试时间分辨率变化的任务上超过 SOTA;
  • 该研究对现有的 CCNN 方法提供了几种改进,使它们能够匹配当前 SOTA 方法,例如 S4。主要改进包括核生成器网络的初始化、卷积层修改以及 CNN 的整体结构。

连续核卷积

连续核卷积将小型神经网络

作为核生成器网络,同时将卷积核参数化为连续函数。该网络将坐标

映射到该位置的卷积核值:

(图 1a)。通过将 K 个坐标

的向量通过 G_Kernel,可以构造一个大小相等的卷积核 K,即

。随后,在输入信号

和生成的卷积核

之间进行卷积运算,以构造输出特征表示

,即

任意数据维度的一般操作。通过改变输入坐标 c_i 的维数 D,核生成器网络 G_Kernel 可用于构造任意维数的卷积核。因此可以使用相同的操作来处理序列 D=1、视觉 D=2 和更高维数据 D≥3。

不同输入分辨率的等效响应。如果输入信号 x 有分辨率变化,例如最初在 8KHz 观察到的音频现在在 16KHz 观察到,则与离散卷积核进行卷积以产生不同的响应,因为核将在每个分辨率下覆盖不同的输入子集。另一方面,连续核是分辨率无关的,因此无论输入的分辨率如何,它都能够识别输入。

当以不同的分辨率(例如更高的分辨率)呈现输入时,通过核生成器网络传递更精细的坐标网格就足够了,以便以相应的分辨率构造相同的核。对于以分辨率 r (1) 和 r (2) 采样的信号 x 和连续卷积核 K,两种分辨率下的卷积大约等于与分辨率变化成比例的因子:

CCNN:在 ND 中建模远程依赖关系

具有连续核卷积的残差块改进。该研究对 FlexNet 架构进行了修改 ,其残差网络由类似于 S4 网络的块组成。CCNN 架构如下图 2 所示。

基于这些观察,该研究构建了 FlexConv 的深度(depth-wise)可分离版本,其中通道(channel-wise)卷积是使用核生成器网络

生成的核计算的,之后是从 N_in 到 N_out 进行逐点卷积。这种变化允许构建更广泛的 CCNN—— 从 30 到 110 个隐藏通道,而不会增加网络参数或计算复杂度。

正确初始化核生成器网络 G_Kernel。该研究观察到,在以前的研究中核生成器网络没有正确初始化。在初始化前,人们希望卷积层的输入和输出的方差保持相等,以避免梯度爆炸和消失,即 Var (x)=Var (y)。因此,卷积核被初始化为具有方差 Var (K)=gain^2 /(in channels ⋅ kernel size) 的形式,其增益取决于所使用的非线性。

然而,神经网络的初始化使输入的 unitary 方差保留在输出。因此,当用作核生成器网络时,标准初始化方法导致核具有 unitary 方差,即 Var (K)=1。结果,使用神经网络作为核生成器网络的 CNN 经历了与通道⋅内核大小成比例的特征表示方差的逐层增长。例如,研究者观察到 CKCNNs 和 FlexNets 在初始化时的 logits 大约为 1e^19。这是不可取的,这可能导致训练不稳定和需要低学习率。

为了解决这个问题,该研究要求 G_Kernel 输出方差等于 gain^2 /(in_channels⋅kernel_size)而不是 1。他们通过、

重新加权核生成器网络的最后一层。因此,核生成器网络输出的方差遵循传统卷积核的初始化,而 CCNN 的 logits 在初始化时呈现单一方差。

实验结果

如下表 1-4 所示,CCNN 模型在所有任务中都表现良好。

首先是 1D 图像分类 CCNN 在多个连续基准上获得 SOTA,例如 Long Range Arena、语音识别、1D 图像分类,所有这些都在单一架构中实现的。CCNN 通常比其他方法模型更小架构更简单。

然后是 2D 图像分类:通过单一架构,CCNN 可以匹配并超越更深的 CNN。

对 ND 进行远程依赖建模的重要性。原则上可以将所有任务视为不考虑 2D 结构的序列任务,该研究只需改变进入核生成器网络的坐标维数,就可以在多维空间上轻松定义 CCNN。有趣的是,该研究观察到,通过在 LRA 基准测试中考虑图像和 Pathfinder 任务的 2D 特性,可以获得更好的结果(上表 3)。

在具有 2D 图像的 PathFinder 中,最大的 CCNN 获得了 96.00% 的准确率,比之前 SOTA 高出近 10 个点,并在扁平图像上的表现明显优于 CCNN。

此外,在原始 2D 数据上训练的模型显示出比它们的序列对应物更快的收敛(图 3)。具有小卷积核的 2D CNN,例如 ResNet-18,由于中间池化层缺乏细粒度的全局上下文建模,无法解决 Pathfinder。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重启首日崩了,崩就对了:为什么挤着回天涯?

重启首日崩了,崩就对了:为什么挤着回天涯?

鲁八两
2026-06-01 15:45:07
给他追封“民族英雄”,我不认同!

给他追封“民族英雄”,我不认同!

小豫讲故事
2026-06-02 06:00:29
国家出手,60岁释永信下场大快人心,倒霉的5个女人也出了口恶气

国家出手,60岁释永信下场大快人心,倒霉的5个女人也出了口恶气

云舟史策
2026-06-01 19:34:24
为什么家里不要随便装监控?很多人都不知道内情,看完涨知识了

为什么家里不要随便装监控?很多人都不知道内情,看完涨知识了

小俊分享
2026-06-02 12:07:15
湖北男子离婚当晚杀害前妻后逃亡17年案将开庭,受害人女儿:他家暴、转移妈妈房产、多次威胁杀人,该案抗诉成功;其一审被判死缓

湖北男子离婚当晚杀害前妻后逃亡17年案将开庭,受害人女儿:他家暴、转移妈妈房产、多次威胁杀人,该案抗诉成功;其一审被判死缓

大象新闻
2026-06-02 14:47:53
52岁卡纳瓦罗率队0-2不敌世界杯东道主,中亚劲旅3连胜终结

52岁卡纳瓦罗率队0-2不敌世界杯东道主,中亚劲旅3连胜终结

侧身凌空斩
2026-06-02 11:09:47
德甲U19国青球员火了!法媒赞谢初筠:中国队的引擎

德甲U19国青球员火了!法媒赞谢初筠:中国队的引擎

新英体育
2026-06-02 11:40:57
日媒称“日本人不去中国,中国旅游业遭重创”!日网友嗨翻:他们失去日本游客很难受!

日媒称“日本人不去中国,中国旅游业遭重创”!日网友嗨翻:他们失去日本游客很难受!

东京新青年
2026-05-31 18:08:07
今日最惨股,6个跌停后昨日再跌90%,今又跌停,重仓的亏得心碎!

今日最惨股,6个跌停后昨日再跌90%,今又跌停,重仓的亏得心碎!

丁丁鲤史纪
2026-06-02 14:25:39
过于狂妄!迪班萨:如果奇才选我为状元 吹杨需要将3号球衣让出来

过于狂妄!迪班萨:如果奇才选我为状元 吹杨需要将3号球衣让出来

仰卧撑FTUer
2026-06-02 10:43:05
库里官宣签约李宁十年!勇士两大核心都签约李宁

库里官宣签约李宁十年!勇士两大核心都签约李宁

体坛周报
2026-06-02 08:00:13
中国话音刚落,欧尔班有望接替古特雷斯,成为新任联合国秘书长?

中国话音刚落,欧尔班有望接替古特雷斯,成为新任联合国秘书长?

影孖看世界
2026-06-01 15:55:36
总决赛情报员!索汉支招尼克斯防守前队友文班:他很容易体能透支

总决赛情报员!索汉支招尼克斯防守前队友文班:他很容易体能透支

罗说NBA
2026-06-02 07:10:43
A股:紧急提醒2.5亿股民!从6月3日起,A股或将重启反弹浪大行情?

A股:紧急提醒2.5亿股民!从6月3日起,A股或将重启反弹浪大行情?

趋势清风侠
2026-06-02 15:46:46
35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

烈史
2026-05-30 13:23:41
库里签约李宁登全美热搜!萌神称永久友谊 美记透露商业布局细节

库里签约李宁登全美热搜!萌神称永久友谊 美记透露商业布局细节

颜小白的篮球梦
2026-06-02 07:38:52
5天3王炸!中国科技将进入大爆发周期,西方彻底看懵了

5天3王炸!中国科技将进入大爆发周期,西方彻底看懵了

瓦伦西亚月亮
2026-06-02 01:06:25
真为深圳太子湾K11着急!干净到零异味,却留不住客流,评论炸锅

真为深圳太子湾K11着急!干净到零异味,却留不住客流,评论炸锅

火山詩话
2026-06-02 10:53:19
震碎NBA!父子同队进总决赛!历史首次!

震碎NBA!父子同队进总决赛!历史首次!

柚子说球
2026-06-01 17:28:09
代价拉满!记者曝四方大交易,火箭7换2,如愿得到杰伦·布朗

代价拉满!记者曝四方大交易,火箭7换2,如愿得到杰伦·布朗

体育见习官
2026-06-02 14:00:31
2026-06-02 17:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13151文章数 142660关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓 检方抗诉成功

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓 检方抗诉成功

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

亲子
教育
艺术
数码
房产

亲子要闻

到底谁吃的?

教育要闻

教育部等部门开展护航行动助力“平安高考”

艺术要闻

周杰伦花 1.36 亿拍下这幅画

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

无障碍浏览 进入关怀版