声波、光波等都是RNN
发布日期:2020/1/30 16:53:10 访问次数:593
斯坦福大学的一项研讨发现:物理学中动摇与 RNN 中的计算存在对应关系。论文地址:https://advances.sciencemag.org/content/5/12/eaay6946GitHub 地址:https://github.com/fancompute/wavetorch最近,机器学习与物理和数值迷信的一些范畴碰撞出了不少火花。这让机器学习框架在物理模型优化成绩中有了用武之地,同机遇器学习范畴也在物理概念的协助下呈现了很多令人兴奋的新模型(如神经 ODE 和哈密顿神经网络等)。本文作者所在小组的研讨重点是:物理自身就可以作爲计算引擎。换句话说,作者们感兴味的是那些可以作爲硬件减速器(或是专门用于疾速高效的机器学习计算的模仿处置器)的物理零碎。他们最近宣布在《Science Advances》上的论文,证明了波的物理特性可被间接映射到循环神经网络的时序变化。应用这种联络,作者们经过 PyTorch 开发了一个数值模型,该模型证明我们可以训练一个声学/光学零碎,并应用它从人类说话者录音中精确地辨认出元音。实质上,作者们将元音元音波形引入物理模型,并允许优化器在域内的 1000 个点上添加和删除资料,这个操作实践上可以当做模型的权重。由于这个机器学习模型实践上对应于一个物理零碎,这也就意味着研讨者可以把经过训练的资料散布「打印」到真实的物理设备中。其后果相似于 ASIC (Application Specific Integrated Circuit),但只能针对特定的 RNN 计算。这令人感到十分兴奋,由于这些后果标明可以在不耗费多余能量(除了脉冲自身携带的能量)的状况下,执行复杂的循环机器学习计算。以下是对这篇研讨中心思想的引见。动摇与 RNN 的联络这一局部将引见 RNN 的操作与动摇之间的联络。RNN 一步步对输出序列的每一局部执行相反的操作,从而将输出序列转换成输入序列(图 1A)。之前步的信息被编码存储在 RNN 的隐藏形态中,隐藏形态在每一步都会更新。正是这些隐藏形态使得 RNN 记住过来的信息,同时学习数据中的时序构造和长间隔依赖关系。在给定工夫步 t 处,RNN 同时处置输出序列中的以后输出向量 x_t 以及前一步传来的隐藏形态向量 h_t-1,从而失掉输入向量 y_t,并更新当下的隐藏形态 h_t。图 1:规范 RNN 与基于波的物理零碎之间的概念比拟。训练一个分辨元音的物理零碎这一局部将阐明如何运用动摇方程来训练元音分类器,其次要经过构建非平均资料散布来完成。爲了完成这个义务,该研讨所用数据集包括 45 位男性和 48 位女性关于 10 个元音的 930 条原始录音。在模型训练进程中,该研讨选取了关于这 3 个元音(ae、ei、iy)的 279 条录音作爲训练集(图 2A)。图 2:元音辨认的设置和训练进程表示图。对初始网络 5 次穿插验证训练的后果取均值后失掉的训练集与测试集上的混杂矩阵参见图 3(A、B)。混杂矩阵中对角线上的值定义了正确预测元音的比例,非对角线上的值则是未能正确预测的比例。从后果可以看出,初始构造是无法完成辨认义务的。图 3 中的 C 和 D 展现了优化后训练集和测试集上的最终混杂矩阵。这些后果异样是对 5 次穿插验证运转的后果取均值失掉的。训练后的混杂矩阵是对角占优的,也就是说如今这个构造可以执行元音辨认义务了。图 3:元音辨认义务的训练后果。图 3 中的 E 和 F 辨别展现了穿插熵损失和预测精确率,横坐标是训练集和测试集上的训练 epoch 数。图中的实线表示均匀值,暗影区域则是穿插验证训练运转的规范差。从中我们看到第一个 epoch 使损失下降了最多,而且关于精确率的提升也是最大的。从图 3F 中可以看出,这个零碎在训练集上的均匀精确率是 92.6 ±1.1%,而在测试集上的均匀精确率是 86.3 ± 4.3%。从图 3 的 C 和 D 中可以察看到零碎在元音 ae 的辨认上表现近乎完满,也能很棒地将 iy 和 ei 分辨开来(不过精确率稍低),这种特征在测试集的未见样本上尤爲分明。图 3 的 G 到 I 展现了:将每个元音类的代表性样本注入到训练构造中时的综合场强散布(integrated field intensity)∑_t u_t^2。该研讨用视觉化的方式证明了,发生目的构造的优化进程将大局部信号发送至正确的中央。该义务以传统 RNN 作爲功能基准,其分类精确率与动摇方程差不多,但是它需求少量自在参数。此外,我们察看到,训练线性动摇方程所取得的分类精确率也是很有竞争力的,有关功能的更多细节会参见原论文。讨论该研讨提出的这种基于波的 RNN 有很多劣势,这些劣势使得它在处置时序编码信息时可以随心所欲。与传统 RNN 不同,动摇方程在从一个工夫步到另一个工夫步的更新进程中,经过拉普拉斯算子(图 1E 中的稀疏矩阵)完成隐藏形态元素之间的最近邻耦合。最近邻耦合次要得益于,动摇方程是信息以无限速度传达的双曲型偏微分方程。因而,模仿 RNN 的隐藏形态大小和存储容量间接取决于传达介质的大小。此外,与传统 RNN 不同的是,动摇方程遵照能量守恒约束,避免隐藏形态和输入信号的范数有限增长。相比之下,定义规范 RNN 更新关系的无约束密集矩阵会招致梯度消逝和爆炸,这是传统 RNN 训练进程中的次要应战。该研讨证明动摇方程在概念上等价于 RNN。这种概念上的联络爲一类新的模仿硬件平台提供了思绪,在这类平台中,演化时序在物理和数据集中都扮演着重要的角色。当我们专注于用标量动摇方程描绘的最普遍动摇示例时,我们的后果可以很容易地扩展到其他相似于波的物理概念。这种应用物理执行计算的办法能够促进新型模仿机器学习设备新平台的研发,模仿设备无望比对应的数字设备更自然高效地执行计算。该办法的通用性进一步标明,许多物理零碎能够是对静态信号(如光学、声学或地震学中的静态信号)执行类 RNN 计算的无力候选者。