您好、欢迎来到现金彩票网!
当前位置:手机棋牌游戏平台 > 伪语义树 >

【今日CV 计算机视觉论文速览 第134期】Fri 21 Jun 2019

发布时间:2019-06-27 02:38 来源:未知 编辑:admin

  基于多任务度量学习的三维实例分割, 提出了一个基于体素的实例分割方法。其主要目的是从数据中提取个体的形状信息,以及物体间的相关性和遮挡等。研究人员提出多任务方法解决这一问题,一方面学习特征空间将同一实例的体素进行聚类,第二个目标是学习估计实例中每个体素相对于质心的朝向信息,用于寻找实例的边界。(from KAUST ETHZ )

  📚SwiftNet基于图传播和元知识搜索高表达能力的网络架构GRAM, 提出了一种基于图传播作为元知识的搜索方法来适应细粒度的搜索,不断积累知识并更新元知识图的迭代过程。(from 杜克大学)

  📚行人重识别的新基准和新结构BNNect, 提出了一种简单方法实现高效的行人重识别,利用ResNet50的特征作为输出并使用一系列技巧达到了最优的行人重识别效果,加入了各种技巧提升的模型精度:Warm up learning rate,Random erasing augmentation,Label smoothing,Last stride,BNNeck,Center loss。网络中在全局池化层后加入了一种新的批归一化neck层,将度量和分类损失分离到了不同的特征空间中去。(from 浙江大学)

  ***许多应用程序需要在线重新定位摄像机,而无需在目标场景上进行昂贵的离线培训。虽然关键帧和稀疏关键点匹配方法都可以在线使用,但前者常常远离训练轨迹,而后者可能在无纹理区域中挣扎。相比之下,场景坐标回归SCoRe方法推广到新颖的姿势,并且可以利用密集的对应来提高鲁棒性,最近的工作已经展示了如何在场景之间调整SCoRe森林,允许他们在线利用他们的最新技术性能。但是,因为它们使用手工制作的室内使用功能,所以它们不能很好地适用于较难的户外场景。虽然用神经网络替换森林并且学习适合户外使用的特征是可能的,但是难以将用于在场景之间调整森林的技术转移到网络环境中。在本文中,我们通过提出一种利用在一个场景上训练的网络来预测另一个场景中的点的新方法来解决这个问题。我们的方法用一个两步过程替换回归林的分支结构执行的外观聚类,该过程首先使用网络预测原始场景中的点,然后使用这些预测点从新场景中查找点簇。我们通过实验证明,我们的在线场景和剑桥地标数据集上实现了最先进的性能,同时在300毫秒以下运行,使其在现场场景中非常有效。

  配备有摄像头传感器的无人驾驶飞行器无人机可以促进许多应急响应和灾难管理应用的态势感知,因为它们能够在远程和难以进入的区域进行操作。此外,通过利用嵌入式平台和深度学习,无人机可以自动监测受灾地区,实时分析图像,并在出现各种灾难(如倒塌的建筑物,洪水或火灾)时发出警报,以便更快地减轻其影响关于环境和人口。为此,本文重点介绍了无人机上灾难事件的自动空中场景分类。具体地,介绍了用于紧急响应AIDER应用的专用航空图像数据库,并且执行了对现有方法的比较分析。通过这种分析,开发了一种轻量级卷积神经网络CNN架构,能够在嵌入式平台上高效运行,与现有型号相比,具有最低内存要求,与现有技术相比精度下降不到2倍,性能提高3倍。这些初步结果为使用无人机的应急响应应用的实时航空图像分类的进一步实验提供了坚实的基础。 提出了航拍的自然灾害数据集:

  胶囊是Geoffrey Hinton给矢量值神经元的名称。神经网络传统上为激活的神经元产生标量值。另一方面,胶囊产生值的矢量,Hinton认为该矢量对应于单个复合特征,其中矢量分量的值指示特征的属性,例如变换或对比度。我们提出了一种参数化和训练胶囊的新方法,我们称之为均质载体胶囊HVCs。我们通过实验证明,与使用单个最终完全连接层的CNN相比,改变卷积神经网络CNN以使用HVC可以实现优异的分类准确度而不增加其架构中的参数或操作的数量。此外,HVC的引入使得能够使用自适应梯度下降,从而降低了模型可实现的精度对非自适应优化器的精细调整的超参数的依赖性。我们使用两个神经网络架构演示了我们的方法和结果。首先,一个非常简单的单片CNN,当使用HVC时,在前1个分类准确度方面取得了63项改进,在基线项改进。其次,CNN架构被称为Inception v3,无论是否有HVC,都能达到相似的精度。此外,使用HVC时的简单单片CNN在超过300个时期后未显示过度拟合,而基线个时期后显示过度拟合。我们在两个网络中使用ImageNet ILSVRC 2012分类挑战数据集。

  提出了长期视觉对象跟踪性能评估方法和基准。通过遵循长期跟踪定义来设计性能测量,以最大化分析探测强度。新措施在解释潜力方面优于现有措施,并更好地区分不同的追踪行为。我们表明这些措施概括了短期绩效指标,从而将两个跟踪问题联系起来。此外,新测量对于时间注释稀疏性非常稳健,并且允许对序列的注释比当前数据集中的数百倍长,而不增加手动注释劳动。提出了一个具有许多目标消失的精心挑选序列的新挑战数据集。提出了一种新的跟踪分类法,用于在短期长期频谱上定位跟踪器。该基准包含对最大数量的长期攻击者的广泛评估,并与最先进的短期跟踪器进行比较。我们分析了跟踪架构实现对长期性能的影响,并探讨了各种重新检测策略以及视觉模型更新策略对长期跟踪漂移的影响。该方法被集成到VOT工具包中,以自动化实验分析和基准测试,并促进长期跟踪器的未来发展。

  我们提出了一种新颖的方法,例如密集的3D体素网格的标签分割。我们针对已经使用深度传感器或多视图立体方法获取并且已经使用语义3D重建或场景完成方法处理的体积场景表示。主要任务是学习有关单个对象实例的形状信息,以便准确地分离它们,包括连接和未完全扫描的对象。我们使用多任务学习策略解决3D实例标签问题。第一个目标是学习一个抽象的特征嵌入,它将具有相同实例标签的体素分组,彼此接近,同时将具有不同实例标签的集群彼此分开。第二个目标是通过为每个体素密集地估计实例质量中心的方向信息来学习实例信息。这对于在聚类后处理步骤中查找实例边界以及对第一个目标的分段质量进行评分特别有用。合成和现实世界的实验都证明了我们的方法的可行性。我们的方法在ScanNet 3D实例分割基准上实现了最先进的性能。

  学习变换等变量表示TER旨在通过与应用变换等效的表示来捕捉图像的内在视觉结构。它假定转换应该在转换之前和之后从图像的表达表示中解码。它极大地扩展了em平移等价的范围,指出了卷积神经网络CNN成功开发出一类通用的em变换等变表示。与限制于离散变换或线性变换等效的组等变卷积不同,我们提出了一种更灵活,易处理的AutoEncoding Transformation AET模型,可以处理各种类型的变换。提出了确定性AET和概率自动编码变分变换AVT模型。虽然前者通过直接重建应用的变换来训练变换等变表示,但后者通过最大化表示和变换之间的联合互信来训练。它通过使得它们能够捕获转换视觉结构的更复杂模式超出变换组的线性TER,从而导致广义TERs GTER以更一般的方式等同于变换。我们将进一步表明,通过联合最大化关于输入标签和变换的学习表示中的互信息,可以将所呈现的方法扩展到半监督模型。遵循标准评估方案的实验结果证明了所提出的模型对于文献中的无监督和半监督方法的现有技术的优越性能。

  医学图像的分割是一个关键问题,分析和分类的几个过程依赖于这种分割。随着越来越多的人出现背痛和与之相关的问题,骨折椎体的自动或半自动分割成为一项具有挑战性的任务。一般来说,这些裂缝呈现出几个非均匀强度的区域,暗区与附近的结构非常相似。为了克服这一挑战,本文提出了一种半自动分割方法,称为平衡生长BGrowth。在102个压碎和89个正常椎骨的数据集上的实验结果表明,我们的方法明显优于文献中众所周知的方法。我们已经达到了高达95的精度,同时保持了可接受的处理时间性能,这相当于现有技术的状态。此外,即使使用粗略的手工注释种子点,BGrowth也能提供最佳效果。

  传统上,危险气缸与P3P问题中的溶液稳定性密切相关。在这项工作中,我们表明危险气缸也与多重解决现象密切相关。更具体地说,我们展示了当光学中心位于危险圆柱体上时,在3种可能的P3P解决方案中,即一种双解决方案,以及另外两种解决方案,双解决方案的光学中心仍然位于危险圆柱体上,但光学中心其他两种解决方案的中心不再位于危险气缸上。当光学中心在危险圆柱体上移动时,相应P3P问题的另外两个解的光学中心形成一个新的表面,其特征在于光学中心坐标中12度的多项式方程,称为危险伴随面。气缸CSDC。这意味着危险气缸总是有一个伴侣表面。对于CSDC的重要性,我们表明当光学中心通过CSDC时,P3P问题的解决方案的数量必须改变2.这意味着CSDC充当P3P解空间的定界表面。这些新发现为P3P多解决方案现象提供了新的亮点,这是PnP研究中的一个重要问题。

  模式定位包括使用图像查询在历史文档图像的集合中搜索图形对象的出现。与对象检测相反,没有给出关于查询的先验信息或预定义类,因此训练对象的模型是不可行的。在本文中,提出了一种卷积神经网络方法来解决这个问题。我们使用RetinaNet作为特征提取器来获取文档区域的多尺度嵌入以及查询。在DocExplore数据集上进行的实验表明,我们的提议更好地定位模式,并且需要比现有技术系统更少的存储索引图像,但是在检索包含多个查询实例的页面时失败了。

  本笔记本文件概述和比较分析了我们的系统,用于扩展视频中的活动检测ActEV PC在ActivityNet Challenge 2019中。具体来说,我们利用空间级别的人员车辆检测和时间级别的动作定位来监控视频中的动作检测。研究了不同小管生成的机理和模型分解方法。最后通过融合每个组分的结果来预测检测结果。

  零射击学习ZSL和冷启动推荐CSR分别是计算机视觉和推荐系统中的两个具有挑战性的问题。一般而言,他们在不同的社区中独立调查。然而,本文揭示了ZSL和CSR是同一意图的两个扩展。例如,它们都试图预测看不见的类并涉及两个空间,一个用于直接特征表示,另一个用于补充描述。然而,从ZSL的角度来看,没有现成的方法可以解决CSR问题。这项工作首次将CSR作为ZSL问题制定,并提出量身定制的ZSL方法来处理CSR。具体来说,我们提出了一种低秩线性自动编码器LLAE,它挑战了三个关键点,即域移位,伪相关和计算效率。 LLAE由两部分组成,低秩编码器将用户行为映射到用户属性,而对称解码器从用户属性重建用户行为。对ZSL和CSR任务进行的大量实验验证了所提出的方法是一个双赢的方案,即,与几种传统的现有技术方法相比,不仅可以通过ZSL模型处理CSR,而且可以显着提高性能,但是CSR的考虑也可以使ZSL受益。

  面部验证系统易受中毒攻击的影响,该中毒攻击利用多个身份图像MII面对存储在类似于多个人的数据库中的图像,使得任何组成人的新图像被验证为匹配MII的身份。对这种攻击模式的研究主要集中在通过检测进行防御,没有解释为什么存在漏洞。提出了新的定量结果,支持根据验证系统使用的表示空间的几何形状进行解释。在这些空间的球面几何形状中,匹配和非匹配的面部表示对的角距离分布仅适度地分开,分别以90度和40度60度为中心。这对于正常数据的开放式验证已足够,但却为MII攻击提供了机会。我们的分析考虑了理想的MII算法,证明如果可以实现,它们将从其组成面提供大约45度的面,因此被归类为匹配它们。我们研究了MII生成图库搜索,图像空间变形和表示空间反演这三种方法的性能,并表明后两者实现了理想,足以产生有效的攻击,而前者可以成功,但只有一个令人难以置信的大型画廊搜索。图库搜索和反转MII依赖于访问面部比较器,以进行优化,但我们的结果表明,这些攻击在攻击不同的比较器时仍然有效,因此保护部署的比较器是不充分的防御。

  覆盖一个或几个对应点的中间回波是由多回波激光扫描仪获取的特定类型的3D点云。在本文中,我们提出了一种利用LiDAR点云的中间回波信息进行树木自动分割的新方法。首先,使用卷积分类方法,从所有点云中识别由中间回波反射的所提出的点云类型。中间回波点云与第一个和最后一个回波区分开来。因此,可以从大量的点云中快速检测到树冠位置。其次,为了准确地从所有点云中提取树木,我们提出了一种3D深度学习网络PointNLM,用于语义分割树冠。 PointNLM通过非局部分支捕获点云之间的长距离关系,并通过应用于无序点的最大池来提取高级特征。使用Semantic 3D简化测试集评估整个框架。树点云分割的IoU达到0.864。此外,使用Paris Lille 3D数据集测试语义分割网络。平均IoU表现优于其他几种流行方法。实验结果表明,该算法为LiDAR点云的植被分割提供了一种很好的解决方案。

  卷积神经网络在目标检测的准确性方面具有显着的改进。随着卷积神经网络变得更深,检测的准确性也明显提高,需要更多的浮点计算。许多研究人员使用知识蒸馏方法,通过在对象检测中将知识从越来越大的教师网络转移到小型学生网络来提高学生网络的准确性。大多数知识蒸馏方法需要设计复杂的成本函数,它们针对的是两阶段目标检测算法。本文提出了一种清洁有效的一阶段目标检测知识蒸馏方法。由教师网络和学生网络生成的特征图分别用作真实样本和假样本,并为两者生成对抗训练,以提高学生网络在一阶段对象检测中的性能。

  由于光学遥感图像RSI中的各种物体类型和尺度,不同的成像方向和杂乱的背景,很难直接将自然场景图像的显着物体检测的成功扩展到光学RSI。在本文中,我们基于网络体系结构的形状提出了一种名为LV Net的端到端深度网络,它以纯数据驱动的方式检测来自光学RSI的显着对象。所提出的LV网络由两个关键模块组成,即,两个流金字塔模块L形模块和具有嵌套连接V形模块的编码器解码器模块。具体地,L形模块通过使用两流金字塔结构分层地提取一组互补信息,这有利于感知显着对象的不同尺度和局部细节。 V形模块通过嵌套连接逐渐将编码器细节特征与解码器语义特征相结合,旨在抑制杂乱的背景并突出显着的对象。此外,我们构建了第一个公开可用的用于显着物体检测的光学RSI数据集,包括具有不同空间分辨率的800个图像,不同的显着性类型和像素明智的基础事实。对该基准数据集的实验表明,所提出的方法在性质和数量上都优于现有技术的显着对象检测方法。

  我们研究了ImageNet规模的图像识别模型的鲁棒性,该模型具有受人类视觉启发的两个特征,一个明确的情景记忆和一个形状偏差。正如之前的工作所报告的那样,我们表明,在一些威胁模型下,一个明确的情景记忆提高了图像识别模型对小规范对抗性扰动的鲁棒性。然而,它不能提高对更自然,通常更大的扰动的鲁棒性。在第二种意义上,在训练期间学习更强大的特征似乎对于鲁棒性是必要的。我们展示了从鼓励学习全局,基于形状的表示的模型得到的特征Geirhos等,2019不仅提高了对抗自然扰动的鲁棒性,而且当与情景记忆结合使用时,它们还提供了额外的鲁棒性。对抗性扰动。最后,我们针对情景记忆存储器大小,存储器的维度和检索方法提出了三个重要的设计选择。我们表明,为了使情景记忆更紧凑,最好通过聚类来减少记忆的数量,而不是减少它们的维度。

  本研究探索了一个简单但强大的人员识别ReID基线。具有深度神经网络的人ReID近年来取得了进步并取得了很高的性能。然而,许多最先进的方法设计复杂的网络结构并连接多分支特征。在文献中,一些有效的训练技巧简要地出现在几篇论文或源代码中。本研究收集和评估这些有效的培训技巧亲自ReID。通过组合这些技巧,该模型仅使用ResNet50的全局特征,在Market1501上实现了94.5等级1和85.9平均精度。性能超过所有现有的全球和部分基线亲自ReID。我们提出了一种名为批量标准化颈部BNNeck的新型颈部结构。 BNNeck在全局池层之后添加批量规范化层,以将度量和分类损失分成两个不同的特征空间,因为我们观察到它们在一个嵌入空间中不一致。扩展实验表明,BNNeck可以提高基线,我们的基线可以提高现有技术方法的性能。我们的代码和型号可在

  由于CNN具有突出的特征表示能力,已经证明基于CNN的方法对于RGB图像的显着性检测很有效。然而,当在高度杂乱或类似背景中检测到多个显着区域时,它们的性能会降低。为了解决这些问题,在本文中,我们采用光场成像,记录每个像素的颜色强度以及入射光线的方向,因此可以提高由于空间和角度的使用而进行显着性检测的性能。在光场图像中编码的图案。然而,使用基于CNN的方法对光场图像进行显着性检测并非易事,因为这些方法不是专门设计用于处理光场输入,并且当前光场数据集不足以训练CNN。为了克服这些问题,我们首先提出了一个新的Lytro Illum数据集,其中包含640个光场及其相应的微透镜图像,中心观察图像以及地面真实显着图。与当前光场显着性数据集相比,Li14,Zhang17,新数据集更大,质量更高,包含更多变化和更多类型的光场输入,适用于训练更深层次的网络以及更好的基准算法。此外,我们提出了一种新颖的端到端CNN基于光场显着性检测的框架及其几种变体。我们系统地研究不同变体的影响,并将光场显着性与常规2D显着性与所提出的网络的性能进行比较。我们还进行了广泛的实验比较,这表明我们的网络在提议的数据集上明显优于最先进的方法,并且在其他现有数据集上具有所需的泛化能力。code:

  压缩传感理论的发现使人们认识到,即使测量不完整,也可以解决许多反问题。这在磁共振成像MRI中特别有趣,其中长采集时间可限制其使用。在这项工作中,我们考虑了学习稀疏采样模式的问题,该模式可用于最佳地平衡采集时间与重建图像的质量。我们使用监督学习方法,假设我们的训练数据足以代表新数据采集。我们证明情况确实如此,即使训练数据只包含5对训练对象和地面实况图像,训练集大小为192×192,例如,其中一个学习模式样本只有32然而,在相似图像的测试集上,k空间的结果导致具有平均SSIM 0.956的重建。拟议的框架足以学习任意采样模式,包括笛卡尔,螺旋和径向采样等常见模式。

  虽然深度神经网络NN在许多视觉识别任务中已经达到了最先进的精度,但是网络的计算复杂性和能量消耗的增长仍然是一个问题,特别是对于资源有限且需要实时处理的平台上的应用。最近,信道修剪技术显示出压缩卷积NN CNN的有希望的结果。然而,这些技术可能导致低精度和复杂的优化,因为有些仅在训练CNN之后进行修剪,而其他技术通过整合稀疏性约束或修改损失函数在训练期间从头开始修剪。渐进式软滤波器修剪技术提供了更高的训练效率,但其软修剪策略无法实现更好优化所需的后向通过。本文提出了一种新的渐进式梯度修剪PGP技术,用于训练过程中的迭代通道修剪。它依赖于衡量改善现有渐进修剪的信道权重变化的标准,以及在后向传播过程中适应动量张量的有效硬和软修剪策略。在MNIST和CIFAR10数据集上训练各种CNN后获得的实验结果表明,与现有技术的通道修剪技术相比,PGP技术可以在分类精度和网络时间与内存复杂度之间实现更好的权衡。

  在本文中,我们将描述一种网络体系结构,该体系结构展示了各种大小的数据集的高性能。为此,我们将通过将完全连接的层划分为现有网络架构中的三个级别来执行架构搜索。第一步是学习现有的CNN层和现有的完全连接层1个时期。第二步是通过将L1距离应用于Softmax的结果来聚类相似的类。第三步是使用聚类类掩码重新分类。我们通过顺序地或递归地执行上述三个步骤来完成现有技术的结果。该技术在Cifar 100上记录了11.56的误差。

  通过无处不在的摄像机进行安全监控及其在智能建筑中的更多扩展,可以从信号处理和机器学习的进步中获益。虽然这些创新和突破性的应用程序可以被视为一种福音,但同时它们也引发了重大的隐私问题。事实上,最近的GDPR通用数据保护法规已经突出并成为隐私保护解决方案的激励因素。典型的隐私保护视频监控方案通过匿名敏感数据来解决这些问题。然而,这些方法受到一些限制,因为它们通常是不可逆的,不提供多级解密并且计算成本高。在本文中,我们提供了一种新的隐私保护方法,该方法是可逆的,支持多个隐私级别的识别,并且通过将多级加密与压缩感知相结合,可以有效地执行数据采集,加密和数据隐藏。已经使用重建质量的良好性和面部的强烈匿名化来验证所提出的方法在保护用户身份方面的有效性。

  我们提出有限多标签LML投影层作为端到端学习系统的新原始操作。 LML层提供了建模多标签预测的概率方法,该预测仅限于具有精确的k个标签。我们为该层导出了有效的前向和后向传递,并显示了如何使用该层来优化具有不完整标签信息的多标签任务的前k调用。我们评估顶级k CIFAR 100分类和场景图生成中的LML层。我们证明LML层增加了可忽略不计的计算开销,严格改善了模型的表示能力,并提高了准确性。我们还重新考虑截断的顶部k熵方法作为前k分类的竞争基线。

  二元神经网络BNN在降低计算和存储器成本方面显示出有希望的进展,但与大规模数据集(例如ImageNet)上的实值对应物相比,遭受了实质性的准确度降低。以前的工作主要集中在减少权重和激活的量化误差,从而提出了一系列近似方法和复杂的训练技巧。在这项工作中,我们提出了一些挑战传统智慧的观察。我们重新审视了一些常用的技术,例如缩放因子和自定义渐变,并表明这些方法对于训练表现良好的BNN并不重要。相反,我们根据所获得的见解为BNN提出了几个设计原则,并证明可以通过简单的培训策略从头开始训练高度准确的BNN。我们提出了一种新的BNN架构BinaryDenseNet,它可以在没有技巧的情况下显着超越ImageNet上现有的所有1位CNN。在我们的实验中,BinaryDenseNet相对于着名的XNOR网络和目前最先进的Bi Real Net,在ImageNet上的前1个精度方面分别实现了18.6和7.6的相对改进。

  视网膜血管分割作为眼科疾病或糖尿病患者的主要非侵入性诊断方法,由于需要像素标签而遭受数据稀缺。在本文中,我们提出了一种方便的基于补丁的两阶段转移方法。首先,基于信息瓶颈理论,我们为任务特定的特征空间插入一维降维层。接下来,进行半监督聚类以从不同来源数据库中选择具有特征空间中的相似性的实例。令人惊讶的是,我们凭经验证明来自不同类别的图像具有相似性,有助于比一些同类实例更好的性能。拟议的框架分别在DRIVE,STARE和HRF上实现了97,96.8和96.77的精度,优于当前的方法和独立的人类观察者DRIVE 96.37和STARE 93.39。

  基于嵌入变形节点的公式已广泛应用于可变形几何和图形问题。虽然在基于立体声或RGBD传感器的SLAM应用中很有前景,但是当模型变大时,在变形节点参数估计中保持恒定速度仍然具有挑战性。在实践中,处理时间根据地图的扩展而快速增长。在本文中,我们提出了一种在大规模密集可变形SLAM中解耦变形图节点并使估计时间保持不变的方法。我们观察到图中只有部分可变形节点连接到可见点。基于这一事实,利用原始Hessian矩阵的稀疏性在两个独立的步骤中分割参数估计。利用这种新技术,我们实现了更快的参数估计,并且摊销的计算复杂度从O n 2减少到闭合O 1。结果,随着地图的不断增长,计算成本几乎没有增加。基于我们的策略,将大大减轻基于大规模嵌入变形图的应用中的计算瓶颈。通过实验验证有效性,具有大规模变形情景。

  在检测和跟踪交通参与者之后,对其未来运动的预测是自驾车辆SDV技术的下一个关键组成部分,使SDV能够在其环境中安全有效地运行。这对于易受伤害的道路使用者VRU尤其重要,例如行人和骑自行车者。这些参与者需要特别小心处理,因为受伤的风险增加,以及他们的行为比机动演员的行为更难以预测。为了解决这个问题,在本文中,我们提出了一种用于预测VRU运动的基于深度学习的方法,其中我们将高清晰度地图和演员的环境光栅化为用作深度卷积网络的输入的鸟瞰图像。此外,我们提出了一种适用于实时推理的快速架构,并提供了各种光栅化选择的详细消融研究。结果有力地表明了在准确性和等待时间方面使用所提出的VRU运动预测方法的益处。

  视觉问题回答VQA模型已被证明过度依赖于VQA数据集中的语言偏差,盲目地回答问题而不考虑视觉上下文。对抗正则化AdvReg旨在通过一个对手子网络解决这个问题,鼓励主模型学习问题的无偏差表示。在这项工作中,我们研究了AdvReg的优点和缺点,目的是更好地理解它如何影响VQA模型中的推理。尽管在VQA CP上实现了新的技术水平,但我们发现AdvReg会产生几种不良副作用,包括不稳定的梯度和域示例中的性能急剧下降。我们证明在培训期间逐步引入正规化有助于缓解但不能完全解决这些问题。通过错误分析,我们观察到AdvReg改进了二元问题的泛化,但却损害了异构答案分布问题的性能。定性地,我们还发现正则化模型倾向于过度依赖视觉特征,而忽略了问题中的重要语言线索。我们的研究结果表明AdvReg需要进一步完善才能被认为是VQA的可行偏倚缓解技术。

  为操纵任务设计机器人辅助设备具有挑战性。这项工作涉及提高半自动机器人的准确性和可用性,例如人工操纵机器人或外骨骼。关键的洞察力是开发一个系统,该系统考虑了上下文和用户意识,以便在如何帮助用户方面做出更好的决策。通过使系统能够自动生成一组候选抓取并达到在新颖,混乱的场景中掌握轨迹来实现情境感知。用户意识被实现为线性时变反馈控制器,以促进朝向最有希望的掌握的运动。我们的方法在一个简单的2D示例中进行了演示,其中要求参与者掌握杂乱场景中的特定对象。我们的方法还通过仅在x和y轴上提供控制来减少用户的可控尺寸的数量,同时由系统推断末端执行器的方向和其手指的姿势。实验结果表明了我们的方法在纯手动控制方面的准确性和执行时间方面的优势。

  为边缘设备设计神经架构受到准确性,推断等待时间和计算成本的限制。传统上,研究人员手动制作深度神经网络以满足移动设备的需求。神经架构搜索NAS被提议用于自动化神经架构设计,而无需广泛的领域专业知识和重要的手动工作。最近的工作利用NAS来设计移动模型,其中考虑了硬件约束并且通过在乘法累加MAC中测量的较少参数和较少计算成本实现了现有技术精度。为了找到高度紧凑的神经架构,现有的工作依赖于预定义的单元并直接应用宽度乘数,这可能会限制模型的灵活性,减少有用的特征图信息,并导致精度下降。为了克服这个问题,我们提出GRAM GRAph传播作为元知识,采用细粒度节点智能搜索方法,并将更新中学到的知识积累到元图中。因此,GRAM可以实现更灵活的搜索空间并实现更高的搜索效率。在没有预定义单元或块的约束的情况下,我们提出了一种新的结构级修剪方法来去除神经架构中的冗余操作。 SwiftNet是GRAM发现的一组模型,其性能优于MobileNet V2,精度高2.15倍,速度提高2.42倍。与FBNet相比,SwiftNet将搜索成本降低了26倍,精度密度提高了2.35倍,加速度提高了1.47倍,同时保持了相似的精度。 SwiftNet可在ImageNet 1K上获得63.28的前1精度,仅有53M MAC和2.07M参数。 Google Pixel 1上相应的推理延迟仅为19.09 ms。

  MNIST和Fashion MNIST在机器学习领域非常受欢迎。时尚MNIST通过引入更难的问题,增加测试集的多样性以及更准确地代表现代计算机视觉任务来改进MNIST。为了提高FashionMNIST的数据质量,本文研究了训练集和测试集之间的近似重复图像。测试和训练集之间几乎重复,人为地提高了机器学习模型的测试精度。本文在Fashion MNIST中识别出近似重复的图像,并提出了一个删除了近似重复的数据集。

  第127期视觉论文速览三维meshrcnn位置因果三维预测RelNet指甲油试涂人脸快速试装...博文来自:TomRen

  医学图像、RGB三维重建、自动生成数据集、网络压缩、视频显著性检测、医学图像、迁移学习、超像素分割。。。...博文来自:TomRen

  计算机视觉论文速览第92期人脸坐标条件生成机器人多视觉任务工具包显著性检测动作迁移...博文来自:TomRen

  第122期视觉论文速览去水印生成食物图像航空图像分割数据集IMU轨迹数据集和基准量子计算...博文来自:TomRen

  视觉论文速览第102期基于深度学习resize单张图像恢复人体三维目标检测PSF学习建模运动受伤预测、细胞计数风格强度等...博文来自:TomRen

  第123期视觉论文速览点云处理基于重绘的图像分割草图到UI高粱计数水下图像增强方法...博文来自:TomRen

  第129期视觉论文速览基于语义图合成大量图像三维布局匹配三维点云检测和配准高性能图像去雾方法...博文来自:TomRen

  视觉论文速览第126期深度学习形态学操作文本分析基于混淆树的分类方法高效光学字符识别...博文来自:TomRen

  第128期视觉论文速览分组分割模型UAV作物监测非刚体配准博文来自:TomRen

  第125期视觉论文速览人脸解析三维人脸生成虚拟试衣服GAN综述区域文字风格迁移...博文来自:TomRen

  场景文字编辑变分自编码器提纯对抗样本玻璃后成像反射去除手部位姿检测综述...博文来自:TomRen

  关于ThuJun13201910:41:09GMT+0800(中国标准时间)上传后台(springboot)报错的问题的解决,以elementUI中的时间插件为例如下图:显示的时间格式没有问题,但提交...博文来自:小青年 爱交流 爱分享

  超分辨不确定性,bayes&批归一化深度相机测评标准球、柱、板博文来自:TomRen

  无标签数据光流动态融合边缘检测视觉问答数据集Saak特征博文来自:TomRen

  三元GAN,分级语义分割,可变形网络,深度估计,手持物体检测博文来自:TomRen

  第111期视觉论文速览重新光照成像平面扫描深度估计大规模人脸检测局域光场成像...博文来自:TomRen

  第115期视觉论文速览手机图像超分辨点云压缩点云注册三维重建局域特征描述子图像重成像/缩略图技术人脸数据集JD106点字体风格迁移数据集人脸球数据集...博文来自:TomRen

  第95期视觉论文速览实时实例分割系统YOLACT轻量级超分辨系统AWSRN预测人与物体间作用力高阶低秩张量方法...博文来自:TomRen

  背景:首先我的需求是:必须要一个Date类型且格式为yyyy-mm-dd的时间数据。下面是问题产生及解决办法详细:数据库保存了一个date类型的时间数据(格式为yyyy-MM-dd,比如:2019-0...博文来自:aigoV的博客

  2017年,这些计算机视觉论文是你心中的最佳么?历时九天,我们收到了近千份有效读者投票,2017年度最值得读的AI论文评选也正式结束。我们根据读者的投票情况,选出了自然语言处理和计算机视觉领域“201...博文来自:Paper weekly

  第103期视觉论文速览时尚编辑深度森林可视化听见视觉博文来自:TomRen

  第120期视觉论文速览轻量级图像修复RGBD表面重建水下图像颜色修复随机游走分割...博文来自:TomRen

  第100期视觉论文速览超分辨超分辨攻击人脸去遮挡声源视觉识别去雾暗光增强野生动物数据集场景流估计多器官分割...博文来自:TomRen

  使用SpringMVC后台,需要接收前端传来的一个时间,时间格式如下:SatNov25201700:00:00GMT+0800(中国标准时间)刚开始使用如下的方式进行接收,发现无法接收到数据@Requ...博文来自:林贻民的博客

  第94期视觉论文速览点云合并文字亲和力行车记录仪数据集高光谱博文来自:TomRen

  IAP升级功能编写初期的一些困惑与疑问---完成功能后的总结 一,网上下载的例程,跳转部分的代码有差异,尤其是用的汇编那句 二,关于跳转部分的代码的理解(转) 三,关于跳转时能否不用按键,用软件标志位...博文来自:Super_Demo的专栏

  现在的Win7系统中安装的一般都是32位的Office,因为微软推荐使用32位的Office,兼容性更强,稳定性更好。在使用Access作为数据库的时候,C#操作Access,如果Access是acc...博文来自:写代码的蜗牛

  转载请注明出处:     在上一篇blog中介绍过POI检索的使用,本篇blog主要介绍公交信息检索和线路规划的内容。 公交信息检索     实际上,公交信息检索与POI检索、在线建议检索非常相似,也...

  Java中的ThreadLocal类允许我们创建只能被同一个线程读写的变量。因此,如果一段代码含有一个ThreadLocal变量的引用,即使两个线程同时执行这段代码,它们也无法访问到对方的Thread...

  u011860731的专栏C#实现开发windows服务实现自动从FTP服务器下载文件(自行设置分/时执行)

  最近在做一个每天定点从FTP自动下载节目.xml并更新到数据库的功能。首先想到用 FileSystemWatcher来监控下载到某个目录中的文件是否发生改变,如果改变就执行相应的操作,然后用timer...

  摘要 最近要发论文了,被知乎里人推荐使用论文编译软件(CTex、LaTex和Overleaf之类),瞬间感觉自己用Word简直Out了(书读少)。 学校里也听说过LaTex,不过因为当时没怎么写过...

  看到很多朋友配置vsftpd时不能使用匿名用户上传和下载(创建目录或删除、重命名文件夹),本文主要解决vsftpd的匿名用户权限配制问题。...

  一个例子高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况(或者是同一...

  最近比较有空,大四出来实习几个月了,作为实习狗的我,被叫去研究Docker了,汗汗! Docker的三大核心概念:镜像、容器、仓库 镜像:类似虚拟机的镜像、用俗话说就是安装文件。 容器:类似一个轻量...

  我走小路的博客将Excel文件导入数据库(POI+Excel+MySQL+jsp页面导入)第一次优化

  本篇文章是根据我的上篇博客,给出的改进版,由于时间有限,仅做了一个简单的优化。相关文章:将excel导入数据库2018年4月1日,新增下载地址链接:点击打开源码下载地址十分抱歉,这个链接地址没有在这篇...

  Http协议的重要性相信不用我多说了,HttpClient相比传统JDK自带的URLConnection,增加了易用性和灵活性(具体区别,日后我们再讨论),它不仅是客户端发送Http请求变得容易,而且...

  klkxxy的博客三菱FX系列PLC与PC通讯的实现之专有协议(计算机联接)的程序设计之一

  阅读内容为:FX系列微型可编程控制器用户手册(通讯篇)中计算机链接功能章节。 采用本方法通信,pc端的实现,其实就是,把操作按照协议(2种)翻译成相应的字符串,通过串口发送给plc。 编写一应用程...

  强连通分量: 简言之 就是找环(每条边只走一次,两两可达) 孤立的一个点也是一个连通分量   使用tarjan算法 在嵌套的多个环中优先得到最大环( 最小环就是每个孤立点)   定义: int Ti...

  u013268685的专栏(有一种幸福叫AC,有一种期待叫AK)简单linux字符设备驱动程序与编程小技巧(上)

  这几天开始研究linux下的驱动程序编写了,遇到的问题也挺多的,好在linux是开源的,很多高人编写的技巧和思路都会在他们的源代码中体现,我也在他们的源码中学到了很多好东西,我归纳了下贴出来,希望自己...

  苹果充值的刷单现象在游戏行业非常普遍,很多团队挖空心思寻找漏洞以非法获利。常见的手段主要有以下六种: 伪造充值凭据(receipt)以小额凭据骗取大额商品 凭据重复使用 凭据重复使用信用卡黑卡/...

  分享知识、分享进步jquery/js实现一个网页同时调用多个倒计时(最新的)

  jquery/js实现一个网页同时调用多个倒计时(最新的) 最近需要网页添加多个倒计时. 查阅网络,基本上都是千遍一律的不好用. 自己按需写了个.希望对大家有用. 有用请赞一个哦! //js ...

  一、代理模式为某个对象提供一个代理,从而控制这个代理的访问。代理类和委托类具有共同的父类或父接口,这样在任何使用委托类对象的地方都可以使用代理类对象替代。代理类负责请求的预处理、过滤、将请求分配给委托...

  如下图所示,蜂窝小区,以1为中心,顺时针编号,编号最大限定为100000。求任意两编号之间的最短距离。两个相邻小区的距离为1 示例:19到30的最短距离为5 实现如下三个接口: /**********...

  NYS001的专栏魔兽争霸3冰封王座1.24e 多开联机补丁 信息发布与收集点

  在MATLAB中,可以注释一段程序。 使用“%{”和“%}”。 例如 %{ 。。。 %} 即可。 经典方法是用 if 0,但缺点是不够直观,注释掉的内容仍然保持代码的颜色。现在可以用 ...

http://lsm-systems.com/weiyuyishu/175.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有