公告
互动

主页>综合188体育平台> 码隆科技CurriculumNet:提高噪声数据价值方法

码隆科技CurriculumNet:提高噪声数据价值方法

来源:网络188体育平台 作者:test2014 人气: 发布时间:2018-12-09 11:28

原标题:码隆科技CurriculumNet:提高噪声数据价值方法

专注于人工智能技术创新的科技周报Import AI,长期关注并报道科技领域的重要事件。在最近一期周报中,码隆科技自研的CurriculumNet算法在计算机视觉技术创新领域的应用获得了Import AI的关注。

码隆科技CurriculumNet:提高噪声数据价值方法

作为数万名业内专家的重要读物,Import AI一直专注于人工智能技术创新领域。其作者Jack Clark为OpenAI现任战略及传播总监,曾任Bloomberg唯一一位专注于神经网络学习领域的记者。OpenAI是众多硅谷大亨联合建立的人工智能非盈利组织,在技术界有广泛影响力。

如下是报道的中文译文:

中国计算机视觉创业公司码隆科技于近期开源了基于弱监督学习的CurriculumNet代码和模型。CurriculumNet是一种可通过从互联网上收集大量带有噪声标签的数据来训练出一个鲁棒性很强的深度神经网络模型技术,这一方法对那些缺少大型已标注数据集的研究人员十分有帮助。但是,这种从互联网上按照标签语义收集来的数据往往带有大量噪声。因此,若要在这些数据上训练出高性能的深度神经网络模型,研究人员需要面临着从噪声中提取足够多有用信息的挑战。

CurriculumNet:研究人员在WebVision数据库上训练他们的模型结构,该数据库包含了超过2,400,000张带有噪声标签的图像。他们的方法是在整个数据集上训练一个Inception_v2模型,之后研究所有图像映射到的特征空间;此后,CurriculumNet将这些图像分组,根据特征空间中所有图像的相似程度将每个类聚成三个子集。接着,他们开始使用具有相似图像特征的子集用于模型训练,再混合到噪声较大的子集中训练。通过高质量的标注数据迭代学习分类器,随后添加具有噪声的数据来加强分类器,研究人员表示这种增加噪声数据训练的方式不仅能提高模型的性能还能增强其泛化能力。

码隆科技CurriculumNet:提高噪声数据价值方法

测试效果:研究员用CurriculumNet测试了四个基准:WebVision、ImageNet、Clothing1M和Food101。他们发现,使用最大量的噪声数据训练的系统比那些没有噪声数据训练的系统甚至有着更高的准确度。这一方法使WebVision上的错误率减少了多个百分点。更进一步,CurriculumNet在WebVision上的准确度最高,而且训练数据越多,性能越好。

码隆科技在四个公开数据集中的实验结果

训练模型在WebVision和ImageNet上合集的效果

技术意义:类似于CurriculumNet的系统很好地展示了研究人员可以如何利用标注不佳的数据,结合前沿训练理念来,提高低质量标注数据的价值。这样的方法就类似于在自然资源中提取有用物质时所采取的"萃取"手法,很有现实意义。

码隆科技CurriculumNet:提高噪声数据价值方法本文已阅奖励+20金币金币零钱

继续阅读新闻 赚取更多金币



转载请注明:码隆科技CurriculumNet:提高噪声数据价值方法
免责声明:本文内容仅代表作者个人观点,不代表本站支持其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

主办技术支持单位188金宝搏(www.cborace.com) 网站备案号:闽ICP备12008397号-4

投诉受理邮箱:ade2@qq.com

188金宝搏以新思路谋求发展,分享当下网络新鲜188体育平台,倡导弘扬社会文化,提高全民生活文化知识,建设美丽幸福家园!!