博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
阅读笔记 Vox Populi: Collecting High-Quality Labels from a Crowd
阅读量:4488 次
发布时间:2019-06-08

本文共 748 字,大约阅读时间需要 2 分钟。

作者 Ofer Dekel H-27 有多篇关于 Crowdsourcing 中 labeler 和 Active leanring 的文章。

这篇文章主要是考虑:训练一个分类器,从而删去一部分低质量的工人。论文中假设每个example 只接受一个样例,每个工人只标记较少数量的 example 。

其实际的算法其实还是通过通过训练好的分类器来判定工人所给的标记是否正确,从而将那些高错误率的工人删去(该工人提供的数据全部弃用),起到 clean data 的作用。

个人认为论文的贡献主要在于: 从理论上分析了通过 由分类器给出的伪标记作为 ground truth 来判定工人的精度,的确可以找出那些低质量的工人。不同于 Learn from crowd 文章,其最终目的不是为了得到一个高精度的分类器,而是删去低质量的工人,从大量的噪音数据中得到 cleaned data,但是否数据的分布发生了改变,还能否学到原始分布 D 上的分类器,论文没有考虑。

论文中的理论分析假定了工人数量和样例数量趋于无穷,在这种情形下,那些被差的工人标记的 x 被丢弃,不会对分类器 f 的学习造成很大影响。

该 paper 用到了 一个 smart twist( small modification): splitting the data in two and using each half to clean the other。这是将 example set $S$ 划分为 $S_1$ 和 $S_2$,用工人在 $S_1$ 上的表现来决定工人在 $S_2$ 上的label 是否保留。

 

转载于:https://www.cnblogs.com/Gelthin2017/p/10405344.html

你可能感兴趣的文章
ios开发之数据的持久化存储机制
查看>>
mongodb基本操作
查看>>
poj 3264
查看>>
图标跟着摄像机(Camera)orthographicSize的值改变大小
查看>>
LeetCode 386——字典序排数
查看>>
Learn day1 变量/数据类型
查看>>
go安装和开发工具安装
查看>>
【Scala】Scala技术栈
查看>>
PAT-A1033 or codeup 2031 To Fill or Not to Fill (贪心)题解
查看>>
实体字符转换,同样变量密码加盐MD5后生成的加密字符串不同解决办法 (原)
查看>>
《Windows核心编程》第十一章——线程池
查看>>
内存优化
查看>>
数据结构:单链表
查看>>
Go socket
查看>>
无法连接asp.net development server
查看>>
BETTER SUPPORT FOR FUNCTIONAL PROGRAMMING IN ANGULAR 2
查看>>
微信小程序tab栏切换
查看>>
windows pm2 开机启动
查看>>
Flask - 特殊装饰器 和 Flask工作结构模式(FBV, CBV)
查看>>
node.js环境搭建以及入门级hello程序
查看>>