首页> 中国专利> 一种众包任务中的数据偏见处理方法

一种众包任务中的数据偏见处理方法

页面导航

摘要
著录项
相似文献

摘要

本发明提出了众包任务中的数据偏见处理方法。在众包数据收集阶段，需要获取足够多的数据，并且需要保证数据质量。但是在利用众包获取大量的标签数据可能会存在偏见。该方法利用可解释机器学习方法对众包数据收集的结果进行诊断，分析可能存在的机器学习方法中前处理，后处理对众包数据可能存在的偏见进行处理。数据偏见分析和诊断阶段，对数据中可能存在的偏见和模型漏洞进行分析；前处理阶段，通过前处理，包括盲点法，因果歧视法改善数据偏见，提升模型公平性；后处理阶段，通过均等机会，均等PPV等方法改善模型偏见。本发明可以比较有效地诊断数据收集过程中可能存在的偏见，并可以较为有效地消除后续可能使用数据的机器学习模型偏见。

著录项

公开/公告号CN113361762A

专利类型发明专利
公开/公告日2021-09-07

原文格式PDF
申请/专利权人南京大学;
展开▼

申请/专利号CN202110612266.1
发明设计人王崇骏;刘振东;钱树伟;赵乐;谢俊元;
展开▼

申请日2021-06-02
分类号G06Q10/04(20120101);G06Q10/06(20120101);G06K9/62(20060101);G06N3/04(20060101);G06N20/00(20190101);
代理机构32249 南京瑞弘专利商标事务所(普通合伙);
代理人任志艳
地址 210093 江苏省南京市栖霞区仙林大道163号
入库时间 2023-06-19 12:29:04

相似文献

专利
中文文献
外文文献

1. 一种众包任务中的数据偏见处理方法 [P] . 中国专利： CN113361762A . 2021-09-07
2. 一种医疗数据治理中质控和任务调度的解耦处理方法 [P] . 中国专利： CN112734281A . 2021-04-30
3. System for setting fees for iterative parsing, matching, and correlation of sets of text strings drawn from real time crowd-sourced streamed data and using said matches to initiate APIs or trigger alerts to participants in a crowd sourced pervasive computing environment. [P] . 美国专利： US2014040710A1 . 2014-02-06

机译：一种用于设置费用的系统，该费用用于对从实时众包流数据中提取的文本字符串集进行迭代解析，匹配和关联，并使用所述匹配来启动API或向众包普适计算环境中的参与者触发警报。
4. Evaluating a worker in performing crowd sourced tasks and providing in-task training through programmatically generated test tasks [P] . 美国专利： US8554605B2 . 2013-10-08

机译：评估工人执行众包任务并通过以编程方式生成的测试任务提供任务中的培训
5. Method and system for selecting a label from a plurality of labels for a task in a crowdsourced environment [P] . RU2019135532A . 2021-05-05

机译：用于从多个标签中选择标签的方法和系统在众包中的任务中的任务