首页> 美国卫生研究院文献>BMC Bioinformatics >Cleaning by clustering: methodology for addressing data quality issues in biomedical metadata

【2h】

Cleaning by clustering: methodology for addressing data quality issues in biomedical metadata

机译：集群清洗：解决生物医学元数据中数据质量问题的方法

代理获取

本网站仅为用户提供外文OA文献查询和代理获取服务，本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文，但由于OA文献来源多样且变更频繁，仍可能出现获取不到、文献不完整或与标题不符等情况，如果获取不到我们将提供退款服务。请知悉。

页面导航

摘要
著录项
相似文献
相关主题

摘要

BackgroundThe ability to efficiently search and filter datasets depends on access to high quality metadata. While most biomedical repositories require data submitters to provide a minimal set of metadata, some such as the Gene Expression Omnibus (GEO) allows users to specify additional metadata in the form of textual key-value pairs (e.g. sex: female). However, since there is no structured vocabulary to guide the submitter regarding the metadata terms to use, consequently, the 44,000,000+ key-value pairs in GEO suffer from numerous quality issues including redundancy, heterogeneity, inconsistency, and incompleteness. Such issues hinder the ability of scientists to hone in on datasets that meet their requirements and point to a need for accurate, structured and complete description of the data.

机译：背景技术有效搜索和过滤数据集的能力取决于对高质量元数据的访问。尽管大多数生物医学存储库都要求数据提交者提供最少的元数据集，但某些诸如基因表达综合总线（GEO）允许用户以文本键值对的形式（例如性别：女性）指定其他元数据。但是，由于没有结构化的词汇表可以指导提交者使用元数据术语，因此，GEO中的44,000,000+个键值对存在许多质量问题，包括冗余，异质性，不一致和不完整性。这些问题阻碍了科学家磨练满足其要求的数据集的能力，并指出需要对数据进行准确，结构化和完整的描述。

著录项

期刊名称 BMC Bioinformatics
作者
Wei Hu; Amrapali Zaveri; Honglei Qiu; Michel Dumontier;
展开▼
作者单位

展开▼
年(卷),期 2017(18),-1
年度 2017
页码 415
总页数 12
原文格式 PDF
正文语种
中图分类应用微生物学;生化遗传学;生化药理学;
关键词
GEO Metadata Data quality Clustering Biomedical Experimental data Reusability;

机译：GEO;元数据;数据质量;聚类;生物医学;实验数据;可重用性;

相似文献

外文文献
中文文献
专利

1. Cleaning by clustering: methodology for addressing data quality issues in biomedical metadata [J] . Wei Hu, Amrapali Zaveri, Honglei Qiu, BMC Bioinformatics . 2017,第1期

机译：集群清洗：解决生物医学元数据中数据质量问题的方法
2. BioinQA: metadata-based multi-document QA system for addressing the issues in biomedical domain [J] . Sparsh Mittal, Saket Gupta, Ankush Mittal International journal of data mining, modelling and management . 2013,第1期

机译：BioinQA：基于元数据的多文档质量检查系统，用于解决生物医学领域的问题
3. Metadata Quality in Institutional Repositories May be Improved by Addressing Staffing Issues [J] . Elizabeth Margaret Stovold Evidence Based Library and Information Practice . 2016,第3期

机译：解决人员配备问题可以提高机构存储库中的元数据质量
4. The DAF DDI Profile, a Metadata Set to Address Digital Curation and Preservation Issues in Cultural Heritage Institutions [C] . Ruggero Lancia Digital heritage . 2010

机译：DAF DDI配置文件，用于解决文化遗产机构中数字化管理和保存问题的元数据集
5. Geospatial metadata community adaptor Applying XSLT technologies to geographic metadata to address interoperability and compatibility issues. [D] . Yan, Qiping. 2014

机译：地理空间元数据社区适配器将XSLT技术应用于地理元数据以解决互操作性和兼容性问题。
6. The variable quality of metadata about biological samples used in biomedical experiments [O] . Rafael S. Gonçalves, Mark A. Musen 2019

机译：有关生物医学实验中使用的生物样品的元数据质量可变
7. Cleaning by clustering: methodology for addressing data quality issues in biomedical metadata [O] . Hu, Wei, Zaveri, Amrapali, Qiu, Honglei, 2017

机译：集群清洗：解决生物医学元数据中数据质量问题的方法

Cleaning by clustering: methodology for addressing data quality issues in biomedical metadata

摘要

著录项

相似文献

相关主题

期刊订阅