首页> 外文会议>システム制御情報学会研究発表講演会 >2 種類のモチーフ検索問題に対する厳密解法-ワイルドカードを許す問題と編集距離を用いる問題Exact algorithms for two variants of the planted motif search problem - the problem with wildcards permitted and the problem based on an edit distance
【24h】

2 種類のモチーフ検索問題に対する厳密解法-ワイルドカードを許す問題と編集距離を用いる問題Exact algorithms for two variants of the planted motif search problem - the problem with wildcards permitted and the problem based on an edit distance

机译:用于种植的主题搜索问题的两个变体的精确算法 - 基于编辑距离的编辑距离基于编辑距离的编辑距离基于编辑距离的编辑距离,与两个图案搜索问题 - 通配符 - 通配符通配符。

获取原文

摘要

モチーフ検索問題(planted motif search problem) は,生物学と情報科学の融合分野であるバイオインフォマティクスにおいて研究される問題の一つであり,DNA 塩基配列やアミノ酸配列などに代表される複数の文字列に共通して出現する,モチーフとよばれる部分文字列を検索する問題である.ここでモチーフとは,生物学的には,特定の機能に関わる部分に共通して出現する短い配列を指すが,実際には,変異により少しずつ異なった形で出現することになる.したがって,出現した配列(以降では,出現(occurrence) とよぶ) を代表する配列がモチーフである,といえる.そこで,モチーフ検索問題では,類似した出現が各文字列に含まれるようなモチーフを求めることを目的とする.このようなモチーフ検索問題に対する研究はこれまで盛hに行われてきたが,その多くは,モチーフとその出現の類似度をはかる尺度としてハミング距離(同じ長さの文字列の中で文字が一致しない数,例えばTTGACA とTAGACA のハミング距離は1 である) を用いていた.本研究では,より一般化したモチーフ検索問題として,(1) ハミング距離を用いるがワイルドカードを許す場合,および(2) 編集距離を用いる場合,におけるモチーフ検索問題を考え,これらの問題に対する厳密解法を提案する.さらに,数値実験により提案解法の有効性を検証する.
机译:种植的图案搜索问题是生物信息学中研究的问题之一,它是生物学和信息科学的融合领域,并且由DNA核苷酸序列和氨基酸序列表示。这是一个常见于主题的子串搜索的问题出现。这里,图案是指与特定功能有关的部分看似共同的生物学,短序列,但实际上它将突变略有不同。因此,可以说,表示外观序列的阵列(下文中称为发生)是基序。因此,在图案中搜索问题中,本发明的一个目的是确定每个串中包括类似外观的图案。关于此类主题搜索问题的研究已经向草案进行了处理,但其中许多是汉明距离(相同长度的字符串的相同长度字符串的字符),作为测量TTGACA的蜂窝距离的数量塔卡是1)。在这项研究中,作为更广泛的主题搜索问题,(1)使用汉明距离,但如果它允许通配符,(2),考虑到使用编辑距离的情况下,考虑到使用编辑距离的情况,请提出这些问题的精确解决方案。此外,通过数值实验验证了所提出的解决方案方法的有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号