您现在的位置是:首页 >新闻频道 > 企业要闻 > 2019-11-28 11:00:42

新算法可快速发现基因表达数据中的异常

卡内基梅隆大学的计算生物学家已经设计出一种算法,可以快速分类大量的基因表达数据,以发现可能值得进一步研究的意外现象。此外,该算法然后重新检查其自身的输出,查找它所犯的错误,然后进行纠正。

CMU计算生物学系教授Carl Kingsford和Ph.D. Cong Ma的这项工作。计算生物学专业的学生,是首次尝试自动搜索通过RNA测序或RNA-seq(推断基因活性水平的主要方法)推断的基因表达中的这些异常情况。

正如他们今天在《细胞系统》杂志上所报道的那样,研究人员已经在两个普遍使用且以前未知的广泛使用的RNA-seq文库中检测到88个异常-异常高或低水平的基因区域表达。

金斯福德说:“我们还不知道为什么会看到这88种奇怪的图案。”他指出,它们可能会成为进一步调查的对象。

尽管有机体的遗传构成是静态的,但是基因的活性水平或表达随时间变化很大。因此,基因表达分析已成为生物学研究以及诊断和监测癌症的主要工具。

异常对于研究人员可能是重要的线索,但是直到现在发现它们都是一个艰苦的,手动的过程,有时也被称为“序列注视”。金斯福德说,要发现一个异常可能需要检查200,000个转录物序列,即编码基因DNA信息的RNA序列。因此,大多数研究人员将他们认为重要的基因区域归零,而很大程度上忽略了绝大多数潜在异常。

Ma和Kingsford开发的算法可以自动搜索异常,使研究人员可以考虑所有转录本序列,而不仅是他们希望看到异常的区域。这项技术可以发现许多新现象,例如在多组织RNA-seq文库中发现的88个以前未知的常见异常。

但是马云指出,识别异常通常不是很清楚。例如,某些RNA-seq“读段”是多个基因和转录本共有的,有时会被定位到错误的序列。如果发生这种情况,那么一个遗传区域可能会比预期的活跃得多。因此,该算法会重新检查它检测到的任何异常,并查看当RNA-seq读数在基因之间重新分布时它们是否消失。

马云说:“通过在可能的情况下纠正异常,我们减少了错误预测差异表达实例的数量。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

相关文章