基于蛋白质关系网络的复合物抽取研究
开创系统生物学以来,信息技术成为生物学研究不可缺少的重要手段。计算机领域的研究者利用数据挖掘、
机器学习等方法从不同角度诠释生物学中的难题。
其中关于生物网络中重要的蛋白质关系网络的研究逐渐成为近年来研究的热点,计算机领域研究者通过计算方法来探寻蛋白质功能、发现蛋白质复合物及功能模块。本文通过分析蛋白质关系网络的可靠性对蛋白质复合物识别的影响,针对生物学家不同的需求情况,设计了基于蛋白质关系网络可靠性分析的蛋白质复合物识别算法,主要研究包括:本文首先对蛋白质关系网络的可靠性进行分析,即利用基因共表达数据、蛋白质结构域等量化蛋白质关系的可信度,并通过对比模糊贝叶斯分类模型与普通贝叶斯模型在分类蛋白质复合物时的差异,揭示蛋白质关系网络的噪音对蛋白质复合物识别的影响较大,为设计以下三种基于蛋白质关系网络可靠性分析的复合物识别方法提供依据。
在已知蛋白质关系网络并且网络不可变的情况下,本文提出基于基因本体的语义相似度计算方法来对网络边加权,并结合加权网络设计了蛋白质复合物的识别方法。结果表明,利用基因本体的加权方式,减轻了网络中的假阳性信息的影响,与现有多个性 ...