全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1009 12
2022-04-15
摘要翻译:
计算生物学中的一个主要问题是现有的分类模型无法融入不断扩展的新领域知识。本文通过引入生物信息学中的增量学习来解决静态分类模型的问题。许多机器学习工具已经被应用于这个问题,它们使用静态的机器学习结构,如神经网络或支持向量机,这些结构无法将新的信息容纳到它们现有的模型中。我们利用模糊ARTMAP作为一个替代的机器学习系统,它具有增量学习新数据的能力。模糊ARTMAP被发现可以与许多广泛的机器学习系统相媲美。在选择和组合单个分类器的集成系统中使用进化策略,加上模糊ARTMAP的增量学习能力,证明了它适合作为模式分类器。利用G-偶联蛋白受体数据库的数据对该算法进行了测试,准确率为83%。所提出的系统也是普遍适用的,可用于基因组学和蛋白质组学中的问题。
---
英文标题:
《An Adaptive Strategy for the Classification of G-Protein Coupled
  Receptors》
---
作者:
S. Mohamed, D. Rubin, and T. Marwala
---
最新提交年份:
2007
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--
一级分类:Quantitative Biology        数量生物学
二级分类:Quantitative Methods        定量方法
分类描述:All experimental, numerical, statistical and mathematical contributions of value to biology
对生物学价值的所有实验、数值、统计和数学贡献
--

---
英文摘要:
  One of the major problems in computational biology is the inability of existing classification models to incorporate expanding and new domain knowledge. This problem of static classification models is addressed in this paper by the introduction of incremental learning for problems in bioinformatics. Many machine learning tools have been applied to this problem using static machine learning structures such as neural networks or support vector machines that are unable to accommodate new information into their existing models. We utilize the fuzzy ARTMAP as an alternate machine learning system that has the ability of incrementally learning new data as it becomes available. The fuzzy ARTMAP is found to be comparable to many of the widespread machine learning systems. The use of an evolutionary strategy in the selection and combination of individual classifiers into an ensemble system, coupled with the incremental learning ability of the fuzzy ARTMAP is proven to be suitable as a pattern classifier. The algorithm presented is tested using data from the G-Coupled Protein Receptors Database and shows good accuracy of 83%. The system presented is also generally applicable, and can be used in problems in genomics and proteomics.
---
PDF下载:
-->
English_Paper.pdf
大小:(951.13 KB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-15 10:03:39
一种自适应的G蛋白偶联受体分类策略。Mohamed,D.Rubin,T.Marwala**约翰内斯堡威特沃特斯兰德大学电气与信息工程学院。私人包3,威特斯,2050,南非。摘要:计算生物学中的一个主要问题是现有分类模型无法结合不断扩展的新领域知识。本文通过引入生物信息学中的增量学习来解决静态分类模型的问题。许多机器学习工具已经被应用于这个问题,它们使用静态的机器学习结构,如神经网络或支持向量机,这些结构无法将新的信息容纳到它们现有的模型中。我们利用模糊ARTMAP作为另一种机器学习系统,它具有增量学习新数据的能力。fuzzy ARTMAP被发现可以与许多宽屏机器学习系统相媲美。利用进化策略将单个分类器的选择和组合成集成系统,结合模糊ARTMAP的增量学习能力,证明了它是适合作为模式分类器的。利用G-偶联蛋白受体数据库的数据对该算法进行了验证,准确率为83%。本文提出的系统也是普遍适用的,可用于基因组学和蛋白质组学中的问题。关键词:生物信息学,GPCR,增量学习,模糊ARTMAP1。引言自人类基因组工程完成以来,生物序列分析近年来受到越来越多的关注。作为一个子领域,蛋白质序列分析由于其在药物发现项目[1]和朊病毒疾病分析中的应用而变得重要。生物系统的计算分析的好处在分析药物设计过程时最为明显。新药的开发通常需要长达15年的时间,每种药物的未充分调查成本高达7亿美元[1]。这种药物设计包括两个阶段:发现阶段和测试阶段[2]。正是在这个药物发现阶段,计算工具产生了最大的影响。在药物发现过程中,程序常常用于对许多已知家族中的蛋白质序列进行分类。用数学表示法,如果已知某一疾病的序列是属于家族的,那么该疾病的治疗最初是使用已知适用于[3]的药物组合来确定的。考虑HIV蛋白酶的例子,这是一种由人类免疫缺陷病毒产生的蛋白质。鉴定阶段包括HIV蛋白酶的发现和该蛋白作为抗感染病原体的鉴定。药物设计的目的是设计一种与药物靶点结合并抑制药物靶点的分子。生物信息学工具可以用来预测设计中的分子的结构和功能,并确定它们是否对药物目标有影响。G-蛋白偶联受体(G-Protein couplexed Receptors,GPCRs)是人体内发现的具有mostimportant作用的蛋白质超家族。近年来,许多基于机器学习的分类系统已经发展起来,将序列分类为GPCR家族的一个,并在这方面取得了巨大的成功。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 10:03:47
本文介绍了一个基于进化策略、增量学习和模糊ARTMAP的分类系统,实现了一个用于GPCR蛋白超家族的蛋白质分类系统,该系统允许对这些蛋白质进行ALLVS。-所有这些蛋白质的比较。该分类器是一个动态的增量系统,具有将新信息引入分类模型的能力。GPCRs的重要性G蛋白偶联受体(GPCRs)是一个蛋白质家族,是人体内最大的超家族。GPCRDB是一个专门存储和注释G-偶联蛋白的数据库,目前有16764个条目[4],GPCRs在神经传递、细胞代谢、分泌、细胞分化和生长以及炎症和免疫反应等细胞信号网络中发挥重要作用[5]。由于这些特性,GPCRs是目前开发的药物中约60%-70%的目标[6],50%的市场上现有药物和前50名最畅销药物中约20%的目标。这导致了超过美国235亿美元的医药销售收入,来自于针对这个超家族的药物[6]。GPCRs与所有主要治疗类别或疾病类别有关,包括疼痛、哮喘、炎症、肥胖、癌症,以及心血管、代谢、胃肠道和中枢神经系统疾病[7]。GPCRsis的主要特点是它们没有完全的序列同源性,并且只有一个共同的结构特征[5]。GPCR超家族由五个大家族和几个假定家族组成,每个家族又分为一级亚家族和二级亚家族。GPCR序列间的极端差异是难以分类的主要原因[1],也是本研究中使用GPCR序列的另一个重要原因。本研究从GPCRDB中可用的家族数中考虑了八个GPCR家族。GPCR序列以EMBL格式存储,该格式包括许多考虑序列方面的标记字段,如许多数据库中的标识符、发现日期和处理蛋白质序列的相关公开。数据库本身每三到四个月更新一次,所用数据中序列长度的分布是一个重要的考虑因素。图1显示了所使用的数据的序列长度分布的直方图,并显示了数据具有单峰分布,对于GPCR数据来说,大多数序列的长度约为350个氨基酸。分布还显示,数据确实包括比模式指示的长度更长和更短的长度。我们可以以此作为一个指示,即所使用的数据足够代表一般的蛋白质数据,所进行的实验结果可以用来表明算法对分类的序列长度不太依赖。图1:GPCR数据的序列长度分布3。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 10:03:54
序列比对是通过在每个序列中的字符或字符组之间寻找匹配来比较两个(对比对)或多个(多比对)DNAor蛋白质序列的过程[8]。相似程度用分数值描述,执行这些比对有三种计算方法。简单或成对比对通过使用氨基酸相似矩阵将查询序列与序列数据库中的每一个其他序列比对来确定相似度。Smith-Waterman[9]和Needleman-WunschAlgorithmes[10]是分别寻找最优局部和全局匹配的动态规划技术。一旦确定了最优对齐,就使用反核矩阵来确定对齐序列之间的相似程度。虽然这些算法在确定两个序列之间的最优对齐方面是有效的,但在数据库大范围中使用它在计算上是不可行的。然而,这个问题已经被许多启发式数据库搜索技术所克服,如BLAST[11]和FASTA[12],这些技术在全数据库搜索中变得更加普遍和有效。多重对齐通过首先对来自同一蛋白质超家族、家族或亚家族的一组序列进行对齐,并创建一个一致的序列来表示特定的群体,从而对已知序列的数据库进行搜索。然后使用PairWiseAligning将查询序列与每个共识序列进行比较。查询序列被分类为属于其具有最高相似度得分的组[1]。执行多重序列对齐的一些流行技术是位置特定得分矩阵(PSSM)[13]和ClustalW[14]。thirdcategory使用轮廓隐马尔可夫模型(HMMs)作为一致性序列的替代,但与多重比对技术完全相同。本研究的重点不是基于比对的技术,因此在这里不做详细描述。基于比对的技术在[2,8,15,16]中有详细描述。基于比对技术的问题在序列比对的有效性方面已经发现了许多缺点,这就是为什么这些技术在这里没有考虑。反对序列比对的主要论点是假设同源片段的顺序是保守的[17]。这一假设与公认的理解相矛盾,即进化导致基因重组和核苷酸和氨基酸的重新洗牌[18]。另一个争论在于这些方法缺乏计算效率,这导致了所谓的“无对齐”技术的发展。这些技术主要依赖于机器学习方法[19]和金融理论、Kolmogorov复杂性和Chaostheory的应用[17]。应用于蛋白质分类问题的机器学习工具包括多层感知器神经网络[20,21]、支持向量机[22,23]、K-最近邻分类器[24]和朴素贝叶斯分类器[1]等。模式识别方法允许时间复杂度限制在初始训练过程中,并且不对蛋白同源片段的顺序做出任何假设。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 10:04:00
基于特征的蛋白质序列分类方法使得广泛的分类工具的使用成为可能。大多数蛋白质数据库为数据库中的每个族提供隐马尔可夫模型(HMM),利用隐马尔可夫模型可以确定未知序列属于哪个族。近年来,多层感知器(MLP)神经网络被引入到分类问题中。神经网络已经被Dubchak[25],Nagarajan等人[26]和Weinert andLopes[21]等人应用。每一种方法都在结构域检测或蛋白质折叠预测方面取得了成功。其他类型的classifiershave也被使用。Zhao等人[27]利用了向上向量机,同时也利用了径向基函数(RBF)神经网络和K-最近邻(k-NN)分类器[24]。5.1 Fuzzy ARTMAP用于分类本文将Fuzzy ARTMAP作为一种分类器用于蛋白质分类任务。模糊ARTMAP基于自适应共振理论,由Carpenter等人[28]提出。该学习系统由两个fuzzy ART模块组成,在学习过程中采用了基于微积分的fuzzy运算。图2显示了模糊ARTMAP系统的结构。图2:模糊ArtMapArchitectureFuzzy ARTMAP将输入特征空间划分为n维空间中的多个超盒。它包含一个映射字段,它将个体化超盒映射到ClassificationSystem的输出类。结果表明,模糊ARTMAP能够很好地建模复杂的输入空间。它需要两个变量,其中警惕性参数代表分类精度和增量学习能力之间的权衡。学习速率,是一个因素,根据每个训练模式调整超盒在训练阶段。在这个系统中,这是众所周知的快速学习。关于模糊ARTMAP及其训练的更多细节可以在[28]中找到。5.2遗传算法的概述遗传算法(GA)通过应用进化生物学的原理来寻找问题的近似解,如交叉、变异、繁殖和自然选择[29]。遗传算法的搜索过程包括以下步骤:1)生成候选解的种群(池),其中p是种群的大小。2)基因库中foreach染色体的适配性评价。最低适应度的染色体被丢弃,为新的染色体组让路。染色体替换集是通过对最适合的个体进行交叉和突变的遗传操作而产生的。3)步骤1和步骤2重复给定的世代数,直到达到特定的适应度水平或超过最大世代数[30]。遗传算法通过二进制或浮点编码表示问题的输入数据,并使用遗传操作从潜在解群体中迭代计算结果,以确定全局最优解[30]。遗传算法通过适应度函数来评估候选解,并通过最大化该适应度函数来确定全局最大值。适应度函数包含了来自问题空间的信息,是将问题空间的性质传递给遗传算法的机制,与问题无关。geneticoperations非常重要,因为它们在搜索过程中增加了元素的多变性,从而允许更广泛的解空间被开发。以前的工作中,增量学习的问题以前没有考虑过,因为它是在这里提出的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 10:04:07
Vijaya等人[31]考虑了蛋白质序列的增量聚类问题,但这与本文所考虑的问题不同。模糊ARTMAP被选为增量分类器,如上所述,它被证明是一种有效的增量分类器[28]。支持向量机(SVM)在蛋白质分类中得到了广泛的应用,采用增量式的支持向量机更适合于蛋白质分类。虽然存在一些增量式支持向量机算法[32],但这些系统中的许多问题是它们只满足二元分类问题,不适用于多类分类问题,如蛋白质类分类问题。其他增量分类系统也存在,如增量常识性模型和增量模糊决策树。在这些增量分类系统中,模糊ARTMAP是最成熟和最广为人知的,因此被使用。系统概述系统的示意图如Infigure3所示。从蛋白质数据库中提取输入序列,然后将其转换为数值特征向量。然后我们创建一个分类器群体来引入分类多样性,并使用遗传算法结合kappa分析从这个群体中选择合适的多样性分类器。分类器的集成被用作在学习系统中引入模块化的一种手段。利用模糊ARTMAP(FAM)实现了该系统,并通过大量实验对该系统的性能进行了评价。系统的creationand操作的伪代码如清单7所示。通过使用GPCR数据集比较这些系统的分类能力,证明了FAM作为其他更流行分类器的替代分类器的能力。清单7中的算法描述的incrementallearning系统使用GPCR数据,并显示出能够学习新数据和维护现有数据。图3:系统架构概述8。从GPCRDB中获得的数据是ofamino酸序列的形式。为了使这些序列在分类系统中得到应用,必须将它们转换成数值形式。然而,在此转换之前,必须以离群点去除的形式进行预处理。离群点去除包括去除序列,这些序列中的字符不属于标准的20个字母氨基酸字母表--这些字母是Z带,意义模糊。一旦这个过程完成,这些蛋白质序列必须转换成数字特征。在文献中已经确定了两种类型的特征,它们是全局特征和局部特征。Huang等人[33]很好地描述了全局特征和局部特征之间的差异,这种差异在本文中得到了应用。8.1全局特征生成-叶状特征代表了整个蛋白序列的性质。这些特性必须捕获相关序列之间的全局相似性,以便进行比较。考虑这一序列的氨基酸组成。其组成简单地说就是给定序列中20种可能的氨基酸中每一种的存在频率。因此,组成由[27]计算:这里是第ith特征的值,是第ith氨基酸在该序列中出现的次数。这导致了20个特征:每种可能的氨基酸出现的频率。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群