對分組重量編碼的蛋白質預測
renleidejiyinzuzhidejihuazaozaijinianqianjiukaishile,bingqiezaiyanjiudeguochengzhongchanshengledaliangdefenzixueshuju,womenxuyaoduizhexieshujujinxingjisuanhefenxi,womentansuodezhexiewentiyijingchengweiwomenyanjiuderedianwentile。dongzhiwutineidedanbaizhiyucedegongnengyijingweijiyindefazhandiandinglehexinjichu,全自動定氮儀的使用也開始漸漸的廣泛化。數據挖掘、機器學習及人工神經網絡等方法已被廣泛應用到蛋白質功能預測的研究中。完整的蛋白質組是一個動態的研究對象,其功能預測涉及大量的信息,因此預測效果不太理想。本文介紹的方法是基於序列的蛋白質功能預測方法的又一次嚐試。
蛋白質分組重量編碼主要利用物理學中的粗粒化0思想,已成功應用到蛋白質結構預測研究。蛋白質結構可為其功能提供大量信息,因此,將蛋白質分組重量編碼結合最近鄰居算法應用於蛋白質功能預測研究。EBGW不僅提取氨基酸的物化特性, 而且更多的提取蛋白質序列中各類氨基酸的分布情況。
最近鄰居算法的基本思想是在多維空間中找到與未知樣本最近距離的點,並根據這個點的類別來判斷未知樣本的類。蛋白質分組重量編碼已經成功應用於蛋白質結構預測研究中,而蛋白質結構可以提供關於蛋白質功能的初步信息。蛋白質分組重量編碼作為蛋白質序列信息的數值表示,能夠充分提取序列中蘊含的結構信息,有效的應用於蛋白質結構預測中, 從而間接的為蛋白質功能預測提供功能信息。蛋白質行使某種功能,決定因素之一是氨基酸的物化特性,而不是具體的某個氨基酸。
編碼方式很好地刻畫了序列中的這種決定功能的本質特征。同時,盡管蛋白質之間的相互作用可以作為蛋白質功能預測的因素,但是,單純從蛋白質之間的相互作用提取功能信息,並不能很好地表達這種氨基酸的物化特性決定蛋白質功能的特征。因此,蛋(dan)白(bai)質(zhi)的(de)分(fen)組(zu)重(zhong)量(liang)編(bian)碼(ma)與(yu)蛋(dan)白(bai)質(zhi)之(zhi)間(jian)相(xiang)互(hu)作(zuo)用(yong)的(de)有(you)效(xiao)結(jie)合(he)是(shi)後(hou)續(xu)工(gong)作(zuo)的(de)突(tu)破(po)口(kou)。分(fen)組(zu)重(zhong)量(liang)編(bian)碼(ma)與(yu)最(zui)近(jin)鄰(lin)居(ju)法(fa)結(jie)合(he)的(de)思(si)想(xiang)僅(jin)從(cong)蛋(dan)白(bai)質(zhi)序(xu)列(lie)出(chu)發(fa),能夠全麵提取序列信息,不受其它蛋白質的製約,同時對於序列的長度不敏感。分組重量編碼結合最近鄰居算法,計算簡單,可以準確的將未知功能的蛋白質進行功能分類。同時,分組重量編碼所包含的信息量大,特別是在蛋白質-蛋白質相互作用信息未知、而僅采用序列信息的情況下,不受已知蛋白質-蛋白質相互作用信息量少的限製,有效地提取蛋白質序列中蘊含的功能信息,進行蛋白質功能預測。中國糧油儀器網 http://www.98fo.cn/



