第一篇:生物信息學(xué)
生物信息學(xué)是上世紀(jì)90年代初人類基因組計(jì)劃(hgp)依賴,隨著基因組學(xué)、蛋白組學(xué)等新興學(xué)科的建立,逐漸發(fā)展起來的生物學(xué)、數(shù)學(xué)和計(jì)算機(jī)信息科學(xué)的一門交叉應(yīng)用學(xué)科。目前生物信息學(xué)的研究領(lǐng)域主要包括基于生物序列數(shù)據(jù)的整理和注釋、生物信息挖掘工具開發(fā)及利用這些工具揭示生物學(xué)基礎(chǔ)理論知識(shí)等領(lǐng)域。生物信息學(xué)作為新型交叉應(yīng)用學(xué)科,可以依托本校已有的計(jì)算機(jī)科學(xué)、信息學(xué)、生物學(xué)和數(shù)學(xué)等學(xué)科優(yōu)勢(shì),充分展現(xiàn)投入少、見效快、起點(diǎn)高的特色,推動(dòng)學(xué)校學(xué)科建設(shè)和本科教學(xué)水平。
本實(shí)驗(yàn)指導(dǎo)書中的8個(gè)實(shí)驗(yàn)均設(shè)計(jì)為綜合性開發(fā)實(shí)驗(yàn),面向生物信息學(xué)院全體本科學(xué)生和研究生,以及全校對(duì)生物信息學(xué)感興趣的其他專業(yè)學(xué)生開放。生物信息學(xué)實(shí)驗(yàn)室將提供系統(tǒng)的保障,包括采用mail服務(wù)器和linux帳號(hào)管理等進(jìn)行實(shí)驗(yàn)過程管理和支持。限選《生物信息學(xué)及實(shí)驗(yàn)》的生物技術(shù)專業(yè)本科生至少選擇其中5個(gè)實(shí)驗(yàn),并不少于8個(gè)學(xué)時(shí),即為課程要求的0.5個(gè)學(xué)分。其他選修者按照課時(shí)和學(xué)校相關(guān)規(guī)定計(jì)算創(chuàng)新學(xué)分。 實(shí)驗(yàn)一 熟悉生物信息學(xué)網(wǎng)站及其數(shù)據(jù)的生物學(xué)意義
實(shí)驗(yàn)?zāi)康模?/p>
培養(yǎng)學(xué)生利用互聯(lián)網(wǎng)資源獲取生物信息學(xué)研究前沿和相關(guān)數(shù)據(jù)的能力,熟悉生物信息學(xué)相關(guān)的一些重要國(guó)內(nèi)外網(wǎng)站,及其核酸序列、蛋白質(zhì)序列及代謝途徑等功能相關(guān)數(shù)據(jù)庫,學(xué)會(huì)下載生物相關(guān)的信息數(shù)據(jù),了解不同的數(shù)據(jù)文件格式和其中重要的生物學(xué)意義。
實(shí)驗(yàn)原理:
利用互聯(lián)網(wǎng)資源檢索相關(guān)的國(guó)內(nèi)外生物信息學(xué)相關(guān)網(wǎng)站,如:ncbi、sanger、tigr、kegg、swww.taixiivf.comatch程序去除ests原始序列中的載體成分和引物成分,然后用phrap生成congtig和singlet,用blast程序進(jìn)一步將有同源性的contig和singlet進(jìn)行功能聚類,最后通過blast對(duì)聚類獲得的cluster進(jìn)行功能注釋。在實(shí)驗(yàn)過程中將用到一些本實(shí)驗(yàn)室寫好的perl程序用于連接各數(shù)據(jù)庫和工具軟件。
實(shí)驗(yàn)內(nèi)容:
1. 運(yùn)行codoncode aligner程序,并用它建立工程文件,導(dǎo)入例子文件
夾里面的數(shù)據(jù);練習(xí)對(duì)序列的各種查看方式。
2. 使用codoncode aligner程序里的clip ends, trim vector, assemble
等功能,完成序列的剪切、去雜質(zhì)、組裝工作。
實(shí)驗(yàn)報(bào)告:
1. 實(shí)驗(yàn)各步驟記錄和中間結(jié)果文件;
2. 舉例簡(jiǎn)要說明結(jié)果文件中數(shù)據(jù)的生物學(xué)意義。
參考書目:
《生物信息學(xué)概論》 羅靜初 等譯, 北京大學(xué)出版社, 201*;
《基因表達(dá)序列標(biāo)簽(est)數(shù)據(jù)分析手冊(cè)》 胡松年 等著, 浙江大學(xué)出版社, 201*。
實(shí)驗(yàn)五 利用primer premier5.0設(shè)計(jì)
race引物
實(shí)驗(yàn)?zāi)康模?/p>
熟悉pcr引物設(shè)計(jì)工具primer premier5.0的一些基本功能,能夠根據(jù)實(shí)驗(yàn)需要選擇相應(yīng)的引物設(shè)計(jì)方法設(shè)計(jì)pcr引物。
實(shí)驗(yàn)原理:
pcr實(shí)驗(yàn)是當(dāng)代分子生物學(xué)的基本實(shí)驗(yàn)之一,由于目標(biāo)序列和實(shí)驗(yàn)?zāi)康牡牟煌,相?yīng)設(shè)計(jì)引物的要求也不一樣。本實(shí)驗(yàn)延續(xù)ests分析結(jié)果,對(duì)于其中需要獲得全長(zhǎng)的基因進(jìn)行race引物的設(shè)計(jì),及5’和3’race引物,配合接頭序列設(shè)計(jì)單向引物,并模擬練習(xí)通過連接獲得全長(zhǎng)的基因cds序列。最后設(shè)計(jì)已知全長(zhǎng)基因序列的pcr擴(kuò)增引物。
實(shí)驗(yàn)內(nèi)容:
1. 從網(wǎng)站下載并安裝primer premier5.0;
2. 從 genbank 中任意獲取一個(gè) dna 序列,設(shè)計(jì)出該序列的合適引物; 實(shí)驗(yàn)報(bào)告:
1. 實(shí)驗(yàn)各步驟使用的數(shù)據(jù)、運(yùn)算平臺(tái)、結(jié)果文件記錄;
2. 比較不同引物設(shè)計(jì)平臺(tái)和不同pcr實(shí)驗(yàn)的差別;
參考書目:
《生物信息學(xué)概論》 羅靜初 等譯, 北京大學(xué)出版社, 201*;《生物信息學(xué)實(shí)驗(yàn)指導(dǎo)》 胡松年 等著, 浙江大學(xué)出版社, 201*; 。
實(shí)驗(yàn)八 perl程序的安裝、編寫、調(diào)試 實(shí)驗(yàn)?zāi)康模?/p>
培養(yǎng)學(xué)生能在www.taixiivf.comatics--a
practical guide to the analysis of genes and proteins "andreas d.baxevanis b.f.francis ouellette 著李衍達(dá) 孫之榮 等 譯清華大學(xué)出版社 201*年8月 第一版這本書由前衛(wèi)計(jì)算生物學(xué)家撰寫,貫穿了已有的工具和數(shù)據(jù)庫,包括應(yīng)用軟件、因特網(wǎng)資源、向數(shù)據(jù)庫提交dna序列以及進(jìn)行序列分析和利用核酸序列與蛋白質(zhì)序列進(jìn)行預(yù)測(cè)的的方法。以下是該書的目錄:1.因特網(wǎng)與生物學(xué)家,2. genebank序列數(shù)據(jù)庫,3.結(jié)構(gòu)數(shù)據(jù)庫,4.應(yīng)用gcg進(jìn)行序列分析,5.生物數(shù)據(jù)庫的信息檢索,6. ncbi數(shù)據(jù)模型,7.序列比對(duì)和數(shù)據(jù)庫搜索,
8.多序列比對(duì)和實(shí)際應(yīng)用,9.系統(tǒng)發(fā)育分析,10.利用核酸序列的預(yù)測(cè)方法,11.利用蛋白質(zhì)序列的預(yù)測(cè)方法,12.鼠類和人類公用物理圖譜數(shù)據(jù)庫漫游,13. acedb: 基因組信息數(shù)據(jù)庫,14.提交dna序列數(shù)據(jù)庫。本書有很多實(shí)際的序列和序列分析的例子。這本書適合高等院校的師生和從事生物工程研究的科技工作者閱讀。
在第14章提及的通訊資源:互聯(lián)網(wǎng)和通信地址;電話和傳真號(hào)碼
ddbj/embl和genbank的一般聯(lián)系信息以及提交dna序列到這些數(shù)據(jù)庫的入口。
ddbj(信息生物學(xué)中心,nig)
地址:ddbj,1111 yata, mishima,shiznoka 411,japan
傳真:81-559-81-6849
提交: ddbjsub@ddbj.nig.ac.jp
更新: ddbjupd@ddbj.nig.ac.jp
信息: ddbj@ddbj.nig.ac.jp
互聯(lián)網(wǎng)
主頁:
www.taixiivf.combl/doc/
embl和genbank數(shù)據(jù)庫的版本信息
embl ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc
genbank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt
sequin: dna序列數(shù)據(jù)庫的提交和更新工具 http://www.taixiivf.com.nih.gov/dbest
sts http://www.taixiivf.com.nih.gov/dbgss
htgs主頁:高吞吐量基因組序列資源,工具和信息 http://www.taixiivf.comics)主要研究測(cè)序和核苷酸序列; 結(jié)構(gòu)基因組學(xué)(structural genomics)著重于遺傳圖譜、物理圖譜和測(cè)序等方面的研究; 功能基因組學(xué)
(functional genomics)則研究以轉(zhuǎn)錄圖為基礎(chǔ)的基因組表達(dá)圖譜; 比較基因組學(xué)(comparative ge2nomics)的研究?jī)?nèi)容包括對(duì)不同進(jìn)化階段基因組的比較和不同種群和群體基因組的比較。
蛋白組和蛋白組學(xué)的概念是隨基因組和基因組學(xué)的出現(xiàn)而出現(xiàn)的. 蛋白組(proteme)的概念是由于基因表達(dá)水平并不能代表細(xì)胞中活性蛋白質(zhì)的數(shù)量, 基因組序列并不能描述活性蛋白質(zhì)所必需的翻譯后修飾和反映蛋白質(zhì)種類和含量的動(dòng)態(tài)變化過程而提出的. 在一定條件下某一基因組蛋白質(zhì)表達(dá)的數(shù)量類型稱為蛋白組, 代表這一有機(jī)體全部蛋白質(zhì)組成及其作用方式. 有關(guān)蛋白組的研究稱為蛋白組學(xué). 其中, 蛋白組的研究技術(shù)與方法、雙向凝膠電泳圖譜以及對(duì)不同條件下蛋白組變化的比較分析是蛋白組學(xué)的主要研究?jī)?nèi)容。生物信息學(xué)在基因組和蛋白組研究中所起的作用主要有:(1)基因組信息結(jié)構(gòu)的計(jì)算分析. 即對(duì)基因組數(shù)據(jù)進(jìn)行大規(guī)模并行計(jì)算并預(yù)測(cè)各種新基因和功能位點(diǎn), 研究大量非編碼區(qū)序列的信息結(jié)構(gòu)和可能的生物學(xué)意義。(2)模式生物全基因組信息結(jié)構(gòu)的比較研究.即
對(duì)已完成全基因組測(cè)序的各種模式生物的基因組信息結(jié)構(gòu)進(jìn)行比較分析, 包括同源序列的搜索比較和指導(dǎo)基因克隆.(3)功能基因組的相關(guān)信息分析, 包括對(duì)基因表達(dá)圖譜及其相關(guān)算法和軟件的研究, 與功能基因組信息相關(guān)的核酸、蛋白質(zhì)的空間結(jié)構(gòu)的預(yù)測(cè)模擬以及蛋白質(zhì)的功能預(yù)測(cè)。
2、生物信息數(shù)據(jù)庫
復(fù)雜的生物和生物界和日新月異的生命科學(xué)研究產(chǎn)出的大量的生物學(xué)信息,對(duì)這些信息的儲(chǔ)存、檢索、比較分析必須借助于計(jì)算機(jī)數(shù)據(jù)庫技術(shù), 包括各類生物學(xué)信息數(shù)據(jù)庫的建立與維護(hù)、數(shù)據(jù)的添加與注釋、更新與查詢、數(shù)據(jù)庫資料的網(wǎng)絡(luò)化等研究?jī)?nèi)容,F(xiàn)有的數(shù)據(jù)庫有:核酸序列數(shù)據(jù)庫(genbank、embl、ddbj)、基因組數(shù)據(jù)庫、基因圖譜數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫(swww.taixiivf.comatics
b數(shù)據(jù)采集
dna,rna和蛋白質(zhì)測(cè)序
1.dna測(cè)序原理
dna中核苷酸的順序是通過鏈?zhǔn)浇K止測(cè)序【也稱為脫氧測(cè)序(dideoxy sequencing)或以發(fā)明人命名的sanger方法】來確定。
2.dna序列的類型
基因組dna,是直接從基因組中得到,包括自然狀態(tài)的基因
復(fù)制dna(copy dna, cdna),通過反轉(zhuǎn)錄mrna得到的
重組dna,包括載體序列如質(zhì)粒,修飾過的病毒和在實(shí)驗(yàn)室使用的其他遺傳元件等
3.基因組測(cè)序策略
散彈法測(cè)序(shotgun sequence)包括隨機(jī)dna片段的生成,通過大量片段測(cè)序來覆蓋整個(gè)基因組
克隆重疊群測(cè)序(clone contig)dna片段用推理的方法亞克隆,并且進(jìn)行系統(tǒng)的測(cè)序直到整個(gè)序列完成
4.序列質(zhì)量控制
通過在dna雙鏈上進(jìn)行多次讀取完成高質(zhì)量序列數(shù)據(jù)的測(cè)定
可使用如phred等程序?qū)ψ畛醯母檾?shù)據(jù)(trace data)進(jìn)行堿基識(shí)別和質(zhì)量判斷。載體序列和重復(fù)的dna片段被屏蔽后,使用phred等程序?qū)⑿蛄衅唇映芍丿B群(contigs),剩下的不一致部分通過人工修飾解決
5.單遍測(cè)序
低質(zhì)量的序列數(shù)據(jù)可以由單次讀段(read)產(chǎn)生(單遍測(cè)序,single-pass sequencing)。盡管不很準(zhǔn)確,但單遍測(cè)序如ests和gsss,可以低廉的價(jià)格快速大量的產(chǎn)生
6.rna測(cè)序
因?yàn)橛写罅康男『塑账幔╩inor nucleotide)(化學(xué)改變的核苷)存在于轉(zhuǎn)移rna(trna)和核糖體rna(rrna)中,所以rna測(cè)序不能像dna測(cè)序那樣直接進(jìn)行。 需要用特殊的方法來識(shí)別被改變的核苷,包括生化實(shí)驗(yàn),核磁共振譜(nrm spectroscopy)和質(zhì)譜(ms)技術(shù)
7.蛋白質(zhì)測(cè)序
蛋白質(zhì)序列可以通過dna序列推斷得到,而rna測(cè)序不能提供有關(guān)已改變殘基或其他類型的翻譯后蛋白質(zhì)修飾(比如剪接或二硫鍵的形成)
大部分蛋白質(zhì)測(cè)序是通過質(zhì)譜(ms)技術(shù)進(jìn)行的
基因和蛋白質(zhì)表達(dá)數(shù)據(jù)
1.全局表達(dá)分析
rna水平的分析中有效的方法是從rna群體或cdna文庫中,甚至從序列數(shù)據(jù)庫中進(jìn)行序列采樣。一個(gè)簡(jiǎn)單的方法是從cdna文庫中隨機(jī)挑選5000個(gè)克隆進(jìn)行測(cè)序。含量很多的mrnas在采樣的序列中出現(xiàn)的頻率很高,而含量較少的mrna出現(xiàn)頻率則較低,通過這些數(shù)據(jù)的統(tǒng)計(jì)分析可以確定相對(duì)的表達(dá)水平。
一個(gè)更高級(jí)的技術(shù)是基因表達(dá)的連續(xù)分析(serial analysis of gene expreaaion, sage)該方法使每個(gè)cdna產(chǎn)生很短的序列標(biāo)簽(通常8~15nt),并在測(cè)序前把數(shù)百個(gè)標(biāo)簽連接成連環(huán)分子(concatemer)。這樣一個(gè)測(cè)序反應(yīng)中可搜集到幾百條mrna的豐富信息。每個(gè)sage標(biāo)簽可以特異性識(shí)別一個(gè)特定基因,通過對(duì)標(biāo)簽計(jì)數(shù),可以確定每個(gè)基因的相對(duì)表達(dá)水平。
然而,大部分全局rna表達(dá)數(shù)據(jù)還需從微陣列實(shí)驗(yàn)所測(cè)的信號(hào)強(qiáng)度中獲取。全局蛋白質(zhì)表達(dá)數(shù)據(jù)主要從雙向聚丙烯酰胺凝膠電泳(two-dimensional polyacrylamide gel electrophoresis, 2d-page)分離,產(chǎn)生點(diǎn)陣的唯一模式(每個(gè)點(diǎn)代表一個(gè)單獨(dú)的蛋白質(zhì))。在2d-page實(shí)驗(yàn)中,蛋白質(zhì)表達(dá)數(shù)據(jù)可以通過每個(gè)點(diǎn)的信號(hào)強(qiáng)度得到,每個(gè)二維凝膠上的蛋白信號(hào)必須通過質(zhì)譜(ms)技術(shù)來單個(gè)注釋。
2.dna微陣列
一個(gè)微陣列有一系列的dna元件(特征),以格子形式排列在載玻片等微型支撐物上,通過與復(fù)合rna探針雜交可同時(shí)使很多基因的表達(dá)水平可視化。若使用兩個(gè)不同的熒光標(biāo)簽的探針,可以在同樣的陣列上直接測(cè)定不同樣本的不同基因的表達(dá)。 微陣列中主要用到的兩個(gè)技術(shù):機(jī)械點(diǎn)樣dna微陣列(spotted dna microarray)和寡聚核酸基因芯片(oligonucleotide gene chip)(由美國(guó)affymetrix公司獨(dú)家制造),后者在制造芯片是通過固態(tài)化學(xué)合成把寡聚核苷酸印在芯片上。
3.雙向蛋白質(zhì)凝膠
2d-pag技術(shù)的原理是蛋白質(zhì)可基于兩個(gè)不同的特性來分離:等電點(diǎn)(isoelectric point)和分子質(zhì)量(molecular mass)。該技術(shù)中,第一方向蛋白沿固相ph梯度(immobilizes ph gradient)等電聚焦(isoelectric focusing)分離;在垂直方向進(jìn)行分子量的分離。在凝膠染色后,染色斑點(diǎn)(spot)的模式可作為樣品中蛋白質(zhì)的可重復(fù)使用的指紋(fringerprint)。通過樣本間比較可以識(shí)別不同表達(dá)的蛋白質(zhì),或被藥物誘導(dǎo)的蛋白質(zhì)等。離體的蛋白質(zhì)斑點(diǎn)(excised spot)可以通過質(zhì)譜技術(shù)鑒定。
蛋白質(zhì)互作數(shù)據(jù)
1.蛋白質(zhì)互作的重要性
蛋白質(zhì)-蛋白質(zhì)互作導(dǎo)致瞬時(shí)或穩(wěn)定多亞基復(fù)合物(multi-subunit complexes)的形成。了解這些復(fù)合物對(duì)于注釋蛋白質(zhì)功能是必需,也是解釋信號(hào)級(jí)聯(lián)和調(diào)控網(wǎng)絡(luò)等分子途徑的一個(gè)步驟。死效應(yīng)反映了兩個(gè)突變的蛋白質(zhì)
2.遺傳方法
抑制子突變體可以通過恢復(fù)被破壞的蛋白質(zhì)互作來補(bǔ)償有害的原始突變體。而合成致死效應(yīng)反映了兩個(gè)突變的蛋白質(zhì)不能相互作用,顯性負(fù)突變(dominant negative mutation)顯示了一種起著多聚復(fù)合體作用的蛋白質(zhì)。
3.親和性方法
可通過幾種利用蛋白質(zhì)親和性(特異結(jié)合的傾向)分析的物理方法來為蛋白質(zhì)之間的相互關(guān)系提供直接的證據(jù),比如親和性管柱層析法,免疫共沉淀。由ciphergen公司使親和實(shí)驗(yàn)格式更趨微型化,使得在蛋白質(zhì)芯片的發(fā)展中達(dá)到頂峰。
4.分子和原子的方法
x射線晶體學(xué)和核磁共振譜有助于在原子水平識(shí)別蛋白質(zhì)互作,其它的蛋白質(zhì)互作分析的分子方法包括熒光共振能量傳遞(fret),表面基元共振譜(spr)和表面增強(qiáng)激光接吸附/離子化技術(shù)(seldl),其中的很多方法可通過質(zhì)譜技術(shù)直接集成到蛋白質(zhì)注釋中。
5.基于文庫的方法
基于文庫的蛋白質(zhì)互作實(shí)驗(yàn)有兩個(gè)主要優(yōu)點(diǎn):它是高度并行的實(shí)驗(yàn)格式;候選互作蛋白質(zhì)及其cdnas之間直接關(guān)聯(lián)。
影響最大的方法是酵母雙雜交系統(tǒng)(yeast two-hybrid system,y2h),在這個(gè)系統(tǒng)中蛋白質(zhì)通過識(shí)別與之連接的一個(gè)功能轉(zhuǎn)錄因子進(jìn)行互作。
c數(shù)據(jù)庫--內(nèi)容,結(jié)構(gòu)和注釋
已注釋的序列數(shù)據(jù)庫
1.初級(jí)序列數(shù)據(jù)庫
genbank(ncbi)、核酸序列數(shù)據(jù)庫(embl)和日本的dna數(shù)據(jù)庫(ddbj)
2.swiss-prot和trembl
swiss-prot收集了確認(rèn)的蛋白質(zhì)序列及與結(jié)構(gòu),功能和所屬蛋白質(zhì)家族有關(guān)的注釋信息。相關(guān)數(shù)據(jù)庫trembl翻譯了初級(jí)核酸數(shù)據(jù)庫中的編碼序列。
其他數(shù)據(jù)庫
1.omim
omim指人類孟德爾遺傳的聯(lián)機(jī)數(shù)據(jù)庫,用于研究人類遺傳學(xué)和人類分子生物學(xué)的強(qiáng)大資源。每個(gè)omim條目都有一個(gè)對(duì)特定基因或性狀的已知信息的全文總結(jié),并有指向初級(jí)序列數(shù)據(jù)庫和其它遺傳學(xué)資源的鏈接。
2.incyte和unigene
incyte是商業(yè)數(shù)據(jù)庫,它提供了基因序列和專家注釋的記錄,這是專門為藥物研究開發(fā)服務(wù)的數(shù)據(jù)庫。unigene是一種用來把genbank序列聚類并與est數(shù)據(jù)相關(guān)聯(lián)的實(shí)驗(yàn)工具。
3.結(jié)構(gòu)數(shù)據(jù)庫
蛋白質(zhì)數(shù)據(jù)庫(pdb),核酸數(shù)據(jù)庫(ndb),大分子結(jié)構(gòu)數(shù)據(jù)庫(msd)
e通過序列相似性標(biāo)準(zhǔn)搜索序列數(shù)據(jù)庫
序列相似性搜索
1.序列聯(lián)配
序列聯(lián)配是是相似度量化的第一步,用來區(qū)分偶然性的相似和真實(shí)的生物學(xué)關(guān)系。聯(lián)配結(jié)果以變化(突變)、插入或缺失(或空位indel)來顯示序列之間的差異,這些差異可以用進(jìn)化術(shù)語來說明。
2.聯(lián)配算法
動(dòng)態(tài)規(guī)劃算法可以計(jì)算兩條之間的最佳聯(lián)配,其中廣泛使用的算法有smith-waterman算法(局部聯(lián)配)和needleman-wunsch算法(全局聯(lián)配)。
3.聯(lián)配分支和空位罰分
用簡(jiǎn)單的聯(lián)配分值來測(cè)量相同匹配殘基的比例或數(shù)目。得從聯(lián)配分值中扣去空位罰分,以保證聯(lián)配算法能得出有生物學(xué)意義的結(jié)果而沒有太多的空位。
數(shù)據(jù)庫搜索:fasta和blast
1.統(tǒng)計(jì)分值
相似度記分的p值是指獲得至少與兩條無關(guān)序列間的偶然相似性一樣高的分值的概率。低p值表明重要的匹配,這些匹配可能會(huì)有真實(shí)生物學(xué)意義。相關(guān)的e值(期望值)是至少與所識(shí)別的相似性記同樣高分值的偶然事件的期望概率。兩序列見相似度的低p值對(duì)應(yīng)于大數(shù)據(jù)庫搜索的高e值。
2.敏感性和特異性
敏感性衡量數(shù)據(jù)庫中真實(shí)生物序列關(guān)系的比例,該關(guān)系表現(xiàn)為擊中項(xiàng)(有意義的相似序列)。特異性指的是對(duì)應(yīng)于真實(shí)生物學(xué)關(guān)系的擊中項(xiàng)的比例。改變e和p的默認(rèn)值會(huì)導(dǎo)致這些互補(bǔ)的優(yōu)良度測(cè)量方法之間的平衡。
f多序列聯(lián)配:基因和蛋白質(zhì)家族
多序列聯(lián)配和家族關(guān)系
1.多序列聯(lián)配
多序列聯(lián)配表明兩條或兩條以上序列之間的關(guān)系,可以解釋關(guān)于蛋白質(zhì)結(jié)構(gòu)和功能的許多線索。當(dāng)所考察的序列不同時(shí),保守的殘基往往是維持穩(wěn)定結(jié)構(gòu)或生物學(xué)功能的關(guān)鍵殘基。
2.漸進(jìn)聯(lián)配
漸進(jìn)聯(lián)配方法以兩序列聯(lián)配來初步評(píng)價(jià)序列是如何相關(guān)的,并在這個(gè)基礎(chǔ)上構(gòu)建向?qū),然后使用向(qū)渲鸩教砑有蛄械铰?lián)配中,從最密切相關(guān)的序列開始到距離最遠(yuǎn)的序列結(jié)束。
蛋白質(zhì)家族和模式數(shù)據(jù)庫
1.蛋白質(zhì)家族
把序列分配到蛋白質(zhì)家族中是預(yù)測(cè)蛋白質(zhì)功能是非常有價(jià)值的方法。多序列聯(lián)配信息的表示方法有很多種,包括聯(lián)配本身、一致序列、保守殘基和殘基模式、序列輪廓以及其他的
序列家族的概率模型。這些根據(jù)不同的應(yīng)用都有不同的用途,其中大多數(shù)已經(jīng)被開發(fā)和存儲(chǔ)在數(shù)據(jù)庫中,里面含有大量不同蛋白質(zhì)家族的信息,這樣的數(shù)據(jù)庫稱為二級(jí)數(shù)據(jù)庫。
2.一致序列
這些序列把多序列聯(lián)配的信息壓縮至單條序列,主要的缺點(diǎn)是除了在特定位置最常見的殘基之外,它們不能表示任何概率信息。一致序列的產(chǎn)生說明了任何蛋白家族的表示都是有偏向的,這主要是由于來源的序列集是有偏向的。
3.prosite
prosite數(shù)據(jù)庫包括與蛋白質(zhì)家族成員、特定蛋白功能及翻譯后修飾有關(guān)的序列模式。 prosite模式與一致序列的不同在于,它們往往比序列全長(zhǎng)要短得多,并且給出了一種描述多序列聯(lián)配中一套可接受的殘基組合的方法。prosite模式中已知的假陽性(或假陰性)都已經(jīng)在數(shù)據(jù)庫中注明。prosite數(shù)據(jù)庫在某些條目含有序列輪廓,以嘗試描述比模式更長(zhǎng)的序列片段(通常指整個(gè)結(jié)構(gòu)域)。
4.prints和blocks
prints和blocks是密切相關(guān)的,它們分別通過來自一組蛋白或蛋白家族中最高度保守區(qū)域的多序列聯(lián)配無空位片段的形式來表示蛋白質(zhì)家族。
蛋白質(zhì)結(jié)構(gòu)域家族
1.結(jié)構(gòu)域家族
許多蛋白質(zhì)是由模式結(jié)構(gòu)的結(jié)構(gòu)域組建的,因此蛋白質(zhì)家族的研究其實(shí)是對(duì)蛋白質(zhì)結(jié)構(gòu)域家族的研究。
2.序列輪廓
序列輪廓(也成權(quán)重矩陣)是一種描繪蛋白質(zhì)結(jié)構(gòu)與家族相關(guān)序列的方法,其優(yōu)點(diǎn)是描述了結(jié)構(gòu)域序列的全長(zhǎng),包括觀察到每個(gè)氨基酸的可能性,以及序列每個(gè)位點(diǎn)插入和缺失的可能性。
3.隱馬爾科夫模型
隱馬爾科夫模型(hmms)是蛋白質(zhì)結(jié)構(gòu)域家族序列的一種嚴(yán)格的統(tǒng)計(jì)模型,包括序列的匹配、插入和缺失狀態(tài),并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來生成蛋白質(zhì)序列。代表某蛋白結(jié)構(gòu)域家族的模型從該家族中生成序列的概率較高,從其他家族中生成序列的概率較低。
j微陣列數(shù)據(jù)分析
微陣列數(shù)據(jù):分析方法
1.微陣列原始數(shù)據(jù)
微陣列數(shù)據(jù)就是經(jīng)過雜交的陣列的掃描圖像,掃描圖像顯示每一個(gè)點(diǎn)的雜交信號(hào)強(qiáng)度。這些圖像可通過單通道、雙通道熒光標(biāo)記、同位素標(biāo)記或比色標(biāo)記等方法獲得,其記錄方式各不相同。
2.?dāng)?shù)據(jù)質(zhì)量
準(zhǔn)確記錄個(gè)點(diǎn)的信號(hào)強(qiáng)度是微陣列數(shù)據(jù)分析的基本要求,dna陣列可包含數(shù)千個(gè)特征點(diǎn),因此數(shù)據(jù)的獲取和分析必須自動(dòng)進(jìn)行。陣列上必須包含對(duì)照點(diǎn)以衡量非特異雜交和不同
陣列上雜交的多變性。
3.基因表達(dá)矩陣
從微陣列實(shí)驗(yàn)得到的原始數(shù)據(jù)首先要轉(zhuǎn)換成表,即基因表達(dá)矩陣。表中的各行代表基因,各列代表不同的實(shí)驗(yàn)條件,表中的數(shù)據(jù)為信號(hào)強(qiáng)度,代表各個(gè)基因的相對(duì)表達(dá)水平。
4.表達(dá)數(shù)據(jù)分組
基因表達(dá)矩陣中的每一個(gè)基因都有其特定的表達(dá)模式,即一系列條件下基因表達(dá)情況的測(cè)量值。微陣列數(shù)據(jù)分析就是要將這些數(shù)據(jù)按表達(dá)模式的相似程度進(jìn)行分類。
序列采樣和sage
1.序列采樣數(shù)據(jù)分析
差異基因表達(dá)的研究,可以通過從不同的cdna文庫中隨機(jī)挑取克隆來進(jìn)行,也可以通過抽取est數(shù)據(jù)來進(jìn)行。這種分析需要抽取成千上萬的序列以達(dá)到統(tǒng)計(jì)上的顯著性,即使對(duì)于中度冗余度的mrna也要如此。
2.sage
sage是一種序列采樣技術(shù),其原理是將非常短的序列標(biāo)記(9~15堿基)連續(xù)為長(zhǎng)的串聯(lián)體。sage標(biāo)記的長(zhǎng)度是最適于高通量分析,但基因依然可以被明確的鑒定出來。
來源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問題,請(qǐng)聯(lián)系我們及時(shí)刪除。