• <td id="8ecy8"><legend id="8ecy8"></legend></td>
  • <small id="8ecy8"><small id="8ecy8"></small></small>
  • 蛋白質組學

    北京青蓮百奧生物科技有限公司

    領跑智慧多組學,助力科研新發現


    服務咨詢熱線

    010-53395839

    蛋白質組學,糖基化蛋白質組學,多組學聯合分析
    您當前的位置 : 首 頁 > 新聞動態 > 行業資訊

    「青蓮百奧干貨分享」不會編程怎么做生信分析(Excel篇)

    2021-04-06 00:00:00

    利用RPython進行數據分析或數據可視化在生物數據的分析中已經應用得越來越廣泛,并為生物學研究解決了大量的問題。但是術業有專攻,在生物學領域深耕的專家學者可能不太熟悉編程技巧,感覺對生信分析一籌莫展,只能找別人幫忙協助分析。那么,有沒有方法可以讓不熟悉編程技巧的專業研究人員也能自己很方便地進行數據分析,并把數據按自己的思路進行可視化展現出來呢?答案是肯定的,具體怎么操作,且聽編者慢慢道來。


    首先,本期給大家帶來的是Excel協助的生物信息數據分析技巧。Excel是微軟Office的其中一個工具,收費。不過,沒關系,不想付錢我們可以用WPS表格,和Excel完全兼容,部分功能還超過微軟的Excel。

    下面我們就從蛋白質組raw文件經過MaxQuant搜庫后的結果出發,向您展示如何進行一系列處理后得到差異顯著結果。




    數據清理

    01


    MaxQuant提供的蛋白定量表中包含了部分錯誤的匹配數據,需要預先去除。我們對結果文件的三列(Only identified by site、Reverse、Potential contaminant)進行處理,即利用Excel的篩選功能,將這三列數據中含有“+”的行剔除。選中這幾列,按“Ctrl + Shift + L”(或【點擊數據】【自動篩選】)即可調出篩選功能。




    歸一化處理

    02


    由于上樣量等的差異,每組樣本的定量結果可能不能直接比較,需要先進行歸一化處理。目前文獻報道的歸一化方法很多,下面的演示我們采取中值歸一化的方法。

    (1)數據清理

    定量表中的0值,一般是指沒鑒定到,但在實際樣本中是不存在還是定量值太低,不好說,直接都當0看待會導致不必要的偏差。為了在后續尋找中值時不受0值干擾,在進行歸一化之前,要先將0替換為空值。操作方法:查找內容為0,替換為空值(不是空格,需要刪除格子中所有東西),點擊選項,選擇單元格匹配,點擊全部替換,即把表格中所有0的單元格替換成空值。如下圖:


    (2)計算各樣本的中值

    接下來我們需要找到各列的中值,可以用MEDIAN公式尋找中值(如果需要采用總和或頂值歸一化,可以用SUM、MAX計算總和或頂值),進行歸一化。

    在一個樣本列的末尾輸入“=MEDIAN(該列數據的單元格范圍)”,計算出該樣本的中位數。然后,鼠標按住該單元格的右下方向右拖動到合適的范圍,批量計算出所有樣本的中位數。


    (3)歸一化

    在新的列中,用公式“=單元格/中位數所在的單元格進行歸一化。由于中位數所在的單元格的行數是固定不變的。所以我們在行數前加上一個“$”符號,該符號表示的是鎖定的意思。然后,鼠標按住該單元格的右下方向右拖動到合適的范圍,批量進行歸一化。對同一列的批量操作可以在選中單元格后,將鼠標放置在單元格的右下角變成實心后,雙擊即可對整個列進行操作。





    補值

    03


    補值是對缺失值的一種估算。在無標定量的MaxQuant結果中,由于我們在搜庫時采取了Match between run的方式用一級數據進行定量值的估算,以此依然缺失的數據基本上為定量值很低的結果,我們可以用很低的值進行補值。在此,我們演示用最小值的1/2進行補值。

    首先,將歸一化后定量結果依然為0的單元格(在歸一化的公式操作中,空值經公式計算后得到0值)替換成空值后,找到最小值??梢酝ㄟ^“=MIN(單元格范圍)公式計算最小值,或者選中全部定量列,在下方狀態欄中顯示最小值。

    然后取最小值的1/2進行補值,操作步驟如下:

    “Ctrl + G”調出定位,選擇空值,點擊定位,則把所有空值的單元格都定位上,直接輸入要補的值,填入到當前選中的單元格中,然后按“Ctrl+Enter”即可對所有空值進行補值。





    注釋信息的匹配

    04


    在某些情況下,我們的定量表里可能只有“Accession”信息,但在實際分析中還需要Gene Symbol的信息。我們可以從數據庫中提取所有蛋白對應的Gene Symbol信息表,但需要提取我們的鑒定列表的Gene Symbol則需要用Excel VLOOKUP函數進行匹配。

    如圖,左側是所有蛋白的AccessionGene Symbol(也稱Gene Name)的對應關系,右側是我們想要匹配的蛋白列表。用“=VLOOKUP(查找值,數據表,列序數,匹配條件)。在這里,查找值是D列的第二行(D2);數據表的范圍是A列到B列(A:B);列序數,我們想要匹配的是A,B兩列的第二個(2);匹配條件,我們選擇準確匹配(FALSE),如果希望忽略大小寫可以模糊匹配(TRUE)。完成后,將鼠標放在該單元格右下角,變成實心字后雙擊補全,即可獲得所有蛋白Accession對應的Gene Symbol。




    統計檢驗

    05


    完成了前面的歸一化、補值后,我們需要進行不同分組數據的分析以便獲得差異表達結果。在此,我們采用生物學研究中常用的T-test進行統計檢驗,并計算差異倍數(Fold change,FC)。

    1統計檢驗(t-test

    采用Excel的公式“=TTEST(首組數值,第二組數值,尾數,類型),計算出pValue。本演示數據是23重復,所以首組數據是B2D2,第二組數數據是E2G2;尾數選擇2,代表雙尾;類型選擇2,代表雙樣本等方差假設。隨后對整列進行補全操作,即可得到所有蛋白的差異的pValue。


    2)計算差異倍數(FC

    計算差異倍數FC(即2組數據平均值的差)。通過函數“=AVERAGE(首組單元格范圍)/AVERAGE(第二組單元格范圍)”,獲得FC值,并補全列,即可得到所有蛋白的FC。





    為上下調蛋白著色

    06


    Excel還給我們提供了一種很直觀的可視化方式,即可在設定條件后,自動以不同顏色展示不同的結果。
    在這里我們卡pValue<0.05log2FC>1為上調,pValue<0.05log2FC<-1為下調。log2的計算可以通過公式“=LOG(數值單元格,底數)計算。

    (1)篩選pValue
    通過Excel的篩選功能,篩選出pValue小于0.05的數據。


    (2)自動著色

    選中“log2FC這列,點擊【開始】--【條件格式】--【突出顯示單元格規則】,選擇大于,數值選擇1,設置為淺紅填充色深紅色文本;同樣的操作步驟選擇小于,數值選擇-1,設置為綠填充色深綠色文本。


    效果如下圖所示:


    至此,我們用Excel完成了從MaxQuant搜索的原始搜庫結果,經過數據清理、歸一化、補值,最終進行差異篩選和不同顏色展示的整個過程。怎么樣,是不是很簡單。生信分析,我們不用編程也可以辦到的。

    當然,我們只是演示了一種最基礎的數據處理策略,如果需要更復雜的方法,還需要發掘Excel的其它功能,或者采用其它軟件輔助的方法實現。


    最近瀏覽:

    北京青蓮百奧生物科技有限公司

    固話:010-53395839
    郵箱:service@qinglianbio.com
    地址:北京市昌平區北清路生命科學園博雅CC C座1號樓807


    掃一掃,關注我們
    久久加99裸体艺术照_国语精品一区二区三区_亚洲色,图偷,拍自、拍_97超碰色目目