南湖新聞網

中港集運 > 新聞 > 科學研究 > 正文

我校學者研發出全基因組關聯分析軟件rMVP

核心提示: 近日,我校動科動醫學院趙書紅教授團隊研發了一款兼具計算高效、內存節省、可視化豐富的全基因組關聯分析軟件rMVP,為大數據全基因組關聯分析研究提供了新的工具。

南湖新聞網訊(通訊員 劉小磊)近日,我校動科動醫學院趙書紅教授團隊研發了一款兼具計算高效、內存節省、可視化豐富的全基因組關聯分析(Genome-Wide Association Study, GWAS)軟件rMVP,其利用分塊矩陣計算、並行加速、計算流程優化等策略提升全基因組關聯分析的計算效率,採用內存映射技術降低對內存資源的依賴,並提供靈活的基因組大數據處理與可視化模塊,為大數據全基因組關聯分析研究提供了新的工具。

圖 1. 一款計算高效、內存節省、可視化豐富的全基因組關聯分析軟件rMVP

全基因組關聯分析是一種通過統計學手段檢驗表型與覆蓋全基因組的高密度標記之間關聯程度來挖掘目標性狀候選基因的重要方法。近十年來,GWAS被廣泛應用於人類、畜牧、水產、植物和微生物等研究領域,鑑定了眾多影響人類疾病與農業經濟性狀的關鍵基因,成為解析複雜性狀遺傳機制的一把利器。隨着測序成本的降低和表型組技術的發展,用於GWAS的羣體數量、標記密度和表型數量迅速增長,尤其對於依賴個體親緣關係矩陣的混合線性模型,其內存消耗呈現n2級增長(n為個體數量),龐大的數據規模給GWAS帶來了新的挑戰。因此,如何利用有限的計算資源高效地處理大數據成為目前GWAS領域的研究重點之一。

rMVP軟件兼具內存節省(Memory-efficient)、可視化豐富(Visualization-enhanced)、計算高效(Parallel-accelerated)等特點。通過內存映射技術,rMVP軟件可直接從磁盤獲取數值,有效降低了GWAS分析過程中的內存消耗,同時避免了多進程並行計算時的數據拷貝問題。它採用基於OpenMP技術和Intel MKL技術的“線程級”和“數據級”雙並行模式進行計算加速,同時憑藉分塊矩陣拆分計算、GWAS流程全局優化等策略避免了大矩陣的重複計算,這也使得rMVP比PLINK,GEMMA和FarmCPU_pkg中對應的模型計算速度快約5-20倍。

此外,rMVP軟件還開發了一套高質量的可視化工具,可兼容 PLINK,GEMMA,GCTA,TASSEL等軟件的分析結果,繪製包括表型分佈圖、標記密度分佈圖、羣體結構圖、曼哈頓圖、QQ圖在內的多種高分辨率圖片。其中,它創新性地採用圓圈式曼哈頓圖展示多性狀、多模型結果,並首次將標記密度信息引入到曼哈頓圖中。

本研究的共同第一作者為我校博士後尹立林、武漢理工大學博士生張浩浩,我校劉小磊教授和李新雲教授為共同通訊作者。

審核人:趙書紅

【中港集運】

Along with the development of high-throughput sequencing technologies, both sample size and SNP number are increasing rapidly in Genome-Wide Association Studies (GWAS), and the associated computation is more challenging than ever. Here, we present a Memory-efficient, Visualization-enhanced, and Parallel-accelerated R package called “rMVP” to address the need for improved GWAS computation. rMVP can 1) effectively process large GWAS data, 2) rapidly evaluate population structure, 3) efficiently estimate variance components by EMMAX, FaST-LMM, and HE regression algorithms, 4) implement parallel-accelerated association tests of markers using GLM, MLM, and FarmCPU methods, 5) compute fast with a globally efficient design in the GWAS processes, and 6) generate various visualizations of GWAS related information. Accelerated by block matrix multiplication strategy and multiple threads, the association test methods embedded in rMVP are approximately 5–20 times faster than PLINK, GEMMA, and FarmCPU_pkg. rMVP is freely available at //github.com/xiaolei-lab/rMVP.

rMVP軟件://github.com/xiaolei-lab/rMVP

論文鏈接//www.sciencedirect.com/science/article/pii/S1672022921000504

責任編輯:徐行 湯海靜