小细胞肺癌差异表达基因的生物信息学分析
作者:mac 来源:赛文期刊 日期:2021-05-08 08:44人气:
摘 要:目的:应用生物信息学方法挖掘小细胞肺癌(small cell lung cancer, SCLC)的相关基因,探讨其发病机制,为SCLC诊断和治疗提供靶点。方法:从GEO(Gene Expression Omnibus)数据库中下载基因芯片数据集GSE43346和GSE6044,利用在线分析工具GEO2R筛选SCLC的差异表达基因(differentially expressed genes, DEGs)。应用DAVID数据库进行GO和KEGG通路富集分析,利用STRING数据库和Cytoscape软件构建蛋白质相互作用网络和关键基因模块,筛选SCLC关键基因。运用UCSC和ONCOMINE数据库中的临床组织样本验证靶基因与SCLC的关系。结果:初筛出114个DEGs,富集分析发现差异基因在细胞分裂、细胞周期、有丝分裂、DNA复制等方面存在显著富集。共筛选出12个SCLC靶基因,经临床SCLC组织样本验证关键基因在SCLC组织中存在显著高表达。其中FBXO5、NCAPG、GINS2、GMNN、MCM6、ESPL1、MCM2、NDC80、BUB1B、CCNB2基因可能是SCLC分子发病机制的新靶点。结论:通过生物信息学筛选出10个与SCLC相关的新靶点,表明其可能是未来研究SCLC发病机制、临床诊断和治疗的重要靶基因。
关键词:小细胞肺癌; 差异表达基因; 蛋白相互作用网络; GO富集分析和KEGG通路分析; 靶基因;
Bioinformatics analysis of differentially expressed genes in small cell lung cancer
MAN Jun SONG Longfei BAI Farui YAN Hong LI Simin ZHANG Xiaomei
Beijing University of Chinese Medicine Department of Rehabilitation Medicine,Affiliated Hospital of Weifang Medical University Department of Anesthesiology,Affiliated Hospital of Weifang Medical University Department of Respiratory Fever,Dongfang Hospital,Beijing University of Chinese Medicine
Abstract:Objective:To provide targets for the pathogenesis, diagnosis and treatment of small cell lung cancer(SCLC),we excavated the related genes of SCLC by bioinformatics analysis.Methods:We downloaded gene datasets GSE43346 and GSE6044 from the Gene Expression Omnibus(GEO) database to identify the differentially expressed genes(DEGs) by GEO2 R analysis tools.Enrichment analysis of GO and KEGG pathways was performed by using the DAVID database.The protein interaction network and key gene modules were constructed using STRING database and Cytoscape software.Then the key genes of SCLC were screened by Cytoscape.The correlation between the hub genes and clinical SCLC tissue samples was confirmed using UCSC Cancer Genomics Browser and ONCOMINE database.Results:114 DEGs were preliminary screened.GO and KEGG analyses were mainly enriched in cell division, cell cycle, mitosis and DNA replication.Totally, 12 target genes were selected, and the clinical SCLC tissue samples confirmed that the key genes were significantly highly expressed in SCLC tissues.FBXO5,NCAPG,GINS2,GMNN,MCM6,ESPL1,MCM2,NDC80,BUB1 B and CCNB2 genes may be new targets for the molecular pathogenesis of SCLC.Conclusion:Ten new targets related to SCLC were identified by bioinformatics, suggesting that they may be important target genes for future studies on the pathogenesis, clinical diagnosis and treatment of SCLC.
Keyword:small cell lung cancer; differentially expressed genes; protein interaction network; GO enrichment and KEGG pathway analyses; hub genes;
肺癌是全世界诊断率和死亡率最高的癌症类型,小细胞肺癌(small cell lung cancer, SCLC)约占肺癌总数的15%~20%,具有恶性程度高、发展迅速、转移侵袭较快等特点[1]。尽管经过数十年的积极研究,SCLC早期仍缺乏有效的诊断方法且治疗手段相对较少,SCLC的死亡率仍然很高。目前,对SCLC分子机制研究仍较少,尚无批准的靶向药物,因此了解SCLC发生发展的分子机制,从而制定有效的诊断和治疗策略尤为重要。近年来基因微阵列、基因芯片等技术的快速发展,为检测和分析SCLC发病过程中差异表达基因组和功能基因提供了理论和依据[2],本研究希望通过生物信息学方法探讨SCLC发生发展的差异表达基因,为阐明SCLC的发病机制提供重要理论依据。
1 材料与方法
1.1 材料
GEO(Gene Expression Omnibus)数据库是一个开放的包含高通量基因表达数据、基因芯片、基因微阵列等基因表达丰度信息的数据库。从GEO下载种属为人的基因芯片数据集GSE43346(https: //www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE43346)和GSE6044(https: //www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE6044)。GSE43346包含25个小细胞肺癌组织样本和43个正常组织样本,GSE6044包含9个小细胞肺癌组织样本 和5个正常组织样本。
1.2 方法
1.2.1 差异基因筛选及数据处理
GEO2R是GEO在线分析工具,可以对GEO样品中的两个或多个数据集进行基因表达差异分析。使用GEO2R (http: //www.ncbi.nlm.nih.gov/geo/geo2r)筛选得到小细胞肺癌与正常组织相对比的差异表达基因(differentially expressed genes, DEGs),筛选条件为P<0.01,logFC(fold change)>1.5或logFC<-1.5,进一步采用韦恩图(http: //bioinformatics.psb.ugent.be/webtools/Venn/)得出两个数据集中共同存在的DEGs。
1.2.2 GO富集分析和KEGG通路分析
DAVID(http: //david.ncifcrf.gov) (version 6.8)是整合了生物学数据和分析工具的在线基因和通路功能注释的数据库[3]。GO是对基因进行注释并分析其生物学过程和功能的一种生物信息学工具,KEGG是一个从高通量实验技术获得的大量分子数据集中分析其相关信号通路的数据库[4]。利用DAVID对DEGs进行分子功能(MF)、细胞组成(CC)与生物过程(BP)的三个模块的GO功能富集分析,以及KEGG通路富集分析,寻找DEGs参与的基因功能和细胞信号通路。
1.2.3 构建蛋白质相互作用网络和关键基因模块
利用在线分析网站STRING (http: //www.string-db.org/)构建DEGs的蛋白质相互作用网络图,设置可信度为0.4。Cytoscape(版本 3.1.0)是一个用于可视化分子相互作用网络的开源生物信息学软件平台[5]。运用其插件MCODE构建关键基因网络模块,参数设置为Degree Cut-off: 2,Node Score Cut-off: 0.2,K-Core: 2和Max Depth: 100。
1.2.4 关键基因功能分析和临床样本验证
运用Cytoscape的插件CentiScaPe计算关键基因互作内节点度,对内节点度≥30的关键基因进行功能分析和临床样本验证。运用cBioPortal在线网站(http: //www.cbioportal.org)构建蛋白共表达网络图[6];运用UCSC(http: // genome-cancer.ucsc.edu)数据库制作层次聚类热图,探讨临床组织样本中关键基因的表达与小细胞肺癌的关系;进一步运用ONCOMINE(http: //www.oncomine.com)数据库中临床样本数据集证实小细胞肺癌中关键基因的表达。
2 结果
2.1 确定差异表达基因
从GEO数据库筛选出2个符合条件的基因芯片数据集GSE43346和GSE6044,应用在线分析工具GEO2R分别筛选出3 337个和200个DEGs。利用韦恩图(图1A)分析得出两个数据集中均含有的DEGs有114个。
2.2 GO富集分析和KEGG通路分析结果
应用DAVID对DEGs进行GO富集和KEGG通路分析。GO富集分析包含分子功能、细胞组成与生物过程3个方面,结果显示DEGs分子功能主要包括蛋白结合、染色质结合、RNA聚合酶Ⅱ转录激活剂活性、微管结合、蛋白激酶结合、氧化还原酶活性等(图2A);细胞组成主要包括纺锤体、核质、细胞核、细胞质基质、纺锤体微管、细胞质、有丝分裂纺锤体等(图2B);主要参与细胞分裂、有丝分裂细胞周期G1/S的转变、有丝分裂核分裂、有丝分裂染色单体分离、DNA复制等的生物过程(图2C);KEGG通路分析结果显示DEGs主要参与细胞周期、卵母细胞减数分裂、DNA复制、p53信号通路、酪氨酸代谢、HTLV-I感染等信号通路(图2D)。
2.3 蛋白质相互作用网络和关键基因模块
基因或蛋白质在人体内需要相互作用才能发挥功能。本研究分别采用STRING和Cytoscape数据库构建小细胞肺癌DEGs编码蛋白的相互作用(PPI)网络,两者结果均显示蛋白间存在密切相互作用关系,多个蛋白位于PPI网络中心,与周围蛋白密切相关(图1B和图3B)。利用插件MCODE 构建相互作用关系最密切的关键基因模块,结果显示,该模块含有42个相互作用节点(图1C)。
2.4 关键基因功能分析和临床样本验证结果
利用插件CentiScaPe共筛选出12个内节点度≥30的靶基因,这些基因的名称、缩写及其功能如表1所示。运用cBioPortal构建靶基因蛋白共表达网络图(图3A),结果显示靶基因编码 的蛋白间以及与多种蛋白存在共表达关系。 UCSC数据库分析结果显示靶基因在临床小细胞肺癌组织样本存在明显高表达, 在正常肺组织中表达较低(图3C)。 ONCOMINE数据库同样证实了在不同的临床小细胞肺癌样本数据集中靶基因均出现明显高表达,结果均具有统计学差异(图4)。多个临床样本数据库综合分析结果均表明了这些靶基因是小细胞肺癌发生发展的关键分子,是小细胞肺癌诊断和治疗的靶点。
3 讨论
目前肺癌是世界范围内恶性肿瘤死亡的重要原因,其诊断率和死亡率居高不下[7],小细胞肺癌生长迅速、广泛转移、侵袭性高。近年来,随着生物信息技术的快速发展,应用基因芯片、全基因组测序等高通量技术挖掘疾病发生进展过程中关键基因,为探索疾病的分子发病机制、提高临床诊断和靶向治疗带来了新的曙光[8,9]。目前国内外关于小细胞肺癌的发病机制和相关的分子标志物等研究较少,限制了临床中小细胞肺癌的及时诊断和治疗。因此本研究采用生物信息学分析方法,寻找与小细胞肺癌相关的分子标志物,研究其分子发病机制,为小细 胞肺癌的临床诊断和治疗提供依据。
本研究在两个数据集中筛选出114个共同的差异表达基因,通过对其进行富集分析发现差异基因在细胞分裂、细胞周期、有丝分裂细胞周期G1/S的转变、有丝分裂核分裂、DNA复制等方面存在显著富集。癌细胞因其存在端粒酶酵素使得端粒的长度可以无限延长,因此癌细胞具有无限分裂的潜能,小细胞肺癌显著的细胞分裂能力是其生长迅速、恶性程度较高的基础[10]。真核细胞分裂方式中有丝分裂与肿瘤的关系最为密切,细胞有丝分裂从G1期进入S期是细胞分裂的重要检查点,该过程DNA的正常复制使得癌细胞不断分裂增殖。
AURKA是丝氨酸/苏氨酸激酶家族的成员,AURKA是一种重要的致癌基因,AURKA过表达可使纺锤体缺陷和DNA受损,这些缺陷导致基因组不稳定, 最终致癌,AURKA在多种癌症组织中均过表达,LU Y等研究 发现,抑制AURKA基因表达可下调Bcl-2和上调Bax, 从而增加了SCLC细胞的凋亡,抑制了其分裂,为SCLC患者提供了一种新的、有效的治疗方法[11]。RAD51AP1蛋白是同源重组的关键蛋白,在DNA损伤的反应中RAD51AP1从细胞质转移到细胞核,对DNA损伤后的存活具有重要作用[12]。HANSEN LT等对SCLC细胞研究发现,细胞对依托泊苷耐药性与RAD51AP1蛋白水平呈正相关,抑制RAD51AP1可作为SCLC患者提高依托泊苷疗效和预测肿瘤耐药性的潜在靶点[13]。
FBXO5属于F-Box蛋白家族的一员,参与组成泛素连接酶和有丝分裂的调节[14],目前研究发现FBXO5在直肠癌、肝癌、乳腺癌等多种癌症组织中均存在明显高表达。NCAPG参与有丝分裂染色体的缩合,与细胞周期有关,促进细胞的增殖。ARAI T等研究发现NCAPG的过表达增强了前列腺癌细胞的侵袭性,是前列腺癌治疗的靶点[15]。GINS2和MCM蛋白均可启动DNA复制,维持染色体的缩合,具有肿瘤干细胞干性的作用。研究发现该两种基因与多种癌细胞的生长增殖、侵袭转移和肿瘤的复发和耐药性密切相关。GMNN基因与细胞周期密切相关,能加快细胞周期促进细胞增殖,研究发现GMNN在多种癌细胞系和原发性肿瘤中均明显过表达[16]。ESPL1是一种蛋白质编码基因,与细胞周期和细胞有丝分裂密切相关。NDC80和BUB1B基因均与细胞的有丝分裂关系密切,两者的异常表达使得有丝分裂中染色体不稳定,促使细胞的恶变[17]。CCNB2作为细胞周期蛋白家族的一员,MO ML等研究发现CCNB2与肿瘤分级及侵袭状态显著相关(P<0.001),可作为监测患者转移及治疗效果的潜在生物标志物[18]。
综上,本研究通过生物信息学方法成功筛选出12个基因与SCLC存在显著相关性,且进一步用多个临床样本数据库证实了这12个基因在SCLC组织中存在显著高表达。多项研究已证实AURKA和RAD51AP1基因在SCLC发生进展中占重要地位,而由于目前国内外对SCLC分子机制研究尚不完善,FBXO5、NCAPG、GINS2、GMNN、MCM6、ESPL1、MCM2、NDC80、BUB1B、CCNB2该10个基因尚未在SCLC中有研究,提示其可能是未来SCLC发病机制和诊断治疗的研究靶点。本研究为进一步实施SCLC体内外实验及寻找SCLC临床诊断和治疗的分子标志物提供了重要理论依据。
参考文献
[1] ZHANG X,WU L,XU Y,et al.Trends in the incidence rate of lung cancer by histological type and gender in Sichuan,China,1995-2015:A single-center retrospective study[J].Thoracic Cancer,2018,9(5):532-541.
[2] KAHN N,MEISTER M,EBERHARDT R,et al.Early detection of lung cancer by molecular markers in endobronchial epithelial-lining fluid[J].J Thorac Oncol,2012,7(6):1001-1008.
[3] HUANG DW,SHERMAN BT,TAN Q,et al.DAVID bioinformatics resources:expanded annotation database and novel algorithms to better extract biology from large gene lists[J].Nucleic Acids Research,2017,35:W169-175.
[4] KANEHISA M,FURUMICHI M,TANABE M,et al.KEGG:new perspectives on genomes,pathways,diseases and drugs[J].Nucleic Acids Res,2017,45:D353-D361.
[5] SCARDONI G,TOSADORI G,FAIZAN M,et al.Biological network analysis with CentiScaPe:Centralitie and experimental dataset integration[J].F1000Res,2014,3:139.
[6] GAO J,AKSOY BA,DOGRUSOZ U,et al.Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortal[J].Sci Signal,2013,6:11.
[7] YOULDEN DR,CRAMB SM,BAADE PD.The International Epidemiology of Lung Cancer:geographical distribution and secular trends[J].J Thorac Oncol,2008,3:819-831.
[8] 高强,钟英英,丁华杰,等.肺腺癌相关基因的生物信息学分析[J].中国肿瘤生物治疗杂志,2019,26(02):190-195.GAO Q,ZHONG YY,DING HJ,et al.Bioinformatics analysis of related genes in lung adenocarcinoma[J].Chinese Journal of Cancer Biotherapy,2019,26(02):190-195.
[9] 刘晴,刘丽,林志丰,等.基于GWAS的乙肝相关肝癌关联lncRNA SNPs生物信息学分析[J].现代预防医学,2019,46(07):1176-1180.LIU Q,LIU L,LIN ZF,et al.Bioinformatics analysis of lncRNA SNPs associated with hepatitis B virus-related hepatocellular carcinoma based on GWAS[J].Modern Preventive Medicine,2019,46(07):1176-1180.
[10] 祝明玥.细胞分裂分化与肺癌[J].临床医药文献电子杂志,2017,4(55):10859-10860.ZHU MY.Cell division and differentiation with lung cancer[J].Journal of Clinical Medical Literature,2017,4(55):10859-10860.
[11] LU Y,LIU Y,JIANG J,et al.Knocking down the expression of Aurora-A gene inhibits cell proliferation and induces G2/M phase arrest in human small cell lung cancer cells[J].Oncology Reports,2014,32(1):243-249.
[12] KO JC,HONG JH,WANG LH,et al.Role of repair protein Rad51 in regulating the response to gefitinib in human non-small cell lung cancer cells[J].Molecular Cancer Therapeutics,2008,7(11):3632.
[13] HANSEN LT,LUNDIN C,SPANG-THOMSEN M,et al.The role of RAD51 in etoposide (VP16) resistance in small cell lung cancer[J].International Journal of Cancer,2003,105(4):472-479.
[14] MOSHE Y,BAR-ON O,GANOTH D,et al.Regulation of the action of early mitotic inhibitor 1 on the anaphase-promoting complex/cyclosome by cyclin-dependent kinases[J].Journal of Biological Chemistry,2011,286(19):16647-16657.
[15] ARAI T,OKATO A,YAMADA Y,et al.Regulation of NCAPG by miR-99a-3p (passenger strand) inhibits cancer cell aggressiveness and is involved in CRPC[J].Cancer Medicine,2018,7(5):1988-2002.
[16] KIM HE,KIM DG,LEE KJ,et al.Frequent amplification of CENPF,GMNN and CDK13 genes in hepatocellular carcinomas[J].PLoS One,2012,7(8):e43223.
[17] HANKS S,RAHMAN N.Aneuploidy-cancer predisposition syndromes:a new link between the mitotic spindle checkpoint and cancer[J].Cell Cycle,2005,4(2):228-230.
[18] MO ML,CHEN Z,LI J,et al.Use of serum circulating Ccnb2 in cancer surveillance[J].Int J Biol Markers,2010,25(4):236-242.