Upload file
File detail
注:表格只展示输入数据的前10行的信息。
Sample list
注:拖拽样本到'Selected variables',此处样本顺序为绘图样本顺序,确认无误后 点击下方'OK'按钮。
Sample list
Analysis parameters
Minimum SD
Number of clustered
Perform analysis
Table output
Plot output
Plot parameters
Plot
Select annotation file
KEGG enrich analysis
KEGG annotation table
KEGG enrich table
KEGG enrich plot
Plot parameters
Heatmap plot
Select annotation file
GO enrich analysis
GO annotation table
GO enrich table
GO enrich plot
Plot parameters
Heatmap plot
Plot parameters
Heatmap plot
Plot parameters
Heatmap plot
Select annotation file
Domain enrich analysis
Domain annotation table
Domain enrich table
Domain enrich plot
Plot parameters
Heatmap plot
Summary plot
Plot output
Plot output
Create html document report
若某个模块未生成图表,可能是因为数据较少,未运行出结果。此情况在点击"Create report"之前,可先将已生成的图表单独下载下来,避免丢失!
表达模式聚类分析
应用场景:
聚类是基因表达数据分析中的重要工具-无论是在转录本还是蛋白质水平上,这种无监督分类技术通常用于揭示隐藏在大型基因表达数据集中的结构。其中大多数聚类算法都会对数据进行硬分区,即每个基因或蛋白质都精确分配给一个聚类。如果群集分离良好,则硬群集是有利的,但是基因或蛋白质表达数据通常不是这种情况,因为基因或蛋白质簇经常重叠。另外,硬聚类算法通常对噪声非常敏感。为了克服硬聚类的局限性,我们实施了软聚类,软聚类具有更强的噪声鲁棒性,并且可以避免对基因或蛋白质进行先验的预过滤,这样可以防止从数据分析中排除生物学相关的基因或蛋白质。
适用于蛋白质组学,修饰组学 的表达数据,或其他类似的表达矩阵数据。
注意:
不同版本的R包TCseq所获得的聚类结果可能并不完全一致,请注意区别!现存两个版本:TCseq旧版1.6.1,TCseq最新版1.8.0。如果想复现之前做过的结果,请尽量保证两次所使用的R包TCseq版本一致。如果都是新项目,请直接使用最新版本(TCseq包为最新版1.8.0)。当前打开的工具TCseq包是旧版1.6.1,请注意聚类结果的差异。
分析方法:
此工具对不同连续样本(如不同处理时间或药物浓度)下蛋白的表达进行聚类分析,采用了一种新的聚类算法:模糊c均值聚类(Fuzzy C-Means Clustering,FCM),相比K-means等hard clustering算法,一定程度上降低了噪声对聚类结果的干扰,而且这种算法有效的定义了基因和cluster之间的关系。为了进一步了解每个cluster中蛋白参与的生物学过程,我们分别对对每个cluster中的蛋白进行了GO功能、KEGG通路和蛋白结构域的富集分析。
结果展示:
注:连续样本表达模式聚类分析结果图。 图中左侧采用折线图形式直观了展示了蛋白在连续样本中表达量变化的趋势情况。图中横轴为连续样本;纵轴为蛋白表达量;一条折线代表一个蛋白。根据折线变化趋势的不同,通过聚类分析分为6种不同的变化趋势(cluster)。针对每种变化趋势的蛋白集分别绘制了表达量的热图。为了进一步了解每个cluster中蛋白参与的生物学过程,我们分别对每个cluster中的蛋白进行了GO功能、KEGG通路和蛋白结构域的富集分析。在上图右侧罗列出了前几个最显著富集的功能。
注:基于蛋白cluster的功能富集聚类分析热图。 横向代表不同的clsuter;纵向为clsuter蛋白显著富集的KEGG通路。不同cluster中的蛋白与KEGG通路对应的色块表示富集程度强弱。红色代表富集程度强,蓝色代表富集程度弱。
输入文件格式要求:
输入文件支持tab符分隔的txt、csv、Excel三种格式文件。如果输入文件为Excel格式,当Excel文件中包含多个sheet时,upload完成后要求选择其中一个sheet作为输入数据。
文件内容要求:
表格第一列必须为'Protein accession',注意大小写、空格。该列为uniprot数据库中的蛋白编号,程序会根据此编号在数据库中查询对应的蛋白功能,用于功能富集分析。后面列可以包含其它更多信息,不影响数据分析。另外还需要包含蛋白的表达量信息列,表头为样本标识,允许字母、数字、'_'、'.',且第一个字符必须为字母。
蛋白表达量信息列必须为大于0的数字,不能为0。允许有空值、0可以替换为空值。在数据处理过程中:首先会对定量值做Log2对数转换。
数据示例如下图:(其中S1、S2、S3、S4、S5、S6列为蛋白在样本中的表达量)
选择样本定量信息列:
如下图所示:输入文件upload完成后,切换到Sample design页面。该页面中显示了输入文件所有表头的名称。将包含样本信息的表头名称用鼠标从上面拖拽到下面。样本的顺序也可以通过拖拽来调整。
确定待分析样本信息:
上面步骤完成后,点击OK按钮。右侧表格将显示选择的表头名。默认第二列信息与第一列相同,表格第二列可以手动修改。分析结果展示中将显示第二列的信息。
选择聚类分析参数:
如下图所示:聚类分析有2个可以选择的参数。Minimnm SD: 将在不同样本中表达量标准差异小于该阈值的蛋白过掉;Number fo clustered: 指定通过聚类分析将蛋白分为多个cluster。默认Minimum为0.5,Number of clustered为6。点击Analysis按钮开始分析。分析过程需要等待10秒左右,网页右下方会显示分析进度条,进度条消失后表示分析完成。
分析结果图形展示:
分析完成后,Plot output页面会显示如下图所示图形。左侧有两个参数可以调整图形颜色,有一个按钮可以导出图形为pdf,图片右下角按钮拖动可以调节图片大小。
分析结果表格展示:
分析完成后,Table output页面通过表格形式展示分析结果。点击Table output页面右上角'+/-'可以展开或收起页面。展开页面后,显示如下界面:可以对表格进行筛选、查询、排序,导出表格内容。表格最后两列显示了蛋白对应的cluter分类信息。通过计算一个叫 membership 的统计量判断蛋白质所属的聚类群,某蛋白哪个类的membership值最高,就属于那类。
导航栏说明:
进入该页面后,页面最上方会出现导航栏。导航栏对应'KEGG/GO/Domain'三个子页面,分别对蛋白进行KEGG、GO和Domain的富集分析。富集分析过程有两个参数需要选择:1)物种数据库;2)富集背景。下面以KEGG富集过程为例说明:
选择物种功能注释数据库:
选择数据库前:首先需要确定输入蛋白ID对应来源的物种信息。我们可以登录https://www.uniprot.org/网页,在搜索栏输入蛋白ID来查询蛋白的具体物种来源。
在确定物种拉丁名后,点击'File select'按钮进入数据库文件浏览页面。根据物种信息选择对应的物种分类文件夹,然后再选择对应物种的拉丁名命名的文件夹(命名规则:物种拉丁名+物种号)。
文件选择完成后,点击'ok'按钮。
选择富集分析背景参数:
富集分析背景:对聚类分析得到每个cluser中的蛋白进行功能富集分析,探究特定cluster中蛋白相比‘背景’蛋白来说功能偏向性。这里的背景可以是输入文件SD过滤后的所有蛋白(input),也可以选择物种所有的蛋白(database)。默认参数为'input'。确定参数后,点击'DO!'按钮开始分析。分析过程中浏览器右下方会显示分析进度条。
分析结果图形展示:
分析完成后,enrich plot页面会显示如下图所示图形。左侧有4个参数可以调整结果展示内容和形式,有一个按钮可以导出图形为pdf,图片右下角按钮拖动可以调节图片大小。
分析结果表格展示:
分析完成后,enrich table页面通过表格形式展示富集分析结果。点击enrich table页面右上角'+/-'可以展开或收起页面。展开页面后,显示如下界面:可以对表格进行筛选、查询、排序,导出表格内容。
功能简介:
Summary plot主要功能是将上面分析结果进行整合后可视化展示。展示内容包含:蛋白表达量聚类趋势图;每个cluster蛋白显著富集功能情况。
可调节参数:
完成前面所有步骤后,页面会显示如下图所示图形。左侧有4个参数可以调整结果展示内容和形式,有一个按钮可以导出图形为pdf,图片右下角按钮拖动可以调节图片大小。
功能简介:
Create report主要功能是将分析结果整理为一份标准的分析报告。报告包含分析结果中的所有图片和表格,还包含一份html报告文档。
操作步骤:
完成前面所有步骤后,点击Create report按钮即可根据当前分析结果生成报告。报告创建完成后,在页面中有‘在线预览报告’和‘下载报告’两个功能。如下图所示
功能简介:
在网页左侧导航页面有两个按钮Save、Load。Save按钮用于保存当前分析结果在服务器中。Load按钮用于加载保存过分析结果。服务器中包含demo示例结果,可以采用load方式直接查看。