用主成分法将中药蛇胆分类的技巧
【摘要】:通过用多元统计分析中图论分类的方法对蛇胆分类,可看到,多元统计分析方法可以从不同侧面、不同角度、全方位、较准确地分析和研究多指标的综合评价问题;虽然多元统计分析方法计算复杂,但由于计算机的普及、各种统计软件的推广和应用,使得这种方法的应用前景变得更加广阔。
【关键词】:主成分聚类,最小支撑树
1 确定聚类指标与方法
选择有代表性的20个蛇胆,其中有长白山白眉蝮蛇胆12个(样本序号为1~12);黑眉蝮蛇胆2个(样本序号为13,14);眼镜蛇胆1个(样本序号为15);金环蛇胆1个(样本序号为16);水律蛇胆1个(样本序号为17);过树蛇胆1个(样本序号为18);松花蛇胆1个(样本序号为19);三索蛇胆1个(样本序号为20)。
对上述20个蛇胆,分别用红外线光谱测定法,测定它们的7项组分值(特征峰),得到原始数据。由于这7项组分值中某些相关性较强,若直接聚类,势必要受聚类指标相关性的影响,分类结果也未必可靠。因此,用主成分聚类能较真实地反映蛇胆的类属。
2 主成分及样本主坐标
2.1 相关系数阵R及特征值 由原始数据(20个样本,7个指标)可计算出相关系数阵R及R的特征值、百分率及累计百分率,见表1。表1 相关系数阵R的特征值、百分率、累计百分率
2.2 各样本主坐标 取累计百分率为95%,由表1可知,应取的主成分数P=5。由特征值和特征向量可计算出各样本的主坐标(5维)。选定的5个主成分彼此独立,可作为聚类指标。3 聚类
3.1 聚类方法 首先根据20个样本及每个样本的5个主坐标,计算样本的两两之间的欧氏距离。然后用图论中最小支撑树法将样本聚类。原理如下:
设有n个样本点,每两点有一条边,则n个点间可构成C2n=n (n-1)/2条边。在这些边中,选长度(距离)最小边和次小边,然后在余下的边里选最小的边,检查它与前面的边是否形成环(回路);若形成环,这个边就不用,否则这个边就用。一直下去,直至选出n-1条边为止,并将每边长度标在该边上。这n-1条边及每条边两端点上的样本序号就连成了一棵最小支撑树。
3.2 聚类结果 详细的聚类过程见表2。
根据表2聚类步骤可画出蛇胆的一棵最小支撑树。
取阈值λ=2.1,则将该树砍成4棵子树,每棵子树为一类。分类结果如下:
G1={15,17,18,19,20}
G3={1~5,7~12,16}
G2 ={13,14} G4={6}4 讨论
在图论聚类中规定,对单个样本点可将它归入离它较近的一类。由表2可见6号样本应归入12号样本所在的类(G3类),于是20个蛇胆最终分为三大类: 表2 最小支撑树端点号、距离和聚类步骤其中G1类为眼镜蛇类;G2类为黑眉蝮蛇类;G3类为金环蛇类。这表明水律蛇胆、松花蛇胆、过树蛇胆、三索蛇胆与眼镜蛇胆具有相近的药用性质,可用这些蛇胆代替眼镜蛇胆;而长白山白眉蝮蛇胆与金环蛇胆药用性能相近,在临床上可用长白山白眉蝮蛇胆代替金环蛇胆。
聚类结果将20个蛇胆分成3大类。这3大类恰好是较为著名和广泛使用的眼镜蛇胆、金环蛇胆、黑眉蝮蛇胆。可见,分类结果比较理想。
笔者曾用谱系聚
类法对样本聚类,所得效果与文中结果一致,这说明分类结果比较稳定、客观。
本文用主成分聚类分析法将中药蛇胆分类,克服了主观因素的干扰,所得分类结果令人信服,也是主成分聚类在药学分类中的初步尝试。
下一篇:脊髓损伤患者康复期护理技巧