
前言
随着LAMOST望远镜的正式投入使用,获取的光谱急剧增多。据统计,每晚将有2 万~4 万条光谱需要进行自动分类识别及参数测量,如何快速、准确地处理海量天体光谱成为瓶颈。数据挖掘是一门面向应用的新兴学科分支,涉及人工智能、机器学习、模式识别、统计学、数据库、可视化等多个学科领域,其主要目的是从大量原始数据中提取人们感兴趣的、隐含的、尚未被发现的信息和知识,目前已广泛应用于科学、工程、商业、医学等领域。因此,采用数据挖掘作为天体光谱数据的分析方法是可行的、有价值的。
本书是作者近年来科研成果的总结。全书共5章,在绪论之后,全书可以分为以下3部分。
(1)关联规则挖掘方法及应用,包括第2章。这一部分提出了基于准频繁项目集的关联规则挖掘、基于背景知识的关联规则挖掘、约束FP-tree及其构造方法、基于信息熵的加权频繁模式树构造共4个算法,用来解决关联规则挖掘中效率较低、扫描数据库次数较多、背景知识无法直接给出等问题。同时,将这几个算法用在天体光谱的数据处理中,实现了天体光谱属性之间的相关性分析,为探索新的天体规律提供了技术支持。
(2)离群数据挖掘方法及应用,包括第3章。这一部分提出了基于距离支持度的离群数据挖掘、基于分阶段模糊聚类的离群数据挖掘、基于信息熵的离群数据挖掘、基于特征属性子空间的离群数据挖掘共4种算法,从而提高了离群挖掘的效率及准确率,同时实现了天体光谱数据的离群挖掘,为发现未知天体提供了一种新的方法。
(3)天体光谱数据的其他挖掘方法及天体光谱数据挖掘原型系统,包括第4章和第5章。这一部分介绍了天体光谱数据的正、负项目集挖掘、基于约束概念格的恒星光谱分类规则提取、恒星光谱的分类规则后处理等方法,之后给出了几个天体光谱数据挖掘原型系统,介绍了系统的功能模块、体系结构,以及系统运行的相关界面。
本书的完成得到了太原科技大学人工智能实验室、计算机科学与技术学院各位同人的大力支持,尤其是张继福教授、蔡江辉博士为本书提出了很多很好的建议,在此一并致以诚挚的谢意。
本书所涉及的部分研究工作得到了山西省青年科学基金项目(项目编号:2012021015-4)和山西省高校高新技术产业化项目(项目编号:20121011)的资助,在此谨向山西省自然科学基金委员会和山西省教育厅表示深深的感谢并致以敬意。
由于作者的水平有限,书中难免有不妥之处,恳请各位专家和广大读者给予批评指正。
编 者
2013年5月