一种基于SVDD的舰船机械特征选取新方法
毛荣富 朱海潮 何琳 高志华
由于传统的特征选取方法大多都依赖于具体的故障类型,必须根据一类或多类故障产生的样本集训练进行特征选取,所以针对某种故障选取的特征对另一种故障状态不一定也能有较好的效果。SVDD(Support Vectr Data Description)是基于正常样本的单值分类器,与其它分类器相比,它形成的最优分类面与具体的故障类型样本没有关系。利用这个原理,以海水泵为例提出了一种基于SVDD的特征选取新方法,通过对ROC(Receiver Operating Characteristic)曲线的分析来完成舰船机械状态监测的特征选取工作,为了使选取的特征在复杂的舰船实际环境中也具有良好性能,还进行了特征的抗噪声鲁棒性研究。同时基于SVDD的特征选取方法还综合了分类的两种分类错误进行特征优化选取,可以更科学地为舰船机械状态监测选取较好的特征参数。
局部文本特征选取算法的比较和改进研究
A Comparative and Improving Study of Local Feature Selection Algorithms in Text Categorization
李纲 夏晨曦 郑重
本文通过实验比较了互信息、X^2统计算法和优势率三种算法在用于局部文本特征选取时对文本分类性能的影响。实验结果显示,在应用于局部特征选择的情况下,文本特征选取算法仍然可以将特征空间的维度降低90%以上,而不降低文本分类的性能。同时,我们发现在应用于局部文本特征选取时,优势率算法的性能不如互信息和X^2统计算法。另外,对于K最近邻分类算法,随着足值的增大,文本分类的查准率在增加,而查全率在降低。最后,本文详细分析了造成这三种算法性能差异的原因,并提出了一种改进算法,来提高优势率算法应用于局部文本特征选取时的性能。
基于标识特征的信息系统特征选取
Feature Selection of Information System Based on Specified Features
李国和
通过引入标识特征集,把信息系统分解为独立的信息子系统。各个信息子系统逐一转变为类扩张矩阵和浓缩类扩张矩阵。以每个类扩张矩阵的统计信息为启发式信息,逐步完成信息子系统的特征选取和整合,最终形成整个信息系统的特征选取。这种特征选取方法具有高效和较优的特点。
一种基于本体论的文本特征选取方法
A Ontology-based Document Feature Extraction
林东文 白清源 谢丽聪 谢伙生 张莹
针对文本特征向量高维数的问题,给出了一种基于本体论的文本特征选取方法。通过由专业领域本体所建立的概念树,把文本的特征项映射到概念,同时进行特征项频度到概念频度的转换,使得选取得到的特征概念能够很好表征文本的内容。实验结果表明,与未进行特征概念选取相比,采用此方法选取得到的特征概念能够在尽可能减少对文本分类精度的影响下,达到降低特征维数的目的。
基于自适应特征选取的步态识别
Gait recognition based on adaptive feature selecting
申少吴 夏利民 张良春
提出基于自适应特征选取的步态识别方法。采用新的特征提取方法,该方法将目标按人体结构特点划分为多个子区域,利用各个子区域的质心与头部质心的距离和夹角对步态特征进行描述。采用Boosting算法自适应选取最优特征序列,对识别结果进行加权处理。该方法结合了步态的动态和静态信息,实验结果表明该方法具有较高的识别性能。
基于小波包变换距离特征选取的遥感影像融合
Remote Sensing Image Fusion Based on Distance Feature Selection of Wavelet Packet Transform
魏从玲 王建力
介绍了基于小波包变换和距离特征选取的影像融合方法:首先对多光谱影像做IHS变换;其次对多光谱影像的亮度分量和全色影像做小波包变换并分别采用加权平均法和距离特征选取法融合低频部分和高频部分;最后通过小波包重构和IHS逆变换得到最终的融合影像。以ERDAS8.5软件自带的影像文件为例对这种方法进行了实验,并利用信息熵等标准与其他融合方法进行了比较,实验结果表明该方法能得到更好的融合效果。
一种基于CHI值特征选取的粗糙集文本分类规则抽取方法
王明春 王正欧 张楷 郝玺龙
结合文本分类规则抽取的特点,给出了近似规则的定义。该方法首先利用CHI值进行特征选取并为下一步特征选取提供特征重要性信息,然后使用粗糙集对离散决策表继续进行特征选取,最后用粗糙集抽取出精确规则或近似规则。该方法将CHI值特征选取和粗糙集理论充分结合,避免了用粗糙集对大规模决策表进行特征约简,同时避免了决策表的离散化。该方法提高了文本规则抽取的效率,并使其更趋实用化。实验结果表明了这种方法的有效性和实用性。
基于体裁的中文网页分类的特征选取
Feature selection of Chinese web page categorization based on genre
黄臻臻 吴扬扬
探讨基于体裁的中文网页分类的特征项选取问题。词汇特征方面,结合自动抽取和人工归纳的方式来获得。通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的特征表达方式。此外,特征集中融入了文本的形式特征,并根据网页的特点,引入链接信息特征。实现了基于体裁的中文网页分类系统,结果表明分类效果得到了有效的改善。
基于词频差异的特征选取及改进的TF-IDF公式
Improved feature selection method and TF-IDF formula based on word frequency differentia
罗欣 夏德麟 晏蒲柳
文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。
基于最优正交质心特征选取的DNA微阵列数据分析
DNA Microarray Data Analysis Based on Optimal Orthogonal Centroid Feature Selection
钱夕元 倪中新 邵志清
微阵列数据具有样本小、维度高的特点,给数据分析带来了困难。因此,在生物信息学的研究和应用中,从微阵列数据里挑选主基因(特征选取)是十分重要和有意义的。本文采用基于最优正交质心特征选取算法(OCFS)来挑选主基因,并与基于信噪比的主基因挑选法和基于遗传算法的主基因挑选法进行了对比。利用挑选出的主基因,采用支持向量机(SVM)对数据样本进行了分类研究。通过实验,在经典的白血病数据集上,对于34个样本的测试集,达到了33/34的分类准确率,表明了本方法的适用性。