机器学习中,“降维”是指通过保留一些比较重要的特征,去除一些冗余的特征,从而减少数据特征的维度。如:当我们需要处理大量文章的主题分析时,可以通过__算法,结合潜在语义分析(LSA),对文章中的词汇进行聚类(如“万科”和“地产”聚类的关联度要大于“万科”和“王者荣耀”)。之后,按照聚类出现的效果,可以提取文档集合中的近义词,这样当用户检索文档的时候,是用语义级别(近义词集合)去检索了,而不是之前的词的级别,即实现了降维()
否
否
A.由用户事先指定
B.通过在d值不同的低维空间中对开销较小的学习器进行交叉验证来选取
C.可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值
D.随机设置
A.主成分分析是一种常用的非线性降维方法
B.核化线性降维是一种常用的线性降维方法
C.流形学习是一种借鉴拓扑流形概念的降维方法
D.度量学习绕过降维的过程,将学习目标转化为对距离度量计算的权重矩阵的学习
A.文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别
B.文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统
C.文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序
D.构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤
A.使用前向特征选择方法
B.使用后向特征排除方法
C.我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,我们可以去除这个特征
D.查看相关性表,去除相关性最高的一些特征
A.行车至路口,必须停车、指差点呼、鸣笛示意、匀速通过
B.配送急件,车速可以快一些,在路口直接加速通过
C.遇到同事,需要问一下备件进度,可以并排行驶,节省时间
D.车间不能产生过多噪音,应减少鸣笛
A.学生天职是学习,找人替课学业失
B.有偿替课实有因,无须指责与过问
C.弄虚作假令人厌,诚信做人德为先
D.学生在校需自律,建章立制强管理[来源