云捷创新：基于线上社区研究的样本模型技术

文章来源：企鹅号 - 悠咖驾到

大数据环境下数据量快速的积累，要想分析出海量数据所蕴含的价值，筛选出有价值的数据是十分重要的。通常来说，企业在处理这些规模庞大的数据对现有的分析方法和工具来说是巨大的挑战。随着机器学习技术和理论的发展，引领中国创新型调研方式的云捷亮数利用这些机器学习算法进行数据分析的方案已经成功应用。机器学习方法通常需要大量的样本数据集进行训练，来发掘其中的规律,并建立模型,再使用模型对未知数据进行预测分析。

而作为国内首创大小数据结合型研究方法，进行非常成熟的中高端消费者线上社区型研究的市场研究领域科技公司：北京云捷亮数科技有限公司在针对线上社区型研究样本做样本数据训练前的挑选样本过程中，注意到数据集的分配并非绝对均衡。针对不同的研究场景选择不同的方式解决样本均衡方案，在选择过程中既要考虑每个类别样本的分布情况以及总样本情况，又要考虑后续数据建模算法的适应性，以及整个数据模型计算的数据的时效性。同时云捷在做样本采样时一般更多的方式是利用下采样去除噪音，去除冗余样本在每个聚类层上按照比例抽取部分样本，以达到在样本上抽样时尽量不影响原始分布。

云捷亮数在算法的优化方面， SVM向量机使用非线性函数将输入数据映射至高维空间后应用线性SVM可得到非线性SVM。非线性SVM有如下优化问题：

类比软边距SVM，非线性SVM有如下对偶问题：

注意到式中存在映射函数内积，因此可以使用核方法，即直接选取核函数：

非线性SVM的对偶问题的KKT条件可同样类比软边距线性SVM。

采用高斯核SVM对异或问题的分类结果

另外，云捷的Adaboost算法在样本训练集使用过程中，对其中的关键分类特征集进行多次挑选，逐步训练分量弱分类器，用适当的阈值选择最佳弱分类器，最后将每次迭代训练选出的最佳弱分类器构建为强分类器。

在进行划分样本训练集，在每个训练集上进行模型训练，每次训练后，对训练失败的训练例赋以较大的权重，也就是让机器学习算法在后续的学习中集中对比较难的训练集进行学习，在不平衡的样本中，可以通过对算法的改进，调节样本类的权重来实现样本的平衡分布。

当然，这些训练数据都是不含标签的，云捷采用算法的目的则是通过训练推测出这些数据的标签。这类算法有一个统称，即无监督算法。无监督算法中最典型的代表就是聚类算法。而聚类算法中最典型的代表就是K-Means算法，关于云捷亮数在K-Means算法上相关的创新型调研方式可以参考本公众号之前的推送。

在市场研究领域的机器学习应用中，海量高质量样本的获取，是取得优异算法性能的重要前提。云捷亮数凭借旗下线上社区调研产品“悠咖驾到”，在长期的大小数据相结合的中高端消费者线上社区调研实践中，通过丰富真实的样本数据，对于相应类别的识别率提升更是立竿见影，而且泛化性能很好，可以经受住各种实际场景的考验。

发表于: 2020-01-172020-01-17 16:36:00
原文链接：https://kuaibao.qq.com/s/20200117A0JX6N00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

云捷创新：基于线上社区研究的样本模型技术

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐