下面是一些关于大数据挖掘的知识点,笔者和大家一起来学习一下。
1. 数据、信息和知识是广义数据表现的不同形式。
2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识
3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘
4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。
5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知识模式的KDD处理模型
6. 粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。
7. 决策树分类模型的建立通常分为两个步骤:决策树生成,决策树修剪。
8. 从使用的主要技术上看,可以把分类方法归结为四种类型:
9. 关联规则挖掘问题可以划分成两个子问题:
10. 数据挖掘是相关学科充分发展的基础上被提出和发展的,主要的相关技术:
11. 衡量关联规则挖掘结果的有效性,应该从多种综合角度来考虑:
12. 约束的常见类型有:
13. 根据规则中涉及到的层次,多层次关联规则可以分为:
14. 按照聚类分析算法的主要思路,聚类方法可以被归纳为如下几种。
划分法:基于一定标准构建数据的划分。
属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。
15. 类间距离的度量主要有:
16. 层次聚类方法具体可分为:
层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。
17. 文本挖掘(TD)的方式和目标是多种多样的,基本层次有:
18. 在web访问挖掘中常用的技术:
路径分析
路径分析最常用的应用是用于判定在一个Web站点中最频繁访问的路径,这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。
关联规则发现
使用关联规则发现方法可以从Web访问事务集中,找到一般性的关联知识。
序列模式发现
在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。
分类
发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用于分类新的项。
聚类
可以从Web Usage数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项,就能够便于开发和执行未来的市场战略。
19. 根据功能和侧重点不同,数据挖掘语言可以分为三种类型:
20. 规则归纳有四种策略:减法、加法,先加后减、先减后加策略。
21. 数据挖掘定义有广义和狭义之分。
从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。
从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。
22. web挖掘的含义: 针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。
23. K-近邻分类算法(K Nearest Neighbors,简称KNN)的定义:通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。
24. K-means算法的性能分析:
主要优点:
主要缺点
25. ID3算法的性能分析:
26. Apriori算法有两个致命的性能瓶颈:
a多次扫描事务数据库,需要很大的I/O负载
对每次k循环,侯选集Ck中的每个元素都必须通过扫描数据库一次来验证其是否加入Lk。假如有一个频繁大项目集包含10个项的话,那么就至少需要扫描事务数据库10遍。
b.可能产生庞大的侯选集
由Lk-1产生k-侯选集Ck是指数增长的,例如104个1-频繁项目集就有可能产生接近107个元素的2-侯选集。如此大的侯选集对时间和主存空间都是一种挑战。a基于数据分割的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。
27. 改善Apriori算法适应性和效率的主要的改进方法有:
28. 面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多:
a 异构数据源环境:Web网站上的信息是异构: 每个站点的信息和组织都不一样;存在大量的无结构的文本信息、复杂的多媒体信息;站点使用和安全性、私密性要求各异等等。
b 数据的是复杂性:有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。
c 动态变化的应用环境:
29. 简述知识发现项目的过程化管理I-MIN过程模型。
30. 改善Apriori算法适应性和效率的主要的改进方法有:
31. 数据分类的两个步骤是什么?
a建立一个模型,描述预定的数据类集或概念集
数据元组也称作样本、实例或对象。
为建立模型而被分析的数据元组形成训练数据集。
训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。
通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。
b使用模型进行分类
首先评估模型(分类法)的预测准确率。
如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。
32. web访问信息挖掘的特点:
33. web页面内文本信息的挖掘:
挖掘的目标是对页面进行摘要和分类。
{在文本学习中常用的方法是TFIDF向量表示法,它是一种文档的词集(Bag-of-Words)表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。这种构造二维表的方法是:
对中文页面来说,还需先分词然后再进行以上两步处理。
这样构造的二维表表示的是Web页面集合的词的统计信息,最终就可以采用Naive Bayesian方法或k-Nearest Neighbor等方法进行分类挖掘。
定义 this是函数运行时自动生成的内部对象,即调用函数的那个对象。(不一定很准...
最近,DevOps的采用导致了企业计算的重大转变。除无服务器计算,动态配置和即付...
一、PostgreSQL行业位置 一 行业位置 首先我们看一看RDS PostgreSQL在整个行业当...
很长时间没有更新原创文章了,但是还一直在思考和沉淀当中,后面公众号会更频繁...
本文转载自网络,原文链接:https://mp.weixin.qq.com/s/vlOUg46B5bcmToX-fjavJQ...
查看表结构,sbtest1有主键、k_1二级索引、i_c二级索引 CREATE TABLE `sbtest1` ...
在TOP云(zuntop.com)科技租赁过服务器的站长都知道独立服务器在价格上比VPS主...
中国最?好的一朵云飘进了华瑞银行。阿里云将进一步助力华瑞银行All in Cloud。 -...
2020年对于云计算行业来说是突破性的一年,因为公共云供应商增加了收入,而疫情...
9月17日,2020云栖大会上,阿里云正式发布工业大脑3.0。 阿里云智能资深产品专家...