数据挖掘理论和技术是20世纪80年代兴起的一门新兴交叉学科,它涉及统计学、人工智能、模式识别、机器学习以及数据库理论与技术的多门学科。数据挖掘自概念诞生以来,在学术界和工业界迅速形成了持续至今的研究和应用热潮,其地位日益重要、其应用日益广泛。随着数据库技术在工业、管理及经济领域中的广泛应用,对数据进行后期处理和分析的需求日益广泛,而数据挖掘能够满足这种需求。因此,数据挖掘已经成为智能数据分析领域的核心技术。
本课程主要教授学生如何在大量数据集中发现有用的知识与规则的关键步骤及算法。因此,建议授课时,除了理论课教学时主要使用的多媒体课件中应尽量多展示一些实际应用的成果之外,还需配有适当的习题课,让学生能够深入了解挖掘算法的实现过程;另外,针对每种技术或算法,还应为学生设计相应的实验,不仅可以进一步促进理论课的吸收,还有利于掌握挖掘技术的使用过程。
(一)第一章 导论 学时:2
教学内容:数据挖掘的社会需求;什么是数据挖掘;数据挖掘的数据来源;数据挖掘的分类;数据挖掘的体系结构;数据挖掘与其他相关技术;数据挖掘工具的评价标准。
教学要求:本章作为导论,其目的是让学生对数据挖掘技术有一个总体的认识。要求学生能够对数据挖掘的产生背景、技术的概念及发展趋势有所了解,进而了解本课程的教学目的。
重点、难点:数据挖掘的产生背景。
实验课、习题课、讨论课等教学形式:理论课。
(二)第二章 数据仓库技术 学时:4
教学内容:数据仓库的发展;数据仓库与数据库的区别;数据仓库的定义;数据仓库系统的结构;数据仓库建模;联机分析处理(OLAP);数据仓库与数据挖掘的关系。
教学要求:要求学生了解和掌握数据仓库的产生背景、数据仓库的体系结构与功能、数据仓库的多维数据模型、数据仓库的联机分析处理 (OLAP)技术,以及数据仓库与数据挖掘的关系。
重点、难点: 数据库与数据仓库的区别,数据仓库的多维数据模型
实验课、习题课、讨论课等教学形式:理论课
(三)第三章 数据预处理 学时:2
教学内容:为什么对数据进行预处理;数据清理;数据集成和变换;数据归约;离散化和概念分层生成
教学要求:要求学生了解数据预处理的基本过程及基本技术,明确数据预处理对数据挖掘整个过程的重要性。
重点、难点:数据清理、数据集成和数据规约。
实验课、习题课、讨论课等教学形式:理论课。
(四)第四章 关联分析技术 学时:6
教学内容:关联规则概念;关联规则挖掘过程;布尔型关联规则(Apriori算法与FP-Growth算法)、多值关联规则、可扩展的关联规则、多层关联规则及约束性关联规则等挖掘技术。
教学要求:要求学生了解关联规则能够解决的问题,以及解决问题的方法,熟悉掌握布尔型关联规则挖掘算法,并能够进行简单的应用。
重点、难点:布尔型关联规则Apriori类算法;可扩展的关联规则算法。
实验课、习题课、讨论课等教学形式:理论课
(五)第五章 分类分析技术 学时:8
教学内容:分类分析技术解决问题的能力;分类分析的挖掘过程;决策树分类分析方法(ID3和C4.5算法);可扩展的分类算法SLIIQ;随机森林原理及算法;贝叶斯分类算法。
教学要求:要求学生了解分类分析所能解决问题的能力,分类分析的过程;熟悉掌握ID3和C4.5决策树算法,并能够应用于解决实际问题。
重点、难点:C4.5决策树分类算法,随机森林原理与算法。
实验课、习题课、讨论课等教学形式:理论课
(六)第六章 聚类分析技术 学时:6
教学内容:聚类分析是什么;聚类分析能干什么;聚类分析的目标;聚类分析有哪些方法;距离和相似性系数;划分聚类算法(Kmeans算法,PAM算法);层次聚类算法(合并法,BIRCH算法);密度聚类算法(DBSCAN算法)。
教学要求:要求学生了解聚类分析所能解决问题的能力及聚类分析的过程;熟悉掌握划分聚类算法和密度聚类算法,并能够用聚类算法解决实际问题。
重点、难点:Kmeans算法、PAM算法和DBSCAN算法。
实验课、习题课、讨论课等教学形式:理论课
(七)第七章 序列模式挖掘 学时:4
教学内容:序列模式挖掘的原理;序列模式挖掘流程;AprioriAll算法;AprioriSome算法;DynamicSome算法;有时间约束的序列模式挖掘 GSP;FreeSpan算法。
教学要求:要求学生了解序列模式挖掘所能解决问题的能力及序列模式挖掘的过程;掌握Apriori类算法,并能够用以解决简单的实际应用问题。
重点、难点:AprioriAll算法、AprioriSome算法;DynamicSome算法;有时间约束的序列模式挖掘 GSP算法。
实验课、习题课、讨论课等教学形式:理论课。
1. 李爱国,厍向阳编著,数据挖掘原理、算法及应用,西安电子科技大学出版社,2012年。
2. 邵峰晶、于忠清、王金龙、孙仁诚编著,数据挖掘原理与算法,科学出版社,2012年。
3. 韩家炜编著,数据挖掘概念与技术,机械工业出版社,2012年。
课程章节 | | 文件类型 | | 上传时间 | | 大小 | | 备注 | |
1.1 数据挖掘导论-Part 1 |
.mp4
|
2020-02-09 | 523.30MB | ||
1.2 数据挖掘导论-Part 2 |
.mp4
|
2020-02-09 | 1.06GB | ||
1.3 数据挖掘导论-Part 3 |
.mp4
|
2020-02-09 | 358.98MB | ||
2.1 数据仓库-Part 1 |
.mp4
|
2022-02-21 | 44.89MB | ||
2.2 数据仓库- Part 2 |
.mp4
|
2020-02-10 | 46.76MB | ||
2.3 数据仓库- Part 3 |
.mp4
|
2020-02-10 | 26.71MB | ||
3.1 联机分析处理-Part 1 |
.mp4
|
2020-02-10 | 37.96MB | ||
3.2 联机分析处理- Part 2 |
.mp4
|
2021-03-01 | 48.72MB | ||
3.3 联机分析处理- Part 3 |
.mp4
|
2020-02-11 | 62.32MB | ||
4.1 Pycharm环境安装 |
.mp4
|
2022-02-21 | 294.48MB | ||
4.2 从文件中读取数据 |
.mp4
|
2022-02-21 | 98.71MB | ||
5.1 数据预处理-Part 1 |
.mp4
|
2020-02-13 | 92.74MB | ||
5.2 数据预处理- Part 2 |
.mp4
|
2020-02-13 | 91.36MB | ||
5.3 数据预处理- Part 3 |
.mp4
|
2020-02-13 | 22.82MB | ||
5.4 数据预处理- Part 4 |
.mp4
|
2020-02-13 | 38.40MB | ||
5.5 数据预处理- Part 5 |
.mp4
|
2020-02-13 | 5.67MB | ||
6.1 Pandas数据集预处理 |
.mp4
|
2022-02-21 | 759.70MB | ||
6.2 数据清洗 |
.mp4
|
2022-02-21 | 797.02MB | ||
7.1 Apriori- Part 1 |
.mp4
|
2020-02-13 | 158.24MB | ||
7.2 Apriori算法分析- Part 2 |
.mp4
|
2020-02-13 | 32.31MB | ||
7.3 FP-Growth- Part 3 |
.mp4
|
2020-02-13 | 19.39MB | ||
8.1 Apriori算法Python实践 |
.mp4
|
2022-02-21 | 282.29MB | ||
9.1 多值关联规则挖掘- Part1 |
.mp4
|
2020-02-14 | 53.81MB | ||
9.2 多值关联规则挖掘- Part 2 |
.mp4
|
2020-02-14 | 38.56MB | ||
10.1 可扩展的关联规则- Part 1 |
.mp4
|
2020-03-02 | 95.82MB | ||
10.2 多层关联规则- Part 2 |
.mp4
|
2020-03-02 | 37.87MB | ||
10.3 多层关联规则- Part 3 |
.mp4
|
2020-03-02 | 85.50MB | ||
11.1 Direct- Part 1 |
.mp4
|
2020-03-02 | 96.17MB | ||
11.2 Direct改- Part 2 |
.mp4
|
2020-02-18 | 32.11MB | ||
12.1 分类分析流程-Part 1 |
.mp4
|
2020-03-02 | 66.48MB | ||
12.2 ID3-Part 2 |
.mp4
|
2020-02-19 | 26.28MB | ||
12.3 信息增益- Part 3 |
.mp4
|
2020-02-19 | 22.78MB | ||
12.4 过拟合- Part 4 |
.mp4
|
2020-02-19 | 11.91MB | ||
13.1 C4.5- Part 1 |
.mp4
|
2020-04-12 | 29.65MB | ||
13.2 C4.5- 信息增益比-Part 2 |
.mp4
|
2020-04-12 | 37.13MB | ||
13.3 C4.5- 缺失值处理- Part 3 |
.mp4
|
2020-04-12 | 13.93MB | ||
13.4 C4.5- 交叉验证- Part 4 |
.mp4
|
2020-04-12 | 30.54MB | ||
13.5 C4.5- 实验课-Part 5 |
.mp4
|
2020-04-20 | 19.92MB | ||
13.6 C4.5- 实验课- Part 6 |
.mp4
|
2020-04-20 | 8.90MB | ||
14.1 决策树Python实践 |
.mp4
|
2022-02-21 | 424.90MB | ||
15.1 SLIQ- Part 1 |
.mp4
|
2020-04-19 | 110.60MB | ||
15.2 随机森林- Part 2 |
.mp4
|
2020-04-20 | 31.85MB | ||
15.3 随机森林- Part 3 |
.mp4
|
2020-04-20 | 37.50MB | ||
16.1 数据准备 |
.mp4
|
2022-02-21 | 757.74MB | ||
16.2 模型训练与预测 |
.mp4
|
2022-02-21 | 512.04MB | ||
16.3 交叉验证 |
.mp4
|
2022-02-21 | 233.86MB | ||
17.1 朴素贝叶斯分类- Part 1 |
.mp4
|
2020-04-19 | 63.01MB | ||
17.2 贝叶斯信念网络- Part 2 |
.mp4
|
2020-04-20 | 63.15MB | ||
18.1 Part 1 |
.mp4
|
2022-02-21 | 330.46MB | ||
18.2 Part 2 |
.mp4
|
2022-02-21 | 270.18MB | ||
19.1 Kmeans- Part 1 |
.mp4
|
2020-04-27 | 60.42MB | ||
19.2 PAM- Part 2 |
.mp4
|
2020-04-27 | 32.74MB | ||
20.1 Kmeans方法介绍 |
.mp4
|
2022-02-21 | 152.57MB | ||
20.2 KmeansPython实践 |
.mp4
|
2022-02-21 | 68.16MB | ||
21.1 层次聚类- Part 1 |
.mp4
|
2020-04-28 | 49.64MB | ||
21.2 BIRCH- Part 2 |
.mp4
|
2020-04-28 | 62.02MB | ||
23.1 DBSCAN算法原理 |
.mp4
|
2020-04-29 | 73.66MB | ||
25.1 AprioriAll- Part 1 |
.mp4
|
2020-04-29 | 45.53MB | ||
22.1 Birch算法Python实践 |
.mp4
|
2022-02-21 | 366.32MB | ||
24.1 OPTICS算法原理 |
.mp4
|
2022-02-21 | 114.43MB | ||
.mp4
|
2022-02-21 | 114.43MB | |||
.mp4
|
2022-02-21 | 114.43MB | |||
.mp4
|
2022-02-21 | 114.43MB | |||
.mp4
|
2022-03-08 | 82.45MB | |||
25.2 AprioriSome and DynamicSome- Part 2 |
.mp4
|
2020-04-29 | 22.70MB | ||
24.2 OPTICS算法Python实践1 |
.mp4
|
2022-02-21 | 237.98MB | ||
.mp4
|
2022-02-21 | 237.98MB | |||
.mp4
|
2022-02-21 | 237.98MB | |||
.mp4
|
2022-02-21 | 237.98MB | |||
.mp4
|
2022-02-21 | 237.98MB | |||
23.2 DBSCAN算法Python实践 |
.mp4
|
2022-03-08 | 114.43MB | ||
.mp4
|
2022-03-08 | 114.43MB | |||
.mp4
|
2022-06-07 | 114.43MB | |||
25.3 GSP- Part 3 |
.mp4
|
2020-04-29 | 49.88MB | ||
24.3 OPTICS算法Python实践2 |
.mp4
|
2022-02-21 | 245.52MB |