《数据挖掘》读书笔记:从大数据中自动提取知识与模式的科学方法
原文地址: https://88box.top 生成时间: 2026-05-20 09:38:39
《数据挖掘(主编:吕欣、王梦宁)》读书笔记总结 - hey99 知识搜索引擎
精选文章
《数据挖掘(主编:吕欣、王梦宁)》读书笔记总结
数据挖掘(Data Mining):从大量、不完全、有噪声、随机的数据中,自动提取潜在有价值知识与模式的过程。数据(Data)↓信息(Information)↓知识(Knowledge)↓决策(Decision)数据挖掘本质上是:从复杂数据中发现规律、提取知识、辅助决策的过程。AI大数据复杂网络城市计算的发展,数据挖掘将在未来社会治理与复杂系统研究中发挥越来越重要作用。
更新于 2026-05-20 01:17
人工智能
动画
数据挖掘
第一章 绪论——《数据挖掘(主编:吕欣、王梦宁)》读书笔记
参考资料:
《数据挖掘(主编:吕欣、王梦宁)》
XL-lab-bigdata/DataMining
CSDN / 知乎相关学习笔记
《复杂网络》
《Python 大数据实践》
《大数据平台架构》
- 数据挖掘的时代背景
1.1 大数据时代的到来
随着互联网、移动通信、物联网与社交媒体的发展,人类社会已经进入“大数据时代”。
目前数据具有典型的
4V 特征
:
特征
英文
含义
Volume
数据量大
TB、PB、EB级数据
Velocity
数据速度快
实时流式数据
Variety
数据多样
文本、图像、轨迹、网络
Value
价值密度低
有价值信息占比低
传统数据分析方法已经难以处理:
海量数据
高维数据
动态数据
非线性复杂系统
因此,数据挖掘逐渐成为现代数据科学的重要基础。
- 什么是数据挖掘
2.1 数据挖掘定义
数据挖掘(Data Mining):
从大量、不完全、有噪声、随机的数据中,
自动提取潜在有价值知识与模式的过程。
其核心目标是:
数据(Data)
↓
信息(Information)
↓
知识(Knowledge)
↓
决策(Decision)
2.2 数据挖掘与传统统计分析的区别
对比维度
传统统计分析
数据挖掘
数据规模
小样本
海量数据
数据类型
结构化
多源异构
分析目标
验证假设
自动发现规律
方法特点
理论驱动
数据驱动
可扩展性
较弱
强
- 数据、信息与知识
3.1 三者关系
3.2 数据层次分析
层次
特点
示例
数据
原始记录
GPS轨迹
信息
加工结果
出行热点
知识
潜在规律
城市中心吸引效应
- 数据挖掘与相关学科
4.1 学科交叉关系
- 数据挖掘的核心任务
5.1 分类(Classification)
监督学习问题:
根据已知标签训练模型,对未知样本进行预测。
Python 示例
from
sklearn
.
tree
import
DecisionTreeClassifier
from
sklearn
.
model_selection
import
train_test_split
X_train
,
X_test
,
y_train
,
y_test
=
train_test_split
(
X
,
y
)
clf
=
DecisionTreeClassifier
(
)
clf
.
fit
(
X_train
,
y_train
)
pred
=
clf
.
predict
(
X_test
)
5.2 聚类(Clustering)
无监督学习:
自动发现数据中的潜在结构。
K-Means 聚类流程
Python 示例
from
sklearn
.
cluster
import
KMeans
model
=
KMeans
(
n_clusters
=
4
,
random_state
=
42
)
model
.
fit
(
X
)
labels
=
model
.
labels_
5.3 回归分析(Regression)
线性回归模型:
y=\beta_0+\beta_1x+\epsilon
Python 示例
from
sklearn
.
linear_model
import
LinearRegression
model
=
LinearRegression
(
)
model
.
fit
(
X_train
,
y_train
)
y_pred
=
model
.
predict
(
X_test
)
-
数据挖掘的一般流程
-
模型评估指标
分类任务指标
指标
含义
Accuracy
准确率
Precision
精确率
Recall
召回率
F1-score
综合指标
回归任务指标
指标
含义
RMSE
均方根误差
MAE
平均绝对误差
R²
拟合优度
R²公式:
R^2=1-\frac{\sum(y_i-\hat y_i)^2}{\sum(y_i-\bar y)^2}
- 大数据平台架构
Hadoop 生态
- 数据挖掘在复杂系统中的应用
城市科学
应用包括:
城市功能区识别
mobility regime
碳排放预测
交通优化
疫情传播
Mobility Network
+
SEIR Model
+
Machine Learning
↓
Epidemic Prediction
- 个人理解与思考
我认为:
数据挖掘不仅是一种算法工具,
更是一种理解复杂系统的方法。
未来数据挖掘的重要方向包括:
方向
特点
图神经网络
网络结构学习
因果推断
超越相关性
时空数据挖掘
动态系统
可解释AI
增强可信度
多模态学习
图文融合
- 总结
数据挖掘本质上是:
从复杂数据中发现规律、
提取知识、
辅助决策的过程。
随着:
AI
大数据
复杂网络
城市计算
的发展,数据挖掘将在未来社会治理与复杂系统研究中发挥越来越重要作用。
参考资料
《数据挖掘(主编:吕欣、王梦宁)》
XL-lab-bigdata/DataMining
《复杂网络》
《Python 大数据实践》
《大数据平台架构》
查看原文
🏷 标签: 数据挖掘, 人工智能, 大数据, 机器学习, Python