发布时间:2025-12-09 20:11:53 浏览次数:5
推荐书籍如下:
Google Scholar:搜学术期刊
开源数据集:UCI Machine Learing Repository
开源 GUI 工具,方便快速上手:WEKA
KDD nuggets: 数据挖掘网站
数据是最底层的概念,其中有价值的才能称作信息。
大数据有三个特征:
大数据的应用场景:
越来越多公开数据集出现:法律公开(允许自由使用),技术容易获取(易结构化,易清洗)。下面是一些公开数据集网址,可以多多使用。
政府其实有极多数据,其也会开放很多数据,如下,方便大家做多维数据融合挖掘:
不同于以往的数据处理,而是针对大量数据,发掘出有趣、有用、隐含的信息。
数据清洗后变为信息,信息挖掘得到知识,知识通过领域模型得到有用的决策。
ETL 如下:
工业界数据挖掘和可视化软件有很多:
分类任务是通过给定一些训练集,训练后得到分类模型模型,下面几种模型是常用的分类模型:
分类的本质其实是,得到分界面:
我们需要的是黑色的线(因为是平滑的),因为绿色的线是过拟合(即死记硬背的模型,并未东西出数据规律)
数据的训练集和预测集需要不同,才能体现模型的有效性。
混淆矩阵,是各种模型指标的定义根基:
基于这些概念:又衍生了最常用的两个呈反比的指标:例如预测集共 500 个,其中 200 个为 A 类,300 个为 B 类。模型预测出其中 50 个为 A 类(其中预测对的是 30 个)。
P - R 曲线如下:
聚类不同于分类(并没有「事先人为定义的标签」,而是根据各点之间的「距离」度量的),其只是将一批数据集聚为不同的堆。
聚类分为平铺聚类和层次型聚类,如下图:
商店购买记录,分析各商品的关联性。
线性回归:其实可以拟合出线性方程、二元方程、多项式方程等。其「线性」二字的含义是参数和自变量之间是线性关系(即下图中的 beta 和 x)
回归同样存在过拟合问题(下图一是欠拟合太简单了,下图三是过拟合死记硬背所有训练数据不具备扩展性,下图二是适中的也是最好的模型):
通过所见即所得,充分展示出数据,更容易发挥人的分析能力:拿到数据后,先做可视化大概估计数据分布,再确定详细挖掘算法。
同样数据挖掘后,再把结果可视化,让人为评判效果。来确定下一步挖掘方向。
可视化需要以受众易理解的语言、图表形式(如右下图的驾驶舱)进行:
有很多图表,可以酷炫地展示结果,让人更易理解挖掘的价值。
我们拿到的通常是脏数据:其可能缺失(如未填写年龄)或错误(如年龄填写为负数),因此需要清洗
数据清洗通常很累,但缺必不可少的地基工作:
1990 年互联网兴起时,隐私性很好,你并不知道互联网对面是谁在操作键盘。
但现在 21 世纪,隐私性已经完全没有了,所有的时间、空间、身份、行为习惯均被记录并分析。
基于隐私保护的数据挖掘,是目前很新兴的研究领域:即收集数据、又保护用户隐私。
下图即为有隐私保护的数据挖掘,让挖掘者并不知道个体的数据,但可以获得宏观的数据,且保证获得的数据是真实的:
根据客户的实际需求,动态扩缩容资源。
Nvidia 的 TK1 尺寸很小,但计算性能是家用电脑的 10 倍以上。
数据挖掘的必备元素:数据、算法、算力
没有银弹算法、没有银弹参数:通常先用简单算法验证效果(降低心智负担),后期再用复杂算法优化。
不能总是宏观看待问题,也要结合微观,才能详细挖掘数据规律:
两条曲线有关系,但不一定有因果关系:
避免幸存者偏差,来误解数据:
避免片面理解数据,避免以偏概全: