Data Modelling and Machine Intelligence （DMMI）

数据建模和机器智能

其实这门课就是在讲机器学习（Machine Learning），起个这么长的名字属实没必要。

这门课的老师是 Dr John Oyekan，是一名非常年轻的，刚刚入职没多久的，黑人讲师，同时也是一个非常认真负责的老师。人送外号小黑，口头禅是：Are you following me?

John Oyekan

这位老师非常努力，在同学们中间得到了“超卷”的一致评价。因为是刚刚进入谢菲任教，所以也非常需要尽快做出成果来证明自己吧。所以其实无论国内国外，青椒的日子都不太好过。。。

这门课一共9个Lecture：
L1 Data Modelling and Machine Intelligence- Introduction
L2 Regression Algorithm, 同时引入了Orange软件的教学
L3 Ethics, dealing with data issues and model challenges
L4 Decision Trees and Random Forest Classifiers
L5 Feature engineering
L6 Principal Component Analyses
L7 Hierarchical Clustering and K-means
L8 Artificial Neural Networks
L9 Regularisation and optimisation

关于机器学习

啥是机器学习

机器学习就是让计算机在不需要明确编程（非显式编程）的情况下拥有学习能力。一组学习任务可以由一个三元组【任务，指标，数据】来明确定义。显式变成需要实现知道一个f*并去实现它，机器学习则是一个寻找最优模型f*的过程。

机器学习的核心组件：

可用于学习的Data
训练得到的Model
用于量化模型有效性的Loss/Cost Function
优化Loss Function的Algorithm，如GD

机器学习的核心问题

数据可靠性
数据的噪声
样本的有限性
有限样本来推断连续函数

机器学习的种类

根据训练方式，可以分为：

监督学习

垃圾邮件分类是个比较典型的监督学习任务。监督学习给算法的数据都是关联了标签label的。
常见的监督学习算法包括：K近邻（KNN），线性回归（Linear Regression），逻辑回归（Logistic Regression），支持向量机（SVMs），决策树和随机森林（Decision tree & Random Forests），神经网络（Neural Networks）。

监督学习的学习方式一般是以下3步：

从数据集中，为每个样本获取真实标签。可能是自带的，可能需要人工标注。
选择有监督的算法进行训练，得到一个模型。
将训练时未使用过的样本特征作为输入，使用模型预测（推理）。

无监督学习

数据集没有标签。无监督学习可以分为3个大类：聚类（Clustering），降维，关联规则学习。
常见的聚类算法包括：K - Means，分层聚类分析（HCA），期望值最大化（Expectation Maximization）。
降维算法包括：主成分分析（PCA），Kernel PCA。
关联规则学习：没讲。

半监督学习

少量有标签的数据，用于初步训练，然后这部分数据被用于对其他未标记的数据进行分类。需要人工干预。

强化学习

上面三种类型关注的AI中的预测问题，而强化学习关注的是AI中的决策问题。

强化学习有几个关键元素。

环境（Environment）：也就是真实的物理世界。
状态（State）：当前的状态。奖励（Reward）：环境中的反馈。
策略（Policy）：将状态（State）映射为对应的动作（Action）。
价值（Value）：在某个State下，通过采取某个Action，得到的Reward。

根据建模方式，可以分为：

参数化模型

在一套model family内，每个具体的模型都可以使用一个具体的参数向量来唯一确定，也就是说能确定参数向量，就确定了这个模型。

模型的参数量不随训练数据量而变化，因此在计算过程中，模型占用的计算机资源是不变的。

常见的参数化模型包括线性回归，逻辑回归，神经网络。

非参数化模型

训练的算法不是更新模型参数，而是在模型空间中寻找模型实例。参数化模型是将从数据集中学习到的知识注入参数，而非参数化模型是保留数据本身作为知识。因此不同规模的数据，会导致模型的参数量不同。

常见的非参数化模型包括KNN，随机森林，决策树等。

根据如何决策，可以分为：

分类 Regression：预测非连续的，离散的数据。
回归 Classification：预测连续的，具体的数据。

根据如何使用数据，可以分为：

在线训练 （Learning on-the-fly）

数据是一点一点的被喂给系统的，每一拨数据，被称为一个mini-batch。这种方法让学习更加快速和廉价，不需要太多的数据，过拟合风险更小。但是一旦数据存在问题，模型就一定会错。

离线训练（Batch Learning）

系统会一次性训练完所有可用数据，一旦完成训练，就可以直接部署。
这种方式虽然可以让数据中的问题，可以在被部署之前得以发现，但是训练时间更长，需要更多的数据，而且存在过拟合的风险。

Domain analysis

域分析，这个词从小黑的嘴里冒出来的时候，我花了很久才理解。其实就就是一个人，从他自身的经验，学识和观察出发，得出的一些结论和事实。

关于机器学习(Data Modelling and Machine Intelligence ACS61013)这门课

Data Modelling and Machine Intelligence （DMMI）

数据建模和机器智能

关于机器学习

啥是机器学习

机器学习的核心问题

机器学习的种类

Domain analysis

评论

关于机器学习(Data Modelling and Machine Intelligence ACS61013)这门课

Data Modelling and Machine Intelligence （DMMI）

数据建模和机器智能

关于机器学习

啥是机器学习

机器学习的核心问题

机器学习的种类

Domain analysis

推荐阅读

【重读经典】YOLO的进化之路（中）

【重读经典】YOLO的进化之路（上）

评论