Data Modelling and Machine Intelligence (DMMI)
数据建模和机器智能
其实这门课就是在讲机器学习(Machine Learning),起个这么长的名字属实没必要。
这门课的老师是 Dr John Oyekan,是一名非常年轻的,刚刚入职没多久的,黑人讲师,同时也是一个非常认真负责的老师。人送外号小黑,口头禅是:Are you following me?
这位老师非常努力,在同学们中间得到了“超卷”的一致评价。因为是刚刚进入谢菲任教,所以也非常需要尽快做出成果来证明自己吧。所以其实无论国内国外,青椒的日子都不太好过。。。
这门课一共9个Lecture:
L1 Data Modelling and Machine Intelligence- Introduction
L2 Regression Algorithm, 同时引入了Orange软件的教学
L3 Ethics, dealing with data issues and model challenges
L4 Decision Trees and Random Forest Classifiers
L5 Feature engineering
L6 Principal Component Analyses
L7 Hierarchical Clustering and K-means
L8 Artificial Neural Networks
L9 Regularisation and optimisation
关于机器学习
啥是机器学习
机器学习就是让计算机在不需要明确编程的情况下拥有学习能力
机器学习的核心问题
· 数据可靠性
· 数据的噪声
· 样本的有限性
· 有限样本来推断连续函数
机器学习的种类
根据训练方式,可以分为:
监督学习
垃圾邮件分类是个比较典型的监督学习任务。监督学习给算法的数据都是关联了标签label的。
常见的监督学习算法包括:K近邻(KNN),线性回归(Linear Regression),逻辑回归(Logistic Regression),支持向量机(SVMs),决策树和随机森林(Decision tree & Random Forests),神经网络(Neural Networks)。
无监督学习
数据集没有标签。无监督学习可以分为3个大类:聚类(Clustering),降维,关联规则学习。
常见的聚类算法包括:K - Means,分层聚类分析(HCA),期望值最大化(Expectation Maximization)。
降维算法包括:主成分分析(PCA),Kernel PCA。
关联规则学习:没讲。
半监督学习
少量有标签的数据,用于初步训练,然后这部分数据被用于对其他未标记的数据进行分类。需要人工干预。
强化学习
强化学习有几个关键元素。
环境(Environment):也就是真实的物理世界。
状态(State):当前的状态。
奖励(Reward):环境中的反馈。
策略(Policy):将状态(State)映射为对应的动作(Action)。
价值(Value):在某个State下,通过采取某个Action,得到的Reward。
深化学习的时候细嗦。
根据如何决策,可以分为:
分类 Regression
预测非连续的,离散的数据。
回归 Classification
预测连续的,具体的数据。
根据如何使用数据,可以分为:
在线训练 (Learning on-the-fly)
数据是一点一点的被喂给系统的,每一拨数据,被称为一个mini-batch。这种方法让学习更加快速和廉价,不需要太多的数据,过拟合风险更小。但是一旦数据存在问题,模型就一定会错。
离线训练 (Batch Learning)
系统会一次性训练完所有可用数据,一旦完成训练,就可以直接部署。
这种方式虽然可以让数据中的问题,可以在被部署之前得以发现,但是训练时间更长,需要更多的数据,而且存在过拟合的风险。
Domain analysis
域分析,这个词从小黑的嘴里冒出来的时候,我花了很久才理解。其实就就是一个人,从他自身的经验,学识和观察出发,得出的一些结论和事实。