正则化回归模型 在一个模型中,自由度(可调节的参数)越多,就越容易过度拟合。因此需要约束这个模型,又称正则化 常见的正则化方法: Ridge Regression,也被称作L2 Regression Lasso Regression,也被称作L1 Regression Elastic Net 在上述
Artificial Neural Networks, ANN ANN是受构成动物大脑的生物神经网络模糊启发的计算系统。本文简单介绍一下ANN,详细的内容会在后面写深度学习的时候再说。 ANN可用于: 分类(多层感知器) - 模式识别(多层感知器、延时神经网络和递归网络等) 回归/函数逼近(前馈架构
聚类 聚类是一种无监督的机器学习方法,它能使类似的对象从其他对象中分离出来。它是无监督的,因为我们没有给模型任何标签;它只是检查特征并确定哪些样本是相似的并属于一个群组。 常见的聚类算法有: 分层聚类算法(Hierarchical Cluster Analysis HCA) k-Means Expe
主成分分析 通常获取到的数据集都会有很高的维度,会给运算造成很大压力,所以需要降维,但是我们并不知道哪些数据更关键,因此引入了主成分分析 (Principal Component Analyses,PCA)的方法。 假设有个m维向量 \vec X,我们希望用 I个变量来保存它,如果简单地把 \vec
机器学习的建模流程 Figure 1 Pipeline of Machine Learning 研究问题 采集数据 数据清洗 在采集到的数据中,可能有丢失的,比如NaN或者null,这种数据是不能直接拿来用的。为了解决这个问题,这部分数据会被imputed,具体impute的方法要根据数据的类型来决
决策树(Decision Trees) 对于决策树,目标变量是连续数值的,被称为回归树;若是离散值,被称为分类树。 决策树的组成 · 根结点(Root node):代表整个数据集或采样,并且可以被分为2个或多个同质的集合。 · 决策节点(Decision node):通过条件判断,决定如何分支。 ·
线性回归 回归被用来估计或解释一个独立变量(y)和一个or更多独立变量(x_i)之间的关系。最基础的回归-线性回归-基于一个线性方程。 假设这个方程为: y = \theta_1 x+ \theta_0 此处 y 是一个独立变量,\theta_0 和 \theta_1 是模型的参数,x 是另一个独立
Data Modelling and Machine Intelligence (DMMI) 数据建模和机器智能 其实这门课就是在讲机器学习(Machine Learning),起个这么长的名字属实没必要。 这门课的老师是 Dr John Oyekan,是一名非常年轻的,刚刚入职没多久的,黑人讲师,
什么是Overfitting 算法在训练集上表现好,但在测试集上表现不好,泛化性能差。 引起过拟合的原因 模型本身过于复杂,以至于拟合了训练样本集中的噪声。 如何解决过拟合 交叉验证。 用更多的数据进行训练。 数据增强。 特征选择。 Early Stop。 正则化 Regularization。 什
前言 有人会好奇,同样是点云,.pcd和 .ply 的处理能有啥大区别吗? 其实是有的,.pcd 文件的数据,是基于点的,也就是里面存储的内容全部都是和点相关的信息。 而 .ply 增加了关于面的信息,也就是有了 mesh。在介绍使用 MeshLab 进行点云表面重建的那篇文章中,已经提到过这点。几