高斯混合模型(Guassian Mixed Model, 简称GMM)是一种常见的聚类方法,与K-means类似,同样使用了EM算法进行迭代计算。
『我爱机器学习』EM算法
EM算法即期望最大化算法(Expectation-Maximum)算法,它用于含有因变量的概率模型参数的极大似然估计,或极大后验估计。很多机器学习算法采用它进行求解,如高斯混合模型、LDA主题模型的变分推断等。
leetcode contest 107 solution
本文是leetcode contest 107的题解:
- 925. Long Pressed Name
- 926. Flip String to Monotone Increasing
- 927. Three Equal Parts
- 928. Minimize Malware Spread II
leetcode contest 106 solution
本文是leetcode contest 106的题解,包括:
- 921. Minimum Add to Make Parentheses Valid
- 922. Sort Array By Parity II
- 923. 3Sum With Multiplicity
- 924. Minimize Malware Spread
好久没打比赛了,一个多小时AK。。
『我爱机器学习』最大熵原理与最大熵模型
俗话说,”不要把鸡蛋放在一个篮子里“,这样是为了降低风险。为什么能降低风险呢?背后的数学道理就是最大熵原理。
本文介绍内容有:
最大熵原理
最大熵模型
和逻辑回归的关系
- 为什么logistics regression用sigmoid函数
『我爱机器学习』FM、FFM与DeepFM
FM和FMM模型在数据量比较大并且特征稀疏的情况下,仍然有优秀的性能表现,在CTR/CVR任务上尤其突出。
近些年来,深度学习的方法也开始应用在广告计算领域,因此本文也会对FM和FFM的深度学习版本做一个介绍。
本文包括:
- FM 模型
- FFM 模型
- Deep FM 模型
- Deep FFM模型
『我爱机器学习』集成学习(四)LightGBM
本文介绍LightGBM,它是一款常用的GBDT工具包,由微软亚洲研究院(MSRA)进行开发,在Github上开源的三天内收获1000 star。其速度比XGBoost快,并且精度也相当的不错。
接下来看看其算法的内容。
注意其设计理念:
- 单个机器在不牺牲速度的情况下,尽可能多地用上更多的数据;
- 多机并行的时候,通信的代价尽可能地低,并且在计算上可以做到线性加速。
于是其使用分布式 GBDT,选择了基于 histogram 的决策树算法。
『我爱机器学习』集成学习(三)XGBoost
如果你打过诸如Kaggle、天池等数据挖掘的比赛,XGBoost的威名想必你也有所耳闻。
本文将详细介绍XGBoost相关内容,包括但不限于
- 泰勒公式
- XGBoost的推导
- XGBoost为什么快
『我爱机器学习』集成学习(二)Boosting与GBDT
『我爱机器学习』集成学习(一)模型融合与Bagging
在KDD CUP、Kaggle、天池等数据挖掘比赛中,常常用到集成学习。使用了集成学习后,模型的效果往往有很大的进步。
本文将介绍常见的集成学习方法,包括但不限于:
- 集成学习为什么有效
- Voting
- Linear Blending
- Stacking
- Bagging
- 随机森林