机器学习初学者必须知道的十大算法

2017-12-05 14:53:37 来源:网络

原标题:机器学习初学者必须知道的十大算法

雷锋网按:本文首发于阿里云云栖社区, 雷锋网获其授权发布。

还在为不知道学什么算法入门机器学习感到头疼?本文作者通过自身的学习向初学者介绍十大机器学习(ML)算法,并附有数字和实例以便于理解。

哈佛商业评论称数据科学家是21世纪最性感的工作。所以,对于那些ML刚刚开始的人来说,这篇博客机器学习算法工程师需要知道的十大算法是非常有用的。

ML算法是可以从数据中学习并从中改进的算法,无需人工干预。学习任务可能包括将输入映射到输出,在未标记的数据中学习隐藏的结构,或者“基于实例的学习”,其中通过将新实例与来自存储在存储器中的训练数据的实例进行比较来为新实例生成类标签。

ML算法的类型

有三种ML算法:

1.监督学习:

监督学习可以理解为:使用标记的训练数据来学习从输入变量(X)到输出变量(Y)的映射函数。

Y = f(X)

监督学习问题可以有两种类型:

  • 分类:预测输出变量处于类别形式的给定样本的结果。例如男性和女性,病态和健康等标签。

  • 回归:预测给定样本的输出变量的实值结果。例子包括表示降雨量和人的身高的实值标签。

在这篇博客中介绍的前5个算法——线性回归,Logistic回归,CART,朴素贝叶斯,KNN都是监督学习。

人工智能领域的大牛吴恩达曾在他的公开课中提到,目前机器学习带来的经济价值全部来自监督学习。

2.无监督学习:

无监督学习问题只有输入变量(X),但没有相应的输出变量。它使用无标签的训练数据来模拟数据的基本结构。

无监督学习问题可以有三种类型:

  • 关联:发现数据集合中的相关数据共现的概率。它广泛用于市场篮子分析。例如:如果顾客购买面包,他有80%的可能购买鸡蛋。

  • 群集:对样本进行分组,使得同一个群集内的对象彼此之间的关系比另一个群集中的对象更为相似。

  • 维度降低:维度降低意味着减少数据集的变量数量,同时确保重要的信息仍然传达。可以使用特征提取方法和特征选择方法来完成维度降低。特征选择选择原始变量的一个子集。特征提取执行从高维空间到低维空间的数据转换。例如:PCA算法是一种特征提取方法。

Apriori,K-means,PCA是无监督学习的例子。

3.强化学习:

强化学习是一种机器学习算法,它允许代理根据当前状态决定最佳的下一个动作。

强化算法通常通过反复试验来学习最佳行为。它们通常用于机器人的训练,机器人可以通过在碰到障碍物后接收负面反馈来学习避免碰撞。近期的alphago zero就是采用的强化学习的方法,来完成实验的。

监督学习算法

1.线性回归

在ML中,我们有一组输入变量(x)用于确定输出变量(y)。输入变量和输出变量之间存在某种关系,ML的目标是量化这种关系。

图1

在线性回归中,输入变量(x)和输出变量(y)之间的关系表示为形式为y = ax + b的方程。因此,线性回归的目标是找出系数a和b的值。这里,a是截距,b是线的斜率。

图1显示了数据集的绘制x和y值。目标是拟合最接近大部分点的线。

2. Logistic回归

逻辑回归最适合二进制分类(y = 0或1的数据集,其中1表示默认类)例如:在预测事件是否发生时,发生的事件被分类为1。在预测人会生病或不生病,生病的实例记为1)。它是以其中使用的变换函数命名的,称为逻辑函数h(x)= 1 /(1 + e ^ x),它是一个S形曲线。

在逻辑回归中,输出是以缺省类别的概率形式出现的。因为这是一个概率,所以输出在0——1的范围内。输出(y值)通过对数转换x值,使用对数函数h(x)= 1 /(1 + e ^ -x)来生成。然后应用一个阈值来强制这个概率进入二元分类。

图二

在图2中,为了确定肿瘤是否是恶性的,默认变量是y = 1(肿瘤=恶性);x变量可以是肿瘤的量度,例如肿瘤的大小。如图所示,逻辑函数将数据集的各种实例的x值转换成0到1的范围。如果概率超过阈值0.5(由水平线示出),则将肿瘤分类如恶性。

逻辑回归的目标是使用训练数据来找到系数b0和b1的值,以使预测结果与实际结果之间的误差最小化。这些系数是使用最大似然估计技术估计的。

3. CART

分类和回归树(CART)是决策树的一个实现方式。

非终端节点是根节点和内部节点,终端节点是叶节点。每个非终端节点表示单个输入变量(x), 叶节点表示输出变量(y)。该模型用于做出如下预测:遍历树的分裂到达一个叶节点,并输出叶节点上存在的值。

图3中的决策树根据年龄和婚姻状况分类是否购买跑车或小型货车。如果这个人30多年没有结婚,我们可以如下预测:“30多年? - >是 - >'已婚? - >不。因此,该模型输出一个跑车。

图三

4.朴素贝叶斯

为了计算事件发生的概率,假设已经发生了另一个事件,我们使用贝叶斯定理。为了计算给定某个变量值的结果的概率,也就是说,根据我们的先验知识(d)计算假设(h)为真的概率,我们使用贝叶斯定理如下:

P(h | d)=(P(d | h)* P(h))/ P(d)

· P(h | d)=后验概率。

· P(d | h)=可能性。数据d的概率假设h是真的。

· P(h)=类别先验概率。假设h的可能性为真(不考虑数据)。

· P(d)=预测值先验概率。数据的可能性(与假设无关)。

图四

以图4为例,如果天气=“阳光”,结果如何?

为了确定结果play ='yes'或'no',给定变量weather ='sunny'的值,计算P(是| sunny)和P(no | sunny),并选择结果的概率较高。

P(是|晴天)=(P(晴天|是)* P(是))/ P(晴天)

=(3/9 * 9/14)/(5/14)

= 0.60

P(no | sunny)=(P(晴天)* P(no))/ P(晴天)

=(2/5 * 5/14)/(5/14)

= 0.40

因此,如果天气=“晴天”,结果是play ='是'。

5. KNN

K邻近算法使用整个数据集作为训练集,而不是将数据集分成训练集和测试集。

当新的数据实例需要结果时,KNN算法遍历整个数据集,以找到新实例的k个最近的实例,或者与新记录最相似的k个实例,然后对于分类问题的结果(对于回归问题)或模式输出均值。

实例之间的相似度使用欧几里德距离和Hamming距离等度量来计算。

无监督学习算法

6. Apriori

Apriori算法用于事务数据库挖掘,然后生成关联规则。它在市场篮子分析中被广泛使用,在这个分析中,检查数据库中经常出现的产品组合。一般来说,我们写出如果一个人购买项目X,然后他购买项目Y的关联规则为:X - > Y。

例如:如果一个人购买牛奶和糖,那么他很可能会购买咖啡粉。这可以写成关联规则的形式:{牛奶,糖} - >咖啡粉。

7. K-means

K-means是一种迭代算法,将相似的数据分组到簇中。计算k个簇的质心,并将一个数据点分配给质心和数据点之间距离最小的簇。

步骤1:k-means初始化:

a)选择k的值。在这里,让我们取k = 3。

b)将每个数据点随机分配到3个群集中的任何一个。

c)为每个集群计算集群质心。红色,蓝色和绿色星星表示3个星团中的每一个的质心。

步骤2:将每个观察结果与群集相关联:

将每个点重新分配到最近的集群质心。这里,上面的5个点被分配到具有蓝色质心的簇。按照相同的步骤将点分配给包含红色和绿色质心的群集。

步骤3:重新计算质心:

计算新簇的质心。旧的质心由灰色星星表示,而新的质心是红色,绿色和蓝色星星。

步骤四:迭代,然后退出,如果不变。

重复步骤2-3,直到没有从一个群集切换到另一个群集。一旦连续两个步骤没有切换,退出k-means算法。

8. PCA

主成分分析(PCA)用于通过减少变量的数量来使数据易于探索和可视化。这是通过将数据中的最大方差捕获到一个称为“主要成分”的轴上的新的坐标系来完成的。每个组件是原始变量的线性组合,并且彼此正交。组件之间的正交性表明这些组件之间的相关性为零。

第一个主成分捕捉数据中最大变化的方向。第二个主要组件捕获数据中的剩余变量,但变量与第一个组件不相关。

9.随机森林装袋

随机森林是对袋装决策树(bagged decision trees)改进。

装袋(Bagging):装袋的第一步是创建多个模型,使用Bootstrap Sampling方法创建数据集。在Bootstrap Sampling中,每个生成的训练集由来自原始数据集的随机子样本组成。这些训练集中的每一个与原始数据集大小相同,但有些记录会重复多次,有些记录根本不会出现。然后,整个原始数据集被用作测试集。因此,如果原始数据集的大小为N,那么每个生成的训练集的大小也是N,测试集的大小也是N。

装袋的第二步是在不同的生成的训练集上使用相同的算法创建多个模型。在这种情况下,让我们讨论随机森林。与决策树不同的是,每个节点被分割成最小化误差的最佳特征,在随机森林中,我们选择随机选择的特征来构建最佳分割。在每个分割点处要搜索的特征的数量被指定为随机森林算法的参数。

因此,在用随机森林装袋时,每棵树都是使用记录的随机样本构建的,每个分叉是使用预测变量的随机样本构建的。

10. Boosting with AdaBoost

套袋(Bagging)是一个平行的集合,因为每个模型都是独立建立的。另一方面,boosting是一个连续的集合,每个模型的建立是基于纠正前一个模型的错误分类。

Adaboost代表Adaptive Boosting。

图9

在图9中,步骤1,2,3涉及一个称为决策残缺的弱学习者(一个1级决策树,仅基于1个输入特征的值进行预测)。步骤4结合了以前模型的3个决策树(在决策树中有3个分裂规则)。

步骤1:从1个决策树开始,对1个输入变量做出决定:

数据点的大小表明我们已经应用相同的权重将它们分类为一个圆或三角形。决策树在上半部分产生了一条水平线来分类这些点。我们可以看到有2个圆圈错误地预测为三角形。因此,我们将为这两个圈子分配更高的权重,并应用另一个决策树桩。

步骤2:移动到另一个决策树,以决定另一个输入变量:

我们观察到,上一步的两个错误分类圈的大小大于其余点。现在第二个决策树会试图正确预测这两个圆。

步骤3:训练另一个决策树来决定另一个输入变量:

来自上一步的3个错误分类圈大于其余的数据点。现在,已经生成了一条垂直线,用于分类圆和三角形。

步骤4:合并决策树:

我们已经结合了以前3个模型中的分隔符,并观察到这个模型中的复杂规则与任何一个单独的弱学习者相比,正确地分类了数据点。

作者信息

Dr. Jason Brownlee 是一名机器学习从业者,学术研究人员,致力于帮助开发人员从入门到精通机器学习。

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。

文章原标题《top-10-machine-learning-algorithms-beginners》

作者:Reena Shaw 译者:虎说八道

,机器学习初学者必须知道的十大柳房网 算法

相关:

一加5T上市双8性能服人 京东好评率100%原标题:一加5T上市双8性能服人 京东好评率100% 中关村在线消息:上月28日,一加在北京发布了全面屏旗舰一加5T的国行版,12月1日正式开售。高通骁龙835移动平台的加持、8GB内存的辅助,让一加5T在全面屏手机中脱颖而出,开售伊始就受到用户的抢购,日前京东一加5T的销售页面显示,仍有超72万的预约量。 一加5T京东销售页面 格外引人瞩目的是,一加5T日前已经在京东收获了5200+的用户评论,且100%为好评,一加5T的好口碑可..

Nvidia这台游戏机也叫NS 也能玩正版《塞尔达》【中关村在线新闻资讯】12月5日消息:Nvidia在刚刚举行了NvidiaShieldTV的国行发布会,正式宣布这台游戏机顶盒在中国大陆发售,售价为1499元。事实上这太设备在国外已经卖了好些年了,只不过这一次是新版。 据悉,新版ShieldTV与上一代基本相同,但对Shield手柄进行了调整。NvidiaShield(简称NS)使用的是和NintendoSwitch(简称就是NS)一样的芯片,但是放弃了便携性,所以性能要更好一些。 在游戏阵容方面,NvidiaShield..

高通回应博通董事会提名:想抢夺董事会控制权原标题:高通回应博通董事会提名:想抢夺董事会控制权 【中关村在线新闻资讯】12月5日消息:博通公司周一宣布,已经通知高通公司,博通将提名11位董事候选人,旨在取代高通董事会所有成员。 对此,高通回应已经受到该提名,并认为这些提名完全是为了博通的利益,从本质上与高通存在利益冲突。 高通表示,目前高通董事会由11名世界级水平董事组成,其中9名独立董事,所有董事均致力于为高通股东赢取最佳利益,是真的在意高..

中消协再约谈摩拜等共享单车:尽量免押金!中消协针对共享单车消费者普遍关心的押金和预付金存管、车辆投放与运维等问题约谈相关企业。被约谈企业包括摩拜、ofo、永安行、优拜、哈罗单车、拜客出行、小蓝等7家共享单车企业。这是中消协今年第二次就押金问题约谈共享单车企业。在酷骑单车、小蓝单车相继出现押金难退问题后,近期,又有媒体曝出摩拜和ofo小黄车“挪用用户押金填补缺口”的消息,虽然得到两家企业的迅速发布声明回应,但押金问题已让共享单车消费者感到不安..

入门级电竞滑鼠,左撇子和妹子玩家福利!原标题:入门级电竞滑鼠,左撇子和妹子玩家福利! 近日,瑞典电竞外设品牌 mionix 发布了一款入门级电竞鼠标—— Avior Color 彩色版鼠标。其五彩的配色,让不少玩家直呼少女心爆棚! 与此前的 Castor Color 不同,Avior Color 采用对称式结构,更加美观,重量也更轻,仅有 85 g。同时,砍掉了侧键设计,左右手通用。配色上,Avior Color Shark 采用了鲨鱼灰、霜糖红、薯条黄、冰凌青和雾沙黑五种配色,其..

AirPods太好卖,郭明錤预计明年出货量将翻倍原标题:AirPods太好卖,郭明錤预计明年出货量将翻倍 尽管AirPods自发布后足足延迟了两个月后才正式发货,但这并不影响大家喜欢这款产品。凯基证券知名分析师 郭明錤预计 苹果在2018年AirPods的出货量是2017年的两倍,具体数量应该在2600~2800万副之间。 今天郭明錤就向客户提交了一份研究报告,称苹果已经改进了AirPods的生产工艺,并将出货时间降低到1~3天。其还表示AirPods将成为2018年最受欢迎..

为什么一加5T国内首销被秒光?一加5T在国外也很火!原标题:为什么一加5T国内首销被秒光?一加5T在国外也很火! 一加5T 发布后迅速引爆海内外媒体和用户的关注,该机在欧美首销当天,开售仅6.5小时后销量就已超过一加5首日总销量。看看国外排队现场: 同时,在法国、丹麦、芬兰、英国、意大利、荷兰、德国、印度8个国家9个城市举行的一加5T Pop-up活动场场火爆。

河北曲阳未供暖11所学校7所已供暖 县委书记:要追责原标题:曲阳县未供暖的11所学校7所已供暖!县委书记:学生受冻问题要追责 中青在线保定12月5日电(中国青年报·中青在线记者朱洪园)中国青年报今天刊发的《河北曲阳多所小学至今未供暖》一文,中午得到曲阳县委书记王芃的回应,他表示,今天下午六点前,曲阳未供暖的11所学校,全部供暖,并要对相关责任人进行追责。记者发稿时,已有7所学校供暖。 王芃说,今天上午,看到本报的报道后,他就召集教育、电力等部门开了协调会..

赛琳娜发视频情绪不佳想独处 粉丝纷纷猜测闹分手?比伯与赛琳娜据外媒报道,自从赛琳娜-戈麦兹(Selena Gomez)与贾斯汀-比伯(Justin Bieber)复合后,CP粉丝既开心又担心,开心的是官配终成眷属,担心的是这对小冤家一言不和又闹分手,所以两人的一举一动都会引发粉丝的极大反应。最近赛琳娜在发的小视频中情绪不佳,表示想“独处”,歌迷们立刻怀疑她与比伯的感情又出了状况。近一个多月来,刚刚被《公告牌》命名为2017年度女性的她,与比伯的恋情甜到飞起。然而她在Instagr..

蒋欣自嘲五大三粗 网友调侃:这是年轻时候的谢大脚吧蒋欣晒照凤凰网娱乐讯 12月5日下午,蒋欣在微博晒出了一张自己童年参演影视剧中的截图,并称自己是个乖乖吃饭的宝宝于是练就了“五大三粗气壮山河”的体魄。蒋欣微博截图截图中小蒋欣扎着两角辫捧着身前的碗吃饭,看上去十分青涩、乖巧。蒋欣也配文自称“从小就是个乖乖吃饭的宝宝”,还顺便自黑了一把自己的身材:“不然怎么练就五大三粗气壮山河的体魄。”网友们也纷纷跟蒋欣开起了玩笑:“能吃是福,要吃出你精彩”、“这不..