加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

使用Spark MLlib进行基于Jave的欺诈检测

发布时间:2018-05-16 22:51:45 所属栏目:教程 来源:李佳惠
导读:【资讯】了解如何使用Java和Spark MLlib开发一种算法,该算法能够根据700万条记录的数据集检测欺诈行为。 在这篇文章中,我们将使用Spark MLlib开发Java中的算法。完整的工作代码可以从GitHub下载。可以在不使用深入的Java知识(使用配置文件)的情况下,

  我们可以配置算法(请参阅属性runsWith)在Spark或Java 8 Streams上运行以处理数据。如果要在集群上的多个远程节点上运行代码并将结果集合到请求的机器上,则Spark是一个很好的框架。在本文中,算法在本地执行,Spark将本地资源(如CPU数量)视为目标群集资源。另一方面,Java 8流很容易提供与collection.stram()。parallel()(当然,在本地运行的机器上)的并行性。因此,作为实验的一部分,Java 8流在一台机器上与Spark进行了比较。

  结果表明,Java 8流在本地速度更快,即使不是太多。 Java = 111,927秒,Spark = 128,117秒。所以基本上,在运行所有数据时,流速要快16-25秒。请注意,每个人的电脑结果可能会有所不同。

  由于Spark针对分布式计算进行了优化,与Java Streams相比,它在分区、任务等方面存在一些开销,只需要考虑本地机器,并且可以在那里进行优化。无论如何,都可以看到数据量在本地增加的差距。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读