加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

盘点:开源社区的大数据分析

发布时间:2021-08-20 17:11:56 所属栏目:大数据 来源:互联网
导读:2014年7月13日,由北京大学信息化与信息管理研究中心、北京大学CIO班教务办公室和中国新一代IT产业推进联盟主办,北达软协办,CIO时代网承办的第三届中国大数据

[page]    从这些数据我们可以度量到非常多信息,取决于我们对数据认识和对项目实现认识。两个例子,出来者进入这个社区和进入到公司一样,我们用这些数据可以度量到个人交际圈,他和谁交互,那些人效率怎么样,影响对社区认识。

 

 

    第二个不仅是个人个体的一个认知,还包括这个个体所在整个项目环境一个社会性。我们度量有细节,我不多讲。但是重点我们用这些数据可以从不同角度去度量到这个个体跟它周围小环境大环境之间一个互动。最后得到结论,对于开源社区第一个月,看第一个月活动能够预测在多大程度上能够成为在这个项目待足够3年贡献者,比如我们发现的是小环境,每个人不同,和谁交互,交互人能力多高,交互的人注意力够不够,很大程度影响这个项目在这个社区里待下的意愿。

 

 

    大环境比如说产品流行度,任务密度等等。刚才讲基于这些数据,我们建立了一些量度,我们理解了这个人和社区和项目和其他人怎么交互。现在基于这些信息知道第一个月活动我就能够知道,你未来是不是会在这个环境里待下去,这个对管理者还是其他贡献者都是他实时决策的重要支持,到底应该把更多注意力放谁身上,开源社区来讲人员非常少,怎么把有限资源放到更有潜力人身上,这是这个问题关注的重要点。

 

 

    还一个例子,比如有研究商业公司对开源影响,大部分公司是关心,我怎么样应用更好吸引到用户,比如说现在大家都做开源,我也会做开源。因为开源有很多志愿者,到一个公司加入开源,开源有自身特点,有自己的优势,但公司进入到开源以后,你会用你的影响力对开源公司造成伤害到它的优势的一个影响,我们所做的这个研究其实给出了任何一个公司你想去加入开源时候,有一些决策支持和你的控制手段,你是需要考虑的。

 

 

    第二个,我刚才只是讲到,我有整个开源项目,版本控制数据70T,我刚才讲我做一个研究,只面向Gnome和Mozilla两个项目,我可以利用这么大规模数据回答更大问题,这是第二个例子,代码复用检测,是很技术的名词,版权问题,中国从来对版权是不够重视的,这是很多问题起源。比如说最近ORACLE和Google争版权,三星和苹果版权之争,苹果一个版权手机一滑,大家知道三星手机支持的,这个是苹果一个版权,这种版权之争源起都在于当你程序员、当你员工写应用,写新点子时候,怎么知道别人代码尤其开源代码是什么,你是否可以借用那些点子代码。还一个问题,OpenSSL的Heartbleed .刚才揭示一个问题,现在开源代码太多了,版本控制数据有70T,但是对一个公司做软件开发时候,我有1千1万个员工没有办法控制,他们从网上把代码拿下来,任何一份代码到公司够大时候,可能引起诉讼。有一个研究比较重要,对于开源世界,我公司每天新产生的这些代码到底有哪些部分是引用了哪些代码,我们希望面向开源宇宙代码进行代码复用检测。这里只是给大家一个感觉,在这个领域做这个事情计算量和规模多大。

 

 

    在我们这个领域,我的工作是最好成果之一,我可以负责任地说,大家因为讲到企业数据,企业信息推荐的时候都会讲到计算,我的计算能力有多强,但事实上,我们在做这些研究工作时候,我们面临这些数据时候,我讲到大数据大归根到底其实是对于任何一个特定的领域,你在原有基础之上所面临挑战是什么。刚才我讲到这个问题,我想对整个开源世界去进行复用检测,但事实上我们现在能够抵达这是一些初步结果。

 

 

    我们发现最常使用软件代码,比如操作系统Linux kernel、,还有Ruby on Rails等等,测试框架Cucumber这个也是目前非常流行的。

 

 

    上面我讲到两个例子,一个针对个体项目进行研究例子,一个针对整个开源世界进行研究的例子,大家也已经看到了我们已经获得的一些研究结果。从我们领域来讲,我们目前所面临主要挑战是什么?首先是数据收集。比如收集数据,他们系统管理员对数据有严格规定,我们考虑不要影响到正常客户对他们服务器的访问,这些事情非常困难。第二数据规整化,在座各位应该理解这个问题。第三个从数据中寻找规律,去回答我想要回答的问题,这个挑战体现在每个领域最有价值的地方,重点是理解数据法则。

 

 

    最后这个,当前公司做得非常多,我想这么大数据又想在线分析,性能上如何做到实时分析这么多数据,实时显示这些数据?最后分享一点关于大数据思考,前面讲本领域一些研究,问题的研究结果。

 

 

    中国的创新机遇,大家应该比我理解更深刻,大家也讲了非常乐观的企业的应用,我只想说,我只想从我所看到的知识积累的角度来讲,我们已经错过了软件兴盛,开源兴盛的时期,我们的技术积累远不如人家。今天全世界讲大数据,我们已经看到,公司个体数据以及用户营销一些数据都已经给我们提供了很好机会去研究数据驱动的决策支持等等,所以从我的角度来讲,在座各位有什么更好手段抓住这些机遇,首先贡献数据。我们现在现有基础上,对数据贡献好像比较缺乏,建立共享平台开放数据访问,这是我等下讲到我努力做的事情。最后希望数据是永远在那的,重点是指我们能够采用怎样方法,从数据里面获得信息获得知识,最后真正帮助我们进行决策支持。

 

 

    最后讲什么是大,这个问题我经常被问到,说是大数据,为什么称为大?我讲我的观点。只要在我任何一个领域内超出你处理能力,超出忍受能力可以说大。这是我推荐定义。在我们领域来讲,我们目前做的尝试,讲到开源世界,包括跟我们有建立关系和合作项目企业,我们努力收集所有数据,希望能够规整化并且开源出来,现在北京交通这么拥挤,如果政府能够把汽车交通数据能够开源出来,我相信有无数非常有智慧网友给我们规划无数条道路出来,这个数据如果能够开放出来让大家访问,是吸引群众创新的最好渠道。在我们项目希望做这样的事情,首先是在这些开源项目,因为是软件项目,会提供一些基本的信息,最后以这些数据为基础抓住核心价值,从数据里面挖掘出来回答本领域最有价值问题的一些量度,最后能够真正实现。谢谢。

盘点:开源社区的大数据分析

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读