加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据云的数据交换共享平台架构探索(下)

发布时间:2018-09-12 13:26:43 所属栏目:大数据 来源:星环科技
导读:数据共享交换架构优化 1、 一级进阶 Inceptor数据库通常以HDFS为底层存储,所以既然走上层JDBC太慢,我们是否可以走底层数据拷贝以提高速度,只要从存储层转移数据,完成后按照表的schema再建一张表就可以了。 根据这种思路,我们在右下角新增了两个namesp

三个集群中的Guardian组件都有一个预置用户dataadmin,该用户并不对应真实的实体,但扮演三个重要角色:一是作为跨域认证的主体;二是代理租户访问TDH,保证Inceptor到HDFS只写入租户可见的数据;三是启动任务实现HDFS集群之间的数据复制。这三个任务保证TDH只把租户可见的数据写入对应租户。

假设当前租户1中有一个普通用户u1,u1登陆共享平台后,可以访问租户数据目录组件查看TDH集群中包含的数据。u1进行数据采样时,是租户集群以租户管理员A的身份去访问平台端元数据管理组件的。元数据管理组件默认以dataadmin用户登陆,当它向TDH集群的Inceptor数据库进行数据采样时,是以dataadmin身份进行认证,代理管理员A进行数据访问的,而TDH集群端会有一个和租户管理员同名的用户,该用户受到行级权限的管控,因此管理员A在TDH中的权限决定了整个租户的数据可见度,使每个租户只能看到属于自己的数据。

平台层的dataadmin能够登录TDH内的服务的原因在于互信。当TDH端的Guardian对来自平台层的登录请求进行解析,并发现请求并不源于自己所在域时,会查询该域是否属于互信域,如果互信就转到对应的Guardian中进行认证,决定是否通过认证。

在数据流转过程中,平台端的dataadmin负责读写数据或者在平台端和租户端启动distcp任务,而TDH内的dataadmin和租户内的dataadmin只是服务于跨集群的权限中继。dataadmin用户的存在简化了域之间用户身份认证的管理和配置复杂度,可预想如果没有dataadmin,容器内管理的用户和安全配置文件数量将大幅增加。

总结

以上内容(及上篇文章)主要介绍了数据共享交换架构的关键设计。此外我们还通过设定Inceptor数据库和YARN的执行队列、对Namespace和Pod做资源限制等方式进行合理的资源控制。同时,由于星环自有服务均支持高可用,且系统中的任务可无限重跑,因此使平台具有高可用性。 

当然,该数据交换共享平台还有很多方面可以优化,譬如更好的资源调度设计、添加更多类型数据的支持等。

大数据云让数据的运用更灵活,让数据共享交换变得随时随地、按需和便捷,充分调度计算设施、存储设备、应用程序等资源,满足用户多元化、复杂的需求,降低了开发、管理的难度。  

相关阅读:

借力大数据深耕风控,夯实金融企业核心竞争力

数据交换模型:他们是什么?

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读