大数据平台介绍
融和科技大数据平台,是融和科技自主研发的基于大数据分布式计算架构的新一代智能平台。该平台遵循J2EE规范,按照分层理念设计,基于函数式编程设计实现数据采集、数据存储、数据清洗、数据分析、数据展示功能的技术平台,可以支撑整个大数据应用产品体系,并对其进行软件全生命周期管理。
融和大数据平台分三个层级,自下而上分别为数据存储、数据工厂和数据应用。
一、数据存储
数据存储指的是基础软件和硬件,大数据平台屏蔽了不同软件产品对不同数据库类型的差异,全平台自动适配。
支持多种数据存储模式,包括传统关系型数据库、NoSql数据库、基于列存储的数据库HBase、分布式文件存储HDFS;
支持集群多节点分布式部署,具备负载均衡、协同消息同步、容灾备份等功能。
二、数据工厂
数据工场是集数据清洗、数据抽取、数据计算、数据分析的数据研发平台,并集成公共的数据研发计算组件。
数据同步和转换
不同类型的数据在数据库中存储源不同,传统的大数据处理需要将数据抽取到内存中再进行融合计算,融和大数据平台针对不同结构的数据源进行框架整合,提供简捷易用的数据同步和转换。
数据计算组件
大数据平台针对常用的数据分析计算进行分析整合,抽取并提供了一套常用的数据分析计算组件,让开发者减轻了对数据计算技术实现的负担,将精力集中在业务逻辑开发上。
分布式计算引擎
分布式计算是将海量数据进行拆分,通过分布式架构进行多进程计算,并整合结果集。大数据平台提供了一套简洁便捷的分布式计算研发技术框架。
分布式缓存
大数据平台提供了一套分布式缓存系统,以满足数据应用的集群环境下的通讯协同、消息序列等业务需求。
数据交换平台
负责和数据存储层交互,根据不同的业务应用场景,自动匹配不同的存储数据源。
三、数据应用
数据采集
数据采集是大数据应用开发的第一步,大数据平台支持诸如数据爬虫等数据采集等数据应用的开发。
数据管理和数据展现
不同来源不同类型的海量数据需要存储至不同类型的数据库,大数据平台提供了对不同数据库类型的数据接口支持,开发者可基于此进行数据融合、数据管理、数据分析、数据导出、报表展示等业务应用的开发。
任务调度
集群环境下,合理地进行任务调度是确保集群环境稳定的必要措施,大数据平台提供了集群环境的任务调度接口,并支持业务应用进行平台任务调度的集成开发。
资源管理
大数据平台提供了对底层数据储存信息、集群运行状况、多线程计算负载、分布式缓存信息等资源的接口,支持对大数据平台资源管理业务应用的开发。