如何利用数据科学,从海量的业务数据中通过处理、分析、挖掘提炼其价值?目前证券行业面临诸多挑战:挑战一,如何对海量数据进行全量分析;挑战二,如何保证数据的实时性要求;挑战三,如何提供合适的处理与分析方法;挑战四,如何通过有效的手段快速将数据的价值反馈到业务中去。为此,上海证券打造了“业务驱动的智能数据服务平台”,该平台采用多种成熟的开源工具,以较低成本构建了契合业务发展的统一数据服务平台,实现了智能化数据服务和智能化平台管理功能,并将此平台定位为公司数据的“存储中心、交互中心、处理中心和服务中心”。
智能数据服务平台的架构
平台选用了Hadoop架构,围绕着Hadoop开源平台及其衍生的开源生态圈,将整个智能数据服务平台日常运营过程中涉及的数据收集、传输、存储、处理、失效等各个环节,进行数据全生命周期管控,并对外提供数据访问服务和计算处理服务。
如下图所示,平台底层采用CDH-Hadoop基础架构,数据以文件、流式写入Hadoop平台,平台对外提供计算服务,包括Hive和Impala的SQL服务、Spark和Mapreduce的分布式计算服务。同时,平台通过Solr或其他索引组件对外提供文件的检索功能。从数据存储功能看,平台上存放了结构化数据、半结构化数据和非结构化数据。结构化数据存放在HDFS中,以文件形式进行存放,对外以表的形式提供访问。半结构化和非结构化数据部分,小文件存放在Hbase中,大文件作为HDFS文件存放,同时当这些数据被解析为结构化数据后,便以结构化数据方式存放以方便上层应用调用。从数据源的角度来看,平的架构可以兼容原有业务系统全部种类的结构化数据,原有的业务系统无论是构建在何种关系型数据库上,在数据导入上都可以做到无缝转换。同时支持半结构化以及非结构化的数据,因此原有传统架构无法处理的日志数据及视频、照片数据等半结构化或非结构化数据都能够在大数据平台上有效存储及处理。从数据应用角度来看,平台能为管理报表系统、财务系统提供数据服务,同时基于大数据对于半结构化数据能够模糊查询及匹配的特性,提供了历史日志的海量快速查询。