政税银大数据平台

星环大数据基础平台
星环大数据基础平台(TDH) 是星环自主研发的一站式多模型大数据基础平台,包括多个大数据存储与分析产品,能够存储 PB 级别的海量数据,可以处理包括关系表、文本、时空地理、图数据、文档、时序、图像等在内的多种数据格式,提供高性能的查询搜索、实时分析、统计分析、预测性分析等数据分析功能。目前 TDH 已经在政府、金融、能源、制造业等十多个行业内落地,支撑如金融风控与营销、智慧制造、城市大脑、智慧交通等多种核心行业应用。

政税银大数据平台 更多内容

要求平台具备数据分析、应用和挖掘的能力。平台选择采用星环TDH平台,对已有的数据中心进行改造,为不断升级的业务提供更加稳妥、快速的数据服务,并为更深层数据挖掘夯实基础。2、大数据应用痛点兴业银行系统提供数据,以及对外提供数据文件推送服务。4、应用效果1)迁移informix数据仓库原有数据和程序应用,大大的提高数据处理效率将informix数据仓库数据和程序应用迁移到TDH大数据平台数统计分析的及时性要求:目前我部正在建设中的用户标签和日常运营指标分析体系等都要求平台具有实时的大数据量运算处理能力,现有通过编码的实现方式耗时较长,无法满足业务经营决策的及时性要求。4)现有技术架构:所有的数据都存放在hdfs中,用到的组件分别是Inceptor、Hyperbase以及Search,三种组件分别用于不同的查询或计算场景。数据服务:TDH大数据平台为外部数据访问提供服务接口,为报表仓整合部门内多个源系统基础数据和行内EDIP数据,每日批量处理,耗时长,难以满足业务对数据的时效性要求。TDH大数据平台大大的改善了之前平台存在的数据处理速度慢影响生产等问题,采用分布式处理,将大量
来自: 官网 / 案例
大数据平台数仓整合部门内多个源系统基础数据和行内EDIP数据,每日批量处理,耗时长,难以满足业务对数据的时效性要求。TDH大数据平台大大的改善了之前平台存在的数据处理速度慢影响生产等问题,采用数据存储扩展方式,大改善了informix数据库扩展性和价格等因素给企业带来的困扰。2)进行用户标签完善和用户行为数据分析,更好的进行数据挖掘平台针对客户进行标签分类,以便于进行后续的数据应用,但,在更加详尽的客户标签系统下,可以进行更多数据挖掘,提高推荐和推送的准确率,并且更加有效的进行潜在客户挖掘和流失客户挽留,大地提高平台客户粘性和留存率。用户标签程序从informix数仓迁移到大数据平台后,运行效率大幅提升,计算时间从原来的5个小时缩短到30分钟以内。利用大数据平台搜集用户行为数据,并进行相应的行为分析,更加了解客户兴趣和需求,为后续的数据应用和挖掘提供依据。分布式处理,将大量来源的数据进行存储、管理和应用、挖掘,提高生产效率,应对高并发数据查询等业务需求。TDH平台的线性扩展性方能,也为平台不断扩大的业务数据、更高的数据应用和挖掘需求,提供了更加便捷的
科技TDH大数据基础平台建立的EAST监管合规系统,是该全国性股份制商业行在新金融监管要求下的第一个监管报送系统层面的技术革新,在响应人民银行、保监会等部门“创新型监管技术”要求的同时,提升了银行合规人员的工作效率,未来,该全国性股份制商业行会在监管科技方面做更多前沿性技术的创新与尝试。使用星环科技TDH大数据基础平台后该全国性股份制商业银行:填充了大数据技术的空白;实现非结构化数据与结构化数据技术架构的统一及非结构化数据的统一管理;有效地解决了历史数据应用场景;提升了数据仓库及部分大数据量应用的处理效率,全方位的提升了该全国性股份制商业银行的经营效率,为以后的银行AI等创新型场景打造了夯实的基础。该全国性股份制商业行在基于TDH的EAST报送系统上线的半年多时间中,高效的业务人员:数据查询效率的提升,大大提高了业务人员在数据核对时以及数据补录调整后的再校验工作场景的效率,实现了从原有的“一天只能校验一次”到“一天校验多次”的质变提升。总而言之,该全国性股份制商业银行基于星环
要求平台具备数据分析、应用和挖掘的能力。平台选择采用星环TDH平台,对已有的数据中心进行改造,为不断升级的业务提供更加稳妥、快速的数据服务,并为更深层数据挖掘夯实基础。2、大数据应用痛点兴业银行系统提供数据,以及对外提供数据文件推送服务。4、应用效果1)迁移informix数据仓库原有数据和程序应用,大大的提高数据处理效率将informix数据仓库数据和程序应用迁移到TDH大数据平台数统计分析的及时性要求:目前我部正在建设中的用户标签和日常运营指标分析体系等都要求平台具有实时的大数据量运算处理能力,现有通过编码的实现方式耗时较长,无法满足业务经营决策的及时性要求。4)现有技术架构:所有的数据都存放在hdfs中,用到的组件分别是Inceptor、Hyperbase以及Search,三种组件分别用于不同的查询或计算场景。数据服务:TDH大数据平台为外部数据访问提供服务接口,为报表仓整合部门内多个源系统基础数据和行内EDIP数据,每日批量处理,耗时长,难以满足业务对数据的时效性要求。TDH大数据平台大大的改善了之前平台存在的数据处理速度慢影响生产等问题,采用分布式处理,将大量
要求平台具备数据分析、应用和挖掘的能力。平台选择采用星环TDH平台,对已有的数据中心进行改造,为不断升级的业务提供更加稳妥、快速的数据服务,并为更深层数据挖掘夯实基础。2、大数据应用痛点兴业银行系统提供数据,以及对外提供数据文件推送服务。4、应用效果1)迁移informix数据仓库原有数据和程序应用,大大的提高数据处理效率将informix数据仓库数据和程序应用迁移到TDH大数据平台数统计分析的及时性要求:目前我部正在建设中的用户标签和日常运营指标分析体系等都要求平台具有实时的大数据量运算处理能力,现有通过编码的实现方式耗时较长,无法满足业务经营决策的及时性要求。4)现有技术架构:所有的数据都存放在hdfs中,用到的组件分别是Inceptor、Hyperbase以及Search,三种组件分别用于不同的查询或计算场景。数据服务:TDH大数据平台为外部数据访问提供服务接口,为报表仓整合部门内多个源系统基础数据和行内EDIP数据,每日批量处理,耗时长,难以满足业务对数据的时效性要求。TDH大数据平台大大的改善了之前平台存在的数据处理速度慢影响生产等问题,采用分布式处理,将大量
度等多个方面进行综合评比,终星环科技凭借其成熟的产品、先进的技术、经验丰富的团队等优势,成功与该全国性股份制商业行在大数据平台层面达成技术合作。解决方案该全国性股份制商业银行原有数据仓库采用支撑采用TDH支撑,并在远期规划中将逐步扩大TDH的使用场景,实现数据层面OLAP的有力支撑。图1:全国性股份制商业银行大数据平台总架构图1、对于历史数据的支撑目前该全国性股份制商业银行数据场景的效率,实现了从原有的“一天只能校验一次”到“一天校验多次”的质变提升。总而言之,该全国性股份制商业银行基于星环科技TDH大数据基础平台建立的EAST监管合规系统,是该全国性股份制商业行在新的不断开展,该全国性股份制商业银行数据仓库的使用已逐渐出现了以下问题:现有的存储资源不够用;半结构、非结构数据存储运用效率不高;大数据量的情况下,传统数据数据库技术已经出现了出现严重效率不高,已开始逐步影响行内业务部门的日常工作;部分监管数据无法及时汇总计算,部分大数据量应用系统查询出现高延时性等待。面对上述问题,2018年底,该全国性股份制商业银行开始大数据平台市场调研与技术选型。在历时近1年的
来自: 官网 / 案例
、社交数据等多维度数据的分析,银行能够全面了解客户的需求和偏好,从而提供更加个性化的产品和服务。优化风险管理:大数据平台能够整合行内外部的各类数据,实时监控市场动态和客户风险状况。通过先进的数据准确性,为银行的业务决策提供可靠的数据支持。2.3数据安全架构数据安全是银行大数据平台的生命线,数据安全架构的设计和实施对于保障银行数据的机密性、完整性和可用性具有重要意义。数据加密技术:银行大数据平台采用多种数据加密技术,对数据在存储和传输过程#3.数据来源与整合3.1内部数据来源行内部数据大数据平台的核心基础,涵盖了银行日常运营的各个方面,具有高价值和高可用性。客户基本信息:包括客户的姓名数据整合与清洗数据整合与清洗是银行大数据平台建设的关键环节,确保数据的完整性和准确性,为后续的数据分析和应用提供高质量的数据支持。数据整合:统一数据格式:行内部和外部数据来源多样,数据格式各异。通过数据风险管理银行大数据平台在风险管理方面发挥着至关重要的作用,通过整合多维度数据和先进的数据分析技术,能够有效提升银行的风险识别、预警和防控能力。风险识别与评估:大数据平台可以整合行内外部的各类数据
、社交数据等多维度数据的分析,银行能够全面了解客户的需求和偏好,从而提供更加个性化的产品和服务。优化风险管理:大数据平台能够整合行内外部的各类数据,实时监控市场动态和客户风险状况。通过先进的数据准确性,为银行的业务决策提供可靠的数据支持。2.3数据安全架构数据安全是银行大数据平台的生命线,数据安全架构的设计和实施对于保障银行数据的机密性、完整性和可用性具有重要意义。数据加密技术:银行大数据平台采用多种数据加密技术,对数据在存储和传输过程#3.数据来源与整合3.1内部数据来源行内部数据大数据平台的核心基础,涵盖了银行日常运营的各个方面,具有高价值和高可用性。客户基本信息:包括客户的姓名数据整合与清洗数据整合与清洗是银行大数据平台建设的关键环节,确保数据的完整性和准确性,为后续的数据分析和应用提供高质量的数据支持。数据整合:统一数据格式:行内部和外部数据来源多样,数据格式各异。通过数据风险管理银行大数据平台在风险管理方面发挥着至关重要的作用,通过整合多维度数据和先进的数据分析技术,能够有效提升银行的风险识别、预警和防控能力。风险识别与评估:大数据平台可以整合行内外部的各类数据
、社交数据等多维度数据的分析,银行能够全面了解客户的需求和偏好,从而提供更加个性化的产品和服务。优化风险管理:大数据平台能够整合行内外部的各类数据,实时监控市场动态和客户风险状况。通过先进的数据准确性,为银行的业务决策提供可靠的数据支持。2.3数据安全架构数据安全是银行大数据平台的生命线,数据安全架构的设计和实施对于保障银行数据的机密性、完整性和可用性具有重要意义。数据加密技术:银行大数据平台采用多种数据加密技术,对数据在存储和传输过程#3.数据来源与整合3.1内部数据来源行内部数据大数据平台的核心基础,涵盖了银行日常运营的各个方面,具有高价值和高可用性。客户基本信息:包括客户的姓名数据整合与清洗数据整合与清洗是银行大数据平台建设的关键环节,确保数据的完整性和准确性,为后续的数据分析和应用提供高质量的数据支持。数据整合:统一数据格式:行内部和外部数据来源多样,数据格式各异。通过数据风险管理银行大数据平台在风险管理方面发挥着至关重要的作用,通过整合多维度数据和先进的数据分析技术,能够有效提升银行的风险识别、预警和防控能力。风险识别与评估:大数据平台可以整合行内外部的各类数据
产品文档
5.7 查询类操作
过滤条件表达式Hippo当前支持如下表达式,可用于标量或向量查询。表46.过滤条件表达式表达式描述and当前版本支持and,不支持or/not==等值<小于⇐小于等于>大于>=大于等于inin[1,2,3]notinnot_in[1,2,3]like'_'表示匹配任一字符,'%'表示匹配任意字符,'\'为转义符向量相似性检索本节描述如何进行向量相似度搜索。Hippo中的向量相似性搜索计算查询向量与表中向量的距离,返回最相似的结果集。通过指定标量过滤条件,用户可以进行向量与标量的混合搜索。curl-ushiva:shiva-XGET'localhost:8902/hippo/v1/{table}/_search?pretty'-H'Content-Type:application/json'-d'{"output_fields":["book_id"],"search_params":{"anns_field":"book_intro","topk":2,"params":{"nprobe":10},"embedding_index":"ivf_flat_index"}...
产品文档
10 Hippo 运维
运维管理界面WebserverWebserver是Hippo提供运维监控的界面。默认访问地址为:4567"class="bare">http://<webserver_ip>:4567。或者在Manager管理界面我们可以通过下图所示的查看链接这里进行跳转。图15.登录HippoWebserverWebserver主要由下面几个部分构成。概况图16.概况该页面展示了Hippo集群的基本信息,包括:Masterstatus:当前的ActiveMaster,MasterGroup,MasterAddress,Master的健康状态TabletServerStatus:TabletServerAddress,健康状态,逻辑机架和数据中心信息,容量使用以及Tablet个数TabletNum:当前集群表的个数Version:Hippo版本信息库表图17.库表页面以库和表的概念集群存储的各类数据信息。库信息:库名库创建时间库内各类表的信息:点击某个库,可以看到库下所有表的信息,主要包括:••表的ID••表的名字••表的状态••表的Tablet数量••表的Engine类型••表的副本数•...
产品文档
5.3 写入类操作
本节介绍Hippo表写入相关操作。Hippo会返回写入成功数据的下标以及总共写入成功的数据条数,如果出现行级错误(比如主键冲突),Hippo会返回具体的行级错误。插入本节介绍如何向Hippo中插入数据。curl-ushiva:shiva-XPUT'localhost:8902/hippo/v1/{table}/_bulk?database_name={database_name}&pretty'-H'Content-Type:application/json'-d'{"fields_data":[{"field_name":"book_id","field":[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74...
产品文档
1 Introduction
OverviewUnstructureddatamanagementismoreimportantthaneverduetotheriseofbigdata.Managingandgleaningbusinessvaluefromunstructureddataisofutmostimportancetoenterprisestoday.Advancementsinmachinelearning,aswellasdeeplearning,technologiesnowenableorganizationstoefficientlyaddressunstructureddataandimprovequalityassuranceefforts.Inthefieldofartificialintelligenceormachinelearning,embeddingsandvectordatabaseshavebecomeincreasinglyimportantfortacklingawiderangeofproblems.Thesetechniquesareusedtorepresen...
产品文档
5.10 任务相关
在Hippo中,比较耗时的操作如激活、加载向量索引实际上是一个分布式任务,用户可以通过任务相关接口查看、删除任务。查看任务curl-ushiva:shiva-XGET"localhost:8902/hippo/v1/_jobs?pretty"-H'Content-Type:application/json'-d'{"job_ids":["fc6feff4f303455a9347f9aab323dfc8"],"action_patterns":["hippo*"]}';返回结果:{"jobs":[{"job_id":"810935a1d91a46b7af2ec35013454fed","job_status":"SHIVA_JOB_SUCCESS","embedding_number":100,"task_results":[{"id":"54ab52493dfb4bab9fb7742d850c64c4","status":"TASK_SUCCESS","server":"172.29.40.26:27841","embedding_number":100,"execute_time":...
产品文档
3.3 Cluster
OverviewAclusterisaHippoCloudinstanceassociatedwithspecificcomputingresources.Youcancreaterelatedtables,insertcorrespondingdata,andcompleteproductexperiencewithinacluster.Beforeyouusethedemoenvironment,youneedtocreateacluster.CreateClusterYouneedtogotothespecificproject.Iftherearenoclustersunderthecurrentproject,youcanclickthe'Createcluster'buttonbelowtheclustercreationguidancepagetoentertheclustercreation.Ifthereareclustersunderthecurrentproject,youcanclickthe'+Cluster'buttonabovetheclusterlist...
产品文档
5.18 全文检索
Hippo在1.2版本提供了全文索引能力,兼容ElasticSearch6.7.2语法,在底层架构上复用了公司产品TranswarpScope的一部分特性,支持以Java/HTTPRestful的形式通过Hippo的HTTPServer接口进行全文索引的创建、查询、使用等各类需求,通过该能力的支持,可以更好的实现向量与全文的混合检索。通过将向量检索加全文检索的联合召回,可以降低漏检和误检的概率,能够实现比单独使用向量或全文更高的精度。同时,一套数据库系统可避免部署多套系统带来的架构复杂、开发运维成本高等问题。具体的使用方法除了访问端口需要将端口从8902调整为9200外,均可参考《TranswarpScope手册》4.TranswarpScopeAPI介绍。
产品文档
8 性能分析
本节测试主要描述了Hippo1.0在关键测试上的一些性能表现,该份测试同样也是Hippo的基准测试,后续版本发布也会在不同版本上进行该测试进行对比分析。术语表142.Hippo性能测试术语TermDescriptionnq一次搜索请求中搜索的向量个数topk一次请求中对于要检索的每个向量(依赖nq),所能检索到最近距离的向量个数RT一次请求从发起到接受响应的时间]QPS请求在每秒内成功执行的次数dataset测试所用数据集,不同数据集表示不同的业务场景测试集群配置硬件配置表143.性能测试硬件配置硬件规范Nodes3CPUIntel®Xeon®Gold5218RCPU@2.10GHzMemory16*\16GBRDIMM,3200MT/sDISKNVMeSSD2T*4GPUNONE软件配置表144.性能测试软件配置软件版本Hippov1.2TranswarpManagerTDH9.3.0测试集表145.性能测试数据集数据集名称数据集介绍向量维度向量总数查询数量数据总量距离类型Sift-128-euclidean该数据集是基于Texmex的数据集整理,使用SIFT算法得到的图片特征向量。...
查看Master节点通过以下命令,查看集群Master节点信息:curl-ushiva:shiva-XGET'localhost:8902/hippo/v1/_cat/master?v'返回结果:epochtimestampactive.master.hostactive.master.portmaster.group169079683909:47:19172.29.203.18926841172.29.203.189:26841,172.29.203.189:26851,172.29.203.189:26861查看数据节点curl-ushiva:shiva-XGET'localhost:8902/hippo/v1/_cat/nodes?v'//查看所有节点curl-ushiva:shiva-XGET'localhost:8902/hippo/v1/_cat/nodes/{node}?v'//{node}表示待匹配的节点地址,支持以*通配,支持指定多个pattern,多个pattern以逗号分割返回结果:
产品文档
2 Quick Start
ThistutorialwillguideyouthroughthefollowingtaskswithinHippoCloud:EstablishingatablePerusingthetableIncorporatingdataExecutingsearchoperationsEliminatingrowsDissolvingthetableBeforeyoustartInthisguide,wewillbeutilizingthePythonAPI.Priortocommencement,ensurethatyouhave:RegisteredforaHippoCloudaccount.SubscribedtothecomplimentaryplanandestablishedatrialclusterwithinHippoCloud,orsubscribedtothestandard/enterpriseplansandconstructedadedicatedcluster.IfyouanticipateemployingPythonfordevelopment,ascert...