2018年01月24日 星期三 丁酉年十二月初八
  当前位置: 首页 > 信息公开 > 税收法规 > 税收科研  
收藏此页 | 字体: | 保护视力色:
商业智能在税务大数据中的应用
日期:2018-01-13    来源:榆林市国家税务局
 

【内容摘要】经历过金税一期、二期、三期的全国税务系统,积累了大量的涉税数据,在大数据的背景下,如何利用先进的数据处理技术,从海量的数据中沙海淘金,找出能够指导现代税收征管的路径,从而实现向数据要税收,是一个值得研究的课题。本文首先阐述了商业智能这种数据库解决方案的优势,分析了当前税收数据处理和应用过程中存在的问题,并以税务电子底账系统数据为突破,尝试将商业智能引入到我们的税收数据管理中,从而提升税收数据的挖掘和利用率,切实发挥“信息管税”效力,推动税源管理方式转变。

 

关键词商业智能 电子底账 税务大数据

 

一、商业智能概述

商业智能Business Intelligence作为一套完整的解决方案,是将数据仓库、联机分析处理(OLAP)和数据挖掘等结合起来应用到商业活动中,从不同的数据源收集数据,经过抽取、转换和加载,送入到数据仓库,然后使用合适的查询与分析工具对信息进行处理,最后将知识呈现于用户面前,以实现技术服务与决策支持的目的。

(一)商业智能特点

1.快速的数据处理:BI 能获取任意时间段、部门段的数据资料,实现数据项升、降排序,数据筛选,数据格式转换等功能。数据处理的速度与能力能得到充分的保障。

2.智能的关联分析:BI 充分利用成熟的数学模型,深刻揭示企业营运规律,为科学决策提供素材。

3.多维的分析对象:BI在商品、品牌、生产商、供应商、品类、价格等若干分析对象进行组合分析,从而形成多维立体结构的数据资料。

4.递进的分析结果:BI 在实际应用中可以通过分析条件的多样性与拓展性,经过对不断明确的分析结果的层次过滤,得到最明确的决策数据。

(二)商业智能系统模型

BI是涉及一个很宽领域的集收集、合并、分析和提供信息存取功能为一身的解决方案,包括 ETL、数据仓库、数据集市、数据查询和报告、多维数据分析、数据挖掘和可视化工具。

(三)商业智能的关键技术

商业智能的支撑技术主要包括ETL(数据的提取、转换与加载)技术和数据仓库与数据集市技术、OLAP 技术、数据挖掘技术与数据的发布与表示技术。

1.数据仓库技术:实施BI首先要从企业内部和企业外部不同的数据源,如客户关系管理、供应链管理、企业资源规划系统以及其他应用系统等搜集有用的数据,进行转换和合并,因此需要数据仓库和数据集市技术的支持。数据仓库是指从多个数据源收集的信息,以一种一致的存储方式保存所得到的数据集合。在构造数据仓库时,要经过数据的清洗、数据的抽取转换、数据集成和数据加载等过程。

2.联机分析处理技术:联机分析处理又称多维分析,它对数据仓库中的数据进行多维分析和展现,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的一类软件技术。

3.数据挖掘技术:与 OLAP 的探测式数据分析不同,数据挖掘是按照预定的规则对数据库和数据仓库中已有的数据进行信息开采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,为决策者提供决策依据。

4.表示和发布技术:为了使分析后的数据直观、简练地呈现在用户面前,需要采用一定的形式表示和发布出来,通常采用的是一些查询和报表工具。目前越来越多的分析结果是以可视化的形式表现出来,扩展了 BI 的信息发布范围。

(四)商业智能软件的介绍

1.全球领先的商业智能软件

Gartner 公司发布的 2016 年商业智能和分析软件的魔力象限报告中不难看出(如下图1),Tableau 公司、Qlik 公司和microsoft公司的商业智能产品在商业智能软件行业领导地位的象限中,在执行能力(考量产品的易用程度和价格、服务的完善程度和技术支持能力、管理团队的经验和能力等)评价中居于领先地位。

1 Gartner公司2016年商业智能魔力象限

garter2该图的横轴:前瞻性(Completeness of Vision)包括厂商或供应商提供的产品底层技术基础的能力、市场领导能力、创新能力和外部投资等等。

该图的纵轴:执行能力(Ability to Execute包括产品的使用难度、市场服务的完善程度和技术支持能力、管理团队的经验和能力等。

2.商业智能软件的五个核心用例场景

1)敏捷和集中的 BI 准备平台:自带数据管理平台,能够支持敏捷化的 IT 工作流程,从数据到集中交付实现以及内容管理。      

2)分散化的数据分析:支持从数据到自助分析的工作流程,即数据可分发控制交由例如业务人员,以进行自主化的数据分析。 

3)数据治理与发现:实现对数据的自助分析、系统记录、IT 管理的控制性、可重用性和促进能力。 

4)嵌入式 BI:能够在其它流程或者应用中嵌入此 BI 平台分析结果或者内容。 

5)外部部署与访问:能够控制和支持外部用户、公共部分甚至市民对于分析内容的访问,即良好的权限和安全控制以及访问能力。

3Tableau

Tableau Desktop 是一款桌面数据可视化分析工具,通过Tableau Desktop,就可连接到各类数据源(例如文本文件、excelaccessmysqlsql serveroracel等等),然后只需用拖放的方式就可快速地创建出交互、美观、智能的视图和仪表盘。定位为个人友好和部门级的报表展现和分析工具,业务驱动类型,业务人员驱动和主导的自助分析产品。拥有非常丰富的可视化组件和展现分析能力,使用者也通常是业务分析人员和管理层。但产品没有专门的 ETL 清洗能力和数据集成以及治理平台,对于数据格式的要求还是比较高的,通常为清洗之后干净的结构化的数据。Tableau 的核心产品是 Tableau Desktop Tab-leau Server。其中,Tableau Desktop 是为企业数据工作者和数据分析人员设计的一个可视化数据分析工具。而 Tableau Server 是一个 Tableau 可视化内容的发布服务器,它通过结合 Tableau Desktop 设计好的可视化仪表盘和分析图表,让企业的业务用户,可以通过使用 Web 浏览器或者移动设备访问查看可视化仪表盘的功能。

使用Tableau工具,我们可以通过简单的双击、拖放的动作就创造出既美观的各种交互式图表:

文本图表

地图Maps(符号地图、填充地图)

条形图(水平、堆叠、并排)

直方图

线形图(连续、离散、多条组合)

面积图(连续、离散、多组合)

压力图(也即热力图)

突出显示表

树地图

圆视图(普通圆、并排圆)

散点图

饼图

填充气泡图、文字云图

甘特图、瀑布图

标靶图、盒须图

帕累托图(Pareto Chart

Tableau数据可视化分析软件 <wbr>有哪些图表功能2Tableau工具的功能展示

 

 

 

 

 

 

 

 

 

 

 

4Qlik

是一个半 IT 半业务主导的报表分析工具,后端可以通过脚本实现比较复杂的 ETL 功能,包括数据的抽取转换清洗等工作,但没有可视化的 ETL 操作能力。在前端分析上也可以交由业务人员自主开发报表和实现交互性分析,可以认为由 IT 主导数据的抽取与准备,由业务主导数据分析工作。还是比较高的,通常为清洗之后干净的结构化的数据。Qlik Sense Qlik 公司在成熟产品 Qlik View 基础上推出的一款轻量级 BI 产品,其快速建模和自主式分析能力降低了 BI 工具的使用门槛。Qlik Sense主要包括 Desktop Server 两个产品,Desktop 针对单机版用户,Server 版针对企业用户,二者在分析和可视化功能上并无差别。

5Microsoft 

这次魔力象限实际上调研的是针对于微软的 Power BI。但是我要说的是微软的产品线还是非常丰富的,不仅具备完整的 BI 集成平台(从 SQL SERVER 数据库到 SSIS ETL, SSAS 多维分析 到 SSRS 报表展现),同时增强了 Office Excel , Power BI 等可视化产品的功能,包括对于移动端的支持。既能支持传统的 BI 实施,数据仓库建模,也能提供类似于 TableauQlik 的业务主导型的自助式可视化分析能力。但在可视化分析、用户体验、交互性、移动端、实施能力和支持方面还是比 TableauQlik 仍然有一定的差距,但正在投入和追赶。

1:Qlik SenseTableau软件细节功能对比

 

多数据源

 

数据加载

方式

可视化

控件

地图功能

API及扩

展性

易用程度

Qlik

Sense

支持

支持内存

访问和实

时加载

提供基础控件;还提供用户自定义控件编程

不支持离

线地图和

WMS服务

提供丰富

API

基础应用简单,高级应用可以通过编写脚本实现

Tableau

支持

支持内存

访问和数据提取

提供基础控件;尚未提供用户自定义控件

支持离线地图和WMS服务

除了API

之外还提

供与R

集成

非常简单,无需编写

脚本

基于以上比较我们选择 Tableau软件实现税务大数据的可视化分析。

二、税务系统的数据种类及使用现状

国税系统是数据密集型政府部门,经过20年的信息化建设,国税系统积累了大量的税收数据,按照201612月统计,国家税务总局每月收集全国数据达4TB1TB=1024G)。

(一)数据种类

从大数据开发应用的技术角度来看,国税系统主要数据可分为以下11类:

1.纳税人统计资料及状态信息:记录纳税人统计信息及其状态,比如纳税

人登记信息、税种信息和地址变更历史。

2.申报和缴税数据:各税种申报数据;企业财务报表信息;纳税人发票使用情况、核定、认定管理信息及管理过程,还包括纳税人减免税;出口退税;典型调查和稽查审计数据。

3.纳税人路线数据:纳税人使用政府服务历史和细节,如申报数量、时间、在哪个机关或税务所申请和认定。

4.行为数据:关于谁(可能有多个税务干部);处理的行为类型(如地址变更);在何处(如税务所);什么时间(日期和时间);什么原因(如得到了资料来源);结果是什么(欠税产生或偿还)的行为记录。

5.介质使用数据:记录(税务干部联系纳税人或纳税人使用)介质使用情况,信函;电话或是网上服务。

6.政策执行信息:政策信息,即在特定情况下对某些纳税人适用的政策执行情况。

7.服务记录数据:纳税人使用服务的日常记录,如新登记注册、新申请、代开发票、12366咨询政策情况。

8.服务质量数据:记录服务质量和表现,比如申报录入错误及其分布、纳税人平均排队时长、纳税人满意度。

9.纳税人与工作人员之间,不同部门工作人员之间的交流信息,比如纳税人呼叫纳税服务中心询问发票更新情况。

10.资源和基础设施日常工作消耗数据,比如用在发票销售上的人工数量和时长。

11.工作绩效:衡量工作成本和资源使用绩效,比如稽查查补1元税款的平均成本,旨在解决问题(比如发现和修补异常情况)的提示短信的有效性。

(二)税务系统数据特点和应用问题

国税系统的数据呈现如下特点:数量大;结构多样,如数值、逻辑、文本型、离散和连续型、临时和序列型;分布广:数据来源于办税服务厅、网络、数据中心,纳税人分布在全省各地;时间持续长;多维度:行为、数据、政策等多类型数据混杂;多来源:信息记录分散,任何一个单独的数据源都不可能提供全景图片;时间上分散,如纳税人使用电话服务间隔不定;不均衡,如逃税偶发;质量参差:缺失或重复数据;时常变化;相互关联。以上国税系统的数据特点也决定了数据挖掘的难点较多。

当前税收管理的一大“痛点”就在于,一方面税务部门堆积了海量的纳税人数据,另一方面由于缺乏有效手段对各类数据进行挖掘和利用,税收管理很大程度上还停留在传统的人工核查阶段。面对日益庞大的纳税人规模,“管不好”甚至“管不了”的现象日益严重。大数据开发应用系统的目标,就是要大数据和“互联网+税务”行动计划东风,将海量的涉税数据用起来,使堆积如山的数据产生出效益,切实发挥“信息管税”效力,推动税源管理方式转变。

三、以税务电子底账系统为例构造大数据分析模型

(一)目前发票管理系统现状与困境

201511日起,全国开始推行增值税发票管理系统升级版。增值税发票系统升级版推行到位后,启用了电子底账系统,发票认证、抄报税、稽核比对等业务全部退出,有效提高税企双方工作效率,税务机关通过采集发票票面的全部信息,建设全国统一的发票真伪查验平台,利用电子底账数据,可以极大压缩虚假发票的空间,净化社会环境,促进社会诚信体系建设。增值税发票管理新系统的核心就是建立了及时、完整、准确的发票电子底账库。即开具发票信息库。纳税人开具的发票全票面信息(包括所有汉字和数字内容)实时加密上传税务机关,生成发票电子底账库,作为纳税申报、发票数据查验以及税源管理、数据分析利用的依据。开票数据实时跨省异地推送,实现增值税纳税人纳税申报“一窗式”票票比对、票表比对管理。可有效解决不法分子虚开发票、篡改发票汉字信息等问题,全面提升税收管理的质量和效率。

但是由于目前电子底账系统只能实现发票的单张信息查询,极大的降低了底账系统的使用,我们的目标是通过商业智能的数据探查、分析和展示等技术,建立电子底账分析比对系统,通过广泛收集税务部门内、外两个维度的涉税数据,将电子底账系统、金税三期、网上申报系统等各应用系统数据,以及工商、电力、海关等部门的第三方数据,对纳税人发票明细、登记认定、纳税申报等信息进行分类聚合、交叉比对,实现了税源实时化监控、数据系统化分析和风险精准化应对,并结合税收管理实践经验,设立风险识别指标进行预警监控,探索出了一条全方位用活升级版“大数据”,

建立起以纳税人为数据归集单位的涉税数据平台,整合成一个大型自动化管理的“数据仓库”。建成“增值税发票电子底账数据分析系统”,系统搭配精细化的自动识别体系,将日常税源管理工作归集为核验指标、比对指标、政策性指标等业务指标,建立了业务指标与涉税数据的对应关系,应用日常监控、数据挖掘和决策分析三类模型,对涉税数据进行“扫描”,生成疑点信息,在第一时间推送给税源管理部门进行核实。

(二)发票管理系统的模型构建

“增值税发票电子底账数据分析系统”建成后将发挥对发票信息能实时自动抓取、自动归集、自动关联、自动匹配的大数据优势,紧抓企业购、销两个环节关键信息的透视监控和分析比对,在有效提升发现税收违法行为的针对性和准确度的同时,促进了税收管理机制体制的进一步优化。

1.模型一是从数据中查疑点,开展进销项差异比对分析。该系统将商贸企业进销项差异作为一项开发的核心功能,对单户纳税人进销项发票数据按照发票货物名称进行分类聚合,并在此基础上进行比对分析,从物品差异度和金额差异度两个方面进行量化比较,从而筛选出进销项存在严重差异的商贸企业,开展进一步风险应对。

2.模型二是从数据中找线索,理清企业的经营脉络。该系统充分利用增值税链条管理的优势,以发票为线索摸清企业的经营情况,提高案情分析和案件查处的工作效率。如“企业流”查询模块以特定纳税人为标的,对该企业的上下游关联企业进行拉网式巡查,以“族谱”的形式展现在一张业务往来图表之中。税务机关可以沿着纳税人经营脉络向后跟踪、向前溯源;又如“货物流”查询模块以纳税人特定的货物劳务为标的,对货物流转的各个环节进行全过程分析,清晰地展现特定货物从何而来、流向何方。

3.模型三是从数据中探规律,提高税收执法精准度。该系统设置了“自定义疑点特征分析”模块,税务人员结合日常经验,将查处的违法企业特征录入动态疑点信息库,比如注册地址为案件多发的写字楼、财务人员交叉任职、从事大宗商品经销业务、最大限额开具发票等。如果纳税人与疑点信息库特征高度吻合,税务机关就在发票审批和日常管理中进行重点关注,并适时跟进开展纳税评估。这种看似模糊的特征指标,往往可以更加及时准确地识别出高风险企业。该系统还引入了来自第三方的市场价格等数据,对发票记载的销售价格明显偏离市场价格、销售货物距离明显违反经济规律等进行监控,拓宽了数据应用广度。

4.模型四是从数据中寻方法,将放管结合落到实处。该系统通过提炼分析关键数据,为多税种协作管理提供决策支持。比如通过纳税人开票信息与申报信息比对,发现纳税人无农产品发票但申报农产品抵扣税额的情况。另外,发票中价格信息的分类采集,也为国际税收管理中转让定价的确定提供了精准的数据支撑。

5.模型五是从数据中看经济,做好税收分析的大文章。该系统发挥升级版数据及时性的显著优势,通过分行业、分区域进销项数据汇总,第一时间展示区域内宏观经济运行和微观企业经营状况。比如对销售结构进行分析,可以直观地看到区域内优势产业有哪些、薄弱环节是什么;通过进销产品来源流向分析,可以掌握区域经济的外向程度如何、与哪些地区联系紧密 ;通过行业进销差额分析,可以发现行业的“增值规律”,找到有潜力的新兴经济增长点。

四、结语

税务系统大数据的应用在大数据时代背景下越来越被重视,随着征管模式的不断改变,税收管理更加依赖于信息的分析和利用。王军局长多次强调,税收数据是我们的金山银库,不能让大量的数据资源睡大觉。但目前虽然国税系统积累了大量的税收数据,但由于缺乏有效手段对各类数据进行挖掘和利用,税收管理很大程度上还停留在传统的人工核查阶段,面对日益庞大的纳税人规模,管理效率和质量得不到有效提升。而商业智能BI)作为一种数据管理和方案展示技术,可以为大量的涉税数据提供了一个整理、加工、分析和展示的平台,让税收管理人员能够在大数据时代通过直观的可视化方式得到需要的信息,从而为税收管理决策提供依据。本文以电子抵账系统数据为突破口,从理论和实践两个方面了整合商业智能与电子抵账系统的优势,探索建立起以纳税人为数据归集单位的涉税数据平台——“增值税发票电子底账数据分析系统”,充分发挥对发票信息的实时自动抓取、自动归集、自动关联、自动匹配的大数据优势,可有效提升发现税收违法行为的针对性和准确度。笔者认为税务部门可以将商业智能这种被企业广泛使用的技术手段引入到我们的税收数据管理中,从而提升税收数据的挖掘和利用率,切实发挥“信息管税”效力,推动税源管理方式转变。

 

 

               榆林市国家税务局

                2018113


 
      
        文章分享到: 0
网站声明 | 网站纠错 | 网站导航
榆林市国家税务局办公室主办 信息中心提供技术支持
陕ICP备 05036792号 网站标识码 bm29270080

陕公网安备 61080202000146号


方欣科技有限公司提供门户网站管理平台
版权所有:榆林市国家税务局 地址:榆林市开发区榆溪大道5号