减贫研究数据库-浅议数据分析在精准扶贫中的作用

赤水市

浅议数据分析在精准扶贫中的作用

作者：发布时间：2017-05-16 编辑：

在这个信息爆炸的时代，众多纷繁复杂的信息远远超过人们常规的分析、处理能力，很容易导致难以做出最佳决策，甚至是决策失误，在制定措施的环节上背道而驰，在寻求真相的道路中南辕北辙，对数据进行筛选、整理、综合分析开始越发显得重要。数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析，是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程，目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来，以找出所研究对象的内在规律。大到外太空探测、国家大政方针制定，小到日常生活的方方面面，都可以看到数据分析活跃的身影。

一、背景情况

习近平总书记指出：“扶贫开发贵在精准，重在精准，成败之举在于精准”。自然而然，如何做到“精准”，找到“贫根”，统筹调配好资源，对症下药、靶向治疗，分类施策，实现有的放矢，让经济效益和社会效益最大化，真正打赢脱贫攻坚这场输不起的攻坚战，就成为全社会特别是各级党委、政府最关心，也是最揪心的问题。涉及到精准，毋庸置疑，这就需要借助于数学、借助于大数据、借助于数据分析、借助于模型、借助于平台，让可视化后客观、具体的分析成果为各级党委、政府决策提供重要参考和依据。

二、发展现状

现阶段，对标“精准”，全国大部分地区都不约而同致力于建设集采集、统计、分析、管理功能于一体的大数据精准扶贫管理平台，旨在运用互联网和大数据分析等现代信息技术，通过对扶贫对象的识别、扶贫措施的分类、信息数据的分析、扶贫成效的跟踪等，形成扶贫动态化、全过程闭环管理。事实上，大数据精准扶贫管理平台的核心技术环节主要是海量（大量）贫困户数据的建模分类、分析和可视化操作，只有找到合理的数学模型和适用高效的数据分析挖掘方法植入管理平台，才能让分析所得成果具有更好的参考价值，拥有真正意义上的核心竞争力和生命力，成为强有力的决策助手，推动实现精准扶贫。

三、整体说明

贵州是全国贫困人口最多、贫困面最大、贫困程度最深的省份，脱贫任务相当艰巨。就致贫原因而言，常规总结的莫过于几种、十几种。理想状态下，比较几百万的贫困人口，不难理解致贫原因一定会将贫困人口分成具有某种共性的多个簇，不同簇类可能会需要不同的帮扶主体，并针对性地采取不同的帮扶机制、帮扶方式、帮扶措施等，得到不同的帮扶效果。同理，设定一定的限制条件也可以对贫困人口进行动态管理，包括帮扶效果、退出机制等。但是现实中，单个贫困人口可能会存在多种贫困诱因，而且每种诱因影响的程度还不一样，加之贫困人口基数大，单靠人工或是简单的分类无法达到很好效果甚至根本就是徒劳，倒逼我们寻求一种更优的解决方式。

四、算法介绍

数据分析与数学建模可以帮助解决以上问题。第一步，我们可以将每个贫困人口简化为一个贫困向量，贫困向量的元素坐标即为该贫困人口的基本情况，比如产业收入、工资收入、教育支出、医疗支出等，所有贫困人口基本情况就由多个单一贫困向量汇成一个贫困矩阵。选取需要进行算法分析的多个变量（即元素坐标）组成最终的贫困矩阵，所有数据分析处理就建立在这个矩阵的基础上。第二步，采用数学建模的方式对贫困矩阵的所有贫困向量进行分类、聚类等综合处理，找出某种条件（可以不设置门槛）下具有某种共性的贫困向量整体分类或是其他关联规则。第三步，对第二步的结果有目的、针对性的进行再处理、再分析和可视化，形成能直接帮助决策，指导实践的有用信息。

作为收集素材的第一步是最基础的，决定着整个数据分析的效果，但也是操作起来最难的一步，需要专业工作人员对贫困对象的所有信息进行采集、整理，通过实地调研、实例分析、对比分析等方式方法确定贫困向量应该包含哪些变量、每个变量应该怎么量化。例：张三 = [姓名性别地区年龄工资收入教育支出医疗支出 ……]（行向量）。

作为核心环节的第二步，矩阵的处理和算法的选取至关重要，决定着整个数据分析的成败。由于各元素坐标反映贫困人口的各种情况，往往使用不同的度量单位，其观测值也可能相差十分悬殊。这样，绝对值大的变量其影响可能会淹没绝对值小的变量，使后者应有的作用得不到反映。为了确保各变量在分析中的地位相同，可以对数据进行无量纲化处理，即通过对每个变量在各个贫困人口上的观测值（列向量）进行标准差标准化或极差标准化，最后再对行向量（贫困向量）归一化处理。算法主要思路：选取一个权矩阵（权向量构成），逐一算出贫困矩阵每个贫困向量与权矩阵的相似度，如果相似度大于等于设定值，就将贫困向量归到与之相似度最大的那一类（竞争胜利的权向量），并适当选取系数调整竞争胜利的权向量，加大贫困向量对其的影响（提高兴奋度）。如果相似度小于设定值，则将该贫困向量添加到权向量中标准化形成新的权向量后再算与下一个贫困向量的相似度，当所有贫困向量即贫困矩阵都参与过计算后就完成一次迭代，形成了一次分类和新的权矩阵。然后再进行第二次迭代，形成第二次分类，这时就可以设定结束迭代的条件，完成分类。一是从迭代次数考虑，当迭代达到一定次数（比如20次）后即停止运行；二是从贫困向量分类变化率考虑，当前一次迭代与后一次迭代产生了分类差异的贫困向量的个数所占比例小于某个值（比如3%）时停止运行。此过程有两个重要参数选择，一个是权向量的调整参数，如果过小收敛速度会比较慢，如果过大则震荡比较明显，需要多次试验测定。另一个是停止迭代的条件参数，过大则需多次迭代，过小则收敛效果不好，也需多次试验测定。

作为数据视觉表现形式的第三步，成果应用至关重要，举几个方面的应用。1.对第二步已经分好的单个类别，可以用谱图展示每个贫困向量以及整类的平均谱图（整体贫困程度），直观形象的了解贫困对象的生产生活情况、帮扶措施、扶贫效果等。2.对每个类别进行定性分析（即精准识别），挖掘出隐含的有用信息，结合实际，采取特定措施进行精准帮扶，这是最重要的应用。在这点上，可以通过贫困对象的实际情况逆推检验算法的准确性。3.通过特殊的类别准确分析总结系统致贫原因，创新完善扶贫机制和扶贫思路，弥补人脑可能无法直接分析的缺陷，主要针对贫困诱因较多且复杂的情况。4.通过帮扶前后整类平均谱图对比，评价扶贫效果，便于及时调整帮扶举措和考核评价，实现扶贫动态管理。5.针对极点（特殊贫困户）采用特殊的帮扶措施，确保全覆盖、零遗漏。比如兜底脱贫。6.动态仿真，纵向对比，预测采取特定帮扶措施一段时间后贫困户的生产生活情况走势，便于寻求最优的帮扶措施和项目管理方式，将资金资源效益最大化。7.通过与民政、银行、教育、住建等行业部门数据对接，建立智能分析模型，准确评估扶贫措施叠加效应，使得扶贫对象、措施到户、项目安排、资金使用、脱贫成效更精准。

分类算法主要有C-means聚类算法、模糊聚类算法、神经网络算法、遗传算法等；适用于小型数据的有关联分析法、决策树等。软件一般采用Matlab、R、Clemetine。

通过“互联网+”、大数据对扶贫进行精准管理，其最终目的就是要彻底改变过去那种项目点多面广、资金零星分散、投向不准、程序不规范的状况，实现扶贫项目监管信息化、精准化和动态化，从制度上、程序上、行为上堵塞漏洞。

内容时间：2016-07-15

相关资源

下载排行