匠心独运厚积薄发:详解银行非结构化文本数据背后的价值.pdf

返回 相关 举报
匠心独运厚积薄发:详解银行非结构化文本数据背后的价值.pdf_第1页
第1页 / 共12页
匠心独运厚积薄发:详解银行非结构化文本数据背后的价值.pdf_第2页
第2页 / 共12页
匠心独运厚积薄发:详解银行非结构化文本数据背后的价值.pdf_第3页
第3页 / 共12页
匠心独运厚积薄发:详解银行非结构化文本数据背后的价值.pdf_第4页
第4页 / 共12页
匠心独运厚积薄发:详解银行非结构化文本数据背后的价值.pdf_第5页
第5页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
IBM 商业价值研究院 专家洞察 匠心独运 厚积薄发 详解银行非结构化 文本数据背后的价值 何佳惠 IBM GBS CBDS 团队 高级数据科学家 宋鹤 IBM GBS CBDS 团队 高级数据科学家 王莉 IBM 商业价值研究院 高级咨询经理 扫码关注 IBM 商业价值研究院 官网微博微信公众号微信小程序 主题专家 吴大维 IBM GBS CBDS 团队 副合伙人 郝希蓓 IBM GBS CBDS 团队 资深数据科学家 杨杭 IBM GBS CBDS 团队 人工智能解决方案负责人 首席业务咨询顾问 高康睿 IBM GBS CBDS 团队 高级数据科学家 1 谈话要点 掘金非结构化数据 面对银行内非结构化数据体量大、增速快、 利用不足的现状,建议深挖非结构化数据, 加速释放大数据价值。 巧用 NLP(自然语言处理)技术 形式多样的中文表述需要灵活运用各种 NLP 技术与创新性思维。 业务应用为本 基于银行内常见的非结构化数据来源,探索 非结构化数据在银行业的应用场景。 产生速度快 :短时间可产生大量数据,如某股份制商业银 行日产生录音文件量在 200G 以上。 4 数据来源丰富 :既包括银行内部数据源,如客服、邮件等, 也包括外部数据源,如社交媒体、企业财报等。 同时,无法回避的是,非结构化数据的分析技术难度大、 对存储运算要求高、应用难度较大: 技术难度大 :相比于结构化数据的机器学习算法,非结构 化数据的各种自然语言处理技术和深度学习技术在模型复 杂度和方案成熟度等方面的技术难度都更大。 数据量攀升对存储运算要求高 :对于大部分银行来说,非 结构化数据的存储并不统一,且增长迅速,数量巨大,因 此对非结构化数据的存储、治理和分析挖掘的运算能力都 提出了更高要求。 应用于实际业务的难度较大 :非结构化数据包罗万象,纷 繁复杂,如何基于业务理解,聚焦业务场景,充分挖掘数 据价值,赋能业务实际,仍是非结构化数据分析应用的一 大难点。 IBM 基于多年项目经验,建议银行业可以从以下四类非结 构化数据入手,探索非结构化数据的应用: 客户沟通数据:不管是呼叫中心的语音,还是线上渠道 的聊天文本,银行内沉淀了大量包含客户身份信息、偏 好选择、服务投诉、业务咨询的沟通数据,可应用于客 户营销与优化服务运营。 银行内部工单数据:通过对工单的自动化分类及自动化 摘要,减轻内部人工压力,提升运营效率;同时基于对 工单内容的预警监控,可有效预防投诉风险或群体性事 件发生。 商户数据:针对商户名称、地址和主要业务的解析,可 加深前台业务人员对商圈及潜在商户的了解;而分析行 内对公企业的交易流水文本,不仅可获得客户的部分资 金分配及使用信息,亦可丰富商户的上下游供应链信息。 外部舆情数据:行业报告、券商研报、公司财报 / 公告、 社交媒体信息等非结构数据能有效补充银行内部持有的 企业局部资金数据,为银行有效评估企业的价值与风险 提供更为全面的视图。 深挖非结构化数据宝藏助力银行 精细化运营 IDC 预测,全球数据圈将从 2018 年的 33ZB 增至 2025 年 的 175ZB。在全球数据圈扩张进程中,中国数据圈增速最 快,预计到 2025 年将增长至 48.6ZB,占全球数据圈的 27.8%,将成为全球最大的数据圈。 1 而在这些数据中, 结构化数据仅占 20%,其余 80% 都是以文件、语音等形 式存在的非结构化和半结构化数据,这些非结构化数据平 均每年增加约 60%。 2 鉴于当前各大银行对于结构化数据的利用和挖掘已进入瓶 颈和饱和状态,通过挖掘非结构化数据来为营销或运营等 场景提供智能化的决策支持已成为银行数字化转型过程中 的热门话题。 非结构化数据的价值主要体现在以下三个方面: 数据量大 :非结构化数据已经占到大部分银行信息总量的 80% 甚至更高,是银行非常宝贵的数据资产。 3 服务质量 服务态度 客户意图 客户情绪 XX 银行不给退钱,理财产 品 XXX , 15 年 3 月 20 号在西单支行买的, 到 5 月底告诉 我收益很低,要换收益高的就加钱,而且 是让我到一个叫 XXX 分行的地方去受理, 这个客户经理很不专业,服务差,办理手 续也慢,也没告诉我什么时候 ok,真是 坑爹呀,这种行为视银监会何在? -2 -2 -2 -1 情感维度 情感倾向 2 海量用户之声信息中隐藏的关键 信息 当银行为应当如何优化客户营销和服务运营而苦恼时,殊 不知,答案已经存在于银行内,只是缺乏挖掘宝藏的方法。 通过分析海量的用户之声信息,银行能够实现投诉升级的 快速响应、潜在商机的挖掘和营销成功率的提升。 AI 助力投诉升级快速响应 日益增加的客户数量为人工坐席带来了越来越大的处理压 力。客户需求量的增加导致了投诉数量激增和投诉问题的 升级,甚至可能升级到外部银监会。为避免客户投诉升级 到银监会,并在基层对问题进行合理处理,需开发一款对 客户的投诉升级倾向敏锐的模型,及时提醒业务部门,在 源头上采取缓解甚至断流的措施。 目前,银行间的普遍做法是利用结构化数据信息,包括客 户工本日志,人工座机来电记录,过往投诉处理历史数据, 客户在本行支配业务的多模块信息以及客户的基本信息进 行归纳总结。 该种方法有效的前提是具有共同特点的群体用户对服务质 量等要求苛刻。通过学历等指标能够一定程度发现高投诉 倾向的群体。但客户的高投诉倾向亦可能是来自于对服务 质量差的真实表达,或与坐席的交涉中对解决方案不满意, 突然产生。同时,通过传统指标建模,响应时间较长,无 法在有效时间内快速回应用户疑问,可能导致事态的进一 步恶化。 针对此种问题,利用 NLP(自然语言处理)手段构建近实 时预警模型,能够更好的解决传统指标无法解决的痛点。 在呼叫中心电话端实时产生语音文本,出现问题时进行预 警。在面对有高投诉倾向的客户时,可以第一时间派遣专 业处理人员进行安抚。 然而,由于行方能够提供的投诉语音样本较少,常常导致 无法建模。一是因为投诉升级本就是小概率事件,二是语 音转文本普遍字数较多,而且由于口音、环境噪音等因素, 文本往往质量较差,人工阅读较为费力。最终导致大量的 行内投诉没有被明确标签化,淹没在海量语音数据中。利 用多种 AI 技术手段,可以有效解决这些挑战,进行建模。 例如,在某大型国有银行, IBM 利用多种 AI 技术手段, 从一千万通语音对话数据中挖掘出 7000 余条疑似投诉语 音样本。这些样本因为各种原因(如被客服主观忽视)而 没有上报。 IBM 将疑似投诉样本返回给业务部门进行快速核实确认。 业务部门在一天之内完成确认,确认 5000 余条投诉样本、 1500 余条非投诉样本以及 500 余条无法确认的疑似投诉 样本。 IBM 利用确认数据,形成建模条件。 该预警模型在广东省跨期验证期间精确率和召回率都达到了 85% 以上,针对有不满情绪的用户,快速响应,积极安抚, 防止了多起银行内投诉事件升级到外部银监会(见图 1)。 图 1 AI 助力投诉升级快速响应 3 人工电话营销中交谈数据的价值与应用 呼叫中心作为银行在线上渠道服务客户的重要窗口,不仅 承载着打造完美客户体验的责任,更成为银行实现精准营 销的重要阵地。但现实中,电话营销一直存在两大痛点: 一是营销成功率偏低,过度的致电推荐不适合的产品,会 严重影响客户满意度;二是在以“劳动力密集型”为典型 特征的呼叫中心,人工坐席的流失率高人员流动性大,导 致服务质量不一致。 近些年,银行呼叫中心的规模与日俱增,语音数据体量巨大, 是典型的非结构化“大数据”。这些数据内含客户身份信息、 偏好选择、服务投诉、业务咨询等重要信息,是银行优化 服务质量、提高运营效率的重要参考。如果可以充分挖掘 数据价值,可以在一定程度上缓解以上两大难题。 针对营销成功率偏低的问题,不仅可利用语音数据中的关 键信息优化外呼营销清单,还可通过分析营销成功的对话 数据,提取打动客户的产品有效卖点,挖掘针对特定产品 的最优的电话营销对话流程。该对话流程既可作为人工坐 席的培训范本,使新入职的人工坐席快速上手,保障外呼 质量,也可指导智能外呼机器人的外呼对话流程配置。此外, 也建议定期提取全员对话流程,以确保人工坐席的外呼过 程是符合业务要求的,实现对话流程的智能审核。 IBM 在某国有四大行外呼挽留对话流程挖掘项目中,通过 分析 1.44 万通信用卡注销的挽留对话,提取出 50 多个客 服及客户热点话题标签,识别出客户与人工坐席互动较多 的三个话题(积分、年费、额度),以及基于不同注销原 因的最佳挽留对话流程。同时,也发现了部分人工坐席存 在核心对话环节缺失的问题(比如未进行身份核实)。该 项目针对某外呼营销场景提供了 6 条优化策略,提高了外 呼营销成功率,得到了业务部门的高度认可。 机器人相关渠道中的潜在商机挖掘 目前,各大银行都通过机器人客服替代人工,对接官网、 微信公众号等沟通渠道。银行客服中心大量运维人员需要 维护机器人客服背后庞大的知识库,使机器人能够应对绝 对大多数情况下用户的问题。但银行业务繁多、用户问题 多种多样。客服中心工作人员维护知识库力不从心。 据某大型国有银行统计,知识库中知识数量级在一百万左 右。机器人对客户问题的未回答率虽然只有约 1%,但相 当于每月 25 万条,这对人工坐席造成非常大的压力,且严 重影响了用户体验。同时, IBM 发现,越来越多的银行用 户倾向于询问机器人关于银行产品的相关问题。此类询问 往往含有巨大的商机,但由于机器人的技术限制,无法应 对用户问题,导致错失商机。 在与某大型银行的合作中, IBM 利用多种 AI 技术手段, 从海量未回答的用户问题中,挖掘热点话题,总结归纳, 提出针对机器人的优化建议,将未回答问题从 25 万条 / 月 降到 18 万条 / 月。 同时, IBM 发现,在机器人与用户的交互记录中隐藏着大 量的潜在商机。如某用户询问是否有支付宝上某理财产品 的相似产品,但机器人面对此类问题往往不能较好回应。 个人金融类产品如贷款或理财,作为银行产品中非常重要 的一部分,其营销一直是各家银行的重中之重。用户对于 贷款等产品的需求往往时间较紧迫,错过与用户的沟通时 机,可能直接失去一个潜在的拓客机会。 此外, IBM在项目中,针对用户与机器人的交互文本数据, 挖掘出近期存在个人快贷相关需求的潜在用户 1000多名, 提供给客服中心进行电话营销,并建立模型定期生成营销 名单,利用线上多种渠道营销推介。 越来越多的银行用户倾向于询问机 器人关于银行产品的相关问题。 V1.0 纯人工 V2.0 热点词组 V3.0 文本智能摘要 通过人工方式预判每日新增工单情 况,基于工单内容判断是否存在预 警事件,需要大量人力和时间, 受到 人力制约 ,无法有效及时覆盖。 RPA热点词组定位,对激增工单 进行预警,有效节省人力成本。 但是存在 展示较为抽象化 , 不 利于理解 以及热点词组的 定 位较为模糊 的局限性。 通过 人工智能算法模型 对工 单进行智能处理,以 简 洁 、高 效的关键信息 供业务人员有 效预警。 图 2 工单处理手段的演进 4 智能工单处理助力客户诉求快速 预警检测 银行客服处每天会产生大量工单反映客户诉求。通过对工 单进行预警监控,可有效预防投诉风险或群体性事件发生, 减轻线上坐席压力。随着 AI 技术的不断成熟,工单的处理 手段日益高效便捷(见图 2)。 无人工干预的AI减轻筛查压力 目前很多客服处仍采用人工查阅文本的方式对工单进行分 类。一方面耗时耗力;另一方面,虽然工单分类体系相对 来说比较完善,但仍有部分工单因无法放到某个有意义的 类别中而被分到了 “其他”类别中,当这部分工单需要处 理时仍需要人力二次细分,造成了资源的进一步占用。 IBM 通过 NLP 算法对工单文本进行语义分析,并结合机器 学习算法进行无监督聚类,完美地解决了上述两个问题。 一方面避免了大量人力参与分类过程,节约了人力资源; 另一方面可以应对新类别工单产生后无法放入现有工单体 系的困扰。 智能 AI 工单分类,大幅提升效率 和准确性 某国有四大行信用卡部在进行投诉工单分类时发现,已有 的工单体系不能及时、准确的覆盖来自全行的繁杂工单种 类,致使业务人员不得不投入大量的时间去一篇篇点读、 理解各篇工单的内容并进行处置。 由于工单种类每日均不相同,而且会随着时间生成新的问 题工单, IBM 认为,此类问题应优先考虑技术难度较高的 自动化动态归类设计思想。根据工单内容,结合外部公开 数据,对工单内部非结构化的文本信息进行建模学习,并 根据动态聚类的算法,实现高频问题工单及时预警和低频 问题工单及时发现的功能。 该项目首先将 2020 年 1 月至 8 月累计的 6 万余篇非正常 工单进行动态聚合。在无任何人工干预的情况下,成功将 6 万篇工单自动归类出 113 个子类,解决了大量历史遗留 问题工单。同时,按照月度跑批流程,将 9、 10 月非正常 工单共计 6 千余篇自动化归类为 21 个子类别。 该项目大大降低了业务人员每日处理非正常工单的工作时 间,同时也提高了业务人员处理非正常工单时的业务准确性。 表 1 两种工单摘要提取方式对比 优势劣势 生成式- 灵活度高 - 流畅性高 - 速度较慢 - 技术难度大 - 原文本过长时效果欠佳 抽取式- 语法、句法错误率低 - 适应性广 - 速度快 - 抽取内容质量有限 - 灵活度低 - 连贯性差 5 智能工单摘要提取,准确获取核 心信息 某国有四大行之一携手 IBM,开展了智能工单摘要提取项 目。由于有些工单涉及内容过多且逻辑复杂,导致业务人 员需要花费大量时间用来阅读。 IBM 项目组利用工单摘要 方案,结合业务需求,顺利完成工单摘要生成工作。 例如,某篇工单内容示例如下:“客户来电表示,从今年 1 月底开始,受国内疫情影响,客户所在城市进行了大规 模的封城行动,并限制了客户所在小区的装修活动,导致 小区装修受到了严重影响。客户从我行信用卡部申请的专 项贷款因不可抗拒原因不能按照计划进行使用,现申请延 长专项贷款额度有效期。由于客户所在小区被封禁,导致 无法外出进行信用卡偿还而产生信用卡逾期,同时申请减 免违约金及利息并删除客户个人征信记录。望我行尽快办 理此业务。” 项目组通过丰富的 NLP 手段,将本篇工单提取为两句关键 句: 1:申请延长专项贷款额度有效期。 2: 同时申请减免 违约金及利息并删除客户个人征信记录。 通过关键句子摘要,降低了业务人员处理工单的时间,也 让计算机帮助业务人员透过复杂的故事逻辑,直击用户的 想法。该工单摘要提取解决方案在应用过程中得到了业务 人员的一致好评。 借助摘要提取手段获取工单核心信息 工单文本分类后,客服人员需要了解每类工单反映的具体 问题才能进行进一步处理。原工单文本长短不一,对于长 文本工单,阅读花费时间较多,难以快速定位问题。为此, 有银行尝试通过关联算法的方式对工单进行多元热点词组 挖掘,但是词组展示的形式存在一定的局限性,需要较高 的“想象力”将词语连接成句,不利于客服人员准确把握 问题。 因此,用高效简洁的语句作为工单摘要将工单文本信息传 达给客服人员,是一种较为友好的展现形式。工单摘要提 取分为两种:抽取式和生成式。 抽取式:顾名思义,是一种直接从原文中选择若干条重要 的句子,并对它们进行排序和重组而形成摘要的方法。这 种方法目前已经比较成熟,有语法通顺、适应性广、速度 快的优点,但缺点是灵活性较差。 生成式:是计算机通读原文后,在理解整篇文章意思的基 础上,按自己的话生成流畅的翻译。这种方法灵活度高, 并且伴随深度学习,生成式摘要的质量和流畅度都将有很 大的提升,但目前也存在原文本长度过长、抽取内容不佳 的限制。 这两种方法各有优劣(见表 1),银行可根据自身需求进行 选择。 6 多种 NLP 手段助力银行构建商户 数字化经营体系 随着我国经济的持续快速发展,居民个人和家庭逐渐成为 社会财富的主体,消费也成为我国经济增长的新动能。商 户是串联金融生态系统的重要节点和对公对私业务交汇的 关键点。商户业务覆盖面广、涉及行业多、价值链长,对 带动银行资产、负债、中间业务统筹协调发展、厚植客户 基础以及提升资金承接率具有重要作用。基于此,商户业 务对于金融机构而言愈发重要。目前开展支付业务的收单 机构达千余家,包括商业银行、第三方支付机构、电商平台、 证券保险等。 发现市场中新增的潜在商户,是发展商户业务的第一步。 但由于现如今市场更新迭代迅速,传统的业务人员“扫街” 的营销方式在人力、效率和精准度上已无法应对复杂的市 场竞争。“批量获客难”和“商户认知难”已成为当下金 融机构发展商户业务的普遍痛点。 基于商户名称分析,挖掘潜在商户 使用解释性较强的数据挖掘手段,大量、精确、分行业的 得到潜在商户清单是建设商户数字化经营体系最为重要的 一步,也是业务部门的首要痛点。 IBM 基于金融行业尤其 是收单业务多年的经验与成熟的数据分析方法论,通过商 户相关文本信息与行业的关联性的充分解读,使用文本分 析的技术和手段,从全量外部工商企业数据中成功识别其 中的有效商户,分行业输出数量可观的潜在商户清单。 挖掘潜在商户的难点在于,如何从“鱼龙混杂”的工商数 据中将商户提取出来。比如,“国际商业机器有限公司” 和“四川 XXX 餐饮股份有限公司”都存在于工商数据中, 但“国际商业机器有限公司”显然不是商户。在数千万的 工商数据中成功识别有效商户,是运用文本分析技术的主 要目的。 IBM 在与某四大行合作中,充分探索了工商数据中相关的 文本信息,发现在工商数据中,可识别为商户的企业,在 其名称、主营业务、经营范围等文本中具有明显特点与行 业特性,有别于普通企业。围绕商户的工商文本信息特征 和行业属性构建文本挖掘模型,批量产出超过 600 万潜在 商户名单,为客户经理进行开展营销活动提供重要输入, 改变了客户经理盲目扫街的营销模式。 分析客户消费流水,开启“财富之门” 银行流水素来以“多”与“繁”著称。但不可否认的是, 银行每天产生的上亿条流水中往往蕴含着无穷的“宝藏”。 在过往与流水应用相关的实践中,往往更聚焦于流水金额 相关的统计学应用,而对于流水文本信息挖掘不足。通过 对流水中相关文本进行精细化分析与挖掘,在产生更多的 业务价值的同时,也可以帮助业务更好地了解新商户。 客户消费流水在挖掘潜在新商户场景应用中,具有举足轻 重的地位。通过流水挖掘的新商户不仅可以得到商户名称, 还可以获取商户的多维度衍生信息。但是流水中返回的交 易对手信息往往是非标准化的企业名称,或者掺杂着各种 无意义的符号与文字,所以,合理的 NLP 技术应用可以被 誉为开启“财富之门”的钥匙。 商户营销的难点往往在于客户经理对潜新商户缺乏了解, 不知道商户真正需要的是什么,也无法判断商户的潜在价 值。基于流水中文本信息的解析,可以了解商户当前使用 产品、经营状况等;通过分析市场同类收单产品,可以明 确其喜好收单产品的特点;对其经营状况等信息的分析, 可以预测其潜在价值,作为营销过程中有效的切入点与“指 南针”。 IBM 在与某四大行的合作中,通过对大量消费流水的文本 分析,产出超过 50 万潜在商户名单。此外,还从商户经营 的角度,针对潜在商户当前现状的多种维度信息,最大程 度地描绘商户的经营状况,为客户经理深挖客户在收单与 经营上的痛点,形成营销方案提供合理建议,为营销成功 提供助益。 分析转账流水,“解码”供应链上下游小微商户 供应链金融作为近几年新兴的金融业务模式,越来越多的银 行将打通核心企业及其上下游关系作为对公业务拓展的重要 方向。而这种创新的分析策略也同样可以应用于传统商户业 务中。通过商户上下游链路挖掘,寻找商户之间的潜在联系, 赋能业务进行有效的新商户拓展和存量商户经营。 7 挖掘地址信息中蕴藏的宝藏 “ 目前在银行业中,绝大多数的银行对商户的地址数据是 不用的。稍微处理得好一点的,和自己的网点匹配一下就 结束了,很少有人会投入大力气到这个方面上。我们做了, 所以我们获得了更多的商户。 ” 某四大行商户业务部门经理 某国有四大行与 IBM 合作,开展商户地址信息挖掘项目。 该项目成功实现了自动化行内商户地址结构转换,并通过 城市商圈信息将工商数据与行内商户数据相结合,协助业 务人员展开商户引流助手、商户小管家等商户经营辅助软 件,为行内商户提供顾客流量预测、进货预报等功能,大 大提高了银行的商户产品竞争力。 以湖南地区为例。该行湖南全省商户约 32 万户,其中 20%的商户满足商圈商户定义标准。通过商圈聚合的方式, IBM发现,长沙市某综合性市场存在商户规模 4000余户, 而该行商户仅覆盖其中 300余户。通过工商数据信息得知, 商户主要经营范围为服务业与餐饮行业。项目组将此信息 告知分行同事,半月内就在此地区成功拓客 500 余户。 该项目还选取了流量规模、地址信息近似的商圈商户作为 对照组进行实验对比。实验结果发现:利用商圈的促活、 引流活动使该类型商户日均流水上升 14.3%,有效引流活 动较对照组上升 21 万人次,产生了巨大的商业效益。 NLP 技术对转账文本信息的分析与挖掘,可以得到较为完 整的商户及经销商的上下游供应链,以及行外潜在商户与 行内对公和个人客户的资金联系,为客户经理后续营销行 为作出重要输入,做到知己知彼。 IBM 在与某四大行合作中,通过转账流水文本分析,以行 内客户为经营链路的起点,产出了含 130 万个以上潜在商 户的名单,并附带其经营链路相关信息。通过发掘行内存 量客户与潜在新商户的社群联系,有助于帮助客户经理“以 点带面”的执行营销活动。例如,某快消企业 A是该行客户, 由于快消行业进销货行为的特殊性,其供应链终端即为潜 在商户,通过对其经营链路的分析与挖掘,识别流水用途, 可批量获取终端商户。此方法打破了工商数据的局限,通 过充分挖掘行内资源,产生了巨大的价值。 商户地址信息中蕴含着“无穷宝藏” IBM 在对商户地址类非结构化信息进行研究分析后,发现 这种应用率很低的信息其实存在着巨大的应用价值,即: 聚合商户形成商圈。通过对地址文本进行实体抽取和聚合 形成商圈,对形成商户金融生态圈具有重要意义。 从过去几年银行业商户发展的历程来看,商户的发展已经 从最原始的收单结算业务逐步发展成商户综合服务业务。 近两年,四大行又推出“商户 + 综合服务 + 支付”来进一 步推动场景与客户的融合,升级了商户金融生态圈的概念。 商圈的运营及营销策略也逐渐配合银行其他部门进行有效 的资源调度。商圈的划定对于银行商户业务意义非凡,有 助于对商户聚集地进行统计、分析以及营销活动的设计, 也有利于全行商户营销活动的精准定位和靶向投放。 为了挖取隐藏在商户地址信息中的“宝藏”, IBM 利用自 然语言处理中的非结构化实体抽取技术,结合工商数据中 商户地址地理信息,划定城市高资金流商圈。再结合内部 商户流水信息,形成基于“商户 - 消费者 - 行业”的三维画 像。为后续洞察分析与营销活动奠定了坚实的基础。 某省XX 投资股份 有限公司 某省XX 电影院线 公司 某省XX 影业有限 公司 某省XX 影业有限 公司 某省 电影公司 某市XX 电影城 有限公司 20.00% 3.98% 20.00% 51.28% 23.76% 63.23% 12.56% 17.09% 某省电影公司实际共持有某市 XX电影城有限公司 37.79%的股份,是其疑似实际控制人 32.00% 50.13% 8 外部舆情信息在银行业的潜在应用 目前在投融资过程中,挖掘与目标企业相关联的其他公司 (如参股公司等),是金融机构始终未能有效解决的痛点。 只有当目标公司及其关联公司的交易发生在金融机构的账 户上时,该金融机构才能获得相应的数据,因此,该金融 机构只有“局部视角”,无法从“上帝视角”看到该公司 的所有关联公司。如果关联关系不充分、无法识别风险, 就会将风险引入整个流程,出现多头贷款、未统一授信、 系统性关联风险等情况。 外部舆情信息的补充,可以丰富金融机构内客户的关联关 系,实现实际控制人分析、担保关系分析、上下游关系、 大数据疑似关系分析、后期变更信息、黑名单传染分析、 一致行动人挖掘、统一授信分析、反欺诈等风险分析评估。 IBM 与某大型综合性金融集团进行合作,从上市公司公告 中挖掘共同持股某上市公司的投资者,即“一致行动人”(见 图 3)。 通过识别一家企业的实际控制人是谁,追踪客户 关系变化;结合银行担保数据和股权关系数据分析,可以 获知风险发生之后黑名单从哪来、是怎样的传染路径;如 果两家股东有共同的股东、董事会、监事、高管,授信时 可以视为一致行动人进行统一分析。一维关系无法分析的 风险,通过引入两个维度、甚至 N个维度开展关联关系分析, 能够有效帮助完成集团公司授信。 结语 海量的数据只是基础,大数据的最终目的是创造价值。在 采集数据、构建平台的同时,应当提升数据分析和应用的 广度和深度。 企业通过利用多源非结构化数据,可实现对内优化业务流 程,提高运营效率,提升员工满意度;对外协助业务人员 优化客户沟通 , 加深客户洞察,提升客户满意度,从而助力 企业实现营销、销售、服务全方位智能化,实现“新常态” 下的智能化企业发展。 非结构化数据的价值还远未充分挖掘,未来大有可为。 图 3 通过挖掘外部舆情信息完成集团授信 需要思考的重要问题 贵企业在非结构化数据应用方面处于哪个 阶段? 您打算如何开展非结构化数据应用? 您是否打算联手经验丰富的合作伙伴,加 速向前推进? 9 选对合作伙伴,驾驭多变的世界 在 IBM,我们积极与客户协作,运用业务洞察和先进的研 究方法与技术,帮助他们在瞬息万变的商业环境中保持独 特的竞争优势。 IBM 商业价值研究院 IBM 商业价值研究院 (IBV) 站在技术与商业的交汇点,将 行业智库、主要学者和主题专家的专业知识与全球研究和 绩效数据相结合,提供可信的业务洞察。 IBV 思想领导力 组合包括深度研究、专家洞察、对标分析、绩效比较以及 数据可视化,支持各地区、各行业以及采用各种技术的企 业做出明智的业务决策。 访问 IBM 商业价值研究院中国网站,免费下载研究报告 : 备注和参考资料 1 “数字化世界从边缘到核心”。 IDC。 201811。 our-story/trends/les/idc-seagate-dataage- chine-whitepaper.pdf 2 赵东山。“企业中 80% 的数据都是非结构化数据什么 是非结构化数据”。中国大数据产业观察。 content_4688119.htm 3 “新时期银行非结构化数据治理与应用思考”。安全内参。 4 “广发银行呼叫中心语音大数据分析系统建设”。 数据猿。 20180424。 developer/article/1107019 Copyright IBM Corporation 2020 IBM Corporation New Orchard Road Armonk, NY 10504 美国出品 2020 年 12 月 IBM、 IBM 徽标及 是 Business Machines Corp. 在世界各地司法辖区的注册商标。其他产品和服 务名称可能是 IBM 或其他公司的注册商标。 Web 站点 上的“ Copyright and trademark information”部分中包含了 IBM 商标的最新 列表。 本文档为自最初公布日期起的最新版本, IBM 可能随时对 其进行更改。 IBM 并不一定在开展业务的所有国家或地区 提供所有产品或服务。 本文档内的信息“按现状”提供,不附有任何种类(无论 是明示的还是默示的)的保证,包括不附有关于适销性、 适用于某种特定用途的任何保证以及非侵权的任何保证或 条件。 IBM 产品根据其提供时所依据的协议条款和条件获 得保证。 本报告的目的仅为提供通用指南。它并不旨在代替详尽的 研究或专业判断依据。由于使用本出版物对任何企业或个 人所造成的损失, IBM 概不负责。 本报告中使用的数据可能源自第三方, IBM 并未对其进行 独立核实、验证或审查。此类数据的使用结果均“按现状” 提供, IBM 不作出任何明示或默示的声明或保证。 国际商业机器中国有限公司 北京市朝阳区北四环中路 27 号 盘古大观写字楼 25 层 邮编: 100101
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642