资源描述
,2019大数据时代下的用户洞察报告,目录,用户画像体系,1,挑战及解决方案,2,用户画像挖掘举例,3,用户画像应用场景,4,SNG数据现状,人口属性年龄性别地域家乡关系链QQ群QQ关系链,数据现状,移动互联网LBS手机APP移动设备手Q游戏,游戏端游页游手游,社交&音乐说说相册QQ音乐,增值业务QQ会员黄钻绿钻QQ秀,QQ月活跃8.4亿+最高同时在线2亿+,QQ空间月活跃6.5亿+,用户画像体系,用户画像主要挑战,1. 如何充分利用腾讯各种丰富的数据资源及之间的联系,社交网络,用户群组,LBS日志,多媒体数据,登录IP,UGC文本,2. 如何使用户画像适应各种不同的应用场景,推荐 系统,市场 营销,广告 定向,信用 评分,3. 如何高效的处理海量的用户数据(超过10亿的QQ用户, 超过千亿级别的各类日志数据),用户画像解决方案,针对不同的底层数据类型设计特定的挖掘算法,挖掘 用户的行为特征,形成底层标签。综合考虑不同数据 来源的,形成更上层的抽象用户标签建立完善的用户画像标签体系结构,从不同维度、 粒度对用户进行描述。搭建用户画像挖掘系统,基于大规模存储和机器学 习计算平台,定期对全量用户数据进行计算和挖掘, 并提供用户标签的使用和查询服务。,用户画像挖掘的基本框架,数据源,文本分类,结构数据统计,社交网络分析,LBS数据挖掘, ,底层标签,底层标签,底层标签,高层标签,社交网络,底层标签,底底层层标标签签,单一数据源挖掘,标签在社交网络中的扩散,从底层标签挖掘高层标签,文本挖掘系统,QQ空间 ,中文分词token抽取,tf-idfLDAword2vec,文本预处理,特征提取,logistic regressionKernel SVMNeural Networks,文本分类,针对短文本特点,利用LDA 与word2vec进行语义扩展,利用非线性分类器对神经网络 得到的特征向量进行分类,QQ群,基于LBS数据的用户画像挖掘,海量用户 上报LBS 日志,数据清洗 与汇总,LBS位置与 POI匹配,用户-POI 场景判断,用户LBS 标签挖掘,POI类型登陆次数时间段分布天数分布,居住工作餐饮购物,工作,程序员,社交网络与用户画像,局部聚类系数: (local clustering coefficient),反映用户与好友关系的稳定性 及QQ用户交友的主要目的,社团影响力PageRank得分,123,反映用户在社交网络中人脉的 丰富程度或重要性,利用Pagerank算法对有向图 中的所有节点进行排序,得 到不同节点的影响力得分,根据用户间的重要 程度,将无向图转 化为有向有权重的 好友关系图,用户在社交网络中的行为反应出现实生活中的某些特质:,基于社交网络的标签扩散,算法改进:好友关系类型对传 播的影响好友关系的稳定性对传播的影响,算法应用:用户基础属性优化,如年龄用户属性扩散,如 职业、学校等,群-用户二 部图下的 标签传播,算法改进:针对QQ群的特殊场 景设计标签传播算 法,提升传播效率 和准确度,算法应用:用户属性扩散,如 职业、学校等用户兴趣扩散,如 文艺、体育等,不同数据源的融合 职业挖掘,如何判断一 个用户工作 所在的行业,思路1:根据用户加 入的QQ群文本及其 他UGC进行文本分类,存在问题:加入群只能反专业业相关兴趣,与职业并无绝对关 系,思路2:判断用户工 作地点,并根据工作 地点推测用户行业,存在问题:同一工作 地点可能存在多种不 同工作行业,思路3:利用同事间 好友关系网络进行行 业标签传播,存在问题:好友关系 类型比较复杂,无法 确定是否为同事,不同数据源的融合 职业挖掘,工作地点,该地点工作的用户及社交网络,Community Detection (FastGreedy算法),工作社团1,工作社团2,群文本分类,IT行业,金融行业,LBS数据挖掘,根据工作社团的特殊 性,将部分用户的行 业标签扩散给全体社 团成员,名称、简介、公告等,计算平台与系统部署,TDW数据仓库,原始数据层,数据处理层,结构化数据统计,文本分词,LBS与POI匹配,模型训练 与预测层,基于Hadoop,Spark和GraphLab等计算平台,无监督模型: word2vec, LDA,社区发现,半监督模型:标签传播,监督模型:LR, Kernel SVM, Random Forest,标签汇总层,不同算法、数据来源得到标签进行汇总,标签应用层,TDW 离线查询,HBase 实时查询(理论峰值40w/s),用户画像应用 广点通定向投放,用户画像应用 腾讯征信,偿还 历史,信用 账户,第三方 信息,身份 特质,履约 能力,社交 关系,虚拟 财产,腾讯系行为用户资料 (通讯/娱乐),网络 支付,金融 数据模型,社交 数据模型,数据银行机器学习,用户画像,统计学,谢谢!,
展开阅读全文