资源描述
用户画像 大数据时代下的用户洞察 刘黎春 SNG运营部 /数据中心 May 2015 目录 用户画像体系 1 挑战及解决方案 2 用户画像挖掘举例 3 用户画像应用场景 4 SNG数据现状 人口属性 年龄 性别 地域 家乡 关系链 QQ群 QQ关系链 数据现状 移动互联网 LBS 手机 APP 移动设备 手 Q游戏 游戏 端游 页游 手游 社交 &音乐 说说 相册 QQ音乐 增值业务 QQ会员 黄钻 绿钻 QQ秀 QQ 月活跃 8.4亿 + 最高同时在线 2亿 + QQ空间 月活跃 6.5亿 + 用户画像体系 用户画像主要挑战 1. 如何充分利用腾讯各种丰富的数据资源及之间的联系 社交网络 用户群组 LBS日志 多媒体数据 登录 IP UGC文本 2. 如何使用户画像适应各种不同的应用场景 推荐 系统 市场 营销 广告 定向 信用 评分 3. 如何高效的处理海量的用户数据(超过 10亿的 QQ用户, 超过千亿级别的各类日志数据) 用户画像解决方案 1. 针对不同的底层数据类型设计特定的挖掘算法,挖掘用户的行为特征,形成底层标签。综合考虑不同数据来源的,形成更上层的抽象用户标签 2. 建立完善的用户画像标签体系结构,从不同维度、粒度对用户进行描述。 3. 搭建用户画像挖掘系统,基于大规模存储和机器学习计算平台,定期对全量用户数据进行计算和挖掘,并提供用户标签的使用和查询服务。 用户画像挖掘的基本框架 数据源 文本分类 结构数据统计 社交网络分析 LBS数据挖掘 底层标签 底层标签 底层标签 高层标签 社交网络 底层标签 底层标签 底层标签 底层标签 单一数据源挖掘 标签在社交网络中的扩散 从底层标签挖掘高层标签 文本挖掘系统 QQ空间 中文分词 token抽取 tf-idf LDA word2vec 文本预处理 特征提取 logistic regression Kernel SVM Neural Networks 文本分类 针对短文本特点,利用 LDA与 word2vec进行语义扩展 利用非线性分类器对神经网络得到的特征向量进行分类 QQ群 基于 LBS数据的用户画像挖掘 海量用户上报 LBS日志 数据清洗 与汇总 LBS位置与 POI匹配 用户 -POI 场景判断 用户 LBS 标签挖掘 POI类型 登陆次数 时间段分布 天数分布 居住 工作 餐饮 购物 工作 程序员 社交网络与用户画像 局部聚类系数 : (local clustering coefficient) 反映用户与好友关系的稳定性 及 QQ用户交友的主要目的 社团影响力 PageRank得分 1 2 3 反映用户在社交网络中人脉的丰富程度或重要性 利用 Pagerank算法对有向图中的所有节点进行 排序,得到不同节点的影响力得分 根据用户间的重要程度,将 无向图 转化 为有向 有权重的好友关系图 用户在社交网络中的行为反应出现实生活中的某些特质:
展开阅读全文