2018-2019爬虫与大数据在投研场景应用分析报告.pptx

返回 相关 举报
2018-2019爬虫与大数据在投研场景应用分析报告.pptx_第1页
第1页 / 共31页
2018-2019爬虫与大数据在投研场景应用分析报告.pptx_第2页
第2页 / 共31页
2018-2019爬虫与大数据在投研场景应用分析报告.pptx_第3页
第3页 / 共31页
2018-2019爬虫与大数据在投研场景应用分析报告.pptx_第4页
第4页 / 共31页
2018-2019爬虫与大数据在投研场景应用分析报告.pptx_第5页
第5页 / 共31页
亲,该文档总共31页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
2018年12月7日,2018-2019爬虫与大数据在投研场景应用分析报告,资产管理机构开始应用大数据辅助投资决策,研究背景,-2018年,JP 摩根强制要求新入职的分析师学习Python,-RS Metrics通过高分辨率卫星影像,对零售店、办公楼等的停车场进行车流监控,预估企业运营状况; Cargo Metrics用卫星监控航运数据-iSentium通过推特情绪指标进行择时,大数据如何获取?什么叫Python,其在大数据技术中的角色?, 新闻、媒体舆情 (消费类公司)销量、网站流量数据,投研数据,销量、流量数据,新闻、社交媒体数据,公司公告,爬虫:自动获取网页内容的程序,模拟人的操作将网页信息采集下来,传统投研智能投研,手工获取数据爬虫获取数据,大数据获取数据获取 公司公告、调研事件、研究报告, 通过爬取股吧数据,获取市场舆情,电脑磁盘,手工抓取数据,爬虫抓取数据将股吧内容存储为txt,大数据获取爬虫:自动获取网页内容的程序,模拟人的操作将网页信息采集下来,爬虫,NLP,分词、语义理解、情绪分析、,数据科学,统计分析、机器学习、数据可视化,办公自动化工具, Python是近年来最热门的编程语言 Python用途广泛,包括:网络爬虫、,自然语言处理(NLP)、数据科学、办公自动化、等等,大数据获取,搜索引擎网络舆情概念轮动搜索舆情下的行业轮动网络舆情下的大类资产配置,网络媒体个股新闻热度财经门户选股热点题材动向关联个股投资机会,股吧、社交股吧情绪挖掘微信热度挖掘雪球热度挖掘网络搜索热度挖掘,研究报告研报热点挖掘汇丰PMI前沿挖掘,公告、财报公告抓取公告分类监测个股信息变动挖掘特定公告内容挖掘,分析框架广发金工大数据爬取与分析框架 广发金工通过网络爬虫和文本挖掘技术,覆盖了公司公告、研究报告、社交网络、门户网站、搜索热度等方面的另类数据。爬虫与文本挖掘体系,7,市场走势分析行业与公司经营观察,新闻、搜索等数据产业网站数据,大数据技术,应用框架大数据应用通过大数据技术,获取新闻、搜索引擎、产业等网站数据,有助于对市场走势、产业与公司经营趋势进行分析,日历效应宏观因子,市场热度,大数据舆情技术分析,应用场景1:大数据择时量化择时体系:6个维度数学模型,舆情数据和市场走势的关联,通过监控各大搜索引擎(百度、360),新闻网站(东财、雪球)上等互联网上关于指数、个股等的新闻、关注度等舆情数据,从网络舆情角度看市场的情绪高涨程度。,以百度指数为例:百度指数与沪深300指数走势十分相近,二者之间相关系数达到0.69新闻量与指数涨跌呈正相关关系, 指数成份股新闻量剧增时,指数更容易上涨 指数成份股新闻量剧减时,指数倾向于下跌,应用场景1:大数据择时,2011/1/4,2011/7/4,2012/1/4,2012/7/4,2013/1/4,2013/7/4,2014/1/4,2014/7/4,2015/1/4,2015/7/4,2016/1/4,2016/7/4,2017/1/4,2017/7/4,2018/1/4,2018/7/4,6000500040003000200010000,14121086420,净值走势,沪深300指数(右轴),舆情数据和市场走势的关联,新闻量与指数涨跌呈正相关关系 指数成份股新闻量剧增时,指数更容易上涨,突破上轨,发出做多信号 指数成份股新闻量剧减时,指数倾向于下跌,突破下轨,发出做空信号,应用场景1:大数据择时,最新信号看涨!,拼多多数据,采集app上30万个商品数据,统计不同类别商品的销售额。对销售额数据的持续跟踪,有助于我们把握不同行业的消费信息。,商品数据,销售额,食品类商品销售额,拼多多销售额统计,应用场景2:中观观察之电商,从拼多多数据观察三四线城市消费习惯 在拼多多平台上销售的商品价格主,要集中在0-20元。, 销量最高的产品主要集中在百货商品栏目上,其中以纸巾的销量最高。,应用场景2:中观观察之电商,从拼多多数据观察三四线城市消费习惯,通过分词发现:,-消费群体为妇女、学生等群体,以及二三十岁的已婚群体,-促销方式:“折扣相关信息里价格最低、成本最低、性价比最高等关键词频率高,应用场景2:中观观察之电商,人参蜂蜜,大枣葡萄干核桃,通过对商品名称分词发现:-商家主要来自东北、西北、西南等省份-这些省份的热销商品与我们传统印象中这些省份的生活方式及盛产物有很明显的对应关系,拼多多商品主要产地一览同仁堂猕猴桃辣椒水果螺蛳粉充值卡百香果汤料,应用场景2:中观观察之电商从拼多多数据观察三四线城市消费习惯,- 泰国、韩国、日本、澳洲、美国、德国、越南是主要的商品来源地- 日韩美妆、泰国的榴莲芒果、澳洲保健品、美国的男装,拼多多进口相关数据:,应用场景2:中观观察之电商,拼多多男装品牌市场份额统计,拼多多手机品牌销量统计,应用场景2:中观观察之电商从拼多多数据观察不同品牌影响力手机销量:vivo、oppo、华为男装销量:花花公子、富贵鸟、南极人,差异化的分析房价,地产行业研究员的房地产数据一般来自Wind,从统计局公布信息获取,主要问题:, 数据滞后:次月月中公布, 数据单一:只有笼统的城市房价,通过地产中介网站获取房价数据的主要优势: 每天都可以获得最新房价, 可以考察精细化数据,如学区房、城区与郊区房价,特定小区房价通过约70万条链家北京区域房价数据进行不同问题的定制化研究: 北京不同区域房价走势怎么样? 怎么看北京名校学区房房价走势?,应用场景2:中观观察之房价,二手房挂牌数据,解析价格数据不同区域均价,交易日期,成交面积,链家二手房成交数据成交单成交价价,挂牌价格,成交周期,应用场景2:中观观察之房价链家数据信息小区名,海淀二手房均价西城二手房均价,东城二手房均价朝阳二手房均价,丰台二手房均价,石景山二手房均价,0-10%-15%,5%0%-5%,10%,当月同比涨幅,相对房价最高点涨幅,应用场景2:中观观察之房价链家数据研究:北京不同区域二手房价走势怎么样?西城区二手房成交价格是六个区域中最高的过去一年中,西城区房价最强势,石景山房价表现最弱,(元)1200008000040000,60005000400030002000100002016年6月 2016年12月 2017年6月 2017年12月 2018年6月北京不同区域二手房成交量(套),海淀,东城,西城,朝阳,丰台,石景山,应用场景2:中观观察之房价链家数据研究:北京不同区域二手房价走势怎么样?近半年来,链家成交量持续下滑当前成交量与2016年相比,下滑明显,(套),100806040200,2016年6月,2017年6月,2018年6月,海淀朝阳,东城丰台,西城石景山,8%6%4%2%0%,2016年6月,2017年6月,2018年6月,海淀朝阳,东城丰台,西城石景山,二手房平均成交周期,二手房交易价格相对挂牌价格平均降幅,应用场景2:中观观察之房价链家数据研究:北京不同区域二手房价走势怎么样?成交周期增大:说明房子不容易卖出交易价格相对挂牌价格降幅增大:说明目前房地产交易是买方市场,买房者处于主动地位,(天),2010年1月,2011年1月,2012年1月,2013年1月,2014年1月,2015年1月,2016年1月,2017年1月,2018年1月,22,40000200000,1200001000008000060000,北京二手房均价,海淀名校二手学区房均价,-10%,0%-5%,10%5%,海淀名校学区房,北京房价,当月同比涨幅,相对房价最高点涨幅,应用场景2:中观观察之房价链家数据研究:怎么看北京名校学区房房价走势?选取海淀区排名前十的小学的学区房,观察价格走势海淀区二手房成交均价比北京二手房成交均价有4万元/平的溢价名校学区房价格相对最高点有6%的跌幅,但相对比较保值,(元),房价(元),人数,250,000200,000150,000100,00050,0000,120000100000800006000040000200000,海淀名校二手学区房均价,当年入学儿童数量(右轴),应用场景2:中观观察之房价链家数据研究:怎么看北京名校学区房房价走势?未来学区房的走势判断:通过学龄儿童数量来进行分析,拉勾网数据, 获取AI相关岗位的2万条招聘信息,观察AI在企业的应用情况。, 初创型企业(从天使轮到ABCD轮,的公司)对AI相关岗位的需求较大,占到了全部招聘岗位的51%,而上市公司招聘的岗位占比为17.4%。, 初创型企业对AI人才需求量大,这些企业可能是新的AI应用领域,或许未来诞生独角兽公司,应用场景2:中观观察之招聘,上市公司情况, 通过对上市公司招聘AI岗位的统计,可以看到不同公司的AI招聘人数。, 研发支出对上市公司保持和提高市场竞争力至关重要,AI人才招聘数量能够从一方面反映公司的研发水平。, 京东、搜狗、腾讯、阿里巴巴等公司是从拉勾网招聘AI人才最多的上市公司。, 大部分公司境外上市;中国平安、,泛微网络是招聘AI人才最多的A股上市公司。,应用场景2:中观观察之招聘,娱乐平台虎牙B站YY,对应上市公司虎牙直播哔哩哔哩欢聚时代,股票代码HUYA.NBILI.OYY.O,映客美拍陌陌奇秀企鹅电竞NOW网易CC一直播6间房来疯迅雷,映客美图公司陌陌爱奇艺腾讯控股腾讯控股网易新浪宋城演艺阿里巴巴迅雷,3700.HK1357.HKMOMO.OIQ.O0700.HK0700.HKNTES.OSINA.O300144.SZBABA.NXNET.O,平台流量公司业绩,应用场景3:微观观察,小葫芦网站流量监测,通过小葫芦网站监测不同娱乐平台网站的流量,包括开播数量、弹幕人数、弹幕条数和礼物收入等,用来估计上市公司的流量和营收。,应用场景3:微观观察,总结 人工智能与大数据技术正在影响资产管理行业,数据、算法、算力可能成为未来资产管理公司的核心能力 投资研究领域,我们认为可行的路径是人机结合:机器会完成信息获取、数据处理、量化分析,为基金经理和研究员提供决策支持,宏观经济数据,公司财务数据,交易行情数据,非机构化数据解析,数据库,研究报告,公司公告信息,新闻社交媒体数据,研报阅读知识图谱引擎,公司研究智能搜索引擎,研报生成,投资机会提醒智能风控引擎,风险管理数据可视化引擎,数据源,数据库,投研应用智能分析引擎,服务:研究、数据与爬虫小工具提供,研究服务,风险提示,本文旨在对所研究问题的主要关注点进行分析,因此对市场及相关交易做了一些合理假设,但这样会导致建立的模型以及基于模型所得出的结论并不能完全准确地刻画现实环境。而且由于分析时采用的相关数据都是过去的时间序列,因此可能会与未来真实的情况出现偏差。本文内容并不是适合所有的投资者,客户在制定投资策略时,必须结合自身的环境和投资理念。,THANKS,谢谢聆听,
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642