移动互联网时代,“大数据”是关键词之一。作为推送技术服务行业的先行者,个推不断进行技术革新引领推送革命。通过挖掘用户使用场景,结合地理位置信息精确命中不同用户的各类需求。在服务大客户的过程中通过自身平台积累的海量数据发展了大数据。
目前,3.0产品最重要的技术——电子围栏技术:电子围栏是精确捕捉用户场景,实时给用户推送有价值消息的手机推送解决方案。客户根据业务需求,在地图上设置电子围栏区域和目标用户属性,通过冷数据画像(结合大数据分析,筛选目标用户)以及热数据投放(当目标用户进入电子围栏实时触发),做到在合适的时间、合适的地点、合适的场景、把合适的内容、推送给合适的人。
构建基于LBS的大数据应用,一般的实现流程为:通过信息收集后进行基础数据的整理,数据挖掘/机器学习,服务搭建以及数据可视化等。
数据挖掘的基本流程
基础数据的处理主要包括:数据集成和一些部分数据处理。
数据集成,数据挖掘或统计分析可能用到来自不同数据源的数据,我们需要将这些数据集成在一起。但如果只有一个数据源,这一步可以省略。
基础数据处理,有些数据是缺失的(数据属性的值是空值),有些数据是含噪声的(属性的值是错误的,或有孤立点数据),有时同样的信息采用了多种不同的表示方式(在编码或命名上存在不一致),基于种种问题要对数据进行基础的处理。通过基础数据处理,可以确保村人数据仓库中的信息是完整、正确和格式一致的。
数据转换主要是利用现有的字段进行运算来得到新的字段,通常说到数据变换主要包括四种:数据离散化(采用分箱等方式)、产生衍生变量、使变量分布更接近正态分布、数据标准化。如果对连续变量进行离散化,可以避免引入任何分布假设。这样就不需要符合正态分布了。
数据挖掘时只根据数据库中的数据,用合适的数据挖掘算法进行分析,得出有用的信息。其中,模型算法质量的评价是很重要的一步。且数据挖掘是一个循环往复的过程。
基于LBS的大数据应用需要解决很多问题:基础数据问题比如海量数据流(>20W 条/s)、数据处理性能复杂计算(定位和统计)、准确率、秒级实时性要求、以及数据的实时性等。对此,个推的解决方案是:分布式流式计算框架、Spark Streaming、发布/订阅模型、Apache Kafka、Events等。
最后,基于大数据的LBS应用,可以使用分布式流式计算框架,构建数据闭环,从而实现持续优化基础数据。
目前的成功案例有:
1.杭州白马湖动漫节的安全保障。本通过海量的样本数据采集和分析,以实时人流热力分析图为主要服务接口,监控动漫节期间杭州滨江区白马湖动漫广场附近的人流去向和拥挤程度。这一项部署建立了白马湖区块的实时监控和人流预警系统,在人流量超过一定数量的时候实时发布预警,从而及时提醒相关人员注意对应区域的高峰人流量疏散和引导,从源头上防范踩踏事件及避免安全隐患的发生。
2.发生地震时实时警报,并通过大数据对人群热力图的分析,为震后救援工作定制合理方案及提供有效帮助。
3.与旅游局合作,将旅游分析热点图与实时推送相结合,用于疏散和引导景区高峰人流量,避免危险事件发生。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。