您好,欢迎来到小奈知识网。
搜索
您的当前位置:首页基于话单数据的移动通信用户画像研究

基于话单数据的移动通信用户画像研究

来源:小奈知识网
计算机系统应用ISSN 1003.3254,CODEN CSAOBN E—mail:csa@iscas.ac.ca Computer Systems&Applications,2018,27(1 1):271—277[doi:10.15888d.cnki.csa.006656】 http:Hwww.C-S—a.org.cn @中国科学院软件研究所版权所有. Tel:+86—10—62661041 基于话单数据的移动通信用户画像研究① 张海旭 ,胡访宇 ,赵家辉 。(中国科学技术大学信息科学技术学院,合肥230027) (安徽省厅科技信息化处,合肥230061) 通讯作者:张海旭,E—mail:hxz2015@mail.ustc.edu.ca 摘要:用户通话产生的详细话单数据具有丰富的时空信息和社交信息,这些信息在一定程度上反映了用户的生活 习惯和社交模式,对于移动通信用户画像研究具有重要意义.我们的研究是基于中国某运营商提供的10 000名用 户一个月详细话单数据,本文从用户日常移动模式方面提取移动距离、回旋半径、访问点个数和移动方向熵特征, 从用户社交生活方面提取通话时长、联系人数量、主叫比率和社交熵特征,利用上述特征对用户进行群体划分和 构建用户词云名片,从而完成对移动通信用户的画像研究.本文使用用户话单数据为推测用户属性、理解用户特征 提供了新的视角. 关键词:话单数据;移动模式;社交生活;用户画像 引用格式:张海旭,胡访宇,赵家辉.基于话单数据的移动通信用户画像研究.计算机系统应用,2018,27(1 I):271-277.http://www.c.s-a.org.cn/1003. 3254,6656.html Mobile Communication User Profiling Based on Call Detail Records ZHANG Hai.Xu ,HU Fang.Yu ,ZHAO Jia.Hui (School ofInformation Science and Technology,University ofScience and Technology ofChina,Hefei 230027,China) (Science and Technology Informatization Ofifce,Public Securiyt Department,Anhui Province,Hefei 230061,China) Abstract:Call detail records contain rich spatio—temporal information and social information,which partly reflect users’ habits and social pattern.It is of great significance for the study of mobile communication user profiling.Our study is based on a monthly call detail records of 1 0 000 subscribers provided by a Chinese telecom operator.In this study,on the one hand,we extract the moving distance,the radius of gyration,the number of access points,and the entropy of moving directions to characterize user’S mobile paRem.On the other hand,we extract the call duration,the number of contact,the ratio of calling,and the entropy of sociality to characterize user’S social life.Then users are divided into groups and each user gets a word cloud card based on these features.So the portrait study of mobile communication users is completed. Our work is a promising step towards inferring user attributes and understanding user characteristics using call detail records. Key words:call detail records;mobile pattern;social life;user profiling l引言 的过程中产生了大量的个人历史数据,这些数据可以 随着我国移动通信市场的迅速发展,手机已成为 概括为以下几种:1)位置信息,通过全球定位装置 人们日常生活中不可或缺的一部分.用户在使用手机 (Global Positioning System,GPS)、手机信号塔等方式 ①基金项目:安徽省科技计划(1201b0403021) Foundation item:Science and Technology Project ofAnhui Province(1201b0403021) 收稿时间:2018—04—23;修改时间:2018-05-21;采用时间:2018—05—23;csa在线出版时间:2018—10—24 Research and Development研究开发271 计算机系统应用 http://www.c—s—a.org.cn 2018年第27卷第1l期 获取的地理位置信息;2)使用信息,记录了用户在何时 使用了手机做了什么;3)社交信息,隐含在话单数据, GPS以及通讯录等数据里.这些历史数据隐含了与用 户相关的个性化信息,反映了用户的生活习惯和社交 模式.这些数据为研究用户属性和特征提供了新的渠道. 话单数据是运营商计费所产生的.话单数据有被 动产生、覆盖范围广、成本低、分析周期短等优点, 已经在了解人们的移动模式Lll,理解人类行为动力学特 征【2'3】,感知用户所在地区的地理环境、生活方式、交 通状况和发展水平等l4 方面广泛地使用.例如Etienne Thuillier等【6】使用话单数据,根据用户每天与预设区域 的关系,将用户划分为6类,在此基础上,对用户进行 以一周时间为周期的聚类分析,发现了l2种类型的周 活动模式.杨喜平、方志祥[7 等利用移动电话位置数 据,理解人类时空聚散模式.Schneider等[81借鉴复杂网 络中模体的概念,发现人们日常生活中存在的17中网 络结构,然后使用模体来概括来自不同国家人们的时空 移动模式.Jiang等 以新加坡为例,演示了如何使用手 机通话详细记录fCDR)数据.其中包含数百万匿名用 户,以提取可与基于活动的方法相媲美的个人移动网络. 手机话单数据中含有丰富的时空信息和社交信息, 目前基于话单数据的研究多集中在分析数据中的时空 信息.本文同时利用话单数所包含的时空信息和社交 信息,提取用户特征,发现特征相似的用户群体和为用 户创建个性化词云名片,完成对用户画像.文本研究, 为理解用户特征提供新的视角,为生产生活的提高、 相关的制定提供了参考. 一一一一 2数据集与研究方法 2.1实验数据集 本文手机通话数据由合作单位某运营商提供,为 保护用户隐私,用户号码已作匿名化处理.数据分为两 部分:手机通话话单数据,由10 000名用户在2013年 6月一个月期间通话产生的话单数据,数据格式如表1 所示:基站小区位置信息数据,14 549个基站小区的 GPS坐标、行政划分、道路等信息。数据格式如表2 所示.其中手机用户选取条件如下: 1)用户号码注册于一个匿名的高科技工业区注册; 2)用户在2013年6月1日~6月30曰一个月内 的通话总时长大于100分钟. 272研究开发Research and Devetopment 表1 话单数据格式 字段 样例 用户手机号码 “l39*} 9l32” 对端用户号码 “138"{ 3151” 通话发起时刻 ‘2013.O6—25—11.1O.O6.000000” 通话时长 18(min) 呼叫类型 “0”(主叫)或…1’(被叫) 位置区ID “ORZR” 小区ID “183D” 表2通信小区信息格式 字段 样例 位置区ID 小区ID 经度 纬度 2.2研究方法 本文同时利用话单数所包含的时空信息和社交信 息。从用户日常移动模式和社交生活两个方面来刻画 用户特征.在提取特征时,提出衡量用户移动随机程度 的移动方向熵特征和衡量用户社交集中程度的社交熵 特征.对用户一个月内的特征进行分析,然后使用K. MEANS聚类算法 川用户进行聚类分析,完成用户群体 划分.接着时间窗口设为一周,利用每周内特征的均值 与均方差,给用户打上标签,完成对用户个性化特征的 刻画 构建用户词云名片。 (1)用户特征定义 为了描述用户的移动模式,本文从移动强度、活 动范围、移动随机程度以及出行的随机性等角度提出 定义用户移动模式的特征;从用户社交圈的规模、主 动程度、社交上的精力以及会交往集中程度等角度提 出定义用户社交生活的特征. 与朋友发生的相互通话是一个人社交生活中的重 要表现形式.通过对用户的通话时长、联系人数量、 主叫比率和社交熵进行提取,以得到反映用户的社交 能力的特征. 定义1.移动距离特征定义为在一定时间内用户移 动轨迹的长度,是用户移动强度的体现,公式为: (f):XT_ √ 一l  ) (1)其中, (f)表示用户在t时间内的通话次数, , 1,2,…, ,z ( )表示用户通话发生时刻的位置. 定义2.回旋半径特征定义为在一定时间内用户通 话发生时刻所在地点偏离移动轨迹重心距离的标准差, 2018年第27卷第11期 http:llwww.C-S—a.org.cn 计算机系统应用 可以表示用户的移动范围,公式为 rg(t)= 计算熵值作为用户的社交熵特征.社交熵特征可以反 映社会交往集中程度,公式为: E(soc lity)=∑ 一( 1。g( ) (2)特征相关性分析 (8) 其中, = ∑警cfJ 表示用户在t时间内所有位置 的重心. 为了从整体上了解用户,将时间窗口 设定为一 个月,计算用户在一个月时间内,在移动模式和社交生 活两方面的特征向量 ,的定义如下: (3) F =( , , , , , , , ) (9) 定义3.访问点个数特征定义为用户的所有发起通 话地点的个数,可以反映用户活动的规律,公式为: ∽= nc(t 厂 ) 其中仅当首次计算到位置蜀时,_厂 )=1,否则 -厂 )=0. 定义4.将以东西方向为横坐标轴,南北方向为纵坐 标轴组成的坐标系均分成12个方向区间01,o2,…,012. 计算出用户每次出行方向,然后统计用户出行方向位 于各方向区间的概率:p(O1),p(02),…,p(012),计算其信 息熵作为用户的移动方向熵特征,反映用户出行方向 的随机性,公式为: E(direction)=>..,一p(Oi) log(p(Oi)) (4) ,/-, ̄JI=l 定义5.通话时长特征定义为指用户在一段时间内 所有通话时间的总和,可以反映用户在“电话社交”中 的活跃程度,公式为: ( )= i(5) =1 其中,Ci表示用户第i次通话的通话时间. 定义6.联系人数量特征定义为所有和用户发生通 话行为的人数总和,可以体现用户社交圈的规模,公 式为: n ( )=nc(t’g(mf) (6) 其中仅当首次计算到对端用户mi时,g(mi)=l,否则 g(mi)=O. 定义7.主叫比率特征定义为在一定时间内用户主 叫通话次数与总的通话次数的比率,可以体现用户在 社交中的主动程度,公式为: rc( )=百 ̄Tc]t)h(vi) (7) 其中仅当呼叫类型Vi为主叫时,h(vi)=l,否则 (vf)=0. 定义8.在一段时间内用户与 个用户发生总共Ⅳ次 通话,其中与n个用户的通话次数分别为Ul,u2,…,g , 其中 ,i=1,2,…,8分别代表移动距离(DD)、访问点 个数(AP)、回旋半径(RG)、移动方向熵(DE)、通话 时长(CD)、联系人数量(cc)、主叫比率(CR)和社交 熵(sE1特征. 为了进一步了解代表移动模式和社交生活的特征, 为了消除特征之间的差异性,对每一维特征进行Z— score标准化: =^_ (10) 式中, 代表所有用户特征数据的均值,O-为所有用户特 征数据的标准差. 通过计算标准化后特征之间的相关系数,分析本 文提取特征之间的相关性. f3)用户群体发现 本文选择使用多特征对用户进行聚类,根据话单 数据发现移动模式和社交模式类似的用户群体.首先 将代表用户将时间窗口r设为一个月,提取用户一个 月内的八个特征.考虑到本文提取的八个特征间可能 存在一定的相关性并且可能存在冗余和噪声,本文对 八个特征进行主成分分析,提取主要特征成分.选择保 留90%以上的方差信息,来确定主成分的个数.在此 基础上根据提取的主成分使用K—MEANS聚类算法对 用户进行聚类,发现用户群体.因为K—MEANS聚类算 法是一种简单、快速的算法,并且当处理大数据集时, 也可保持伸缩性和高效性,所有选择它作为本文的距 离算法. (4)用户词云名片生成 词云图一种基于信息文本词频的可视化形式,是 对文本信息中出现频率较高的“关键词”予以视觉化的 展现.词云图可以将重点内容突出,过滤掉的低频低质 的内容,使得浏览者只要一眼扫过便可领略主旨.词云 Research and Development研究开发273 计算机系统应用 http://www.c—S—a.org.Crl 2018年第27卷第1l期 图被广泛的使用在艺术、新闻学、社交网络等不同的 领域.生成词云图的方法有很多,如wordle、WordltOut 还有Python库wordcould,本文采用WordltOut工具, 为用户生成词云名片. 本文借助词云图方式为用户制作词云名片,使用 户特点被清晰地呈现.构建用户词云名片,关键是要找 到用户与众不同的特点,利用一定的规则生成用户标 签.本文根据用户特征值的均值和均方差,将特征值位 处于整体分布两端的用户打上标签,为生成词云名片 提供数据.然后将用户的标签数据送入WordltOut工 具,为用户生成个性化的词云名片. 3实验和分析 3.1数据预处理 由于CDR数据需要关联了小区的位置信息才能 用于对用户定位 而二者主要通过位置区ID和小区 ID建立起关联.统计发现,数据集中的小区ID已经具 有唯一性,故删除了CDR数据中小区ID缺失或未被 包含在小区信息数据集里的记录,最终共得到95 14位 用户的2380 598条话单数据. 3.2特征提取 将时间窗口 设为一个月,提取用户一个月内的 八个特征.用户移动模式特征的概率密度分布如图1 所示。用户社交生活特征的概率密度分布如图2所示. 移动距离、回旋半径、通话时长和联系人数量特征值 主要集中在一定范围内,超过一定值后,概率会迅速下 降且出现重尾现象,特征值较大的用户稀疏的存在.主 叫比率和社交熵概率密度函数服从正态分布.访问点 个数的峰值处于较小数值段,概率密度函数在达到峰 值前增长较快,达到峰值后下降比较缓慢.和访问点个 数特征的概率密度函数相反,用户的移动方向熵的峰 值处于较大的数值段,在达到峰值前增长缓慢,达到峰 值后下降很快,说明存在少量出行方向随机性很强的 用户. 3.3特征相关性分析 为了进一步了解代表移动模式和社交生活的特征, 计算标准化后特征之间的相关系数,结果如表3所示. 由表3可知,特征间存在6对显著相关(0.5<r<O.8)的 特征,不存在高度相关( 0.8)的特征对.对显著相关 的特征对解释如下: 274研究开发Research and Development 锵 爨 移动距离(km) 回旋半径(km1 (a)移动距离的概率密度分布 fb)回旋半径的概率密度分布 访问点个数 移动方向熵 (c)访问点个数的概率密度分布 (d】访问点个数的概率密度分布 图1 四种移动模式特征的概率密度分布 斛 通话时长(arin) 联系人数量 fa1通话时长的概率密度分布 (b)联系人数量的概率密度分布 O.012 0.0lO 0.008 禁0l0.001064  0.002 O 一 (c)主叫比率的概率密度分布 (d)社交熵的概率密度分布 图2 四种社交生活特征的概率密度分布 表3 不同特征之问的相关性 人 (1)移动距离和回旋半径(r=0.551)、移动距离和 访问点个数(r=0.644)存在显著的相关性.这个不难理 解,用户移动距离越大,可能伴随着活动范围越大、发 生通话的地点越多. 2018年第27卷第11期 http://www.c—S-a.org.cn 计算机系统应用 (2)访问点个数和通话时长(严0.616)、访问点个 数和联系人数量( 0.570)存在显著的相关性.因为本 实验中的社交信息是由话单数据体现,所以通话时间 长、联系人比较多的用户记录的话单数据越详细,导 致他们的访问点数目也比较多. (3)联系人数量和通话时长( 0.577)、联系人数 量和社交熵f 0.706)存在显著的相关性.用户联系人 数量越多,总的通话时长也有很大概率越大,同样由于 社交熵的定义,用户的社交熵也很大概率越大. 3.4用户群体发现 将时间窗口 设为一个月,提取用户一个月内的 八个特征.对用户特征值进行主成分分析,选择保留 90%以上的方差信息,保留了六个主成分.对保留的特 征主成分使用K.MEANS聚类算法对用户进行群体划 分,参考轮廓系数,通过测试和调整,最终确定k=-4.将 每一类的聚类中心点作图如图3(a)所示.为了对聚类 结果有清楚的认识,使用每一类用户的原始八个特征 对聚类结果进行展示.计算每一类用户的原特征的平 均值,将每一类用户的特征平均值作图如图3(b)所示. 从图3(a)中可以看到用户在特征主成分上被很好 地分离开了,尤其是在占主导作用的前3个主成分方 面.接下来根据图3(b)对用户群体发现结果进行解释 说明. Cluster 1共有4735人,占比为49.8%.这部分用户 最多,他们的日常移动模式特征和社交生活特征值均 在平均值上下0.5左右,反映了数据集中大部分用户的 移动模式和社交生活的特点. Cluster2共有2227人,占比为23.4%.他们日常移 动模式特征值均是四类用户中最小的,在社交生活特 征方面。在通话时长特征与大部分用户相仿的前提下, 社交熵特征和联系人数量特征值比大部分用户小,主 叫比率特征值却最大,说明这类用户日常移动性较差, 社交圈相对集中,并且通话多数都是主动. Cluster 3共有2119人。占比为22.3%.在日常移动 模式特征方面,回旋半径特征和大部分用户相同,访问 点个数特征和移动距离特征比大部分用户大,移动方 向熵特征却比大部分用户小;在社交生活特征方面,四 种特征值都比大部分用户大.这代表这类用户的活动 范围虽然和大部分用户差不多,但但移动距离更大,活 动地点更多并且移动更有规律,平时通话时间长,联系 人多,社交圈也比较广,与朋友联系一般为主动联系. 6 5 4 3 2 婆 1 o 1 2 l 2 3 4 5 6 主成分 (a)聚类结果在主成分特征表示 4 3 2 趔 1 鼗 O 一1 _2 特征 (b)聚类结果在原始特征表示 图3用户聚类结果 Cluster 4共有433人。占比为4.5%.这类用户最 少,他们除了移动方向熵特征、主叫比率特征外的其 他特征都远大于其他用户,他们活动范围广,移动距离 长,访问点多,通话时间长,社交圈也广,是数据集中最 活跃的那一部分群体. 3.5用户词云名片生成 构建用户词云名片的关键是制订规则发现用户与 众不同的特点并生成标签数据.本文标签制订规则如 表4所示,首先计算每一维特征整体均值mean和均方 差std.将特征值尸’落在区间【mean— fcf,mean+std] ̄b 的用户按照表4所示规则添加标签。 人们的工作生活多数以星期作为周期,因此将时 间窗口 设为一个星期,这样样可以获得更多的用户 标签。以对用户进行更详细的分析.计算用户的特征向 量 然后根据表4所示规则计算用户标签,最后将每 位用户获得的标签分别送入WordltOut工具,就生成 了用户的词云名片. Research and Development研究开发275 计算机系统应用 http f} n .c—s—a.org.cn 2018年第27卷第1 1期 表4标签制订规则 个体的特点可以被清晰地呈现.以本文研究为基础,移 动通信运营商可以针对用户特点制订相应的套餐并向 用户推荐,其他利益相关企业可以针对用户特点推荐 相关的商品,实现精准营销:在城市治理方面,可以通 过对用户的移动性和行为模式的分析,识别非法营运 车辆的从业人员. 由于话单数据是由通话事件触发采样的,因此用 户移动行为、社交行为只有在通话行为发生的情况下 才能被记录,所以本文结果具有一定的局限性.受实验 取实验中两名用户的用户词云名片展示如图4,可 以发现用户1的词云名片中DD.II、AP—II、CD. II和CC.II比较突出,它们表示用户1的移动距离特 征、访问点个数特征、通话时长特征和联系人数量特 征位于区间(mean+std,+c一。)中,其它特征处于正常水 平.这表明用户1移动距离大,访问地点多,同时通话 时间长,联系人比较多.基于此可以推测用户1可能是 在较大城市区域内从事联系交流工作的室外工作者: 而用户2的词云名片中DE。I、CR—II和AP—I比较 突出,它们表示用户2的移动方向熵特征和访问点个 数特征位于区间(一oo,mean—std)中,主叫比率特征位于 区间(mean+std,+c一3)中,其它特征处于正常水平.这表 明用户2活动地点少且移动具有规律性,通话多为主 叫。基于此用户2可能是喜欢宅在某些地点,用电话处 理日常生活的人. 话单数据获取途径的,不能在更大数据集下对本 文提出的方法和分析结果进行进一步地研究.今后的 工作将主要从两个方向进行展开:第一,挖掘话单数据 中隐含更多的特征,从多角度对用户问的差异性进行 表达:第二,获得信息更加丰富的实验数据,增加数据 种类。通过多种数据对比、融合来刻画用户画像. 参考文献 1 Calabrese F,Diao M,Di Lorenzo G,et a1.Understanding individual mobility patterns from urban sensing data:A mobile phone trace example.Transportation Research Part C: EmergingTechnologies,2013,26:301—313.[doi:10.1016/j.trc. 2012.09.009] 2 Becker R,Cficeres R,Hanson K,et a1.Human mobility characterizatiOn from cellular network data.Communications ofthe ACM,2013,56(1):74—82.[doi:10.1 145/2398356] 3 Gonzfilez MC,Hidalgo CA,Barabfisi AL.Understanding CD.SE'IT 器 individual human mobiliyt patterns.Nature,2008,453(7 1 96): AP 噩 D0 要 CC- (a)用户1的词云名片 园E 蒌 AP.I 鞴 王 箍。 779—782_[doi:10.1 038/nature06958】 4 Amini A,Kung K,Kang CG,et a1.The impact of social segregation on human mobility in developing and indu— strialized regions.EPJ Data Science,2014,3:6.【doi:10.1 140/ epjds31] 5 Jfirv O,Ahas R,Saluveer E,et a1.Mobile phones in a trafic flfow:A geographical perspective to evening rush hour trafic f(b)用户2的词云名片 analysis using call detail records.PLoS One,2012,7(1 1): 图4用户词云名片 e49171.[doi:10.1371/journa1.pone.0049171] 6 Thuillier E,Moalic L,Lamrous S,et a1.Clustering weekly 4总结 本文利用用户话单数据提取出多个反映用户时空 信息和社交信息的特征,在真实的数据上通过对特征 的综合分析,完成了对移动通信用户的画像研究.基于 用户的多方面特征,发现了四类移动模式和社交生活 相似性的用户群体,创建了用户词云名片的使得用户 276研究开发Research and Development patterns of human mobility through mobile phone data.IEEE Transactions on Mobile Computing,2018,17(4):817-830. 【doi:10.1 109/TMC.2017.2742953】 7 Yang XP,Fang ZX,Xu Y,et a1.Understanding spatiot emporal patterns of human convergence and divergence using mobile phone location data.ISPRS International Journal of Geo—Information,2016,5(10):177.[doi:10. 2018年第27卷第11期 http:llwww.C-S—a.org.ca 计算机系统应用 3390/ijgi5100177] 8 Schneider CM,Belik V,Couronn6 T,et a1.Unravelling daily study of Singapore.IEEE Transactions on Big Data,20 1 7, 3(2):208-219.【doi:10.1 109/TBDATA.2016.2631 141】 10 Kanungo T,Mount DM,Netanyahu NS,et a1.An eficient fk- means clustering algorithm:Analysis and implementation. human mobility motifs.Journal of the Royal Society Interface,2013,10(84):20130246.[doi:10.1098/rsif.2013. 0246] 9 Jiang S,Ferreira J,Gonzalez MC.Activiy-based human tIEEE Transactions on PaRem Analysis and Machine Intelligence,2002,24(7):881-892.[doi:10.1 109/TPAMI. mobility paRems inferred from mobile phone data:A case 2002.1Ol76161 Research and Development研究开发277 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo3.com 版权所有 蜀ICP备2023022190号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务