中英文核心期刊咨询网

当前位置:首页>>电子论文 > 正文

基于社交媒体签到数据的空间网络及其社区的无标度与热点分析

发布时间:2019-10-11

  摘要:利用大量的社交媒体签到数据构造了不同时间粒度的空间交互网络,提出了一种地理加权的社区提取算法,并提取了网络中的社区,通过社区大小与活跃度的关系可视化地分析并研究了热点与冷点社区。研究表明,不论是空间交互网络,还是社区大小与活跃度,均具有结构的无标度性,一定程度上说明了人们的活动及其地理环境的复杂性,暗示了人们的活动受制于潜在的地理环境。研究成果有助于更好地理解人类与城市地理环境的交互关系,为城市管理和土地利用规划提供决策支持。

基于社交媒体签到数据的空间网络及其社区的无标度与热点分析

  关键词:社交媒体签到数据;社区提取;幂律分布;无标度性

  随着社交媒体日益发达,其与地理信息系统(GIS)的关系也变得十分密切,且相互渗透。一方面,由于互联网的发展,GIS作为地表覆盖知识的共享和交流工具的功能变得日益显著,可以被视作一种社交媒体;另一方面,结合了地图和基于位置的服务的社交媒体逐渐从虚拟空间进入真实地理空间,这类社交媒体也是一种GIS。因此,将GIS研究与社交媒体结合,即通过位置信息把社交媒体领域的问题放到地理空间中,结合GIS空间分析的方法进行研究,其意义和价值是巨大的[1]。

  空间网络模型是GIS研究的热点,该模型兼顾了拓扑关系和位置关系,能很好地代表空间中的复杂系统,例如运输网、移动网、通信网和社会关系网等。对空间网络的研究包括了网络性质分析、经验观察分析、模型分析和网络过程分析等[2],其中网络性质分析是基础,包括无标度性、小世界性和社区分析等内容。由于空间网络中的社区结构直接体现了位置关系,近年来备受学者关注,Expert等[3]和Daraganova等[4]的研究都证明对于空间网络社区提取,考虑空间影响可以得到更准确的社区结构。

  另一方面,社交媒体具有各式各样的数据类型,其中复杂的交互关系可以形成网络,基于此的社区提取也是社交媒体研究的热点,相关研究内容主要包括算法和应用两方面。算法方面关注如何准确快速得到社区,如Du等[5]提出了一种算法,用于对具有现实世界的重叠特性的大尺度社交网络进行社区提取;Papadopoulos等[6]从复杂度和内存角度系统地比较了现有算法。应用方面则关注社区结果的实际意义,如Tang等[7]对Facebook用户关系网提取了不同朋友圈,发现其分别具有家人、校友和同事等含义。

  目前,国内外社交媒体对社区研究关注的多为具有显著网络结构的数据,如文本流[6]、好友关系[7]等,极少有学者利用签到数据构建网络。由于用户在不同地点的签到反映了用户的人地交互行为,蕴含着丰富的时空信息,因此本文创新性地将空间网络与签到数据结合,首先利用连续访问关系从签到数据中构建多时间尺度的用户活动空间网络,再对该网络采用社区提取算法得到多时间尺度社区(其优势在于社区直接具有签到点聚类的语义);接着对网络和社区的结构进行无标度与热点分析;最终从人类活动动态的角度揭示城市内在的空间结构,并为城市规划、土地利用等应用领域提供决策支持。

  1兴趣点数据与社交媒体签到数据的预处理

  1.1实验数据

  本文使用的是由官方提供的时空覆盖了深圳市2014—2015年的全部新浪微博签到数据,包括签到记录1641576条,涉及兴趣点(pointofinterest,POI)共17981个。签到数据样本信息见表1。

  由表1可以看到,签到数据记录了签到点编号、用户编号、用户注册地和签到时间,且原始文件根据签到点编号和签到时间排序。通过签到点编号可以索引签到POI,其样本信息见表2。

  然而,由于签到行为中的用户主观性和部分基础数据不准确性的影响,签到POI数据存在名称不准、位置不准和数据重复3类错误,若将错误的签到POI直接用于后续分析,必然会导致分析结果的错误,名称和位置的不准确会影响语义的判别,重复的POI则会导致网络和社区结构的异常,因此必须首先对POI数据进行预处理。

  1.2预处理方法

  由于新浪微博的地理信息由高德地图提供,本文选择高德地图开放平台的WebAPI进行纠正,纠正步骤如下。

  1)对每个POI使用高德POI搜索其名称,取第1个搜索结果为潜在的纠正值。

  2)对地理位置字段不为空的POI使用高德POI搜索其名称加地理位置,取第1个搜索结果为潜在的纠正值。

  3)对每个POI使用高德周边搜索,在其坐标5000m范围内搜索其名称,取第1个搜索结果为潜在的纠正值。

  4)对于以上3个步骤都没有搜索结果的POI则直接舍弃;否则分别计算待纠正POI坐标与3个潜在纠正坐标之间的距离,取距离最近、且距离小于5000m的潜在纠正值为最近似纠正值。

  5)将所有最近似纠正值中具有相同名称和坐标的合并为同一个POI。

  以上纠正步骤使用混合纠正的方法,最大化利用了签到POI数据,同时又能避免名称和位置的不准确。为了避免过度纠正,首先使用5000m的阈值作为限制(该数值是人工判断纠正成果实验得出的经验阈值,能涵盖绝大部分纠正点);最后合并POI,以避免POI重复的问题。

  经过以上的签到POI纠正方法,可除去无搜索结果的POI,最后保留的POI占原始数据的70.19%,纠正的POI与原数据的平均距离为997.80m,而签到信息中仅有对应的13.70%的签到数据被舍弃,保留了对应的86.30%的签到数据,说明经过预处理的数据仍具有足够的代表性。

  2空间交互网络及其社区提取

  2.1空间交互网络的构建

  本文将签到数据按用户ID进行重新组织,并按照签到时间顺序将签到点进行排列,得到的是每1个用户的签到轨迹,即其行动轨迹,一共可得到375193条用户轨迹,反映不同用户不同的空间交互行为。

  基于用户签到轨迹构造空间网络,其中节点是签到POI,边是签到POI的连续访问关系。考虑到不同POI之间联系的紧密程度应该不同,故使用连续访问发生的次数作为边权。由于没有考虑边的方向,只考虑了POI之间联系的强弱,因此所提取的网络为加权无向网,也称为空间交互网络。网络反映了用户与签到点、用户与地理空间之间的交互作用。

  若直接用全年的签到数据构造网络,网络将会过于巨大而不便于进行分析。此外,用户连续签到关系并不等同于实际的连续访问,2次签到之间的时间间隔可能长达数月。所以从实际角度还需要从2个方面进行限制,一是需要将全年签到数据分时段,分别构造网络;二是需要设置时间阈值,对于用户轨迹中大于该阈值的连续签到关系,不构造边或不给边加权,只有在阈值内的连续签到关系才纳入考虑。具体来说,本文构造了对应于12个月的12个网络,以体现用户空间交互行为的节律性;设计了0.5、1、1.5、2、2.5和3h共6个时间阈值,以覆盖不同时间跨度的人类活动。设n为节点数,m为边数,多时间尺度空间网络的统计信息见表3。

  2.2社区提取

  对空间交互网络提取的社区本质是用户活动圈。社区提取的算法现在已十分成熟,本文使用GN算法[8]作为基础,以最大化模块度[9]作为标准来提取社区。考虑到提取的社区应该具有更显著的地理意义,且人类的活动圈也应是地理相关的,本文引入地理因素进行加权,以改进原始算法。GN算法步骤如图1所示。

  3空间交互网络及社区结构的无标度分析

  3.1空间交互网络结构的无标度分析

  本文构建的空间交互网络是人类活动的反映,应该具有复杂网络的特性,无标度性就是其典型特性之一。实验结果表明,不同月份的不同时间尺度情况下,空间交互网络都具有无标度性,即网络节点的度分布都能用幂律分布很好地拟合,说明无标度性是空间交互网络的本质属性。为了更加直观地表示这种无标度特性,本文选取1月份和2h时间尺度作为代表进行可视化,网络节点度分布采用幂律分布进行拟合。1月份不同时间阈值时的空间交互网络节点度分布图如图3所示。图3中,α为拟合曲线斜率的相反数,即拟合的幂指数的相反数。

  空间交互网络的无标度性并不难解释,因为人类活动具有从众性,不论是主观的心理倾向还是客观的比较选择,大多数人总是会选择少数的受欢迎的POI去访问,使得这些POI越来越受欢迎,访问用户进而继续增多,造成网络节点的度分布的极度不均衡。极少数的POI点具有极其高的度值(de-gree),表明地理空间结构本身存在层级性与和杂性,与已有的研究结果比较相符,如航空网络的无标度性[11-12]、道路网络的无标度性[13]和航海网络的无标度性[14]等。

  3.2社区结构的无标度分析

  为了探究网络结构的无标度性是否会影响社区结构,本文对社区结构进行大小和活跃度的分析。

  定义社区大小为组成社区的POI个数,以研究社区大小的分布情况。社区越大,联系紧密的POI就越多,社区功能就越齐全,也就越有可能吸引更多的人类活动。可以发现,无论何种时间尺度情况,绝大多数社区的大小都服从幂律分布,说明大部分的社区规模较小,只有极少数的社区规模较大;换言之,绝大部分的社区功能比较单一,只有极少数的功能齐全的综合社区。这一结论与人们的感性认识相符。日常生活中,小型活动圈的数量极多,如以住宅为中心的居民活动圈和街区,该类活动圈内的POI只满足日常生活所需,种类数量较少;大型活动圈如主要商圈,一般整个城市内也屈指可数,但是人类活动丰富,存在激烈的市场竞争。

  1月份不同时间尺度的社区大小分布图如图5所示。1年内不同月份的2h时间尺度的社区大小分布图如图6所示。

  进一步定义社区活跃度为社区内POI的总签到数,总签到数越多,社区访问次数就越多,社区就越活跃。可以发现,无论何种时间尺度,绝大多数社区的活跃程度分布都能用幂律分布很好地拟合,说明只有极少数活动圈具有极高的活跃程度,大部分社区都不甚活跃,与上面对社区大小分布的分析结果一致。

  社区活跃程度分布可以视为社区大小分布经过签到次数加权得到,分析α值发现,加权的结果可使得原分布的异质性增强。从直观上可以解释,其原因是由于人们更倾向于在非日常性的活动中签到,使商圈等大型社区的平均签到次数远多于居民区等小型社区的平均签到次数,两类社区的差异也因此被拉大,整体分布的异质性因而越强。

  基于社交媒体签到数据的空间网络及其社区的无标度与热点分析相关论文推荐:网络自制剧社交媒体如何传播

回到顶部