一种挖掘交叉口事故严重程度影响因素关联特性的算法
发布时间:2022-04-02
摘 要:为探究平面交叉口不同严重程度交通事故影响因素的关联特性,从驾驶人、环境、道路、车辆四个维度出发,建立了带约束的二进制粒子群-蚁群算法以挖掘交叉口事故严重程度的关联规则。首先通过二进制粒子群算法确定最优提升度和支持度阈值,再利用蚁群算法挖掘最大频繁项集,并增加规则前项与后项的约束,以提高关联规则挖掘效率。对 2022 条平面交叉口事故数据的分析结果表明,论文提出的 BPSO-ACA 算法可在精准识别潜在因素与事故等级关联结果的基础上减少冗余无效关联规则,并将规则挖掘效率提升 17%~29%。驾驶人年龄、分心状态、交叉口形态、交叉口车道数和天气均与交叉口事故严重程度有强关联性;车道数少是导致轻微事故升级为一般事故的重要因素;路面湿滑是导致交叉口事故升级为重大事故的关键因素,尤其在雨雪雾等不良天气条件下,机非事故为重大等级的可能性最高。本研究成果可为交通管理部门的主动防控措施提供理论指导,减少交叉口事故数量及降低事故严重程度。
关键词:安全工程;事故严重程度;关联规则;致因分析;二进制粒子群;蚁群算法;交叉口
0 引 言
平面交叉口作为道路交通网络的重要节点,交通运行环境复杂,各类车流在交叉口冲突区域反复交织冲突,是交通事故高发的区域[1]。据统计,我国城市交通事故约有 30%发生在交叉口[2]。根据交通事故中受伤人数以及财产损失的不同,事故被划分为轻微、一般、重大和特大四种等级。降低事故的严重程度是提升道路交叉口交通安全水平的重要途径。因各严重程度等级交通事故的致因有所差异,所以识别各严重程度事故的影响因素可有针对性的制定安全防控策略,从而有效降低交叉口交通事故的严重程度,提高其安全水平。研究成果可有针对性、分层级地为交通设施的规划、设计和管理等方面提供理论支撑。
事故严重程度致因多从人、车、道路和环境等因素分析[3-5],常用方法主要为参数模型,2002 年,Al Ghamdi AS[6]首次应用 logistic 回归方法分析发现事故地点等与事故严重程度显著相关;何雅琴等[7]则采用累积 Logistic 回归分析了行人交通事故严重程度的影响因素,发现照明条件和行人饮酒情况等 6 个因素与事故严重程度显著相关;马明等[8]构建广义估计方程负二项回归模型分析了影响信号交叉口安全的因素;秦雅琴等[9]发现多项 Logit 模型更适用于分析山区双车道公路摩托车事故严重程度的影响因素。然而,参数模型需要预先设定参数服从的概率分布,当样本分布不均衡时易出现欠拟合问题,结果精度不高。为克服此缺陷,如贝叶斯网络[10]、随机森林[11]、分类树[12]等非参数模型被用于识别事故严重程度的致因。非参数模型在自变量因素较多时需要的样本量较大,且易出现过拟合问题。上述方法均考虑了某些因素对事故的影响,但忽略了因素间的潜在关联性,难以挖掘多维因素相互作用对事故严重程度的影响。
关联规则是分析数据集各变量间关联特性的有效方法,可用于挖掘历史交通事故数据中潜藏的事故因素间内在关联性。与参数模型不同,关联规则无需预先确定假设及函数形式;相比于其他非参数模型,样本量较少时关联规则也可进行有效分析,并获取各因素与事故间的关联特征。2016 年,LIU 等[13]最先应用关联规则算法分析了道路作业区事故伤亡程度的影响因素。牛毅等[14]将传统关联规则算法与社会网络分析法相结合来分析高速公路货车交通事故的影响因素,并提出了具有针对性的事故预防对策与建议。为减少冗余关联规则的产生,袁振洲等[15]采用定向约束的 Apriori 算法分别分析了工作日和休息日下高速公路交通事故致因,发现工作日和休息日发生的不同等级交通事故形态存在差异。然而传统关联规则算法需要人为设置支持度和置信度阈值,易产生冗余规则或忽略重要规则。
综上,为挖掘平面交叉口不同严重程度交通事故各因素变量间的相互耦合关联性,并克服传统关联规则方法需要人为主观地设置阈值的缺陷,减少冗余无效规则的生成,构建了带约束的二进制粒子群-蚁群(Binary particle swarm optimization - Ant colony algorithm, BPSO-ACA)关联规则挖掘算法。在分析了驾驶人、车辆、道路和环境四种单因素与事故严重程度相关性的基础上,深入挖掘这四种维度因素的耦合作用与平面交叉口事故严重程度的关联性。
1 关联规则基本概念
关联规则算法可挖掘数据库中各项要素间的内在联系。关联规则可用𝑋 => 𝑌的形式表述,其中,𝑋 ∩ 𝑌 = ∅,𝑋为规则前项(Left-Hand-Side, LHS),𝑌为规则后项(Right-Hand-Side, RHS)。如式(1)所示,关联规则𝑋 => 𝑌的支持度(support)为规则前项𝑋和规则前项𝑌在整个数据集同时发生的概率。最低支持度𝑆min可表示项目集统计意义上的最低重要性。
2. BPSO-ACA 关联规则挖掘算法
2.1 算法框架
经典的 Apriori 关联规则挖掘算法采用的是逐层搜索迭代的思路,从单元素项集开始逐层搜索满足条件的项集,在此过程中会形成大量候选项集。当数据集较大时,算法的复杂度也随之增加。在筛选关联规则时,通常以𝑆min和𝐶min为指标。然而,该两项指标通常由人为主观确定,易导致生成大量冗余规则,并无法有效识别重要规则。为克服上述问题,本文建立了带约束的 BPSO-ACA 关联规则挖掘算法用以挖掘高质量的规则。由于粒子群算法具有实数优化性能好、搜索能力强、收敛速度快等诸多优点[16],因此选择粒子群算法来搜索关联规则算法的𝑆min和𝐶min阈值。蚁群算法具有良好的鲁棒性和全局搜索能力,其使用信息素决定移动方向,只需扫描一次数据集[17]即可有效、快速地获取各因素与事故严重程度的关系,提高算法性能,因此选取蚁群算法生成频繁项。最后,增加对规则前项与后项要素的约束,即规则前项不包含事故等级要素,规则后项仅为事故等级要素。
2.2 规则生成阈值确定
关联规则算法中确定最优支持度和置信度阈值是离散问题,可采用二进制粒子群优化算法求解。在粒子群算法中粒子的适应度越高,其位置越好。通过构造适应度函数,搜索粒子在全局的最优位置,并将该位置的支持度和置信度作为关联规则生成的最优最小支持度和最小置信度。
2.3 频繁项集生成
蚁群算法在挖掘关联规则时需将问题转换为旅行商问题。根据数据集中各离散属性间关系建立无向图。将数据中的各项要素均作为一个节点,将无向图节点𝑖到其他节点𝑗的支持度𝑆𝑖𝑗作为边(𝑖,𝑗)的权值,𝑆𝑖𝑗的倒数为节点𝑖与𝑗间距离。
2.5. BPSO-ACA 关联规则生成算法
因此,带约束的 BPSO-ACA 关联规则生成算法包含规则生成阈值确定、频繁项集生成、规则要素约束等步骤,算法流程图如图 1 所示。
步骤 1:初始化算法各参数,生成原始种群;
步骤 2:计算粒子群的速度和位置,计算粒子的适应度函数值,更新局部最优位置和适应度;
步骤 3:更新全局最优位置和适应度,更新粒子的速度和位置;
步骤 4:若满足迭代条件,则输出最优𝑆min和𝐶min,进入步骤 5,否则,返回步骤 2;
步骤 5:将𝑚只蚂蚁放入无向图中开始遍历;
步骤 6:蚂蚁𝑘随机选择节点𝑖开始,并将该节点𝑖放入禁忌表𝑡𝑎𝑏𝑢𝑘中,计算当前节点到相邻节点的转移概率,选择转移概率最大值作为下一节点,根据局部信息素更新规则更新当前节点信息素;
步骤 7:若所有节点都遍历完,则停止遍历,并将此过程中满足𝑆min要求的路径节点记录到频繁项元素表中,否则转入步骤 6;
步骤 8:更新全局信息素,更新所有被蚂蚁遍历过的节点信息素;
步骤 9:若达到最大迭代次数,则生成最大频繁项集,否则转入步骤 5;
3 数据及结果
3.1 事故数据
选取国内某地交通管理部门统计的平面交叉口事故数据,共包含有效数据 2022 条。从可能导致事故发生的环境、道路、车辆和驾驶人四个维度统计平面交叉口的事故严重等级数据。数据集的统计特性如表 1 所示,由于特大交通事故占比不到 1%,数量太少无法生成规则,故将其与重大事故进行合并。为加快算法的求解效率,在数据输入模型前,对原始数据进行二进制转换,即将每条数据中包含的变量记为 1,不包含的变量记为 0,例如,某条数据包含的变量有白天、晴朗、干燥、 2 车道、十字交叉、机动车、男性、20 至 39 岁、分心和一般,则其经过转换后的数据如图 2 所示。并采用密西根方法(Michigan approach)[19]对关联规则编码。
3.2 关联规则生成
利用本文提出的 BPSO-ACA 算法求得最优支持度和置信度分别为 0.02 和 0.35。将 BPSO-ACA 算法与经典 Apriori 算法和改进的 Apriori 算法[15]进行对比,结果如表 2 所示。通过分析不同支持度和置信度阈值条件下不同算法生成的有效关联规则数和耗时,可以看出本文提出的 BPSO-ACA 算法挖掘效率最高。相较于经典 Apriori 算法,BPSO-ACA 算法与改进 Apriori 算法均增加了维度约束,可以避免生成大量冗余无效规则。与改进 Apriori 算法相比,BPSO-ACA 算法中的智能体(蚂蚁)会优先选择信息素浓度较高的路径,更有效地降低了低支持度规则的生成,从而提高关联规则的挖掘效率。
3.3 关联规则分析
1)环境维度的影响
筛选前项仅为环境因素的规则,得到后项为轻微的规则 3 条,后项为一般的规则 0 条,后项为重大的规则 2 条。如表 3 所示,在晴朗的天气条件下,交叉口交通事故严重程度较低,主要为轻微事故;而在雨/雪/雾恶劣天气条件下,特别是在黑夜,交叉口交通事故的严重程度有提升倾向。
2)道路维度的影响
筛选前项仅为道路因素的规则,得到后项为轻微的规则 10 条,后项为一般的规则 2 条,后项为重大的规则 2 条。表 4 列出各等级事故规则提升度最大的前 5 条规则,可以看出十字交叉口发生的交通事故等级多为轻微,而在五路交叉口发生的事故等级多为一般;在交叉口的路面为干燥的条件下,发生交通事故的严重程度多为轻微等级,而当路面湿滑时发生交通事故的严重程度等级会有提升的倾向;当交叉口车道数较多时,发生的交通事故等级也较低,这应该是由于车道数较多,车流冲突较少,故而所发生事故的严重程度也较低;而当车道数较少为 2 车道时,交叉口发生的交通事故多为一般或重大等级,尤其是湿滑的 2 车道交叉口发生重大等级交通事故的可能性更高。
3)车辆维度的影响
筛选前项仅为车辆因素的规则为 0 条,可能由于事故库中车辆维度仅 2 个因素,数量太少,未进入规则。
4)驾驶人维度的影响
筛选前项仅为环境因素的规则,得到后项为轻微的规则 3 条,后项为一般的规则 0 条,后项为重大的规则 0 条。如表 5 所示,年龄小于 20 岁的驾驶人在交叉口发生轻微等级交通事故的可能性较高。可能是因为年龄较小的驾驶人驾驶经验不足,易在交叉口发生剐蹭等轻微交通事故。
5)多维度的综合影响
为探究环境、道路、车辆和驾驶人四种维度对事故严重程度的综合影响,筛选提升度不低于 1 的关联规则,得到后项为轻微的规则 3651 条,后项为一般的规则 634 条,后项为重大的规则 179 条,表 6 列出各等级事故规则提升度最大的前 8 条规则。规则①、⑥和⑧表明在天气、光照良好时,小于 20 岁的驾驶人在十字路口与机动车发生冲突后,造成事故等级为轻微的可能性较高。规则④和⑤表明在天气、光照条件良好时,男性驾驶机动车在三路交叉路口因与机动车冲突造成事故等级为轻微的可能性较高。规则②~③和⑦表明在天气、光照良好的条件下,十字交叉口机非碰撞事故等级为轻微的可能性较高。规则⑨和⑩表明在天气、光照良好时,年龄超过 60 岁的驾驶人驾驶机动车在十字路口与非机动车发生冲突后,造成事故等级为一般的概率较高,约 80.0%。规则○11 ~○13 表明天气、光照良好时,五路交叉口的机非事故等级为一般的概率较大。规则 ○14 ~○16 表明天气、光照良好时,在 2 车道或 3 车道的十字交叉口发生的仅涉及机动车的事故等级为一般的概率较大。规则 ○17 、○20 和○22 表明在雨/雪/雾天气或路面湿滑条件下,交叉口机非事故为重大等级的概率较大。规则○18 表明在雨/雪/雾天气下,当机动车驾驶人处于分心状态时发生重大事故的概率为 70.1%。规则○19 表明发生在黑夜五路交叉口的机非事故等级为重大的概率为 66.3%。规则○24 表明在雨/雪/雾天气下,发生于 2 车道交叉口的机非事故为重大等级的概率为 53.5%。
相关知识推荐:发表一篇南大核心论文多少钱?
将提升度>1 的关联规则绘制气泡图[13],图中横坐标为后项,纵坐标为前项,如图 4 所示。选取前项中最有代表性的项目分组,括号内的项即为代表项,“+ n Items”表示还有 n 个项目在该组中,气泡图中图标大小表示该组累积支持度,图标颜色表示该组累积提升度。
综合图 3 和表 3-6 结果可发现,轻微事故多发于晴朗、路面干燥、白天条件下。年龄小于 20 岁的驾驶人可能因为驾驶经验不足,在交叉口易发生剐蹭等轻微交通事故。年龄为 20 至 39 岁的驾驶人也易发生轻微事故,此类驾驶人驾驶经验较丰富,更易采取冒进的风险行为[20]。轻微事故也多发于车道数较多的交叉口,表明车道数较多的情况下,避险空间较大,发生事故的等级较低。
一般事故多发生于晴天、干燥环境下进出口车道数较少的交叉口。其原因可能是因为车道数量少造成的车辆换道空间不足,冲突增加。当事故发生在五路交叉口且涉及到非机动车时,事故等级也会呈现加重可能。在雨/雪/雾环境下,女性驾驶人发生一般等级事故的潜在可能性有增加倾向,其原因可能为女性驾驶人在面对紧急情况时控制车辆的经验欠佳[21]。此外,在同样晴天、干燥的十字交叉口,年龄大于 60 岁的驾驶人可能因为身体机能下降,反应不够灵敏,避险能力减弱[22],发生一般事故的可能性较高。
重大事故易发生于湿滑、黑夜、雨/雪/雾的环境下,且多为机非事故。其原因可能为在遭遇雨/雪/雾等不良天气时,路面容易湿滑,车辆的制动性能降低;黑夜驾驶时,驾驶人受光线的影响,视线不佳,不易察觉非机动车,特别是在五路交叉口,路况较为复杂,一旦与非机动车发生碰撞,驾驶人易出现因危险状况不能及时察觉,或者判断决策失误而发生重大事故。发生重大交通事故的交叉口进出口车道数常较少,车辆避险可选择空间较少,当遇到紧急情况时,机动车驾驶人来不及避让,从而造成的交通事故等级更严重。此外,交叉口的重大交通事故还与机动车驾驶人的分心状态有较大关联性。
4 结 论
为深度挖掘平面交叉口不同严重程度事故的影响因素,本文提出了一种带约束的 BPSO-ACA 关联规则算法,并应用我国某地的事故数据集进行验证,得出如下结论:
1) 带约束 BPSO-ACA 算法可有效识别事故严重程度影响因素,并显著提高关联规则生成效率,减少冗余无效规则,同时解决了经典关联规则算法需要人为确定最小支持度和置信度阈值的问题。
2) 高龄驾驶人(≥60 岁)和低龄驾驶人(<20 岁)在交叉口发生事故等级高于其他年龄段驾驶人。
3) 路面湿滑是重大等级交通事故的最核心致因;其次黑夜、畸形交叉口形态、机动车驾驶人分心驾驶和非机动车的影响也会使事故严重等级有加重倾向;车道数与交叉口事故等级也具有较大关联性。
4) 交叉口安全防控的目标应为在避免特大和重大事故的基础上尽可能降低一般与轻微事故的数量,根据此原则并结合上述研究成果,建议:加强在雨/雪/雾等恶劣气象条件下畸形交叉口的交通管控,可增设视线诱导或夜间照明等设施;结合交叉口几何设计合理设置机非分隔设施,严格规范非机动车行为。此外,还建议加大分心驾驶行为的惩罚力度,加强对低龄机动车驾驶人的安全教育;要求高龄驾驶人须定期体检,建议驾驶能力较低的驾驶人使用辅助驾驶系统以提高行车安全,否则不建议其继续单独驾驶车辆。
5) 在后续研究中可深入探究不同规则评价指标对结果的影响,并研究分布式计算方法以应对规模更庞大的数据集。——论文作者:徐金华,李岩,张玉婷*