Waymo Safety Impact
Making roads safer
The trust and safety of the communities where we operate is paramount to us. That’s why we’re voluntarily sharing our safety data.
The data to date indicate the Waymo Driver is already making roads safer in the places where we currently operate. Specifically, the data below demonstrate that the Waymo Driver is better than humans at avoiding crashes that result in injuries — both of any severity and specifically serious ones — as well as those that lead to airbag deployments.
This hub compares the Waymo Driver’s Rider-Only (RO) crash rates to human crash benchmarks for surface streets. It leverages best practices in safety impact analysis and builds upon dozens of Waymo’s safety publications, providing an unprecedented level of transparency within the autonomous driving industry. By sharing our data and methodologies, we also invite you to join us as we push for advancements in measuring safety impact.
The data displayed on this webpage undergo consistent updates aligned with NHTSA’s Standing General Order (SGO) reporting timelines.
How the Waymo Driver compares to humans
Rider-only (RO) miles driven
截至 2025 年 12 月,Waymo 已累计完成 1.707 亿英里的纯载客行驶里程,全程无人驾驶。
The Waymo Driver has tens of millions miles of real-world driving experience. This dashboard shows rider-only miles – miles that Waymo has driven without a human driver — in cities where we operate our ride-hailing service, Waymo.
地点 | RO 里程有效期至 2025 年 12 月 |
|---|---|
洛杉矶 | 37.857M |
圣弗朗西斯科湾区 | 53.52M |
菲尼克斯 | 68.613M |
奥斯汀 | 10.722M |
Waymo Driver compared to human benchmarks
This table shows how many fewer RO crashes Waymo had (regardless of who was at fault) compared to human drivers with the average benchmark crash rate if they were to drive the same distance in the areas we operate. Results have been rounded to the nearest whole number.
在我们开展服务的城市中,与同等行驶里程下的普通人类驾驶员相比,Waymo Driver 实现了:
交通事故总量下降
92% 造成重伤或更严重情况的事故数量减少比例 (35 减少数量)
83% 触发安全气囊的事故数量减少比例 (230 减少数量)
82% 造成受伤的事故数量减少比例 (544 减少数量)
涉及弱势道路使用者的交通事故减少
92% 行人受伤事故数量减少比例 (62 减少数量)
85% 骑行者受伤事故数量减少比例 (39 减少数量)
81% 造成受伤的摩托车事故数量减少比例 (25 减少数量)
Waymo Driver compared to human benchmarks
Airbag deployments, any injury
The graphs below show how many fewer incidents (crashes) per million miles (IPMM) Waymo had compared to human drivers with the benchmark crash rate. The error bars represent 95% confidence intervals for the IPMM estimate.
The reductions are shown for all locations combined and separately for individual cities.
The comparisons in Atlanta are not shown here due to Waymo’s limited mileage, which means the results are not yet statistically significant.
Serious Injury or Worse Crash Rates
| Location | Incidents per Million Miles (IPMM), Waymo | Incidents per Million Miles (IPMM), Benchmark |
|---|---|---|
| All Locations | 0.02 | 0.22 |
| Phoenix | 0.01 | 0.10 |
| San Francisco | 0.04 | 0.43 |
| Los Angeles | 0.00 | 0.15 |
| Austin | 0.00 | 0.18 |
Any-Injury-Reported Crash Rates
| Location | Incidents per Million Miles (IPMM), Waymo | Incidents per Million Miles (IPMM), Benchmark |
|---|---|---|
| All Locations | 0.71 | 3.90 |
| Phoenix | 0.58 | 1.98 |
| San Francisco | 0.77 | 7.47 |
| Los Angeles | 0.90 | 2.50 |
| Austin | 0.65 | 3.34 |
Airbag Deployment in Any Vehicle Crash Rates
| Location | Incidents per Million Miles (IPMM), Waymo | Incidents per Million Miles (IPMM), Benchmark |
|---|---|---|
| All Locations | 0.28 | 1.63 |
| Phoenix | 0.28 | 1.35 |
| San Francisco | 0.32 | 2.11 |
| Los Angeles | 0.21 | 1.23 |
| Austin | 0.37 | 2.37 |
Waymo 车辆碰撞事故中的安全气囊弹出率
| Location | Incidents per Million Miles (IPMM), Waymo | Incidents per Million Miles (IPMM), Benchmark |
|---|---|---|
| All Locations | 0.05 | 1.12 |
| Phoenix | 0.06 | 0.94 |
| San Francisco | 0.06 | 1.29 |
| Los Angeles | 0.00 | 1.00 |
| Austin | 0.09 | 2.00 |
Waymo Driver compared to human benchmarks
Percent difference in crash rate
The graphs below show the percent difference between the Waymo and human benchmark crash rates by location, with 95% confidence intervals. A negative number means the Waymo Driver reduced crashes compared to the human driver. Confidence intervals that do not cross 0% mean the percent difference is statistically significant.
The percent reductions and confidence intervals show that the Waymo Driver has a large, statistically significant, reduction in crash rates compared to the human benchmark across many outcomes and locations.
The comparisons in Atlanta are not shown here due to Waymo’s limited mileage, which means the results are not yet statistically significant.
Waymo crash rate percent difference to benchmark
| Location | Percent Difference to Benchmark, Airbag Deployment in Any Vehicle | Percent Difference to Benchmark, Airbag Deployment in Waymo Vehicle | Percent Difference to Benchmark, Any Injury Reported | Percent Difference to Benchmark, Serious Injury or Worse |
|---|---|---|---|---|
| All Locations | -82.72% | -95.69% | -81.69% | -92.11% |
| Phoenix | -79.51% | -93.82% | -70.61% | -86.11% |
| San Francisco | -84.97% | -95.14% | -89.74% | -91.36% |
| Los Angeles | -82.80% | -100.00% | -64.03% | -100.00% |
| Austin | -84.26% | -95.33% | -80.45% | -100.00% |
Percent of Waymo Driver collisions with <1mph change in velocity
(Delta-V <1mph)
Delta-V measures the change in velocity during a collision. It is another way to investigate crash severity and is one of the most important predictors of injury risk in vehicle-to-vehicle crashes.
This graph shows the percentage of SGO-reported crashes where the maximum Delta-V (from either the Waymo vehicle or other vehicle) was less than 1 mph—meaning the collision resulted in a <1mph change in velocity. A Delta-V less than 1 mph usually results in only minor damage (dents and scratches). This graph includes vehicle-to-vehicle and single vehicle crashes, but not crashes with pedestrians, cyclists, and motorcyclists.
Delta-V is estimated using an impulse-momentum crash model with inputs measured by the Waymo vehicle’s sensor system. Note: Comparable human benchmarks for <1mph Delta-V are currently not possible to estimate with high certainty.
% of SGO Collisions with less than 1mph change in velocity (Delta-V <1mph)
| Location | % Crashes <1 mph Delta-v |
|---|---|
| ALL AREAS | 43% |
| SF | 45% |
| PHX | 40% |
| LA | 42% |
| ATX | 43% |
按碰撞事故类型比较 Waymo Driver 与人类驾驶基准
这些图表展示了在 Waymo 运营区域内,如果行驶相同的距离,Waymo 的无人驾驶(RO)碰撞事故(无论责任方是谁)相比人类驾驶员的平均基准碰撞事故率减少了多少。我们将碰撞事故分为 11 种类型,这些类型涵盖了所有位置发生的碰撞情况。您可以前往“下载”部分,获取各个城市的详细数据。若柱形上标有百分比差异数值,则表示该结果具有统计显著性。
所有车辆碰撞事故中的安全气囊弹出率
| Crash Type Group | Events (Benchmark) | Events (Waymo) |
|---|---|---|
| V2V LATERAL | 15 | 1 (-93%) |
| V2V INTERSECTION | 155 | 8 (-95%) |
| V2V HEAD-ON | 7 | 6 |
| V2V F2R | 35 | 21 (-41%) |
| SINGLE VEHICLE | 33 | 0 (-100%) |
| SECONDARY CRASH | 19 | 11 |
| ALL OTHERS | 6 | 1 (-85%) |
所有报告人员受伤的碰撞事故
| Crash Type Group | Events (Benchmark) | Events (Waymo) |
|---|---|---|
| V2V LATERAL | 44 | 10 (-78%) |
| V2V INTERSECTION | 262 | 10 (-96%) |
| V2V F2R | 102 | 57 (-44%) |
| SINGLE VEHICLE | 46 | 2 (-96%) |
| SECONDARY CRASH | 35 | 11 (-69%) |
| PEDESTRIAN | 66 | 5 (-92%) |
| MOTORCYCLE | 31 | 6 (-81%) |
| CYCLIST | 46 | 7 (-85%) |
| ALL OTHERS | 13 | 3 (-78%) |
Waymo Safety Research Partners
David Zuby, Chief Research Officer, Insurance Institute for Highway Safety (IIHS)By making detailed information about crashes and miles driven publicly accessible, Waymo’s transparency will not only support independent research but foster public trust. We hope other companies developing and deploying automated driving systems follow suit.
Methodology
Methodology
Comparing autonomous vehicle and human performance
Despite the public availability of crash data for both human-driven and autonomous vehicles, drawing meaningful comparisons between the two is challenging. To ensure a fair comparison, there’s a number of factors that should be taken into consideration. Here are some of the most important:
- AV and human data have different definitions of a crash. AV operators like Waymo must report any physical contact that results or allegedly results in any property damage, injury, or fatality, while most human crash data require at least enough damage for the police to file a collision report.
- Not all human crashes are reported. NHTSA estimates that 60% of property damage crashes and 32% of injury crashes aren’t reported to police (Blincoe et al. 2023). In contrast, AV companies report even the most minor crashes in order to demonstrate the trustworthiness of autonomous driving on public roads.
- Focus should be put on injury-causing crashes. Low speed crashes that result in minor damage can cause property damage that can be quickly repaired. These low speed crashes are also the most frequent types of crashes. In traffic safety, the most emphasis is put on reducing the highest severity crashes that can result in injuries.
- It’s important to look at rates of events (incidents per mile) instead of absolute counts. Waymo is growing its operations in the cities we operate in. With more driving miles come more absolute collisions. It’s critical to consider the total miles driven to accurately calculate incident rates. If you do not consider the miles driven, it may appear like incidents are increasing while in reality the rate of incidents could be going down.
- All streets within a city are not equally challenging. Waymo’s operations have expanded over time, and, because Waymo operates as a ride-hailing service, the driving mix largely reflects user demand. The results on this data hub show human benchmarks reported in Scanlon et al. (2024) and extended upon in Kusano et al. (2025) that are adjusted to account for differences in driving mix using a method described by Chen et al. (2024). See the “Human Benchmarks” section below for more details.
Waymo has used industry best-practices to make a fair comparison between AV and human data sources that is presented on this webpage. This analysis is described more below, and in even more depth in several of Waymo’s safety publications.
How we select Waymo incidents noted in this hub
Waymo’s data is derived from crashes reported under NHTSA’s Standing General Order (SGO) and uses the same criteria as described in Kusano et al. (2024) and Kusano et al. (2025).
We are intentionally using publicly available data to allow other researchers to replicate the results. To link the data shown on this dashboard to NHTSA’s published SGO data, researchers can download a list of SGO report IDs and boolean membership in each outcome group in the download section below. Comparisons of crash rates for the outcomes listed below and additional outcomes described in the release notes are also available for download.
We compare Waymo’s crash rate to human benchmarks across several different types of crashes:
Outcome Description Waymo Data* Human Benchmark Any-injury-reported A crash where any road user is injured as a result of the crash Any SGO reported crash with the field “Highest Injury Severity Alleged” is “Minor”, “Moderate”, or “Serious”, or “Fatality”). “Unknown” reported severity where the SGO narrative mentions injuries of unknown severity are also included. Police-reported crashed vehicle rate where at least one road user had a reported injury. A 32% underreporting adjustment was applied according to Blincoe et al (2023). Airbag deployment in Any Vehicle A crash where an airbag deploys in any vehicle involved in the crash Any SGO reported crash where the “Any Air Bags Deployed?” is “Yes” for either the subject vehicle (SV) or counter party (CP). Additionally, crashes are included in this category when a review of relevant data (e.g., video) finds an airbag deployed in a third party. Police-reported crashed vehicle rate where any vehicle involved in the crash had an airbag deployment. No underreporting adjustment was applied. Airbag deployment in Waymo Vehicle A crash where an airbag deploys in the Waymo vehicle involved in the crash Any SGO reported crash where the “Any Air Bags Deployed?” is “Yes” for the subject vehicle (SV). Police-reported crashed vehicle rate where airbag deployment occurred in the vehicle. No underreporting adjustment was applied. Serious injury or worse A crash where any road user is seriously injured or killed as a result of the crash Police reports were requested through public information requests for any SGO crash with “Highest Injury Severity Alleged” as “Serious” or “Fatality” for the field “Highest Injury Severity Alleged.” The SGO crash was included if the police report indicated any person in the crash had an “incapacitating” (“A”) or “killed” (“K”) injury severity. Police-reported crashed vehicle rate where any person in the crash had a police-reported injury of “incapacitating” (“A”) or “killed” (“K”). No underreporting adjustment was applied. *Based on initial data submitted as part of the NHTSA Standing General Order 2021-01
Human benchmarks
The human benchmark data are the same as reported in Scanlon et al. (2024), and extended upon in Kusano et al. (2025). These benchmarks are derived from state police reported crash records and Vehicle Miles Traveled (VMT) data in the areas Waymo currently operates RO services at large scale (Phoenix, San Francisco, Los Angeles, and Austin). The human benchmarks were made in a way that only included the crashes and VMT corresponding to passenger vehicles traveling on the types of roadways Waymo operates on (excluding freeways). The any-injury-reported benchmark also used a 32% underreporting correction (based on NHTSA’s Blincoe et al., 2023 study to adjust for crashes not reported by humans. The serious injury or worse (referred to as “suspected serious injury+” in the papers) and airbag deployment human benchmarks rates used the observed crashes without an underreporting correction.
All streets within a city are not equally challenging. If Waymo drives more frequently in more challenging parts of the city that have higher crash rates, it may affect crash rates compared to quieter areas. The benchmarks reported by Scanlon et al. are at a city level, not for specific streets or areas. The human benchmarks shown on this data hub were adjusted using a method described by Chen et al. (2024) that models the effect of spatial distribution on crash risk. The methodology adjusts the city-level benchmarks to account for the unique driving distribution of the Waymo driving. The result of the reweighting method is human benchmarks that are more representative of the areas of the city Waymo drives in the most, which improves data alignment between the Waymo and human crash data. Achieving the best possible data alignment, given the limitations of the available data, are part of the newly published Retrospective Automated Vehicle Evaluation (RAVE) best practices (Scanlon et al., 2024b). This spatial dynamic benchmark approach described by Chen et al. (2024) was also used in Kusano et al. (2025).
Confidence intervals and data limitations
Confidence intervals for Incidents Per Million Miles (IPMM) crash rates were computed using a Poisson Exact method. The confidence intervals for the percent reduction used a Clopper-Pearson binomial described in Nelson (1970). Both confidence intervals were assessed at a 95% confidence level. These confidence intervals use the same methods as described in Kusano et al. (2023).
There is no perfect “apples-to-apples” comparison between human and AV data available today. The benchmarks and comparisons done on this page represent the current state-of-the-art human and AV data sources, based on the state of the art in the research in this field. The serious injury or worse and airbag deployment benchmarks do not have an underreporting correction for the human data because there is no estimate for airbag crash underreporting. Although, it is likely there is more underreporting in human crash data compared to AV crash data. The any-injury-reported benchmark does use an underreporting correction from Blincoe et al. (2023) based on multiple analyses of national crash police-report and insurance data and a national phone survey. It is not straightforward to compute confidence intervals on the any-injury-reported underreporting estimate because it is derived from multiple sources. There is also evidence that underreporting may differ between localities, meaning a national estimate may not fully represent underreporting in the cities Waymo operates in.
See Scanlon et al. (2024) and Kusano et al. (2024) for a more comprehensive discussion of the limitations of these results:
- Scanlon, J. M., Kusano, K. D., Fraade-Blanar, L. A., McMurry, T. L., Chen, Y. H., & Victor, T. (2024). Benchmarks for Retrospective Automated Driving System Crash Rate Analysis Using Police-Reported Crash Data. Traffic Injury Prevention, 25(sup1), S51-S65.
- Kusano, K. D., Scanlon, J. M., Chen, Y. H., McMurry, T. L., Chen, R., Gode, T., & Victor, T. (2024). Comparison of Waymo Rider-only crash data to human benchmarks at 7.1 million miles. Traffic Injury Prevention, 25(sup1), S66-S77.
常见问题解答
1. 这些结果是否可靠?
1.1. 安全影响结果是否对 Waymo 与人类驾驶进行了公平的“同类”比较?
1.1.1. 安全影响研究是如何设计和实施的?
虽然碰撞事故率的比较最终可以简化为 4 个简单的计数,即自动驾驶系统 (ADS) 的碰撞次数与行驶里程,以及对应的基准数据,但在研究设计和数据源选择方面,许多决策都会对最终结果产生影响。安全影响研究一直是车辆安全研究文献中广泛采用的评估手段,其应用历史悠久,可追溯至电子稳定控制系统和自动紧急制动系统等安全技术的进步。由于自动驾驶系统 (ADS) 需要承担全部动态驾驶任务,这带来了一些独特的挑战。因此,RAVE 核对清单应运而生,它汇集了关于 ADS 安全影响研究最佳实践的共识并正式发布。该核对清单目前正被制定为一项国际标准,其中详细阐述了开展 ADS 安全影响研究的最佳实践,正如安全影响数据中心所展示的那样。安全影响数据中心所采用的研究方法严格遵循 RAVE 核对清单的要求(有关该方法与 RAVE 核对清单要求的一致性评估,请参阅 Kusano 等人,2025 的在线附录)。
1.1.2. Waymo 是否报告了所有碰撞事故?
Waymo 的安全影响研究是基于美国国家公路交通安全管理局 (NHTSA) 常设通用命令 (SGO) 所要求的报告数据开展的。包括 Waymo 在内的所有自动驾驶系统 (ADS) 运营方(ADS 是用于指代 Waymo 等自动驾驶汽车运营方的专业术语)都必须严格遵守 SGO,并在规定的报告窗口期内上报所有符合要求的碰撞事故。如果 NHTSA 认为 ADS 运营方提交的 SGO 报告存在数据不一致的情况,其有权展开调查并采取纠正措施。SGO 的报告要求涵盖了仅造成轻微损坏的碰撞事故,这意味着其报告门槛更低(即纳入了更多轻微碰撞事故),比传统的警方报告和保险事故数据库更为严格。所有涉及人员受伤(无论伤情是否经证实)或安全气囊弹出的碰撞事故,都必须作为 SGO 的一部分进行报告,而这些结果也正是安全影响数据中心关注的重点。因此,鉴于 Waymo 车队严格的报告要求和运营政策,在数据中心所公布的结果中,几乎不可能遗漏任何已经发生的碰撞事故。作为参考,NHTSA 的研究报告(Blincoe 等人,2023)指出,在人类驾驶的车辆事故中,财产损失事故的漏报率高达 69.7%,而人身伤害事故的漏报率也达到了 31.9%。Waymo 的报告基于其性能卓越的传感器套件,能够捕捉并记录所有已知的碰撞事件,从而提供了更为详尽、完整的报告内容。
由于 Waymo 使用警方报告的数据来推导基准,因此在与基准进行比较时,仅纳入了那些 Waymo 车辆在碰撞中发生接触且被拖离现场的事故。在警方报告的数据中,如果在碰撞过程中车辆未发生直接接触,则不会被视为事故车辆计入碰撞数据。因此,如果在与基准事故率进行比较时,将 SGO 中报告的那些未与 Waymo 车辆发生接触的事故(尽管可能因被指控对事故有影响而被纳入 SGO 报告)也计算在内,就会导致 Waymo 的碰撞事故率相对于基准事故率被高估。与此类似,Waymo 车辆有时也会停在合规的停车位中,静候下一次为乘客提供服务。ADS 软件虽处于运行状态,但车辆已切换至泊车挡,并停放在合规的停车位中(包括有标记的停车位,或路边停车时距离路缘石 18 英寸以内的区域)。在警方报告数据中,此类停放车辆同样不计入事故车辆总数(停放车辆被视为固定物体)。
1.1.3. Waymo 数据与人类驾驶数据衡量的是否是相同的结果?
将自动驾驶系统 (ADS) 与人类驾驶的碰撞数据进行对齐,是确保碰撞事故率实现公平的“同类”对比的关键维度之一。而对齐数据的一个重要步骤,就是为“碰撞事故”制定一个统一且一致的定义。Waymo 的安全影响研究以过往的安全评估研究为出发点,精选出在 ADS 和人类驾驶数据源中均能被精准识别的碰撞结果。警方报告数据库是目前最常用、也最可靠的人类驾驶碰撞事故数据来源。并非所有人类驾驶发生的交通事故都会向警方报案,尤其是那些轻微事故。与仅造成少量财产损失的事故相比,导致安全气囊弹出或造成人员受伤(无论是重伤还是更严重的伤情,或任何程度的受伤)的更严重的事故与评估安全性更相关。
尽管我们认为,与造成少量财产损失的事故相比,造成严重伤害或更严重后果的事故、安全气囊展开即可及任何伤害报告的结果与评估安全性更相关,但我们仍然跟踪并报告这些轻微碰撞率,并将其与数据中心网站下载部分提供的基准进行比较(例如,任何财产损失或伤害以及警方报告的事故)。
1.1.4. 比较时是否考虑了不同的驾驶条件,例如天气状况?
Waymo 安全影响研究采用了多种方法,旨在使人类基准驾驶条件与 Waymo 的驾驶环境保持一致:(a) 使用 Waymo 运营所在县的人类驾驶数据;(b) 实施基于位置的动态基准调整。不同城市的驾驶环境各不相同,而且并非所有道路或驾驶条件都具有相同的风险水平。为了精准捕捉当地的碰撞风险,Waymo 的安全影响研究采用了由州政府维护的碰撞事故及 VMT 数据源,并将数据范围严格限定在 Waymo 目前运营的县。即使在同一个县内,人类驾驶员的碰撞事故率也会因行驶的具体区域而异。通常情况下,城市中人口较稠密的区域,其碰撞事故率往往高于人口稀疏的区域。为了体现这一影响,Waymo 的安全影响评估结果采用了动态基准调整,即根据 Waymo 服务在各区域的行驶里程,对人类驾驶基准进行比例加权(详见 Kusano 等人,2025 和 Chen 等人,可了解详情。通过将 Waymo 的驾驶表现与同一位置的基准驾驶数据进行对比,许多驾驶条件所带来的影响已在分析中被自然地纳入考量。我们的研究表明,事故率因地理位置而异,因此我们不建议使用全国平均基准来与 Waymo 的驾驶进行比较。
通过本地事故数据和动态调整,使基准事故率更好地与 Waymo 驾驶环境相匹配,可以解释许多(但并非所有)可能影响事故风险的因素。例如,Waymo 目前运营的城市并无明显降雪,因此 Waymo 的数据和人类驾驶基准数据中均未包含此类恶劣天气下的情况。Chen 等人 (2025) 的研究发现,时段对碰撞事故率有显著影响(深夜的碰撞事故率普遍高于白天)。在将基准数据与 Waymo 数据进行对齐时,若想进一步纳入更多考量因素,主要的瓶颈往往在于缺乏人类驾驶暴露量方面的相关数据。例如,用于进行动态基准调整的 VMT 数据是以年平均值的形式提供的,因此无法针对一天中的不同时段进行细化调整。我们正在积极探索其他数据来源,以期获取更多人类驾驶数据,从而进一步对齐基准数据和 Waymo 数据。
1.1.5. 为什么在设定基准时,要将 Waymo 运营区域内的所有人类驾驶员作为比较对象?
安全影响数据中心的研究结果,通过采用最佳实践来对齐 Waymo 与人类驾驶的碰撞数据,将 Waymo 的碰撞表现与目前在 Waymo 运营区域内行驶的人类驾驶车群进行了比较。通过这种比较,我们可以回答这样一个研究课题:“Waymo 的驾驶对交通现状有何影响?”。每当一项新的车辆技术(例如自动紧急制动、电子稳定控制系统)处于研发与部署阶段时,研究人员通常都会首先提出这类最基础的问题。这种现状比较表明了车辆技术在提高交通安全方面的潜力。
Waymo 的其他一些研究还调查了与其他人群的比较情况。例如,在过往研究以及我们用于考察避撞性能的前瞻性安全判定方法中,我们会直观地将 Waymo Driver 的表现与“状态良好且关注冲突点 (NIEON)”的人类驾驶员进行对比。要创建一个可用于比较碰撞事故率的基准版本,在方法论上存在挑战。这是因为我们很难获取“NIEON”状态下驾驶员的准确 VMT 来量化基准,其核心原因在于,人类驾驶员在驾驶过程中并非始终处于 NIEON 状态。在 Swiss Re 与 Waymo 合作开展的另一项研究中(目前正处于同行评审阶段),研究人员将 Waymo 的第三方保险索赔率与驾驶最新一代车辆的人类驾驶员的数据进行了对比。这代表了人类驾驶车辆中另一个性能更高的子集,因为最新一代的车辆通常具有改进的安全功能。
另一个可能具有启发意义的比较对象是其他驾驶群体,例如出租车或网约车司机。目前,尚无公开可用(且能进行独立验证)的数据源,可以像通用警方报告和公共 VMT 数据库那样,让我们针对这些特定总体在各种事故结果下的碰撞次数和 VMT 进行量化分析。另一个能体现更高期望值的基准,或许是“状态良好的驾驶员”基准。虽然这种对比很有参考价值,但它并不能用于评估对交通现状碰撞事故率的改善程度。与特定总体的事故率类似,要针对某个区域的危险驾驶导致的碰撞事故数量和危险驾驶 VMT 做出估算也并非易事。随着新数据源的不断涌现,这些研究领域虽然充满挑战,但对于推动进一步探索具有重要价值。
1.1.6. 为什么 Waymo 会在整个碰撞过程中取伤害程度的最大值?
衡量伤害结果的角度其实多种多样。我们不希望分析过于局限于 Waymo 车辆内部的乘员,因为这可能会漏掉 Waymo 在减少车外人员受伤事故方面所做出的安全贡献。因此,我们选择以“整起事故”为评估维度,考察在整个碰撞过程中,任何相关人员所遭受的最严重伤害。在汽车安全研究中,采用事故级别的最高伤害评分是通行做法,事实上,警方报告中通常直接将其设为一个专门的填写字段。
1.2. Waymo 的行驶里程是否足以得出令人信服的结论(即具备统计显著性)?
Waymo 的累计行驶里程(数亿英里)与 Waymo 运营所在城市数十亿英里的驾驶里程,甚至是全美每年数万亿英里的总里程相比,或许显得微不足道。然而,在比较两个总体的事故率时,您能从数据中得出的结论受限于所谓的统计功效。安全影响数据中心要回答的问题是:Waymo 的碰撞事故率与基准碰撞事故率是否存在差异?该计算的输入是 Waymo 和基准人群的事故数量和行驶里程数,并使用泊松分布进行建模,泊松分布是处理计数数据最常用的分布。
这个问题的一个例子是统计有多少学生没有通过考试。以某个学区为例,假设有 1,000 名学生参加同一场考试,其中 300 人未能及格(即每 10 名考生中有 3 人不及格)。我们可以提出这样一个问题:一个由 20 名学生组成的 A 班,其考试表现是否与学生总体有所不同(请注意,为了简化这个示例,我们假设考试及格与否与是否在 A 班无关)。假设 A 班有 20 名学生,其中 10 人没及格(相当于每 10 名考生中就有 5 人不及格)。A 班的考试未通过率是整个学区平均水平的两倍。然而,当我们采用泊松置信区间进行分析时,在 95% 的置信水平下,这个 20 人班级的考试未通过率与整个学区的平均水平相比,在统计学上并没有显著差异。如果我们转而将 A 班与全州 10 万名学生进行比较(假设未通过率相同,即每 10 名考生中有 3 人未通过,全州共 3 万人未通过),那么这种比较得出的 95% 置信区间,与之前同县级规模(1,000 名考生中 300 人未通过)进行比较的结果几乎完全一致。这意味着,对于这项比较而言,A 班(仅有 20 名学生)由于样本量较小,其观察结果所包含的不确定性要远高于较大总体的不确定性。再看另一个 B 班,20 名学生中只有 1 人不及格(即每 10 名考生中仅有 0.5 人不及格)。在应用 95% 的置信区间后,这个 B 班确实表现出了与全县平均水平存在统计学差异的通过率(与全州水平相比也是如此)。这个例子表明,当比较两个群体中事件的发生率时,其中一个群体比另一个群体大得多(以参加考试的人数或行驶里程来衡量),影响统计显著性的两个因素是:(a)较小群体中的观察次数(观察次数越多,越早出现显著性);(b)发生率的差异越大(差异越大,越早出现显著性)。
现在考虑用 Waymo 数据做另一个实验。请看下图。该图将 Waymo 车辆在各类交通事故中安全气囊展开的次数 (34) 以及 VMT(7,110 万英里)设为恒定值,同时假设人类基准总体的行驶里程处于不同的数量级(基准事故率为每百万英里 1.649 起,行驶里程为 178 亿英里)。点估计值表明,Waymo 的事故发生率比基准低 71%。置信区间(有时也称为误差条)反映了在 95% 置信水平下,这种降幅所包含的不确定性(95% 置信度是大多数统计检验的通用标准)。如果误差条没有跨越 0% 刻度,就意味着从统计学角度来看,我们有 95% 的把握确定该结果并非偶然,这也就是我们所说的统计显著性。这一“模拟”展示了在改变基准总体的 VMT 时,对统计显著性产生的影响。即使基准总体的行驶里程少于 Waymo 总体(1,000 万英里),这种比较在统计学上依然具有显著意义。此外,只要人类驾驶基准的行驶里程超过 1 亿英里,两者在比较的置信区间中就几乎没有明显差异。这意味着,从统计学角度来看,同美国大城市驾驶数据(数十亿英里)进行对比,与同全美全年驾驶数据(数万亿英里)进行对比,其实并无二致。正如学校考试的例子所说明的,Waymo 的行驶里程已足够多(达数千万至数亿英里),且事故降幅足够大(达 70%-90%),这使得结果已具备统计显著性。
1.3. 你们的研究方法是否经过了同行评审或外部验证?
本分析利用了以下文献中介绍的方法和人工基准: Scanlon 等人(2024 年) Kusano 等人(2024 年),以及Kusano 等人(2025)
这些研究论文已发表在同行评审的科学期刊上。
引用
Scanlon, J. M., Kusano, K. D., Fraade-Blanar, L. A., McMurry, T. L., Chen, Y. H., & Victor, T. (2024). 使用警方报告的碰撞数据对自动驾驶系统碰撞事故率进行回顾性分析的基准 (Benchmarks for Retrospective Automated Driving System Crash Rate Analysis Using Police-Reported Crash Data).交通伤害预防,25(增刊 1),S51-S65。
Kusano, K. D., Scanlon, J. M., Chen, Y. H., McMurry, T. L., Chen, R., Gode, T., & Victor, T. (2024). 710 万英里行驶里程内 Waymo 无人驾驶碰撞数据与人类驾驶基准的比较 (Comparison of Waymo Rider-only crash data to human benchmarks at 7.1 million miles).交通伤害预防,25(增刊 1),S66-S77。
Kusano, K. D., Scanlon, J. M., Chen, Y. H., McMurry, T. L., Gode, T., & Victor, T. (2025). 5,670 万英里行驶里程内按碰撞事故类型进行的 Waymo 无人驾驶碰撞事故率与人类驾驶基准的比较 (Comparison of Waymo Rider-Only Crash Rates by Crash Type to Human Benchmarks at 56.7 Million Miles).交通伤害预防,26(增刊 1),S8-S20。 https://doi.org/10.1080/15389588.2025.2499887 。
同行评审,即研究论文提交给期刊,由该研究领域的专家匿名研究人员进行评审,并提出改进建议。同行评审流程一直被视为研究发表领域的“黄金标准”。此过程要求对研究进行足够充分的描述,以便能够重现结果,并确保研究结论有相应的结果作为支撑。安全影响数据中心所用的方法与同行评审论文中所用的方法相同,这在一定程度上保证了研究方法的透明度。遵循学术出版的惯例,我们通常会在文章接受同行评审期间发布预印本。这不仅是行业目前的最佳实践,更旨在及早分享我们的研究成果,并诚邀科学界同仁提出宝贵意见。
1.4. 研究人员是否可以获取原始数据?
可以,利用公开数据即可重现数据中心发布的研究结果。正如我们在问题 1.1.2 中所述,Waymo 的所有碰撞事故统计均源自根据美国国家公路交通安全管理局 (NHTSA) 常设通用命令 (SGO) 报告的事件。此外,数据中心生成所有统计数据时所用的原始数据均可通过 CSV 文件下载获取,以便任何研究人员或其他第三方重现并验证这些结果。其中包括各位置的行驶里程 (CSV1)、分析中包含的每个 SGO 案例的识别信息和结果类别 (CSV2)、按地点、结果和碰撞事故类型汇总的与基准碰撞事故率的对比数据 (CSV3),以及用于动态位置调整的城市各地理区域行驶里程 (CSV4)。数据中心采用的方法均基于经过同行评审且可开放获取的论文(引用来源请参阅问题 1.3)。
1.5. 为什么研究结果要以“每英里事故车辆率”来衡量?
事故车辆率(或称车辆级事故率)的计算方法是:统计在特定结果等级下涉及的事故车辆数量,然后除以总体车辆行驶里程 (VMT)。对于 Waymo 碰撞事故,事故车辆率的计算方法是:将发生特定结果等级的 Waymo 碰撞事故车辆数量,除以 Waymo 车辆在无人驾驶状态下的总行驶里程。对于基准比率,其计算方式是:将警方报告数据中涉及特定结果的事故车辆数量,除以总体 VMT。
此外,我们还提供另一个衡量指标:碰撞级事故率(即每总体 VMT 的碰撞次数)。为了说明为什么将“碰撞级”基准与自动驾驶系统 (ADS) 车队的“车辆级”事故率进行比较会产生单位不匹配,并且可能导致错误的结论,我们可以看一个简单且直观的假设示例。假设有一个基准总体,其中包含两辆车,它们各自行驶了 100 英里,随后两车相撞(即:2 辆事故车辆,1 起碰撞事故,总体 VMT 为 200 英里)。碰撞级事故率是每 100 英里 0.5 起碰撞(即每 200 英里 1 起),而车辆级事故率则是每 100 英里 1 辆事故车辆(即每 200 英里 2 辆)。这与从警方事故报告数据中推导基准的方法类似:在这些报告中,平均每起碰撞事故涉及 1.8 辆车;而 VMT 数据则是基于所有车辆估算出的总行驶里程。现在,我们假设存在第二组 ADS 总体,其中仅包含 1 辆车,该车同样在行驶 100 英里后,与一辆不属于该总体的车辆发生了碰撞。这种情况与 ADS 车队收集数据的方式非常相似。系统会记录 ADS 车队的 VMT,以及涉及 ADS 车辆的碰撞事故。对于 ADS 车队而言,其事故车辆率(车辆级)为每行驶 100 英里有 1 辆事故车辆。如果分析错误地将“碰撞级”基准事故率(每 100 英里 0.5 起碰撞)与 ADS“车辆级”事故率(每 100 英里 1 辆事故车辆)进行比较,就会得出 ADS 车队的事故率比基准高出 2 倍的错误结论。事实上,在这个例子中,ADS 的事故率(每 100 英里发生 1 起事故)与基准事故率(即车辆驾驶员每行驶 100 英里发生 1 起事故)并无不同。
使用汇总统计数据时,很容易犯将事故发生率与车辆发生率进行比较的错误,因为研究机构提供的汇总统计数据通常列出的是事故数量,而不是事故中涉及的车辆数量。例如,Scanlon 等人 (2024) 的研究指出,2022 年全美警方报告的碰撞事故为 5,930,496 起,共涉及 10,528,849 辆事故车辆。2022 年,全美 VMT 达到了 3.2 万亿英里。这意味着,美国每百万英里的碰撞级事故率为 1.9 次,而车辆级事故率则为每百万英里 3.3 辆事故车辆。
交通安全领域另一个常用的衡量指标是每 VMT 的受伤人数(即“人员级事故率”)。作为衡量交通事故影响的总体级指标,人员级事故率确实有其价值。然而在比较不同总体时(如在安全影响数据中心所做的分析),由于存在一些实际操作和解读层面的挑战,人员级事故率并不是一个理想的衡量指标。对于在混合交通中运行的 ADS 车队,即使碰撞事故参与率保持不变,随着车队规模(或渗透率)的增加,人员级事故率也会呈现下降趋势。由于碰撞事故往往涉及多辆车,车队规模越大,多辆 ADS 车辆同时卷入同一场事故的可能性就越高,这反而会降低人员级事故率(因为卷入事故的总人数没变,但 VMT 增加了)。这意味着,在测试初期,即便 ADS 车队涉及的碰撞事故数量与基准总体相当,其人员级事故率看起来仍会高于基准。为了修正这种偏差,我们可以计算“人员级比例事故率”,其定义为:将特定结果的事故中涉及的总人数除以该事故中的车辆数。这一人员级比例事故率虽然解决了多辆车带来的偏差,但在结果解读方面又会产生另一种偏差。这种人员级比例事故率在权重分配上,相比于涉及多辆车的事故,会更侧重于涉及车辆较少的事故。此外,还存在一个实际操作上的限制:作为 ADS 碰撞事故最全面的数据来源,NHTSA 常设通用命令 (SGO) 仅报告事故中的最高受伤严重程度,而未记录特定严重程度下的受伤人数。因此,目前尚无法根据 SGO 数据计算出人员级事故率。这一限制同样存在于一些州级碰撞事故数据库中,因为这些数据库仅记录事故的最严重程度。由于解读过程中可能存在偏差以及报告方面的局限性,在比较 ADS 与基准的碰撞事故率时,车辆级事故率是比人员级事故率更理想的选择。
1.6. “每英里碰撞次数”与“碰撞间隔里程数”有何区别?
从数学上讲,“每英里碰撞次数”与“碰撞间隔里程数”互为倒数(也就是说,要在两者之间进行换算,只需用 1 除以当前的比率即可)。不过,正如 RAVE 核对清单建议中所述,出于一些重要原因,碰撞事故率应当以“每英里碰撞次数”来表示。这是因为“每英里碰撞次数”这一指标与事件数量呈线性关系,而其倒数“碰撞间隔里程数”则呈非线性关系。这种非线性关系增加了比较事故率变化的难度。其他测量中也发现了类似的困难,例如车辆燃油效率(每加仑行驶里程与每百英里行驶加仑数)。
如前所述RAVE 清单: “考虑一下,某款自动驾驶汽车的事故发生率是每行驶 100 万英里发生一次事故,而基准事故发生率为每行驶 75 万英里发生一次事故。假设另一个 ADS 的每起事故行驶里程为 50 万英里,而基准值为 25 万英里。在这两种情况下,碰撞间隔里程的差值均为 25 万英里,这给人一种性能差异相近的错觉。与此形成鲜明对比的是,前一组对比显示 ADS 将每英里碰撞事故数降低了 25%(1 IPMM 对比 1.33 IPMM),而后者则将每英里碰撞事故数大幅降低了 50%(2 IPMM 对比 4 IPMM)。由于“每单位暴露量的事故率”与事件数量呈线性正相关,而“每起事故的暴露单位率”则呈非线性关系,因此人们往往难以直观地察觉到,后者的相对比率其实更难以进行比较。”
Figure 2 from RAVE checklist
2. 这些结果意味着什么?
2.1. 这些安全影响结果说明了什么?
2.1.1. 这些数据是否说明 Waymo Driver 比人类驾驶更安全?
研究显示,在 Waymo Driver 运营的相同地理区域内,以每英里行驶里程中特定结果的交通事故数量来衡量,Waymo Driver 的安全性均优于人类驾驶员的整体水平。该研究重点在于将 Waymo Driver 的安全表现与同一地理区域内的整个人类驾驶车群进行对比。人类驾驶员的碰撞事故率可以被理解为该区域驾驶环境的“现状”。在安全影响分析中,我们通过这种对比来评估,相较于交通现状,引入 Waymo 技术究竟能带来多大的成效。
人类驾驶员的整体碰撞事故率已成为一种常态,而我们之所以能清晰地观察到这一现状,归功于美国乃至全球大部分地区长期以来近乎普遍采用的数据报告惯例。在分析特定地理区域内整个驾驶员群体所面临的年同比趋势和系统性挑战方面,行业内已有深厚的历史积淀和先例可循。虽然碰撞事故数据能让我们深入了解不同子集(例如车辆类型或驾驶员醉酒等因素)的情况,但相应的 VMT 数据通常缺乏这种精细度,让我们难以进行更深入的分析。例如,若要针对驾驶员醉酒等因素进行碰撞事故率的对比分析,您必须掌握或估算出醉酒驾驶员的 VMT 数据。相比之下,针对特定驾驶员群体进行全面的事故风险分析,目前所投入的研究精力还远远不够。
2.1.2. 安全影响结果是否意味着 Waymo 已经“足够安全”?
虽然统计学上的显著减少意味着安全效益(即碰撞事故更少),但关于“足够安全”的论证,是在 ADS 配置发布之前,通过 Waymo 的安全框架和安全论证完成的。安全影响研究的目的,并不在于为自动驾驶系统设定一个所谓“合理”的安全标准。Waymo 依靠其安全框架,严格遵循针对特定软件发布候选版本的 审批指南,来评定其是否已具备安全就绪条件。此外,我们还会通过“安全论证”对该流程的合理性进行独立分析。安全论证是一种正式的论证方式,旨在阐明 ADS 开发商如何判定其系统已具备足够的安全性,从而能够在无需人类驾驶员的情况下部署于公共道路。安全论证中包含了相关证据,用以正式判定系统不存在不合理风险。它涵盖了对系统的详细说明、用于验证系统的各项方法与指标,以及验证测试的真实结果。反之,安全影响数据中心提供的回顾性证据,则在部署后为安全框架和安全论证发挥了验证作用。这种对安全框架和安全论证流程信心的持续积累,也让我们深信,随着 Waymo 业务拓展至更多新区域,这些流程同样能带来显著的安全成效。
2.1.3. Waymo 在历代软硬件版本更迭中的安全表现有何不同?
绝大多数安全影响研究均采用了 Waymo 迄今为止累计的所有“无人驾驶”(RO) 里程中的碰撞数据。随着时间的推移,Waymo 的行驶里程实现了大幅增长,这使得近期数据在 Waymo 总行驶里程中所占的比例超过早期里程。与“为什么不将 Waymo 无人驾驶与基准碰撞事故率的比较细分为更多类别?”这一常见问题解答类似,将驾驶里程切分为更小的片段会削弱分析的统计功效,这是在其他安全关键领域中普遍存在的局限性。
在对过去的安全系统进行安全影响研究时,将多个软件版本甚至不同制造商的数据进行整合,是行业内的通行做法。例如,在公路安全保险协会与 PARTS 联盟开展的研究中,通常会针对自动紧急制动或车道偏离预防等技术,将多家制造商的数据汇总在一起,从而评估某项技术的整体影响。与此类似,Waymo 的安全影响研究也展现了 Waymo Driver 所带来的全方位影响。随着行驶里程的增加,我们有机会在较短的时间段内研究 Waymo 的安全影响。
Waymo 的安全影响研究旨在回答以下研究问题:“与当前人类驾驶车辆的碰撞率(现状)相比,Waymo 的安全影响是什么?” 另一个稍有不同但同样重要的问题是:“Waymo 如何确信新发布的软硬件版本是安全的?”为了回答这第二个问题,Waymo 专门制定了一套安全框架和安全论证方法。简而言之,我们会对照验收标准,运用涵盖车辆架构、驾驶行为及运营层面的系列方法,对每一个新候选配置下的 Waymo 表现进行全面评估。
2.1.4. Waymo 对致命事故的减少有何贡献?
Waymo 已发布了一系列广泛的基准数据,其中包括致命事故参与率,这些基准将用于未来的评估工作。目前,Waymo 的 VMT 尚不足以在我们运营的区域内检测到具有统计显著性的数据,因此在现有的报告中,我们并未将“仅涉及死亡”这一类别单独列出。Waymo Driver 的设计中包含了针对性地缓解或消除导致致命碰撞的主要诱因。根据 NHTSA 的最新数据,这些诱因包括:超速、危险驾驶、分心驾驶以及乘客未系安全带。“重伤或更严重”这一类别既包括重伤,也包括死亡。所有其他碰撞事故结果类别也同样包含死亡事故。
Waymo 的做法始终如一:(a) 主动公开基准数据、研究方法和预期的分析视角;(b) 当先前的功效分析显示具备统计显著性的潜力时,基于这些既定基准进行评估;(c) 在我们的数据中心和科学出版物中公开发布研究结果。
正如汽车安全史上许多安全创新所经历的那样,在自动驾驶技术大规模部署并积累海量行驶里程之前,我们依然有其他方法可以预见其巨大的安全潜力。例如,我们的研究通过对亚利桑那州钱德勒市涉及人类驾驶员的致命事故进行场景重构发现:当 Waymo Driver 是事故发起方时,它成功避免了 100% 的模拟致命事故;即使作为事故响应方,它也成功化解了 82% 的碰撞。将这类研究与 Waymo 的安全就绪判定流程相结合,足以证明 Waymo Driver 在减少重伤及致命伤方面蕴藏着巨大的潜力。
2.1.5. “重伤或更严重”碰撞事故率与“任何致命”碰撞事故率之间有什么区别?
在汽车安全研究领域,研究人员通常会将达到或超过特定严重程度的伤害作为重点研究对象。在我们的分析中,“重伤或更严重”这一类别涵盖了疑似重伤(即美国警方报告所采用的 KABCO 量表中的“A”级,指导致丧失行动能力的受伤)以及致命伤(即 KABCO 量表中的“K”级)。Waymo 已发布了包含“K”级事故(即 任何致命事故)在内的基准数据,并将其作为一个单独的类别。目前,安全影响数据中心尚未纳入这一结果,但我们计划在未来将其添加在内。
如果我们只关注“重伤”(仅限 A 级伤情),可能会引入一种排除性偏差。举例来说,如果测试的某个系统只导致了死亡结果,而极少产生疑似重伤结果,那么由于“致命”伤害未被计入统计,就可能让人误以为该系统比实际情况要安全得多。通过引入“达到或超过”这一限定条件,我们便能有效规避这种潜在的逻辑谬误。
2.2. 在安全影响研究中,是否还有其他未被纳入考量的因素,可能会影响对结果的解读?
2.2.1. 如果 Waymo 偶尔仍需人工远程协助,它还能算作真正的“自动驾驶”吗?
2.2.2. 自动驾驶汽车能否应对人类驾驶员一生中会遇到的所有挑战性场景?
如今,Waymo Driver 每周的行驶里程已达数百万英里。若将道路实测里程与模拟驾驶里程结合来看,Waymo Driver 已经累积了相当于人类驾驶数百辈子的驾驶经验。在如此庞大的行驶规模下,许多棘手的突发状况,比如行人突然从停放的车辆后窜出,或是其他车辆闯红灯,都会经常发生。如果 Waymo 驾驶员无法应对人类一生中遇到的许多挑战性情况,那么 Waymo 的事故率就不会比人类驾驶员低那么多。
Waymo 依靠其安全框架,严格遵循针对特定软件发布候选版本的 审批指南,来评定其是否已具备安全就绪条件。此外,我们还会通过“安全论证”对该流程的合理性进行独立分析。安全论证是一种正式的论证方式,旨在阐明 ADS 开发商如何判定其系统已具备足够的安全性,从而能够在无需人类驾驶员的情况下部署于公共道路。安全论证中包含了相关证据,用以正式判定系统不存在不合理风险。它涵盖了对系统的详细解读、用于验证系统的各项方法与指标,以及验证测试的真实结果。
2.2.3. 如果 Waymo 车辆在接送乘客的间隙行驶(即“空车行驶”),由于车内没有驾驶员,也就意味着车内不存在受伤风险,这难道不是一种安全优势吗?
Waymo 的安全影响研究结果显示,与目前人类驾驶车辆的现状相比,Waymo 在每单位行驶里程中导致的致伤碰撞事故更少。这种安全优势的部分原因在于,Waymo 车辆有时是空载的(例如,车辆在往返车库充电,或在接送乘客的间隙行驶)。需要强调的是,Waymo 安全影响研究所考察的指标涵盖了碰撞过程中任何人员的受伤情况,无论该人员当时是否在 Waymo 车辆内。这包括行人、骑行者等道路弱势群体,以及事故中其他车辆的乘员。因此,即便 Waymo 车辆有时处于空载状态确实会带来一些“安全红利”,但仅凭这一点,恐怕不足以解释 Waymo 为何能如此大幅地降低致伤事故率。毕竟,即便车辆始终空载,也仍有可能发生事故并导致车外人员受伤。其他分析结果(例如安全气囊展开指标)则不受 Waymo 车辆是否载客的影响。因为无论 Waymo 车辆内是否载有乘客,其安全气囊在发生碰撞时都会正常触发。与基准数据相比,安全气囊弹出率的降幅与致伤事故的降幅整体一致,这进一步增强了我们的信心:所观测到的安全效益并非高度依赖于 Waymo 车辆的载客情况。
2.2.4. 你们针对哪些场景考察了 Waymo Driver 的安全表现?
将 Waymo 与人类驾驶的碰撞事故及行驶数据进行对齐,是确保碰撞事故率比较实现公平的“同类”对比的关键因素之一(如需了解对齐的更多细节,请参阅问题 1.1)。
在早期的研究中,我们主要聚焦于三个核心维度,并相信这些维度能为安全评估提供具有参考价值的信息。
碰撞严重程度 - 建立从警方报告到致命事故的多个等级。
碰撞事故类型(见下图) - 我们选取的分类体系基于 NHTSA 的既往研究,旨在重点分析最具挑战性的驾驶场景。
道路类型 - 我们将碰撞事故率按城市街道和高速公路进行了细分。目前,我们在高速公路上的行驶里程还比较有限,因此现阶段主要专注于城市街道。不过,我们计划在未来的出版物中对这两类道路进行区分,VMT 积累到足以进行统计学比较时,我们将落实这一规划。
我们正致力于不断拓宽评估 Waymo Driver 的分析维度。然而,我们通常会受到现有的人类驾驶碰撞事故数据完整性的限制。Waymo 始终坚持以公开的碰撞事故和行驶里程数据为研究依据。在这些公开数据中,关于每起人类驾驶碰撞事故的具体细节信息相对有限。相比之下,Waymo 的数据非常丰富,因为我们不仅能持续监测 VMT,还能凭借全方位的传感器阵列精准记录每一次碰撞事故。为了进一步拓展分析维度,我们正不断探索如何利用信息更丰富、更精细的新数据源,并期待与更广泛的社区合作,通过共享分析成果和数据,共同推动这项研究深入开展。
2.2.5. 安全影响分析是否考虑了自动驾驶汽车在道路上意外停车所带来的潜在风险?
所有涉及以“无人驾驶”(RO) 配置运营的 Waymo 车辆的碰撞事故,均已纳入安全影响分析。因此,Waymo 车辆在道路上停车后,其他车辆随后撞上该停止车辆的碰撞风险,也已纳入安全影响分析的范畴。这类涉及静止车辆的碰撞事故,也同样被纳入了人类驾驶基准的统计范围。
2.2.6. 为什么不分享这些碰撞事故的责任判定信息?
这项分析涵盖了所有碰撞事故,无论事故责任归属于哪一方,也无论 Waymo 是否负有责任。而且,判定谁是造成碰撞的责任方或过失方,本质上属于法律裁决的范畴。不过,Swiss Re 最近牵头开展的一项同行评审研究表明,在超过 380 万英里的行驶里程中,与人类驾驶员相比,Waymo Driver 将财产损失保险索赔频率降低了 76%,并且完全消除了人身伤害索赔。引用:Di Lillo, L.,
引用
迪利洛,L. Gode, T., Zhou, X., Atzei, M., Chen, R., & Victor, T. (2024). 自动驾驶系统与人类驾驶员的安全性能比较:基于 Waymo Driver 真实应用场景的案例研究 (Comparative safety performance of autonomous-and human drivers: A real-world case study of the Waymo Driver). Heliyon,10(14)。 https://doi.org/10.1016/j.heliyon.2024.e34379
随后一项使用保险索赔数据的研究(目前正在接受同行评审)发现,与人类驾驶超过 2500 万英里相比,Waymo RO 服务同样实现了大幅减少事故。除了整体的人类驾驶基准外,这项新研究还引入了“新车型”车辆基准。与整体车辆相比,最新车型(定义为 2018 年至 2021 年款)的财产损失和人身伤害索赔率更低。与整体车辆的人类驾驶数据相比,Waymo 的财产损失索赔减少了 88%,人身伤害索赔减少了 92%;而与最新车型的人类驾驶数据相比,Waymo 的财产损失索赔和人身伤害索赔也分别减少了 86% 和 90%。所有这些差异都具有统计学意义。
引用
迪利洛,L. Gode, T., Zhou, X., Chen, R., & Victor, T. (2024). 自动驾驶汽车的性能是否优于最新一代的人类驾驶汽车?Waymo 行驶 2500 万英里时的汽车责任险索赔情况对比 (Do Autonomous Vehicles Outperform Latest-Generation Human-Driven Vehicles? A Comparison to Waymo’s Auto Liability Insurance Claims at 25 Million Miles).
2.3. Waymo 如何融入更广泛的道路安全生态?
2.3.1. 为什么不等到技术完全成熟后,再扩大自动驾驶汽车的部署范围?
交通安全是一项公共卫生议题,《2030年可持续发展议程》为此设定了一个宏伟目标:到 2030 年,将全球道路交通死亡和受伤人数减少 50%。RAND Corporation 的一项研究在多种假设条件下对自动驾驶系统 (ADS) 的部署进行了建模。这些假设包括:部署碰撞事故率仅略低于人类驾驶员的系统,或者等待数年再部署碰撞事故率远低于人类驾驶员的系统。研究结果表明,越早部署,可以避免的伤害就越多。
Waymo 制定了一套安全框架和安全论证方法,其首要目标是部署一个“无人驾驶”(RO) 系统,以实现“无不合理风险”(AUR)。为了实现这一安全论证目标,我们从多个维度对系统可能存在的危险进行分解,设定验收标准,并在部署前对各项声明和证据进行全面评估。此流程旨在确保 Waymo Driver 在正式部署前已达到可接受的安全水平。
2.3.2. 自动驾驶汽车可能比人类驾驶员更安全,但我们难道不应该把精力放在其他现有解决方案上吗?
在应对交通安全危机时,我们不必局限于某一种技术创新与政策举措。自动驾驶汽车,例如 Waymo Driver,是改善交通安全现状的众多有力工具之一。Waymo 始终致力于践行“安全系统”方法和“零伤亡愿景”,通过全方位改进,着力打造更安全的道路、更安全的车速、更安全的车辆、更安全的道路使用者以及更完善的事故后护理。许多安全提升措施(如投资建设更安全的道路、设定安全限速、执行现有交通法规、提高安全带使用率、减少危险驾驶行为等)在改善整体环境的同时,也将让乘坐 Waymo 变得更加安全。Waymo 与业内大多数公司一样,是一家私人投资公司。我们作为一个社会,可以在不影响其他安全改进措施的前提下,支持自动驾驶汽车的普及。
与其他安全技术相比,自动驾驶汽车具有独特的优势,因为它对安全的影响比人类驾驶要大得多。例如,自动紧急制动系统能将追尾碰撞(这类事故仅占所有交通事故的四分之一左右)减少约 50%。相比之下,在所有碰撞模式中,Waymo Driver 将导致伤亡报告的事故减少了约 80%。这涵盖了交叉路口碰撞以及涉及弱势道路使用者 (VRU) 的碰撞,而目前的主动安全技术在这些场景下尚未能显著降低事故率。
2.3.3. 自动驾驶车辆如何契合“安全系统”方法?
“安全系统”方法源于全球发起的“零伤亡愿景”运动,它是一套系统性的方案,致力于彻底消除道路交通系统中的重伤与死亡事故。Waymo 自动驾驶车辆是“安全系统”工具包中不可或缺的利器,因为其设计初衷便是践行“零伤亡愿景”原则。Waymo 要求所有乘客都必须系好安全带。Waymo 的设计原则是严格遵守限速规定,并采用配备了最新被动安全功能的车辆。
2.4. 那么共享数据本身呢?
2.4.1. 数据多久更新一次?
在此项分析中,我们使用了公开数据。具体而言,是 Waymo 根据 NHTSA 的常设通用命令 (SGO) 提交的事故报告,以便其他研究人员能够复现这些结果。本网页上显示的数据会根据 NHTSA SGO 报告时间表进行持续更新。
除了发布新数据外,我们可能会更新用于比较 Waymo RO(仅限骑手)服务和人类基准的方法。回顾性安全影响评估的最佳实践是一门不断发展的科学。每当我们对研究方法做出调整时,我们都会主动沟通这些变化,并说明其对数据结果及解读产生的影响。如需了解更多详细信息,请参阅“下载”部分提供的版本说明文档。
2.4.2. 为什么 Waymo SGO 数据下载内容中包含了碰撞事故日期、地点和邮政编码?
这些信息对于深入分析和理解碰撞事故至关重要,而 NHTSA SGO 中并未包含这些数据。2025 年 6 月之后的数据不包含邮政编码,因为该字段已从 NHTSA SGO 报告表单中移除(请参阅 SGO 修正条款 3)。2025 年 9 月,邮政编码字段被重新添加回 SGO 报告表单中。在 9 月之后报告的 SGO 事件中,数据下载文件已恢复提供邮政编码信息。
Download Data
Miles per Geo
截至 2025 年 12 月,各地点行驶总里程数
Download CSVCrashes with SGO identifier and group membership
截至 2025 年 12 月,事故案例列表(包含结果分组和其他相关碰撞信息)
Download CSVCollision count and comparisons to benchmarks by outcome and location
按结果和地点汇总(截至 2025 年 12 月)
Download CSVGeographic distribution of benchmark and Waymo RO miles
截至 2025 年 12 月,S2 cell 报告的人类基准事故数量(针对不同结果级别)、人类车辆行驶里程 (VMT) 和 Waymo RO 里程。这些信息可用于重现动态基准调整。
Download CSVRelease Notes
A description of changes to the data and methodologies used on the data hub, links to historical data, and data dictionaries.
Download PDF