首页 > 生活讲堂

基于ais数据的船舶航行轨迹预测

更新时间:2023-11-25 09:14:37 阅读：评论：0

招待不周后面该说什么-堡垒的意思

2023年11月25日发(作者：分析原因)

摘要

在经济快速发展的情况下，航运业迎来了巨大的变化，船舶数量不断地增长，由此

产生了很多航运密切的区域。船舶数量的激增虽然带来了海上贸易的繁荣，但容易产生

水上交通安全问题：航线负担过重，航道更加拥挤，由于船舶自身问题和人为因素产生

的事故时有发生，对船员和乘客的生命财产安全造成巨大的威胁。因此，对船舶必须进

行有效的监控，及时发现船舶的异常行为，降低水上交通事故的风险。另一方面，海运

是国际贸易最主要的形式，在经济发展中占有重要的地位。贸易的类型与航线息息相关，

通过对航线轨迹变化的分析能够了解航运物流的变化，有利于对国际贸易的未来格局和

发展变化进行更深入的理解。

预知船舶航行的动态是船舶异常行为分析和轨迹变化分析的基础性工作，对船舶轨

迹进行精准的预测不仅能够及时发现异常轨迹，有利于海上交通监管，还能从船舶航行

的角度了解国际贸易的发展变化，是航运交通智能服务的关键技术之一。研究船舶航行

轨迹预测最好能够获取船舶的历史轨迹数据，通过对历史数据的挖掘提取船舶重要的航

行特征，发现船舶航行的规律，能够有效提高预测的准确性。

随着AIS系统的应用和推广，船舶轨迹数据的可获得性提高，与船舶轨迹数据挖掘

的研究层出不穷，为船舶轨迹预测的研究提供了基础性的条件。本文的主要工作如下：

以大量船舶的历史AIS数据为基础，首先进行数据恢复和数据异常处理工作，最大程度

上还原原始轨迹数据；在此基础上，使用轨迹分段和区域划分的两种轨迹聚类算法，从

离散的原始AIS数据中得到船舶航线轨迹数据集；接着以航线轨迹数据为基础，使用多

种算法对轨迹预测进行建模，并以珠江三角洲的航线数据为基础对预测算法进行验证，

结果表明基于朴素贝叶斯的预测算法在船舶轨迹预测问题上具有高达90%以上的预测

准确率。

关键词：船舶轨迹数据；数据预处理；轨迹聚类；航行轨迹预测；

Abstract

With the rapid development of economy, the shipping industry has been developing

rapidly, and the number of ships has been increasing. The surge in the number of vesls at

a has brought prosperity of trade, but it is easy to cau the problem of water traffic safety:

route burden, channel congestion caud by the ship's own problems and human factors in the

accident, the crew and pasngers of the life and property safety threat. Therefore, it is

necessary to carry out effective monitoring on the ship, find out the abnormal behavior of the

ship in time, and reduce the risk of water traffic accidents. On the other hand, shipping is the

most important form of international trade, which plays an important role in economic

第一章绪论 .............................................................................................................................. 1

1.1 研究背景 ..................................................................................................................... 1

1.2 研究现状 ..................................................................................................................... 1

1.2.1 数据恢复 .......................................................................................................... 2

1.2.2 轨迹聚类 .......................................................................................................... 2

1.2.3船舶航行轨迹预测 .......................................................................................... 4

1.3 研究内容 ..................................................................................................................... 6

1.4 技术路线 ..................................................................................................................... 7

1.5 论文结构安排 ............................................................................................................. 8

第二章相关理论基础 ............................................................................................................ 10

2.1船舶航行轨迹预测 .................................................................................................... 10

2.2轨迹相似性度量 ........................................................................................................ 10

2.3 总结 ........................................................................................................................... 12

第三章 AIS数据采集及预处理 ............................................................................................ 13

3.1 数据采集 ................................................................................................................... 13

3.2 船舶航线轨迹数据提取 ........................................................................................... 14

3.2.1 基于船舶航行状态的航线轨迹数据提取 .................................................... 14

3.2.2 基于船舶航速和采集时间间隔的轨迹数据提取 ........................................ 15

3.2.3 航线轨迹数据样例 ........................................................................................ 16

3.3 缺失值处理 ............................................................................................................... 17

3.3.1 问题描述 ........................................................................................................ 17

3.3.2 缺失值识别 .................................................................................................... 17

3.3.3 缺失值插补方法 ............................................................................................ 18

3.3.4 缺失数据插补 ................................................................................................ 20

3.3.5 数据实验 ........................................................................................................ 21

3.4 异常数据处理 ........................................................................................................... 24

3.5 总结 ........................................................................................................................... 25

第四章基于AIS数据的船舶航线聚类 ............................................................................... 27

III

4.1 航线聚类定义与描述 ............................................................................................... 27

4.2 航线聚类算法 ........................................................................................................... 27

4.2.1 基于轨迹分段的航线聚类算法 .................................................................... 28

4.2.2 基于航行区域相似度的航线聚类算法 ........................................................ 40

4.3 轨迹聚类结果评价指标 ........................................................................................... 45

4.4 数据实验 ................................................................................................................... 46

4.4.1 实验数据 ........................................................................................................ 46

4.4.2 模型参数设置 ................................................................................................ 46

4.4.3实验结果 ......................................................................................................... 48

4.5总结 ........................................................................................................................... 50

第五章基于AIS数据的船舶航行轨迹预测 ....................................................................... 51

5.1 船舶轨迹预测的定义与描述 ................................................................................... 51

5.2 轨迹统计分析 ........................................................................................................... 51

5.3 基于AIS数据的船舶航行轨迹预测算法 .............................................................. 53

5.3.1 基于概率统计的船舶航行轨迹预测算法 .................................................... 53

5.3.2 基于船舶轨迹相似度的船舶航行轨迹预测算法 ........................................ 57

5.3.3 基于加权KNN的船舶航行轨迹预测算法 ................................................. 58

5.3.4 基于朴素贝叶斯的船舶航行轨迹预测算法 ................................................ 60

5.4 实验分析 ................................................................................................................... 63

5.4.1 基础数据 ........................................................................................................ 63

5.4.2 实验设置 ........................................................................................................ 64

5.4.3 实验结果 ........................................................................................................ 66

5.5总结 ........................................................................................................................... 69

第六章总结和展望 .................................................................................................................. 70

6.1 工作总结 ................................................................................................................... 70

6.2未来展望 ................................................................................................................... 70

参考文献 .................................................................................................................................. 71

攻读硕士学位期间取得的成果 .............................................................................................. 78

致谢 .......................................................................................................................................... 79

第一章绪论

1.1 研究背景

航运是国际贸易最主要的形式，在经济全球化的环境下，航运业得到飞速的发展，

船舶越造越大，种类愈来愈多，由此在国内和国际上产生很多航运密切的热点区域，如

珠江三角洲。但是繁忙水域由于水上交通密度持续增加，导致航道负担增大，交通事故

频发，不仅造成重大的经济损失，还严重威胁人的生命安全。因此，有必要对船舶进行

有力的监控，及时发现船舶异常的轨迹，降低水上交通事故的风险。

发现船舶异常轨迹的基础工作是对船舶航行动态的预知，通过对船舶轨航行迹的预

测能够及时发现船舶的轨迹变化，有利于实现船舶的有效监控，对海上交通监管具有重

要的意义。另一方面，轨迹预测同样对国际贸易产生重要的影响，国际贸易的类型与航

线存在密切的联系，通过对航线变化的分析可以了解航运物流的变化，进而可以分析国

际贸易未来的格局和发展方式，从船舶航行的角度了解国际贸易的状态以及航运物流的

变化。可见，在预知船舶航行轨迹的基础上可以实现船舶的调度、行为监测、贸易分析

等改善航运服务的应用，是实现船舶智能交通服务的关键技术之一。

AIS系统的快速发展让船舶海量轨迹数据的获取成为可能，为船舶轨迹数据挖掘特

别是船舶轨迹预测的研究提供了基础性条件。以船舶当前的轨迹为基础，充分挖掘历史

数据背后隐藏的重要信息，预测船舶航行的轨迹预测，对解决船舶航行安全问题以及了

解国际贸易的变化和发展具有重要的应用价值。本文将以大量的AIS数据为基础，首先

进行数据缺失值恢复、异常数据处理等数据预处理工作，保证数据的完整性和准确性，

再对原始航线轨迹数据进行聚类，得到船舶航线数据集，并以航线数据为基础，使用多

种预测算法进行建模，实现船舶航行轨迹的预测，对海上交通监管、了解国际贸易的发

展变化具有重要的意义。

1.2 研究现状

轨迹预测是指根据移动对象当前的轨迹预测对象未来的移动方向，目前主要的预测

算法包括HMM、高斯混合模型、最小二乘法、灰色预测、神经网络、

[1-5][6,7][8][10,11][12,13]

贝叶斯预测、回归等。作为移动数据挖掘的重要组成部分，轨迹预测不仅能够提供

[14][15]

精准的基于位置的服务，还能实现交通流预估，在拥堵情况分析、行为监控、智能导航

方面有种重要的应用价值，是当前轨迹数据挖掘的研究热点之一。

轨迹预测一般情况下主要由以下几方面技术作为基础：数据恢复、轨迹聚类、轨迹

华南理工大学硕士学位论文

预测建模。数据恢复是对原始数据的缺失数据进行填补，尽量还原原始数据，保证数据

的完整性和准确性。原始轨迹有很多离散的轨迹，通过轨迹聚类能够将相似性高的轨迹

归为一类，将孤立的航线进行剔除，为后续轨迹预测建模提供基础。轨迹预测建模是建

立在数据预处理和轨迹聚类的基础上，使用机器学习算进行建模，实现对船舶轨迹的预

测。

1.2.1 数据恢复

原始数据由于受到采集设备或者采集环境的影响，有可能出现数据缺失的情况，需

要使用相应的技术手段进行恢复。

对于数据缺失的处理方法，主要有两种思路：一是根据数据之间的相关性选取与缺

失数据相关程度较高的数据进行插补，插补的方法包括平均插值、线性插值、拉格朗日

插值法等。二是通过机器学习模型进行缺失值填补，主要的算法包括支持向量机、牛顿

搜索算法、KNN算法、神经网络等。

张婵等人将原始数据分为连续性数据和缺失值数据，并使用支持向量机进分别行

[16]

缺失值预测，并在USI和MINIT数据集上进行实验，结果表明支持向量机在缺失值预

测上具有较高的准确性。龚辉锋等人提出牛顿搜索算法进行缺失值处理，在改善参数、

[17]

较小误差、提高统计检验功效方面具有良好的效果。张松兰等人利用相关性找出与缺

[18]

失值关系程度较高的属性，再使用机器学习算法对缺失值预测进行建模，实验结果表明

使用关系较大的属性值进行缺失值填补能够提高估算的经度。韩珂等人使用改进

[19]

KNN算法进行缺失值填充,提高了缺失值填补的准确性和可靠性。

1.2.2轨迹聚类

聚类是一种无监督的数据挖掘方法，通过对象之间的相似度度量将原始数据集划分

为多个类簇，每一个簇内对象的相似程度高，簇间对象的相似程度低。目前最主要的聚

类方法包括：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算

[20-22][23-26]

法、基于网格的聚类算法、基于模型的聚类算法以及模糊聚类算法。

[27][28,29][30-34][35-40]

轨迹聚类与传统的聚类相比难度更大，一般情况下，轨迹数据结构复杂、关系繁多

而且难以描述。目前，国内外轨迹聚类的研究主要有基于模型、基于距离、基于密度、

基于移动对象微聚类、基于网络空间五种方式。

基于模型的轨迹聚类算法：Gaffney等人使用一种基于模型的轨迹聚类算法，通过

[41]

混合回归模型解决聚类问题，以整段轨迹作为基础，通过将多种回归模型进行混合来实

第一章绪论

现对船舶航行轨迹的模拟，并采用期望最大化算法获实现轨迹聚类。曲线聚类是轨迹聚

从空类中的重点和难点，因此Chudova等人针对曲线聚类问题提出了一种混合模型，

[42]

间和时间两个角度研究轨迹聚类问题，将对象空间和时间的漂移作为模型的参数。

Alon

[43]

从时间序列的角度来研究轨迹聚类问题，使用马尔科夫模型对对象位置的转移进

行表示。

基于距离的轨迹聚类算法：在航线轨迹聚类过程中，并不是所有的时间区域都对最

终聚类的效果产生影响，基于此，NANNI等人致力于寻找有研究意义的时间区域，

[44]

提出一种基于时间聚焦的轨迹聚类算法。实验结果发现轨迹中公共局部区域对于对于轨

迹聚类而言具有重要的研究意义。dsson和ares使用Frechet距离定

[45]

义轨迹之间的相似性，提出了基于一种基于距离的轨迹聚类算法，改善了轨迹聚类的效

果。

基于密度的轨迹聚类算法：Briant等人提出了一种新的聚类算法，使用多种纬度

[46]

值来发现轨迹簇。Li等人提出通过对象的密度实现重要轨迹的聚类，提出一种以密度

[47]

为基础的轨迹聚类算法，并成功应用于发现热门路线等实际问题中。LIX.L.致力于研

[48]

究公共交通密度聚类，并提出了轨迹聚类算法FlowScan，该算法在公共道路对象的聚类

中有所应用。

基于移动对象微聚类的轨迹聚类算法：Li等人提出了一种移动对象微聚类算法，

[49]

该算法通过对象的空间位置随时间变化的移动规律以及获取运动过程中的重要数据来

实现轨迹聚类。Kalnis提出一种新型的聚类算法，该算法首先对部分原始数据进行过

[50]

滤，再分时间段对轨迹数据进行分析，最后对处于同一时间窗口的数据进行轨迹聚类。

基于网络空间的轨迹聚类算法：在轨迹聚类过程中，空间网络的限制有可能会影响

聚类的效果，因此YIU等人为了完善已有聚类算法，降低有限空间的限制，提高轨

[51]

迹聚类的效果，提出相应的解决方案。然而该聚类算法在对象密集的情况下效率低下，

基于此，陈继东等人为了提高搜索的效率，以聚类目标的属性为基础，通过获取道路的

信息，将空间网络中密度较大的对象进行聚类。KHARRAT通过研究受限网络中的轨

[52]

迹聚类，提出了NETSCAN算法。Knorr等提出一种新的轨迹间的相似性度量方法，

[53]

通过模型将轨迹进行离散化，用全局独立的属性来表示轨迹，通过属性间的差异来区分

不同的轨迹。

其他算法包括基于速度的轨迹聚类算法，Palma等人提出的CB_SMOT算法，该

[54]

算法与其他传统方法不同，不需要依赖与大量的轨迹数据，从每一条轨迹中找出有用的

华南理工大学硕士学位论文

信息来实现轨迹聚类；针对轨迹不确定性的轨迹聚类算法，Pelekis等人提出一种改进

[55]

的C均值聚类算法，该算法重新定义了一种轨迹的表示方法；在基于轨迹分段的聚类算

法方面，LEE等人提出了一种轨道聚类方法TRACLUS，该算法首先将整段轨迹划分

[56]

成若干条自轨迹，再对子轨迹进行聚类。

轨迹聚类的关键点在于定义轨迹之间的相似性，然而实际上由于轨迹的复杂性目前

仍然没有标准的定义，更多需要根据实际的情况进行选择。上述方法都是针对具体问题

而提出的，在不同的应用背景下往往会选择不同的聚类方法。

在应用方面，目前轨迹聚类的应用主要体现在三个方向：监控、异常检测以及交通

流分析。

在监控应用方面，国外的研究与国内相比要更早，目前已经出现成型的算法和系统。

如Michael等人以运动对象的轨迹数据集为基础，使用多种机器学习方法来寻找运动

[57]

对象的运动模式，实现对运动对象的识别、检测和管理，为此使用监控视频获取运动对

象的轨迹数据。

在异常检测方面，Ristic提出了一个以自适应核密度算法为基础的框架，通过四个

[58]

维度来定义船舶的异常行为，以实现从海量AIS数据中发现船舶异常的运动模式的目标。

Riverio等人

[59-61]

提出使用高斯混合模型以及自组织神经网络对船舶异常检测进行建模。

选取船舶的位置、航行时间、速度、偏向角、类型等变量，根据这些属性的在船舶航行

中的差异来实现船舶异常行为的检测。

交通流分析方面，文献研究了厦门湾船舶会遇情况。从船舶会遇孔家、时间分布、

[62]

会遇船舶尺度和台式等多个方面进行分析，并以历史轨迹数据为基础，使用机器学习方

法对船舶会遇情况进行建模；文献利用选取船舶航线和航速百年化率作为研究的变量，

[63]

通过对大量的AIS数据进行分析，获取两个变量在不同区域的概率分布特点，为降低航

运事故、提高通航能力提供了有利的支撑。

1.2.3 船舶航行轨迹预测

轨迹预测根据轨迹类型的不同可以分为公路轨迹预测、飞机航线轨迹预测、船舶航

行轨迹估计预测等，其中目前最主要的研究内容是公路以及飞机航行线路的预测，但是

随着AIS服务的流行，船舶轨迹数据的可获得性提高，关于船舶轨迹的研究也逐渐成为

热门的研究方向，然而由于船舶轨迹的特殊性以及船舶轨迹数据具有较多噪声的原因，

基于船舶轨迹的研究与公路以及航空轨迹预测相比难度较大。目前船舶航线预测的研究

主要包括两种方法：一是基于船舶当前轨迹的预测算法，二是以历史AIS数据为基础，

第一章绪论

通过当前轨迹与历史轨迹进行对比匹配的预测算法。

1、基于船舶当前轨迹的预测算法

该算法基本思想是根据船舶当前的航速、航向、为位置点等信息，通过轨迹拟合等

方法对航线进行预测。该方法归根结底是轨迹的拟合算法，只关注船舶当前的轨迹，不

依赖于船舶的历史数据，从轨迹结构的角度上提取船舶航行的特征，从而实现船舶轨迹

的拟合和预测。拟合的方法包括BP神经网络、灰色预测、卡尔曼滤波等。

神经网络：文献[12]提出基于BP神经网络的船舶轨迹预测算法，根据船位差预测船

舶的轨迹，模型的输入包括航向、航速、经纬度差，神经元函数为sigmoid函数，实验

表明，BP神经网络船舶轨迹预测算法不仅用时短，而且预测的准确性高，通用性强。

文献[13]以船舶的当前的轨迹为基础，使用ANN实现对当前轨迹的拟合，实现船舶轨

迹的预测，实现结果证明ANN与其他算法相比，轨迹的拟合效果更好。灰色预测：文

献[11]提出一种改进的预测算法，首先在轨迹数据预处理上使用离散小波变换，再融合

传统鬼色预测算法以及非线性规划方法对船舶轨迹预测进行建模，继而构造一套完整船

舶航行轨迹预测模型，通过实际数据证明该改进模型与其他算法算法相比具有更高的预

测准确率。

卡尔曼滤波：文献[64]提出基于卡尔曼滤波的船舶轨迹预测算法，通过引入系统噪

声和测量噪声对卡尔曼滤波算法进行修正，再以AIS船舶轨迹数据为基础，使用最小二

乘法对船舶轨迹预测进行建模，实现对船舶轨迹的准确预测。文献[65]提出使用修正的

卡尔曼滤波算法进行船舶航线预测，并通过实验表明该方法的有效性。

基于船舶当前轨迹的预测算法的优点是简单快速，无需依赖于其他轨迹数据，大大

减少了计算量。然而，在船舶轨迹预测的问题上，船舶历史的行为往往是有参考意义的，

只考虑船舶当前的轨迹，忽视了历史轨迹的作用，在做预测时就会损失了大量的轨迹信

息，影响预测的精度。

2、与历史轨迹进行对比的预测算法

AIS数据提供了船舶的历史轨迹信息，通过与历史轨迹进行对比，为船舶的轨迹预

测提供参考。

文献[66]提出使用卡尔曼滤波算法进行船舶轨迹预测，从直线段和大角度转弯两种

情况，对船舶的节点位置信息进行滤波，并通过将船舶当前的船位信息实现船舶轨迹的

预测。文献[67]提出一个智能计算框架，以一个特定时间窗内的船舶历史轨迹为基础，

通过对航速、航向、经纬度历史动态变化进行分析，使用遗传算法预测船舶未来的位置。

华南理工大学硕士学位论文

上述算法虽然能够取得一定的成效，然而由于没有对船舶轨迹变化进行深入研究，在轨

迹预测的精准度上可能会达不到要求，因此，可以通过以历史轨迹数据为基础，使用机

器学习算法学习以往的船舶轨迹，生成船舶移动轨迹模型，并且使用当前轨迹与学习得

到的模式作对比，从而实现船舶轨迹的预测。文献[68]使用支持向量机训练船舶的历史

轨迹，生成船舶航行轨迹模式，并通过将当前船舶的轨迹与这些轨迹模式进行对比预测

船舶的航行轨迹。文献[69]以提出基于粒子滤波的算法预测船舶的轨迹，通过提取船舶

的历史航线，并使用当前轨迹与历史航线进行对比获得预测的结果，通过真实数据实验

证明了算法的有效性和预测的准确性。

随着航运业的快速发展，船舶航行轨迹预测是一个热门的研究热点，然而由于船舶

轨迹数据的特殊性，目前通过AIS历史数据进行轨迹预测的方法特别是在国内并不多见，

由于船舶历史的AIS数据蕴含了大量船舶的行为信息，能够从中分析提炼出重要的船舶

行驶特征，基于此，本文将研究以AIS数据为基础预测船舶的航行轨迹。

1.3 研究内容

船舶航行轨迹预测是指在已知船舶当前轨迹的基础上对船舶未来航行动态进行预测，

在目前的研究当中主要有两个方法，一是只使用根据船舶当前轨迹预测未来航向，通过

航线拟合的方式实现预测的目标，二是利用历史AIS数据提取航线数据，以这些航线数

据为基础实现轨迹预测的目标。由于第一种方法只考虑当前船舶的轨迹，忽略了历史轨

迹对未来航向的预测作用，容易造成预测精度下降或者不稳定的情况，本文关注后一种

识别方式，以AIS数据为基础，通过机器学习等技术手段实现航线轨迹的预测。

本文主要研究内容分成数据采集和数据预处理、航线聚类以及航行轨迹预测三大部

分：

1、数据采集和数据预处理

本文的数据为船舶历史AIS数据，从原始轨迹数据中可以提取所有船舶每一条航线

的数据。内容包括基础数据采集与样式，航线轨迹数据提取，缺失数据的插补以及异常

数据处理。

2、航线聚类

原始的航线多而杂乱，直接进行分析难以获得有效的结果。根据航线轨迹相似性和

航行区域相似性对原始的航线数据集进行聚类，获得轨迹各不相同的新的航线数据集。

3、基于AIS的船舶航行轨迹预测算法研究

第一章绪论

以历史航线数据为基础，根据船舶当前轨迹预测船舶的航行轨迹。本文采用基于统

计的算法、基于轨迹相似度的算法、加权K最近邻算法、朴素贝叶斯算法进行求解，最

后选择部分数据进行实验验证。

本文的创新点主要有以下两点：

1、航线的聚类使用了区域划分的方法进行聚类，将海域进行栅格化，根据航线经过

的海域获得航线的区域序列，根据序列的相似性对航线进行聚类，将相似的航线归为一

类。

2、本文以AIS轨迹数据为基础预测航线航行的轨迹，通过将当前轨迹与历史航线

进行对比，找出与当前轨迹最相似的航线作为预测的结果。纵观以往的研究文献，主要

是以轨迹点为基础进行预测，这种方法复杂度较高，特别是当数据量过大时，效率非常

低，本文对航线轨迹数据的处理上采用了简化处理，通过轨迹分段和区域划分将轨迹数

据映射为轨迹段的序列和区域序列，再通过序列的相似性进行航线轨迹预测，对船舶轨

迹智能化分析具有重要的参考意义。

1.4 技术路线

本文研究的问题是在已知船舶当前航行轨迹的基础上对船舶的航线进行预测。使用

的基础数据为船舶海量的AIS数据。船舶的AIS数据用于分析船舶的历史行为，把轨迹

GPS序列转化为航线片段序列和航行区域序列，为实现船舶航线预测提供基础的匹配航

线数据。

从海量船舶轨迹数据进行航线预测的算法包括数据的预处理、基于轨迹数据的船舶

历史航线聚类以及航线预测三个部分，如图1-1所示。

数据预处理包括缺失数据的插补以及异常数据过滤和处理，缺失数据的插补是针对

由于数据采集设备或者外部环境导致的采集频率过低的问题，通过合适的插补方法填充

缺失的数据为后续的聚类和航线预测提供良好的基础。数据异常处理针对航线轨迹中异

常数据，删除不必要的数据，修正异常的数值能够提高分析的准确性。

基于当前轨迹的船舶航行轨迹预测需要将船舶当前轨迹与船舶历史航线进行对比，

以找出与当前轨迹最接近的航线作为预测的结果，因此航线聚类是航线预测的基础。本

文通过对轨迹航线进行切断等方式实现相似航线归类的聚类方法，将原始船舶航线聚合

成轨迹互不相同的航线集合。

在进行航线聚类得到航线集合之后，航线预测就相当于根据船舶的轨迹从历史航线

华南理工大学硕士学位论文

集合中提取与当前轨迹最接近的航线。本文使用基于统计、基于轨迹相似性、加权K最

近邻以及朴素贝叶斯模型进行航线预测的研究。

船舶轨迹

数据

区域划分

航线分段

航线轨迹片海域栅格区

段集合域

轨迹聚类

船舶当前

轨迹

航线集合

相似性分析

航线预测

图1-1 基于AIS数据的船舶航线预测技术线路图

1.5 论文结构安排

第一章是绪论部分。本章首先对论文的研究背景及问题进行了描述，指出航线预测

对于船舶行为研究以及航运安全研究的重要性，然后阐述本文的主要研究内容，之后介

绍本文的研究方法原理以及技术路线，最后对本文的结构进行简单的说明。

第二章是研究现状及相关理论。本章对航线识别的相关研究内容进行综述，总结现

有研究成果，同时对航线识别涉及到的轨迹聚类的相关模型进行了综述。

第三章是本文的基础研究内容：AIS数据采集及预处理。首先介绍了AIS数据的来

源以及原始的数据样例，然后介绍对缺失的数据插补方法以及进行了部分数据验证，最

后介绍了异常数据的处理方法。

第四章通过船舶AIS数据对船舶的航线进行聚类以支撑第五章的船舶航线预测。本

章首先对航线聚类进行了描述，然后介绍了基于轨迹划分以及基于区域相似性两种航线

第一章绪论

聚类算法并使用伪代码进行表示，最后采用部分船舶的轨迹数据进行实验。

第五章是船舶航行轨迹预测。本章先是对船舶航行轨迹预测进行数学描述，接着对

基于统计的算法、基于航线相似度算法、加权K最近邻、朴素贝叶斯模型的相关理论进

行介绍并对其在航行轨迹预测中的使用细节进行阐述。接着对本章实验的数据进行了介

绍并对部分重要的信息进行了相应的统计分析，最后设置实验基于真实的数据集对上述

算法进行实验分析，并得出相应的结论。

第六章是工作总结和展望。

华南理工大学硕士学位论文

第二章相关理论基础

2.1船舶航行轨迹预测

船舶航行轨迹预测是指根据船舶当前行驶的轨迹预测船舶未来的动向，本文使用的

预测算法是基于历史数据的预测算法，首先通过轨迹聚类从原始AIS数据中提取船舶典

型的航线，并以这些航线为基础，与当前轨迹进行匹配，得到与船舶当前轨迹最相近的

航线作为预测的结果。如果把轨迹聚类得到的航线看成是一个个类别，则该问题可以建

模为分类问题。设历史的航线集合为，船舶当前的轨迹为，分类

S=ssssT

{,,,......,}

123

问题实际上是指为寻找最合适的航线类别。

目前常见的分类算法有随机森林、Adaboost、支持向量机等。然而对

[70,71][72,73][74-75]

与本文的轨迹问题而言，由于船舶类型过多，如果将每一条航线看成一个类别，会造成

分类类别过多的问题，不仅影响效率而且降低分类的准确性，本问题不适合使用传统的

分类模型。对于船舶的轨迹，从航线集合中选取最最优航线，从概率的角度上看，航

线预测实际上就是从航线集合中找到合适的，使得条件概率最大化。因此本

Spr(S|T)

iii

文选择适用于条件概率计算的算法对船舶航行轨迹预测进行建模。近年来，通过概率计

算的常用算法包括朴素贝叶斯、KNN、Lasso回归模型、逻辑回归等。

[76-77][78-79][80-81][82-83]

2.2轨迹相似性度量

轨迹聚类分析的一个关键点是定义轨迹之间的相似性度量函数，相似性的度量与数

据的类型相关。对于数值型的轨迹数据，其相似性是指对象之间在欧式空间中的相近程

度；对于离散型数据，其相似性通过对象之间不同属性的差异程度进行度量。

一般情况下下，为了准确描述轨迹之间的相似性，往往需要通过距离函数以及相似

系数两种方法进行量化。

（1）相似系数：相似系数顾名思义描述两个对象之间的相似程度，相似系数越高，

对象之间的相似性越高，相关系数越低，对象之间的相似性越低。若两个对象之间的相

似系数为1，表明两个对象完全相同；若对象之间的相似系数为0，表明两个对象完全

不同。

（2）距离函数：距离函数描述两个对象之间的空间距离。与相似性不同，对象之间

的距离越大，表明对象之间的相似程度越低，相反，若对象之间的距离越小，对象之间

的形似程度越高。距离函数可以通过为对象之间属性的差异性进行计算。

第二章相关理论基础

对于空间中两个数据点，常用的距离度量包括曼哈顿距离、欧式距离以及明示距离

等。然而轨迹结构更加复杂，轨迹之间的相似性度量往往需要重新定义。

[84]

在计算两个轨迹间的距离时，需要计算线段间的距离，线段间的距离度量主要从四个方

面进行考虑：起止点距离、垂直距离、水平距离以及夹角距离。图2.1展示了两条线段

和间距离度量。

图2.1 轨迹距离度量

起止点距离：

航线片段间的起止点距离与两条轨迹片段起止点连线的距离相关，对于两条平行且

长度相等的航线片段，起止点距离就是垂直距离，理论上，航线片段之间的偏转角越大，

起止点距离越大，若航线片段的方向相反，起止点距离最大。如图4.6所示，l表示起

点的连接线，l表示终点的连接线距离，则起止点的距离定义为：

垂直距离：

(2-1)

航线片段间的垂直距离与航线片段起始点到另一条航线垂直距离相关，如图所

4.6

示，表示轨迹片段起点到轨迹片段起点的垂直距离，表示轨迹片段终点到

⊥⊥

LLL

iji

轨迹片段终点的垂直距离，则线段和的垂直距离定义为：

LLL

jij

⊥⊥

(2-2)

⊥

⊥⊥

水平距离：

如图所示，表示轨迹片段起点到轨迹片段终点的水平距离，表示轨迹

4.6LL



片段终点到轨迹片段终点的水平距离，则片段和的水平距离定义为

LLLL:

ijij

d=min(l,l)



(2-3)

夹角距离：

华南理工大学硕士学位论文

轨迹片段间的夹角距离与航线之间的偏向角以及航线的长度相关，理论上，偏向角

越大，夹角距离越大。当片段间的偏向角为，两条轨迹片段平行，此时夹角距离为；

当片段之间的偏向角超过了，夹角距离定义为航线片段的长度。如图所示，轨

1804.6

迹片段和的夹角为，则片段和的水平距离定义为

LLLL:

ijij





sin(),090

θθ

°°

≤<





(2-4)

°°

,90180

≤≤



式中表示的长度；角度（）指的是和之间较小的夹角。

||L||L

θθ

0<<180

[85-87]

2.3 总结

本章主要介绍了相关理论基础，包括船舶航线轨迹预测的建模以及与轨迹聚类相关

的轨迹相似性度量，为后文的内容提供基础性理论。

第三章 AIS数据采集及预处理

本章将会详细介绍本文的基础数据以及预处理工作，由于本文研究的内容与和航线

相关，而原始数据并没有实现对每一条航线进行自动分类，需要对原始轨迹数据进

AIS

行航行识别。原始数据中可能会出现数据缺失等问题，需要使用数学方法对缺失的

AIS

数据进行填补。对于数据中出现的异常情况，根据具体的数据表现进行删除或者修正。

综上，本章的基本内容包括数据采集、船舶航线轨迹数据提取、缺失值处理以及异常数

据处理四个小节。

3.1 数据采集

AIS

数据主要包括三类数据：船舶静态数据、船舶动态数据以及船舶航程数据。船

舶静态数据是船舶的具体信息，主要包括船名、呼号、、船舶类型、船长、船宽

MMSI

等。为船舶的唯一编码，用于识别船舶；船舶动态数据是指船舶在航行时候的轨

MMSI

迹和状态信息，主要包括位置信息（经纬度）和船偏向角、航速、航迹等数据；船舶航

程数据描述船舶当前状态，数据包括船舶状态、吃水深度、开往的目的地等。船舶状态

包括：在航、推进、失控、操限、限于吃水、系泊、从事捕鱼、锚泊、其他。

AIS3-13-2

数据的基本格式如表和所示：

表3-1船舶轨迹表

字段名字段说明字段类型字段长度字段属性

ID 64

Ship_id 64

lat 64

Lng 64

Cog 64

Sog 64

Hdg 64

Draught 64

lastTime 64

MMSI 64

记录流水号整形主键（自增）

船舶的唯一编号整形

当前位置纬度浮点型

当前位置经度浮点型

船迹向浮点型

船速浮点型

船首向浮点型

池水浮点型

记录采集时间时间

船舶标识号整形

Status

航行状态字符型

华南理工大学硕士学位论文

表3-2 船舶信息表

字段名字段说明字段类型字段长度（字节）字段属性

ID 64

Ship_id 64

MMSI 64

Ship_Type 64

IMO 9

CallSign 20

ShipName 64

记录流水号整形主键（自增）

船舶编号整形

船舶标志号整形

船舶类型整形

IMO号字符

船舶呼号字符

船名字符

原始数据较为复杂，事实上与航线识别的相关的数据项有：记录采集时间、、

MMSI

经度、纬度、船迹向、船首向、船速、航行状态，部分数据样例如表所示。

3-3MMSI

表示船舶编号，用该编码唯一识别船舶，对原始轨迹数按照以及采集时间进行排

MMSI

序，可为后续轨迹数据提取提供基础。

表 3-3 部分船舶轨迹数据样例表

编号采集时间经度纬度船轨向船首向航速航行状态

MMSI

114.28518 1 2016/11/3 11:15:03 100121085 21.8397189.8 1.2

8 2 2016/11/3 11:22:54 100121085 21.83960.8 114.285 240

8 3 2016/11/3 11:30:38 100121085 21.83970.4 114.2849301

8 4 2016/11/3 11:52:17 100121085 21.83960.2 114.284963

8 5 2016/11/3 11:58:08 100121085 21.83950 114.285 0

8 6 2016/11/3 12:35:40 100121085 21.83930 114.285 341

8 0 0 7 2016/11/3 13:11:12 100121085 21.839 114.2852

在航

锚泊

3.2 船舶航线轨迹数据提取

本文试图根据船舶当前已经行走的轨迹预测船舶行驶的航线，为实现这一目标的一

项基础需求是得到船舶历史的航线，然而目前数据记录了所有船舶的轨迹数据，并

AIS

没有对船舶的航线进行唯一性的编码，无法直接使用航线编码直接提取航线的轨迹数据，

需要根据船舶的数据识别船舶的航线。主要包括两种方式：一是根据船舶的航行状

AIS

态进行识别，二是根据船舶的航速和采集间隔时间进行识别。

3.2.1

基于船舶航行状态的航线轨迹数据提取

船舶的航行状态表征了船舶当前的行驶状态，其中主要包括在航、锚泊、失控、搁

浅等，使用锚泊作为航线切分的状态。一条完整的航线是船舶由启动—航行—停泊的过

第三章 AIS数据采集及预处理

程，对应的船舶状态序列应为类似｛锚泊，锚泊，锚泊，在航，在航，，在航，锚

......

泊，锚泊｝。通过上述序列的模式匹配，可以识别出所有船舶的航线。

设船舶的数据序列为，则基于船舶航行状态的航线轨迹

AIS

T=pppp

{,,,......,}

123

数据提取基本步骤如下：

步骤一：初始化船舶航线轨迹序列集合；

步骤二：遍历数据序列，直到寻找到数据点，的当前船舶航行状态为“锚泊”；

Tpp

步骤三：从开始往下遍历，直到找到当前，当前当前船舶航行状态为“在航”，

ppp

jkk

新建轨迹序列

sppp

{,,......,}

jjk

+−

，将添加进中，以为新起点重复步骤二，直至

sSk

所有数据点偏离完毕。

经过上述步骤，得到的轨迹序列集合为该船舶的所有航行规矩序列集合。然而在

实际的数据中，船舶航行状态是大量缺失的，因此对与大部分行程来说，需要根据轨迹

数据识别航线。航线识别的关键点是识别航线的起点和终点，通过采集时间的间隔、瞬

时速度以及船舶经纬度变化判断船舶的航行状态。

3.2.2

基于船舶航速和采集时间间隔的轨迹数据提取

基于船舶航速和采集时间间隔的轨迹数据提取的基本思想是以船舶停止的时刻作为

切分点，通过航速和数据采集的时间间隔进行识别，将采集时间间隔较长或者速度逼近

于的时候识别为数据序列切分点。

船舶航线轨迹提取规则：

船舶停船后，船舶数据停止采集，当船舶再次启动行驶时，才继续采集。、

AISAIS

因此上一次航线的最后一个轨迹点的记录采集时间与当前航线第一个轨迹点的记录时

间相差较长。本文设置时间差的阀值为小时，将前后采集时间超过小时的数据点

1212

初步识别为航线的起始点。

表轨迹数据样例

3-4

ID MMSI

纬度经度航速时间

1110 10012108521.8397114.28512.0 2016/11/3 11:15:03

1111 10012108521.8396114.2851.4 2016/11/3 11:22:54

1112 10012108521.8397114.28491.2 2016/11/3 11:30:38

1113 10012108521.8396114.28490 2016/11/3 11:52:17

1114 10012108521.8395114.2850 2016/11/3 11:58:08

1115 10012108521.9034114.29860.5 2016/11/4 12:35:40

华南理工大学硕士学位论文

1116 10012108521.9035 114.29870.1 2016/11/4 12:40:52

1117 10012108521.9035 114.29870.7 2016/11/4 12:47:38

1118 10012108521.9036 114.29881.2 2016/11/4 12:56:02

表中，为与两个轨迹点的采集时间间隔超过了天，因此将

3-4ID1115111411114

和分别作为航线的航线的终点和起点。

1115

、由于采集的数据有可能误差，即时间出现异常或者因为传感器等问题，会

AIS

出现船舶在在航的过程中出现前后两个轨迹点时间较长的情况，基于此，在使用时间差

阀值判断的基础上需要根据船舶行驶的速度和经纬度变化判断起始点。船舶启动和锚泊

时，瞬时航速会比较低，船舶的位置相对固定，因此通过瞬时速度的大小和船舶位置的

变化识别航线。

如表所示，—航速较低，而且船舶经纬度的变化较小，—航

3-41110111411151118

速较低，船舶的经纬度变化小，因此可以将和识别为航线的终点和起点。

11141115

设船舶的数据序列为，则基于船舶航行状态的航线轨迹

AIS

T=pppp

{,,,......,}

123

数据提取基本步骤如下：

步骤一：初始化船舶航线轨迹序列集合；

步骤二：遍历数据序列，直到寻找到数据点，与的采集时间相差超过小

Tppp12

jjj

时，将该点设置为数据序列切分点；以该轨迹点为起点，不断重复步骤二，直到所有的

数据点遍历完毕。若时间数据丢失或者不准确，采用步骤三进行辅助识别。

步骤三：遍历数据序列，直到寻找到数据点，设置的航速为，将该点设置为

Tpp0

数据序列切分点；以该轨迹点为起点，不断重复步骤二，直到所有的数据点遍历完毕。

3.2.3

航线轨迹数据样例

通过船舶航线轨迹数据提取将船舶原始所有的轨迹数据切分成若干序列，每一个序

列表示一条航线的所有数据，可以得到由、航线、轨迹段中各点组成的

AISMMSIID

数据结构如下：

表航线数据表

3-5

MMSI ID POINT

MMSI1 S1

（P11，P12，P13，......）

（P21，P22，P23，......）

（P31，P32，P33，......）

（P41，P42，P43，......）

第三章 AIS数据采集及预处理

（P51，P52，P53，......）

MMSI2 S6

（P61，P62，P63，......）

（P71，P72，P73，......）

（P81，P82，P83，......）

... ... ...

表中各航线的编排为依次排序编排，中每一个点的信息不仅包括船舶的位

3-5Point

置信息，还包括船舶的航向、速度等信息。

3.3 缺失值处理

原始轨迹数据可能会出现记录采集时间间隔较长的情况，这就导致了部分数据处于

缺失的状态。以某条航线数据为例，其轨迹分布如下图所示图所示，航线在点和

3-1i

时间间隔超过了小时，出现了部分数据缺失状况。针对次问题，采用使用数据估计

算法对缺失的数据进行插补。

2016/11/3 13:01:40

2016/11/3 11:58:08

图数据缺失示意图

3-1

3.3.1

问题描述

用表示航线轨迹序列，表示在时刻

T=ppppp={lat,lng,sog,cog}

{,,,......,}

ttttt

123

处的数据，其中表示船舶的纬度，表示船舶经度，表示船舶瞬时速度，

AISlatlngsog

cog

表示船舶瞬时转角。数据缺失值插补问题可以描述为已知序列

T=ppppT

{,,,......,}

ttttt

123

，使得，其中表示在时刻

tttt

iki1

，求

min()

T−TT

ttt

kkk

truetrue

的真实值。

这属于序列缺失数据插补问题，常用的插补方法主要有平均插补、插值法、同类型

数据平均插补、极大似然估计插补等方法。

3.3.2

缺失值识别

对于一个原始轨迹序列，通过相邻两个相邻数据之间采集时间的间隔来识别需要进

华南理工大学硕士学位论文

行缺失值处理的位置。哟偶遇原始数据的采集时间大多集中在，本文选择对时间间

5-10

缺失值的数目与时间间隔成正比，隔相差超过分钟的相邻数据之间进行缺失值处理。

时间间隔越长，缺失值越多，本文以分钟为单位进行缺失值处理。

设原始数据序列为，令（单位：分钟）表示相邻数据和

S=ssssΔttt

{,,,......,}

123i1

nii

−

的时间间隔，若，则表示需要对之间进行数据缺失值处理。缺失值的数目

Δt>20tt

−i

为：

numabs

=−

()1

∇

。如图所示。两点间的时间间隔为分钟，每分钟填补

3-25010

一个缺失的数据，则一共需要填补个数据点。

图3-2 数据插补示意图

时间间隔过长的轨迹由于缺失的数据量比较大，本文不予考虑，只对时间间隔小于

小时的数据进行实验。

3.3.3

缺失值插补方法

1、均值插补

均值插补的类型分为数值型插补和非数值型插补，数值型插补的对象为连续型数据，

而非数值型的插补对象为离散型数据。本文所需插补的数据全为连续型的数据，因此使

用数值型插补，直接使用数据集的平均值作为缺失数据的插补值。由于缺失的数据并

不与全局所有的数据相关，在进行插补前，均值插补需要选取非缺失数据的范围，最常

用的方法是选取缺失数据时间段附近的部分数据作为基准的数据。

设为原始的数据序列，其中数据缺失，设距离数据原始

T=ppppp

{,,,......,}

ttttt

123

最近的各数据作为基准的数据，则选择的数据为序列为

Tpppppp

{,,,...,,,...,}

tttttt

kkkiik

iiii

−−+−++

2222

，则填补的数据

为：

******

p=WT=wp+wp+wp++wp

tkk

112233

...

(3-1)

其中，表示中第各元素的权重，权重可与元素与目标插补数据的距离相关。

第三章 AIS数据采集及预处理

均值插补对于数据变化比较稳定和连续缺失数较少的数据集有效，但是当数据序列

中的数值变化比较剧烈，使用均值插补会用以出现较大的误差。

2、插值法

（1）线性插值

线性插补将航线看成一条线性的轨迹，通过缺失数据前后两个已知的数据对缺失的

数据进行线性拟合。

图3-3 线性插值示意图

设缺失的数据为，其中表示缺失数据对应的时间，表示缺失值。已知

(t,p)p

itt

(,)

tp(t,p)p(t,p)(t,p)p

ktmttktmtt

kmikmi

、表示前后两个已知的数据点，通过数据点和拟合

以填补缺失值。插补的公式如下：

pptt

ttik

=+−

−

()

(3-2)

线性插值适用于曲率较小的数据序列，对于变化程度较大，曲率波动明显的数据，

简单线性插值的误差较大。针对本文轨迹数据的插补，当船舶在进行转弯等曲率变化明

显的操作时，采用线性插值可能会产生明显的误差，因此使用其他插值方法进行插补。

本文使用拉格朗日插值法对曲率波动较大的轨迹数据进行缺失值填补。

（2）拉格朗日插值

拉格朗日插值是一种多项式插值方法，其基本思想是找到一个多项式，使该多项式

经过所有的观测点。

已知给定个取值点：

K+1

(,),(,),......,(,)

tptptp

ttkt

华南理工大学硕士学位论文

其中序列表示数据对应的时间点，表示对应的取值。假设任意两个各不相同，

则拉格朗日多项式为：

Ltplt

()()



tii

(3-3)

其中，为插值基函数，其表达式为：

l(x)

()

jij

=≠

ijiiiiiik

∏

−

tttttttttt

−−−−−

()()()()

tttttttt

−−−−

011

iik

−+



()()()()

011

−+

(3-4)

上述基函数的特点是在时，取值为，在时，取值为，因此能够保证多项

t=t1t≠t0

式能够经过所有的观测点。

对于任意一个缺失值，只需要知道其对应的时间点，带入多项式中，即可求得

L(t)

其对应的缺失值。

3、同类均值插补

同类均值插补是指在原始的的序列中找到与缺失插补序列最相近的若干序列，然后

利用相似序列的平均值进行插补。

如对船舶的缺失轨迹数据进行插补，可以从船舶历史轨迹数据中找出与当前船舶轨

迹较为相近的若干条轨迹，使用筛选出对应的轨迹均值进行近似替代。

、极大似然估计插补

极大似然估计是从概率论的角度对数据项进行描述，其使用的一个基本假设是数据

是随机丢失的，从另一个角度也即观察数据的分布能够近似的表示总体的特征，基于这

一基础假设，可以从观测样本中训练一个合适的样本分布函数，对未知参数进行极大似

然估计，得到该分布函数的参数以作为对总体样本分布的无偏估计，从而实现对缺失数

据的最大概率估计，当观测样本过少时，不适合使用该插补方法。

3.3.4

缺失数据插补

设原始数据序列为，令表示数据和的时间间隔，则缺

S=ssss∇tss

{,,,......,}

123i1

nii

−

失值插补过程如下：

步骤一：遍历原始轨迹序列，根据数据间的间隔时间，寻找时间间隔超过分钟

S20

位置进行缺失值出来。

步骤二：对于每一个需要处理的位置，选取合适的插补算法进行数据填充，每间隔

分钟进行一次插补。直到遍历完所有的数据。

第三章 AIS数据采集及预处理

3.3.5

数据实验

1、实验数据

直线轨迹缺失值填补与转弯估计缺失值填补相差较大，因此本文选取两个数据集（

和）对缺失值填补的方法进行验证。

数据集中的缺失数据选取轨迹较为平缓的位置进行填补，总数据量超过；

A21000

数据集中的缺失数据选取轨迹变化较大的位置进行填补，总数据量超过了。表

B19000

3-6

展示两个数据集缺失数据的基本情况。

表3-6 样本选取数量表

时间间隔缺失数据数

20分钟

30分钟

1小时

1小时30分钟

2小时

3小时

数据集A 数据集B

数据量

1 4837 3642

2 4837 3423

4 3233 3963

7 3678 2807

10 2539 2789

16 2762 2453

同类数据插补和极大似然插补需要从原始数据中通过相似性计算寻找与目前数据相

似的数据序列，计算过程复杂，需要消耗大量的时间，不适合本问题，因此本节不对上

述两种方法进行研究。

分别使用线性拟合、拉格朗日插值、均值插补以及中位数插补的方法进行实验。其

中经纬度插补采用实际轨迹点的欧式距离（百米）来衡量估计误差，而航速（海里）填

补采用均方误差来衡量估计误差。

RMSE

2、实验结果

（1）数据集A——直线轨迹插补结果

对经纬度、航速两项数据进行缺失值插补，分别采用线性插值、拉格朗日插值、均

值插补以及中位数插补进行试验，实验结果如表所示。

3-7

从各插补方法的预测结果上看，线性插值与拉格朗日插值法的预测误差比较接近，

而且明显优于其他两种插补方法，船舶的数据并不是稳定变化的，与插补数据越靠

AIS

近，间隔时间越短，数据值就越接近。线性插值只采用了相邻两个点的数据进行拟合，

而由于轨迹是波动较小的，接近线性的，因而缺失的数据与前后数据相差较小，所以线

性插值的预测准确率较高。相同情况，拉格朗日插值采用了缺失值附近的数据作为观测

华南理工大学硕士学位论文

数据，与缺失数据的相关性较高，因而预测的准确率与线性插值接近。而平均数插补和

中位数插补采用了全局的数据，引用了关联度较小的数据从而提高了估计的误差。因此

对于接近直线轨迹的缺失值填补，使用线性插补的方法即可满足预测的要求。

从各时间间隔的预测结果上看，时间间隔较短，连续缺失数据较少时，预测的结果

比较准确，然而对于小时和小时缺失值估计情况，由于缺失的数据量较多，无论使

用哪种方式误差的估计值都比较大，因此本文最终只对时间间隔小于小时的数据进

1.5

行插补。

表3-7 数据集A各插值算法预测误差

时间间隔数据项

20分钟经纬度

速度

30分钟经纬度

速度

1小时经纬度

速度

1.5小时经纬度

速度

2小时经纬度

速度

3小时经纬度

速度

预测误差（经纬度：百米，速度：RMSE）

线性插值拉格朗日插值均值插补中位数插补

2.34 2.84 7.68 7.89

0.98 0.84 2.54 2.78

3.45 4.13 9.46 9.32

1.06 1.45 2.54 2.78

5.47 5.49 12.44 12.58

1.35 1.84 3.24 3.56

7.02 7.58 17.33 17.6

3.25 3.42 4.87 4.92

11.34 11.56 22.56 23.34

5.87 6.14 8.72 8.43

14.47 16.38 28.49 30.12

8.54 10.44 9.06 9.43

（2）数据集B——曲率较大轨迹缺失值插补

对经纬度、船速进行缺失值插补，分别采用线性插补、平均值插补以及中位数插补

进行实验，预测误差的实验结果如表所示。

3-8

从各插补方法的预测结果上看，与数据集的结果相比，线性插值的预测误差要明

显增高，拉格朗日插值法的预测误差远远小于其他算法。对于弯曲程度较大的轨迹，采

用线性插值方式进行数据，容易出现偏离原始轨迹的情况，导致预测的误差明显增高。

与线性插值不通过，拉格朗日插值以观测值为基础，通过拟合得到经过所有观测点的曲

线，最大程度上还原原始的轨迹，因而能得到较优的预测结果。而平均数插补和中位数

插补采用了全局的数据，引用了关联度较小的数据从而提高了估计的误差。

第三章 AIS数据采集及预处理

图展示了线性插值和拉格朗日插值两种算法轨迹在进行经纬度插补时轨迹弯曲

3-4

曲率与预测误差的之间关系，横轴表示目标点的弯曲程度弯曲程度用拟合数据的角度

(

来进行评估，纵轴表示经纬度误差误差距离（百米）。从图中可以看出，随着弯曲程度

)

变大，两种算法的预测误差增大，但是线性插值的误差增长速度明显高于拉格朗日插值

法，这是由于轨迹的弯曲程度越大，与直线的偏离就越大，而线性插值的结果是一条直

线，因此采用线性拟合的结果就更容易偏离目标。

因此，对于弯曲程度较大的轨迹缺失值填补，使用拉格朗日插补法可以得到更好的

预测结果。

表3-8数据插补误差估计

预测误差（经纬度：百米，速度：RMSE）

时间间隔数据项

经纬度

速度

经纬度

速度

经纬度

速度

经纬度

速度

经纬度

速度

经纬度

速度

线性插值拉格朗日插值均值插补中位数插补

20分钟

8.94 2.34 9.22 9.47

2.78 1.03 3.05 3.34

11.13 3.01 11.37 11.32

2.95 0.86 3.05 3.34

13.11 4.28 14.47 14.84

3.43 1.43 3.89 4.27

19.34 8.79 19.36 19.7

4.92 2.68 5.84 5.9

25.13 25.58

24.3 17.12

9.88 4.14 10.46 10.92

26.47 20.34

30.44 31.75

10.13 6.32 10.87 11.32

30分钟

1小时

1.5小时

2小时

3小时

华南理工大学硕士学位论文

弯曲程度与预测误差的关系

线性插值拉格朗日插值

5060708090100110120

图3-4 轨迹弯曲程度与误差关系

3.4 异常数据处理

原始数据是没有经过任何预处理，可能会出现数据异常的情况，需要对这些数

AIS

据进行有效的处理，以获得清洁可使用的数据，提高数据的质量，为后续的研究工作提

供基础。

异常数据通常以下几种情况出现：

1、轨迹点漂移

轨迹点漂移是指间隔时间较小的两个轨迹点出现了轨迹大幅度偏移的情况，如图

3-5

所示：

图3-5轨迹数据漂移

轨迹数据偏移影响航线分析，有可能误导轨迹预测的结果。对于出现了偏移的轨迹

使用线性拟合的方式进行修正，线性拟合的方法在上节中已阐述。

根据轨迹前后变化识别轨迹的偏移，设当前轨迹点为，若当前轨迹点与以及

TTT

−

的距离很大，就可认为是一个轨迹偏移点，使用线性拟合的方法就休数据修正，

第三章 AIS数据采集及预处理

直接使用和两个轨迹点拟合直线。

i1i1

−+

轨迹漂移点

线性拟合点

图3-6 轨迹偏移以及线性拟合

2、轨迹稀疏

轨迹稀疏是由于有大量缺失数据造成的，缺失数据过多的航线由于损失了太多的信

息，影响分析的准确性，对于过于稀疏的航线直接抛弃，不在本文的研究范围内。如图

3-7

所示，蓝色实心圆为某航线的轨迹数据，但是由于缺失的数据较多（红色虚线圆），

损失了大量的轨迹信息，使航线的分析出现较大的误差。

图3-7 轨迹稀疏示意图

3、航线过短

由于异常数据的影响，可能会出现某些航线过短的情况，对于航行时间低于半天的

行程进行过滤，不在本文的研究范围内。

3.5 总结

本文完成了对轨迹数据的预处理工作，首先是对基础数据的整理，从原始的数据中

提取所有船舶每一条航线的轨迹数据，然后针对缺失的数据采用线性拟合的方法进行插

补，最后对异常的数据进行过滤和处理操作。

数据的整理主要是根据以及时间进行排序，由于船舶可以使用进行唯

MMSIMMSI

一识别，因此排序后按顺序读取可以提取每一条船舶的轨迹数据。根据时间和数据变化

华南理工大学硕士学位论文

提取船舶的轨迹数据，便于后续航线聚类以及船舶轨迹预测的进行。

数据插补主要是针对采集时间间隔相对较大的轨迹点，两个轨迹点间的时间间隔较

大，等同于缺失了部分的数据，对这部分数据采用线性拟合等方式进行插补，尽可能保

持数据的完整性，最后通过实例的验证表明线性拟合插补方法的可行性。

异常数据过滤以及处理的情况包括：航线过短、数据漂移以及数据稀疏。对于航线

第四章基于AIS数据的船舶航线聚类

预知船舶航行的轨迹有利于实现船舶行为监控、提前了解船舶动态，对提高航运服

务水平具有重要的作用。在航运业快速发展、数据更易获取的前提下，本文提出一

AIS

通过将当前船舶轨迹与历史数据进行对比分析的航线预种以历史轨迹数据为基础，

AIS

测算法。原始数据中，船舶轨迹数据众多，若不对轨迹数据进行处理在进行轨迹分

AIS

析时不仅会降低分析的效率，而且影响预测的准确性。本章将以原始船舶的轨迹数据为

基础，通过轨迹聚类算法实现相似航线的聚类，得到新的航线集合以支撑后续的船舶航

行轨迹预测模型。

4.1 航线聚类定义与描述

从定义上看，船舶航线是指船舶在两个或多个港口之间，从事海上旅客和货物运输

的线路。从航线的结构上看，航线可以看作是一组轨迹的序列。

定义（航线轨迹序列）：航线轨迹序列可以表示为，其中

4.1

T=ppp

{,,......,}

p=xytsogcogxyt

iiiiiiiii

{,,,,}

表示第个轨迹点，其中表示经度，表示纬度，表示时间，

sogtcogt

iiii

表示在时刻船舶的运动速率，表示在船舶的运动方向。

本文将使用轨迹聚类的算法对原始的航线进行聚类分析，根据轨航线的轨迹数据将

航线划分为多个类别，形成新的航线集合，集合中每一条航线的轨迹互不相同。

航线聚类的数学描述如下：设原始航线集合，其中表示第

S=SSSSS

{,,,......,}

123

条航线，，表示船舶的编号，每一条船舶的唯一编号；表示船舶

S={id,type,T}

idtype

的类型，表示船舶的轨迹序列。对于航线聚类问题，可以描述为对航线集合进行分

析，聚类得出若干新的航线集合，

L=LLLL

{,,,......,}

123

L=shipnumroutenumstartendT

{_,_,,,}

，其中表示这组航线类别覆盖的船舶

ship_num

数量，表示这组航线类别覆盖的航线数量，表示航线的起始点，表示

route_numstartend

航线的终点，表示这组航线类别的轨迹序列，由于每一个航线类别中所有原始航线的

轨迹是相近的，航线的轨迹序列直接使用该组航线类别其中一条航线的轨迹序列近似的

替代。

4.2 航线聚类算法

船舶轨迹聚类算法可以分为两类：第一种是基于整体航线的轨迹聚类，即将船舶的

整条航线的所有轨迹点视为一个整体而不进行分段，通过定义整体航线的轨迹相似度函

华南理工大学硕士学位论文

数，将相似度高的航线聚为一类。第二种是基于分段的航线轨迹聚类，即将原始航线轨

迹切分为若干轨迹片段，通过定义轨迹片段之间的相似性函数实现航线的聚类，相近的

航线轨迹有由相似的轨迹片段组成。

由于航线有大量的船舶轨迹组成，如果使用上述整体航线轨迹聚类的方案不仅会带

来较高的复杂度，影响聚类的效率，而且容易在聚类的过程中丢失重要的信息，因此本

文主要研究的聚类方法是基于航线轨迹划分的聚类算法。包括两种方法，一是基于轨迹

分段的航线聚类算法，对航线进行分段再聚类，二是基于区域划分的聚类算法，根据航

线经过的区域相似性进行划分。

4.2.1

基于轨迹分段的航线聚类算法

基于轨迹分段的航线聚类算法的基本思想是从航线轨迹的角度出发，通过轨迹分段、

轨迹相似性计算将相似程度较高的轨迹归为一类，最终得到一个航线的集合，集合中每

条航线之间的轨迹轨迹相似，不同集合间的航线轨迹不相同。

对于原始轨迹数据，每一条航线都由大量的轨迹点组成，通过轨迹分段对原始航线

进行处理，不仅能够压缩数据的容量，并且能够提升研究的粒度，而基于整体轨迹的聚

类容易忽略重要的信息。

定义（轨迹片段）：定义一条船舶航线轨迹序列，

4.2

T=pppp

{,,,......,}

123

T=latgtimesogcogS={p,......,p}

iiiiiise

{,ln,,,}

(),称是轨迹序列T的一个轨迹片

i=1...n

段，当且仅当，是序列T的一个子序列。因此轨迹序列T可以表示为

∀1≤s<...<e≤nS

T=SSSS

{,,,......,}

123

。

基于轨迹分段的航线聚类算法分为以下几个步骤：一是对原始的航线进行分段，二

是航线片段的聚类，三是根据航线的片段序列相似性对航线进行聚类，形成目标航线类

簇。如图所示，表示航线T、T、T、T、T条航线进行分段，表示对分段

4-1a-b5b-c

12345

后的航线片段进行聚类，将相似的航线片段归为一类并进行唯一编码，是对航线根

c-d

据航线的航线片段编码序列的相似性进行航线的聚类。

第四章基于AIS数据的船舶航线聚类

图4-1 航线分段聚类示意图

1、轨迹分段

轨迹分段将原始航线切分成若干个直线片段，分段的关键在于寻找切分的特征点，

航线轨迹分段要遵循两个原则：准确性以及简洁性。

准确性是指对航线轨迹进行分段时寻找的特征点一定要保持一定的数量，能够准确

描述航线的轨迹，否则难以保持航线的正确轨迹。

简洁性是指在保证准确性的基础上使用简单尽可能少的特征点对航线进行切分，降

低复杂度。

准确性和简洁性是两个两个相互矛盾的原则，对于一条航线轨迹而言，轨迹点越多

越能描述一条航线的轨迹，准确性越高，但是简洁性就降低，过多的特征点降低分析的

效率。相反，特征点越少，简洁性就越高，但是较少的特征点可能会难以准确描述航线

的正确轨迹，因此轨迹分段需要在两个原则之间进行平衡。

航线轨迹由一些列的船舶轨迹点组成，设航线的轨迹序列如下：

T=tttt

{,,,......,}

123

tt={x,y,cog,sog}xy

iiiiiiii

表示船舶第个轨迹点，，和分别表示经度和纬度，其中，

cogsog

表示船舶的航行角度，表示船舶的航行速度。

对船舶整条轨迹进行分析较为复杂，本文对轨迹进行分段处理，将航线切分为若干

条片段，一共有以下三种轨迹分段方法：

华南理工大学硕士学位论文

（1）平均分段

将航线按一定的单位长度进行切分，将航线平均分为若干份，每一个分段的长度相

同（可能有少数片段长度不同）。切分样例如图所示：

4-2

图4-2 平均分段切分

如图所示，航线平均切分成个片段，每一个片段的长度基本相同。航线可表

L7L

示为片段片段序列

R={r,r,r,r,r,r,r}

1234567

。

船舶轨迹平均切分流程：

步骤：输入平均切分的最小单位；

步骤：从轨迹起点开始，根据航速计算两个相邻轨迹之间的长度，不断累计轨迹

的总长度，当长度达到最小切分单位，则将当前轨迹点设置为轨迹的特征点，累计轨

迹长度置为，重新进行累计；

步骤：重复步骤二，直至遍历完航线的所有轨迹点为止，获得航线的特征点序列

T=tttt

{,,,......,}

123

；

步骤：以特征点序列为航信切割点，对航线进行切割，将航线切分为若干轨迹

片段，每一个轨迹片段由起点和终点两个轨迹点组成，航线可以描述为轨迹片段序列；

步骤：如果最后一个轨迹段长度过短，则将该轨迹段与前一轨迹段进行合并，形

成新的轨迹片段。

设置合适的轨迹切分单位是轨迹分段的重要步骤，如果切分单位过大，切分的

片段过少，可能会难以正确描述航线的轨迹，如果切分单位过小，切分后的轨迹片段

过多，没有其他降低复杂度的效果，影响分析的效率。

（2）按转角阀值进行分段

使用平均切分的方法不能够解决轨迹转角变化的问题，如果轨迹的某一个部分的转

角较大，使用平均切分发有可能使某些切分的片段是曲线，影响后续相似度的分析。片

段的切分不仅要考虑片段的长度，同时需要考虑片段的形状，切分后的片段要尽量是一

第四章基于AIS数据的船舶航线聚类

条直线，便于相似度的计算。使用转角阀值进行切分的方法是一种可行的方案。

按转角进行分段的基本思想就是根据轨迹的转角阀值对轨迹进行切分，计算轨迹各

位置的转角，将轨迹转角较大的位置设置为轨迹切分点，对航线进行切分，保证切分得

到的轨迹片段是直线段，最大程度还原原始航线的轨迹，切分样例如图所示：

4-3

图4-3 按转角分段切分

如图所示，航线一共有处切分点，将轨迹切分成、、三个片段，

4-3L2L1L2L3

L1L2L2L3

与、与的两个组片段组合的夹角都超过了片段切分的转角阀值。

船舶轨迹转角切分流程如下：

步骤：设置轨迹分段转角阀值；

∇k

步骤：计算每一个轨迹点的转角。轨迹点的转角通过当前轨迹点前后若干各轨迹

点组成的两条轨迹段进行计算；

步骤：将计算得出的转角值与预设的轨迹切断转角阀值进行比较。如果转

∇

kkkk

>∇<∇

，则将当前轨迹点作为一个切分的轨迹特征点，如果，则继续进行采样，

直到遍历完所有航线所有的轨迹点位置，获得航线的特征点序列；

T=tttt

{,,,......,}

123

步骤：以特征点序列为航信切割点，对航线进行切割，将航线切分为若干轨迹

片段，每一个轨迹片段由起点和终点两个轨迹点组成，航线可以描述为轨迹片段序列；

以转角进行轨迹能够正确表示航线的轨迹方向，但是没有考虑切分后轨迹片段的长

度，可能出现某些轨迹片段过长的问题，如果一条轨迹是一整条直线，则使用转角阀值

切分法不能起到轨迹分段的作用。航线进行分段后需要对轨迹片段进行聚类分析，如果

片段之间的长度相差太大，会影响航线的聚类精度。因此，在使用转角切分的基础上，

需要保证轨迹片段具有合适的长度。

（3）平均分段与转角分段两者结合

华南理工大学硕士学位论文

使用平均切分和转角切分两种方法的结合不仅能够使切分后的片段是直线，同时可

以保证片段的长度不会过长。

第一步在转角较大的位置进行切分，在第一步切分的基础上对长度较长的片段进行

平均切分，切分的过程中将长度较短的片段与前一个片段连接成一个新的片段。

如图所示，计算每一个轨迹点的转角，找出转角超过阀值的中间轨迹点、、，

4-4abc

以选取的中间轨迹点为切分点对船舶轨迹进行切分，将船舶轨迹切分成四个片段：、

LLLLLLL

2341234

、和。分别对、、、四个片段平均切分，得到最终的航线片段序列

R={r,r,r,r,r,r,r,r,r,r,r,r,r,r}

1234567891011121314

，如图所示。

4-4

L15

L14

L13

L10

L11

L12

图4-4 两种方法综合切分

步骤：设置片段长度单位以及转角切分法阀值；

∇∇

步骤：计算每一个轨迹点的转角。轨迹点的转角通过当前轨迹点前后若干各轨迹

点组成的两条轨迹段进行计算；

步骤：将计算得出的转角值与预设的轨迹切断转角阀值进行比较。如果转角值

dddd

>∇<∇

，则将当前轨迹点设置为为一个片段切分的特征点，如果转角值，则继

续进行采样，直到遍历完航线所有的轨迹点为止；

步骤：以步骤中选取的特征点对轨迹进行切分，将轨迹切分成若干片段，形成

轨迹片段集合；

步骤：遍历步骤中切分得到的片段集合中的所有片段，以为切分长度单位

54P

∇

使用平均切分法进行二次切分，得到目标片段集合。在切分的过程中，若后一个轨迹片

段的长度较小，则与前一个轨迹片段进行合并。

2、基于区域划分优化的DBSCAN轨迹片段聚类

（1）聚类算法

DBSCAN

第四章基于AIS数据的船舶航线聚类

基于轨迹分段的航线聚类算法的第二步为对第一步分段后产生的航线轨迹片段进行

聚类。本文采用算法对轨迹片段进行聚类。

DBSCAN

算法是基于密度的轨迹聚类算法，能够将具有高密度的区域划分为簇，并

在具有噪声的数据中发现任意形状的簇。

DBSCAN

算法中重要的定义：

εε

领域：指以某一对象为中心，为半径的空间，。

Minpts

：对象领域内的最少对象数目。

核心对象：若对象的领域内具有至少个对象时，则该对象为核心对象。

Minpts

直接密度可达：若干对象在对象的领域，则时从密度可达的。

xyxy

密度可达：对于样本集合，给定一串对象，假设对象从到直接

Dxx

xxx

,,......,

ii-1

密度可达，那么对象和密度可达。

密度相连：如果存在和是从关于和密度可达的，则和时关于

xxyMinptsxx

1212

和密度可达的。

Minpts

DBSCAN

算法的聚类过程可描述如下：

步骤一：遍历整个数据集，以任意一个对象为核心点；

步骤二：寻找所有与该核心点密度相连的数据点；

步骤三：遍历该核心点所有密度领域内的所有核心对象，寻找与这些数据点密度

相连的点，直到不能再扩充为止。

步骤四：从新扫描数据集（不包括之前寻找到簇中的任何数据点），重复以上步骤，

知道数据中没有新的核心点为止。

经过上述步骤数据集中没有包含在任何簇中的数据点就构成异常点。

设参数，，则图中的核心对象包括、、、，这些对象的领

Minpts=34-5abce

域内的对象至少有个。

华南理工大学硕士学位论文

图核心对象

4-5 DBSCAN

（2）区域划分优化

传统算法需要遍历所有的轨迹进行聚类，当原始轨迹集合过大，会出现

DBSCAN

聚类效率低下的情况。本文提出一种优化的聚类方法，通过区域划分将原始轨迹数据划

分为多个子集合，再对子集合使用算法进行聚类，最后将每一个集合得到的

DBSCAN

结果进行合并即可，能够大大提高运行的效率。

设原始航线集合为，如图所示，将表按照轨迹划分为若干各区间，每一

list4-6list

个区间中有若干条航线，当一条新的航线需要进行聚类分析时，只需要与该航线所属区

域中的航线进行分析即可。

原始航线集

合

子集合1子集合2子集合3

......

图 4-6航线集合分枝示意图

第四章基于AIS数据的船舶航线聚类

图4-7通过区域划分集合

如图所示，对空间划分成个区域，每一个区域内都有若干条航线，对每一个

4-79

区域内的航线分别进行聚类和对所有航线一起聚类的结果时形同的。使用区域划分聚类

优化，能够提高了聚类的效率。

合适的分枝方法是优化算法的关键，分枝的方法主要有以下几种方案：

、按照起始点进行分枝

根据起止点的位置对原始航线集合进行分枝，将起始点较近的航线归为一个集合，

不同集合航线的轨迹点相距较远。

、按照区域划分进行分枝

对研究海域进行区域划分，相同区域的航线归为一个集合，当进行航线相似性分析

时，只需要找到分析航线所属区域，与该区域中所有航线进行对比即可。

（3）轨迹片段间的距离度量

对于散点的聚类，距离之间的度量可以直接使用欧几里得距离进行表示，然而对于

轨迹的距离度量，必须事先定义轨迹之间的距离。

轨迹片段是一系列轨迹点的组合，两个轨迹片段的距离需要根据片段的轨迹序列进

行计算，由于轨迹片段经过中提及的方法进行切分的，因此轨迹片段得距离度量实际

上是两条线段之间的距离度量。

本文定义轨迹片段为有向的线段，轨迹片段间的距离度量主要从四个方面进行考虑：

起止点距离、垂直距离、水平距离以及夹角距离。

起止点距离：

华南理工大学硕士学位论文

航线片段间的起止点距离与两条轨迹片段起止点连线的距离相关，对于两条平行且

长度相等的航线片段，起止点距离就是垂直距离，理论上，航线片段之间的偏转角越大，

起止点距离越大，若航线片段的方向相反，起止点距离最大。如图所示，表示起

4.6l

点的连接线，表示终点的连接线距离，则起止点的距离定义为：

垂直距离：

(4-1)

航线片段间的垂直距离与航线片段起始点到另一条航线垂直距离相关，如图所

4.6

示，表示轨迹片段起点到轨迹片段起点的垂直距离，表示轨迹片段终点到

⊥⊥

LLL

iji

轨迹片段终点的垂直距离，则线段和的垂直距离定义为：

LLL

jij

⊥⊥

⊥

(4-2)

⊥⊥

水平距离：

如图所示，表示轨迹片段起点到轨迹片段终点的水平距离，表示轨迹

4.6LL



片段终点到轨迹片段终点的水平距离，则片段和的水平距离定义为

LLLL:

ijij

d=min(l,l)



(4-3)

夹角距离：

轨迹片段间的夹角距离与航线之间的偏向角以及航线的长度相关，理论上，偏向角

越大，夹角距离越大。当片段间的偏向角为，两条轨迹片段平行，此时夹角距离为；

当片段之间的偏向角超过了，夹角距离定义为航线片段的长度。如图所示，轨

1804-8

迹片段和的夹角为，则片段和的水平距离定义为

LLLL:

ijij





L≤<

sin(),090

θθ

°°

(4-4)





°°

,90180

≤≤



轨迹片段之间的距离度量与上述四种距离相关，因此本文将轨迹片段之间的距离度

量定义为：

distLLwdLLwdLLwdLLwdLL

(,)(,)(,)(,)(,)

ijijijijij

=⋅+⋅+⋅+⋅

⊥⊥



θθ

(4-5)

其中，、、、分别为垂直距离、水平距离、夹角距离、起始点距离的权

www

⊥



重，权重默认为。

0.25

第四章基于AIS数据的船舶航线聚类

图航线片段距离度量

4-8

（4）聚类过程

对所有航线进行切分后的所有轨迹片段进行聚类，将相似度高的轨迹片段归为一类，

得到若干轨迹片段类簇，并对每一个片段类簇进行编号。每一个轨迹片段最终会归为某

一类（对于异常的轨迹单独归为一类），并且具有一个类别编号，每一条航线由轨迹片

段连接而成，因此每一条航线可以产生一个轨迹片段类别编号序列。

本文对轨迹片段的聚类算法以聚类算法为框架，轨迹片段之间的距离度

DBSCAN

量选用本节（）中所定义的距离进行度量，则基于区域划分优化的航线片段

3DBSCAN

聚类算法如下：

Algorithm

：

DBSCAN CLUSTERING

Input

：所有航线的轨迹片段序列

P=PPPP

{,,,......,}

123

，，

Minpts

OutPutlistN

：轨迹片段类别集合，各航线对应的轨迹片段类别编号序列

1listN

：初始化列表，用于存储聚类得到各个航线片段类簇，初始化

：原始航线数据划分成多个自集合

list=GetDivide();//

：遍历每一个子集合

foreach(ls in list)//

：

foreach(

in ls )//

遍历子集合中的每一条航线

：

if(

is not classified)

：

if(C=isKeyTra(

,,Minpts))//

判断当前轨迹片段是否核心轨迹

：

tClassify(C)

：

foreach(

sub

in C)

：

if(CC=iskeyTra(

sub

,,Minpts))

：

merge(C,CC)

华南理工大学硕士学位论文

11 end for

：

end for

：

end for

3、航线聚类

航线可以表示为轨迹片段序列，而经过描述的聚类方法中对所有轨迹片段进行聚

类后，相似的轨迹片段归为一类，而每一条航线都能够得到一个轨迹片段类别编号序列，

根据该序列的相似性可以对航线进行聚类。

如图所示，经过轨迹片段聚类得到轨迹片段类别集合

4-9

X={x,x,x,x,x}

12345

，航线

TTTT

1234

、、、的编号序列分别为、、、、

N={x,x}N={x,x}N={x,x}N={x,x}

113212312456

N={x,x}

514

。从序列的相似度上看，和的编号序列完全一致，而其余航线的编号

序列各不相同，因此航线、归为一类，航线、、单独为一类，共类。

TTTTT4

23145

图4-9航线相似性度量

设航线和的轨迹片段类别编号序列分别为和

X={x,x,x,......,x}

iiiiim

123

根据两个轨迹序列判断两条航线是否相似，判断的规则如下：。

X={x,x,x,......,x}

jjjjjn

123

、计算航线和长度的比值，

length()

，如果或者，则认为

R<0.8R>1.2

length()

两条轨迹是不相似的，否则进入判断规则。

、选择相对较短的轨迹片段，这里不妨设为，遍历的每一个轨迹片段，如果

轨迹片段能够在中找到相似的片段，则片段相似度加，如果最终片段相似度与

L1L

轨迹片段数量的比值超过，则认为两个航线是相似的。

0.85

综上所述，判断两条航线相似性的算法如下：

第四章基于AIS数据的船舶航线聚类

Algorithm

：

IfSimiliar

InputABAB

：船舶轨迹、，的长度，的长度，轨迹片段类别编号序列、

llX

121

XPnPn

21112

，序列元素数量为，序列元素数量为

Outputtrue or fal

：

1intcount

：定义一个型数值，用于表示相似片段数目

：

if or return fal;

n/n>1.2n/n<0.8

1212

：

for in {

x{x,x,x,......,x}

ikm

1112131

：

for in {

x{x,x,x,......,x}

22122232

：

ikz

{

：

count=count+1;

：

break;

：

}

：

}

：

}

：

if return true;

count/n>0.85

：

el return fal;

基于船舶轨迹相似度的航线聚类算法如下：

Input：所有航线的轨迹片段类别编号序列

X=XXXX

{,,,......,}

123

Output：航线集合

list

1list

：初始化航线的列表，用于存储聚类得到的航线；

：

for

XXXXX

{,,,......,}

123

{//

遍历所有航线

：

for ls in list{

：

If IfSimiliar(

Xll

,ls ,,,num1,num2) then Break;//

航线与某一个类别相

似

：如果航线找不到相似的航线，

If ls = then (ls );break;//

新增一类

：

}

：

}

：

return list;

华南理工大学硕士学位论文

4.2.2

基于航行区域相似度的航线聚类算法

基于轨迹分段的航线聚类算法通过航线分段再聚类的方法实现航线的聚类，然而当

船舶的轨迹数量过大时，采用该方法的时间效率低，运行时间比较长。本节提出一种新

的航线聚类算法——基于航行区域相似度的航线聚类算法。

基于区域划分的航线聚类方法算法的基本思想是：将船舶航行区域划分为若干子区

域，通过航线经过区域序列的相似性来衡量两条航线之间的相似性，将相似性高的航线

归为一类，最后将所有航线聚为若干类。

基于航行区域相似度的航线聚类算法有三个步骤：一是对航行的区域进行划分，二

是根据航线的轨迹序列生成对应的航线航行区域序列，三是根据航行的航行区域序列的

相似性对航线进行聚类。本节将对上述三个步骤进行阐述。

图表示基于划分的轨迹聚类算法的示意图，对三条轨迹进行聚类。首先将航行

4-10

区域划分成个子区域，如图所示，根据三条轨迹生成各自的区域序列，如图所示，

9ac

根据区域序列的相似性进行聚类，得出，和相似，将两条轨迹归为一类。

图4-10基于区域划分的轨迹聚类算法

1、航行区域划分

本文提出一种栅格化的区域划分方法，将航线区域划分为多个网格，每一个网格都

是唯一的，只需根据航线经过区域的相似性即可计算航线之间的相似性，大大降低了计

算的复杂度，提高运行的效率。

第四章基于AIS数据的船舶航线聚类

以某一个固定的轨迹点为起点，对地图进行栅格化，将地图划分为若干大小相同、

紧密相联的网格。每一个栅格区域为正方形，大小相同，区域之间紧密相连。如图

4-11

所示，左图是一个航海的区域，右图是经过栅格化的区域，将整个海域划分为若干形状

和大小相同的栅格。

栅格化

图4-11栅格化划分区域

使用栅格化区域划分方法主要有以下优点：一、使用栅格化划分航海区域能够使格

子之间紧密相连，能够铺满整个航海区域，而且划分的方法比较简单，容易实现。二、

由于划分是针对整个海域的，每一个格子的位置和大小是固定的，对于任意一条航线，

所有划分的子区域都是相同的，因此在进行区域相似度分析时，能够提高运行的效率。

栅格化区域划分法主要有两个关键参数，一个是划分的起始位置，二是划分的

start

栅格大小（长：，宽：）。

本文将划分的起始位置设置为所要研究的航海区域的左上顶点，以该点为格子划分

的起点，按照固定的长和宽对航海区域进行划分，将整个区域划分为若干个栅格。

第二个参数栅格的大小，栅格的大小决定了航线分析的准确性，如果栅格划分得太

小，栅格数量过多，不仅会降低分析的时间效率，同时由于格子过小，即使是船舶轨迹

比较相近经过的栅格序列可能会差别较大，会降低聚类的准确率，如图所示；如

4-12a

果栅格过大，即使是不相似的船舶轨迹也有可能经过相似的航行区域，同样会降低聚类

的准确性，如图所示。设置合适的栅格大小，是栅格化区域划分方法最重要的工

4-12b

作。

华南理工大学硕士学位论文

a b

图4-12 栅格区域划分

如图所示，和是两条相似的轨迹，但是由于划分的栅格过小，使两条轨

4-12aLL

迹经过的栅格序列完全不一致，影响轨迹相似性的判别；中，和是两条差别

4-12bLL

很大的曲线，但是由于栅格过大，两条轨迹经过区域相近，影响轨迹相似性的判别。

2、根据航线轨迹点生成航线区域编号序列

（1）子区域编号

栅格化区域划分是针对整个区域进行划分的方法，对任意一条航线而言每一个子区

域都是固定的，用区域编号对每一个区域进行唯一性标志。

区域编号的组成：经度编号—纬度编号。

经度编号的确定：以起始点为原点，若一个区域左上角顶点的经度与起始点的经度

相差了个单位，则经度编号为。

维度编号的计算方法：以起始点为原点，若一个区域的右下角顶点的维度与起始点

的纬度相差了个单位，则经度编号为。

1-12-13-14-1

1-22-23-24-2

1-32-33-34-3

1-42-43-44-4

图4-13区域编号示例

第四章基于AIS数据的船舶航线聚类

如图所示，航行区域以为起点，一个划分为个栅格。图中左上角栅格右

4-1316

下角顶点的经度与起始点经度相差单位，与起始点纬度相差个单位，因此左

上角栅格的编号为；图中右下角顶点的经度与起始点经度相差单位，与起始

“1-1”4

点纬度相差个单位，因此右下角栅格编号为。

4“4-4”

（2）生成区域序列

航线轨迹由一系列的轨迹点组成，每一个轨迹点落入到经上述方法划分的某一个子

区域中，因此每一条航线可以生成一个航线区域的编号序列。

轨迹点计算其所在子区域的方法可描述如下：

设轨迹点经纬度分别为和，起始点为，子区域的经纬度单位分别为和，

lnglatS

起始点的经纬度分别为和，则该轨迹点经度编号为

sLngsLat

经度编号为。

lngsLng

−

，该轨迹点

latsLat

−

，该轨迹点所属区域的编号为

n−n

航线生成栅格区域序列的方法可描述如下：

对航线的每一个轨迹点计算其所属的子区域，合并所有的区域得到一个栅格区域的

序列，在计算航线编号序列的过程中，如果某一个轨迹点的计算得出的区域编号已经存

在与序列中，保持序列不变，因此序列中每一个航线区域编号至多只出现一次。

2、基于区域相似度的航线聚类

相似航线的判别可以转化为区域序列相似度的判别，航线之间的区域序列相似度越

高，航线的相似度越高，将相似度高的航线归为同一个类别。基于区域相似度的航线聚

类算法一共分为两个过程：一是对区域进行切分，将航线轨迹切分成若干区域，形成有

序的区域序列；二是对区域序列进行相似度分析，将相似的航线归为一类，生成航线集

合。

如上一节所述，对于任意一条航线，栅格化区分划分方法划分得到的区域是固定不

变的，因此只需要确定区域划分的起始点和栅格的大小就可以进行区域的划分，根据航

线的轨迹点可以得到区域的序列，根据区域的序列计算航线的相似度。

设有航线和，其轨迹和区域划分的结果如图所示：

L1L24-14

华南理工大学硕士学位论文

图4-14区域聚类

蓝色栅格区域表示只有航线经过的栅格，黄色的栅格区域表示只有航线经过

的区域，而红色栅格表示航线和都经过的区域。如果航线和共同经过的区

LLLL

1212

域比较多，则认为航线和两条航线相似。

两条航线和是否相似的判断规则如下：

、若和经过区域个数的比例低于或者超过，则两条航线不相似，否则

LL0.81.2

转规则。

、若和共同经过的栅格数目超过航线栅格总数的，则航线和

LLL80%LL

12112

相似。

基于区域划分的航线相似性判断算法如下：

Algorithm：IfSimilar

Input：航线

LLTTxx

121212

和的轨迹序列和，格子的大小：长，宽

OutPut：两条航线是否相似，Ture or fal

1：初始化两个哈希表list1和list2，分别用于存储

和的栅格序列；

2：for

1i1

in {

3：计算轨迹点

TLngIndex=Tgx

1i11

的栅格区域编号Number：，

.ln/

LngIndex=Tatx

.l/

；

4： if nKey(Number) then (Number,0);

//如果list2中没有该区域编号，将该编号添加到list2中

5：}

6：for

2i2

in {

7：计算轨迹点

的栅格区域编号Number；

第四章基于AIS数据的船舶航线聚类

8： if nKey(Number) then (Number,0);

//如果list2中没有该区域编号，将该编号添加到list2中

9：}

10：if ()/()>1.2 or ()/()<0 then return fal;

11：初始化一个int型变量count，用于存储两条航线相似区域的个数；

11：foeach l in {

12： if nKey(l) then count=count+1;

13：}

14：if count/()>0.8 then return true;

15：el return fal;

对原始所有航线进行相似性分析，将相似度高的航线聚为一类，得到新的航线集合，

集合中每一条航线的轨迹各不相同，基于区域划分的航线聚类算法如下：

Algorithm：Clustering

Input：原始航线轨迹集合T，格子的大小：长

，宽

OutPut：聚类后的航线集合S

1：初始化存储器S，用于存储聚类后的航线集合

T{ in

2：for

3： for

in S{

4： If Ifsimilar(

TSxxS

iii

,,,) then 更新的信息；

5： el (

);

6： }

7：}

8：return S;

4.3 轨迹聚类结果评价指标

聚类质量的评估需要具体问题具体分析，不同条件、不同环境、不同情境下往往具

有不同的特征，不同情境对聚类算法存在一定的适应性。当前还没有一个能够普遍应用

于所有应用场景和所有聚类算法的评价函数，因此在选择评价度量时，首先要分析评价

方法的适应情景。在本文中，轨迹聚类的效果由簇内方差来衡量。

簇内方差即误差平方和最小平方标准，寻求簇内距离最小化，公式如下：

VSdistoc

()(,)(4-6)



ioS

=∈

华南理工大学硕士学位论文

其中表示轨迹类簇的集合，，表示簇的簇中心，

S=SSSScS

{,,,......,}

123

nii

dist(⋅⋅⋅)

是距离度量函数。轨迹聚类的过程，是寻群簇内距离最小的过程，簇内距离越小，表示

该簇轨迹之间的相似程度高，理想的情况下，最优划分的所有簇内距离的期望值为。

4.4 数据实验

4.4.1

实验数据

为了验证基于轨迹分段聚类算法以及基于区域划分聚类算法的聚类效果，本文选取

并与算法进行对比分析。了年珠三角区域部分船舶的轨迹数据进行实验，

DBSCAN 2016

本节实验中，选取年月份间珠三角区域的部分船舶航线轨迹数据对节

2016104.2

中提及的两个算法进行实验。数据集中，原始船舶轨迹数目为条，轨迹点数目为

1000

1788974IDRoute_IDShip_ID

个。其中，每一个轨迹点的数据包括航线（）、船舶ID（）、

时间（）、经度（）、纬度（）、速度（）、偏角（），数据样本如表

TimeLngLatsogcog4-1

所示：

表实验所采用的数据样本

4-1

Route_ID Ship_ID Time Lng lat sog cog

2016/11/3 11:15:03114.285121.83970.6189

1001 483745

2016/11/3 11:22:54114.28521.83960240

1001 483745

2016/11/3 11:30:38114.284921.83970301

1001 483745

2016/11/3 11:52:17114.284921.8396163

1001 483745

2016/11/3 11:58:08114.28521.839500

1001 483745

2016/11/3 12:35:40114.28521.83932341

1001 483745

2016/11/3 13:11:1221.83900

1001 483745

2016/11/3 13:20:59114.285321.83891143

1001 483745

2016/11/3 13:29:06114.285221.8392123

1001 483745

2016/11/3 13:38:42114.285321.8392235

1001 483745

114.2852

4.4.2

模型参数设置

本小节通过实验分别为本章的两种轨迹聚类算法选取最优的参数。

1、基于轨迹分段的聚类算法参数设置

基于轨迹分段聚类算法需要输入两个全局参数：距离阀值和密度阀值，不

minpts

同参数会得到不同的聚类结果，选择合适的参数能够使聚类的结果达到最佳。本文采用

基于熵理论的启发式算法来选取选取参数。熵是信息论中重要的概念，是对类簇中不确

第四章基于AIS数据的船舶航线聚类

定性的描述，熵越大，不确定性越大。熵的定义如下：

Hpp

=⋅



log()

(4-7)

其中表示事件发生的概率，当，熵为。启发式算法基于这样的事实：在

pp=1

最理想的轨迹聚类情况下，轨迹的数目不完全相等，此时熵值较小；对于最坏情况下的

轨迹聚类，所有类别中的轨迹数目相等（如每一条轨迹单独聚为一类），此时熵值最大。

定义如下熵公式：

Hxpxpx

()()log(())

=−



(4-8)

其中，其中，为类中所有船舶轨迹的数目。求解最优的，即求

()



()

解使达到最小值的值。设求解得出的最优为

H(x)

εε

，统计所有类簇船舶轨迹数目的

均值，令最优参数

avg(N(X))

Minptsavg(N(X))k

，为常数值，范围是。

k1-5

本实验中采用启发式方法得到基于轨迹分段算法的最优参数为：、。

=11

Minpts=16

2、基于区域划分的轨迹聚类算法

对于基于区域划分的聚类算法中，区域的大小是关键的参数，大小的设置直接影响

到聚类的结果，本文通过数据实验来选取最佳的区域大小。

实验设置如下：从原始的数据中选取个轨迹对，其中对是不相似的，其余的

16487

轨迹对相似。使用基于划分的聚类算法在不同的参数下对所有轨迹对进行相似性分析，

通过准确率来选取最优的参数。若所有的轨迹对全部识别为不相似，则

(precision)

pretision==pretision==

8787

0.530.47

，所有的轨迹对全部识别为相似，则。

198198

表展示不同区域大小下基于划分轨迹聚类预测的准确性，其中横向参数是区域

4-2

长度，纵向参数是区域宽度，单位为公里。如表所示，当区域长和宽分别为和，

4-222

聚类的结果达到；当参数为和时，预测的结果为，由于划分的区域过小，

96%110.53

所有的轨迹对都识别为不相似，因此只能够得到的准确率；当参数为和时，由

53%44

于划分的区域过大，所有轨迹对都识别为相似，所以只能得到的准确率。因此对于

47%

基于区域划分算法，本文采用的最优参数为、。

width

length=2

华南理工大学硕士学位论文

表4-2 基于区域划分的聚类算法各参数下的识别准确率

区域长度

区域宽度

0.5 1 1.5 2 2.5 3 3.5 4

0.5 0.53 0.53 0.53 0.57 0.58 0.58 0.60 0.61

1 0.53 0.58 0.59 0.64 0.69 0.71 0.71 0.71

1.5 0.53 0.62 0.72 0.88 0.84 0.76 0.72 0.72

2 0.56 0.67 0.91 0.96 0.89 0.83 0.77 0.71

2.5 0.56 0.65 0.85 0.86 0.83 0.75 0.68 0.59

3 0.57 0.65 0.76 0.81 0.94 0.87 0.75 0.63

3.5 0.59 0.65 0.68 0.73 0.84 0.62 0.47 0.47

4 0.59 0.65 0.68 0.75 0.66 0.62 0.47 0.47

4.4.3

实验结果

表表示在不同参数下，使用基于区域划分的聚类算法进行轨迹聚类得到的类别

4-3

示意图，从图中可以看出，当参数区域的长和宽分别为和、和时，聚类得到的

222.52

类别数目为。

表4-3 区域划分算法各参数下获取的类簇数目

区域长度

区域宽度

0.5 1 1.5 2 2.5 3 3.5 4

0.5 0 00112 2 2

1 0 11333 3 3

1.5 0 11644 4 4

2.5 1 24653 2 2

3 1 23443 2 2

3.5 2 22322 1 1

4 2 22321 1 1

775222 1 26

表和是基于轨迹分段算法、基于区域划分算法以及算法在珠三角

4-44-5DBSCAN

区域数据集上的聚类结果。表中包含了三个算法的类簇数目以及各类簇的船舶轨迹

4-4

数量；表中包含了三个算法得到聚类结果的簇内和簇间距离，单位为百米。

4-5

从表中可知，相同的数据集下，的类簇数量为，基于轨迹划分的类

4-4DBSCAN4

第四章基于AIS数据的船舶航线聚类

簇数目为，基于区域划分的类簇数目为。再结合表进行分析，使用三种算法进

874-5

行轨迹聚类后，虽然得到的轨迹类别数目不相同，但是从表来看，三种算法的簇内

4-5

和簇间距离相差不大，表明基于整段轨迹的算法不能完全将所有的类簇识别，

DBSCAN

明显在聚类的过程中出现将部分相似轨迹识别为不相似的情况，只能识别出个类簇，

而且从各类簇航线数目的分布上看，轨迹分段和区域划分的聚类结果要更加的均匀。

表4-4轨迹聚类类别数目

算法名称各个类簇总船舶轨迹的数目

Clus1 Clus2 Clus3 Clus4 Clus5 Clus6 Clus7 Clus8

DBSCAN 132 102 79 37

NANA NA NA

轨迹分段

区域划分NA

156 128 107 94 78 62 45 28

145 117 98 87 69 57 32

表4-5 轨迹聚类簇内和簇间距离（单位：百米）

聚类算法平均簇内距离最大簇内距离平均簇间距离最小簇间距离

DBSCAN 7.8 9.5 57.7 41.3

轨迹分段

区域划分

9.2 10.3 48.5 43.7

8.5 9.8 52.3 45.4

图是基于轨迹分段算法、基于区域划分算法以及在珠三角区域数据

4-15DBSCAN

集上的执行效率对比图，其中横轴表示轨迹的数目，单位是条，纵轴表示运行时间，单

从图中可以看出，三个算法在数据量比较少的情况下，执行的效率差别较小，位为秒。

(S)

但是当数据量逐渐增加时，基于区域划分的聚类算法的执行效率要明显比两个算法的执

行效率要高，而基于轨迹分段的聚类算法要比算法执行效率高。基于区域划

DBSCAN

分的方法直接根据航线的轨迹点生成区域序列，再分析序列的相似性即可，是三种算法

中运行效率最高的算法。基于的聚类算法的聚类对象是整条航线，而基于轨

DBSCAN

迹分段的预测算法需要对轨迹切断并聚类，聚类的对象是轨迹的片段，虽然聚类的对象

的数目较大，但是通过分枝优化，将所有的聚类对象分成多个集合再进行聚类，大大降

低了复杂度，因此执行效率优于基于整段轨迹聚类的算法。

DBSCAN

华南理工大学硕士学位论文

各算法执行时间

基于区域划分基于轨迹分段

300

250

200

150

100

100200300400500600700800900

DBSCAN

图4-15各算法运行时间

4.5 总结

本章在轨迹数据提取以及数据预处理的基础上对原始的航线进行聚类，将轨迹相似

的航线归为一类，最后获得轨迹互不相同的航线集合。从估计相似性和航行区域相似性

两个角度研究航线聚类，经过轨迹分段和区域划分，将原始航线轨迹划分成序列，使用

序列相似性衡量航线之间的相似性，将相似程度较高的航线进行聚合。最后选取珠三角

区域的部分轨迹数据进行聚类实验，实验表明基于轨迹分段和基于区域划分的聚类算法

的聚类效果较好，而且基于区域划分聚类算法的运行时间段，聚类的效率高。

第五章基于AIS数据的船舶航行轨迹预测

航运业的快速发展对航运服务的要求越来越高，而准确的船舶航行轨迹预测能够提

前预知船舶的动态，在智能航运服务中具有重要的意义。若能提前预知船舶的动态，不

仅能够分析船舶的异常行为，还能预估不同区域的航运交通流，对船舶的监控调度以及

了解航运贸易发展具有重要的作用，而实现这样智能服务的关键是能够准确预测船舶的

航行轨迹。在本章中，将基于前面章节从原始数据中提取出的重要轨迹数据进行建

AIS

模，实现对船舶航行轨迹的预测。

5.1 船舶轨迹预测的定义与描述

本文研究的船舶航行轨迹预测是指在已知船舶当前已行驶轨迹的情况下对船舶将要

航行的轨迹进行预测。采用的预测方法是通过分析船舶历史的数据提取出船舶重要的航

线，依据已有的轨迹找出历史航线中船舶最有可能选择的航线作为预测的结果。

图5-1 船舶轨迹预测示意图

基于数据的船舶航行轨迹预测的数学描述如下：给定船舶当前轨迹数据为

AIS

T=ttttt

{,,,......,}

123

，其中表示船舶第个轨迹点，经过聚类分析后的航线集合

S=SSSSS

{,,,......,}

123

，其中表示第条航线。则航线预测问题可以描述为寻找这样一

=fTSY

(,)

，个映射函数：使得

ˆˆ

|)|min(|Y−Y|Y−Y

，其中表示船舶真实的航线，

f(•)

||Y−Y

越小表示预测的结果越准确。

表示航线之间的差异程度，

原问题可以建模为概率预测问题，映射函数可以理解为从历史航线中选取轨迹

f(•)

最相似、概率最大的航线作为预测的结果。

5.2 轨迹统计分析

原始航线集合经过第四章所述的轨迹聚类分析方法可得到新的航线集合，

华南理工大学硕士学位论文

L={ship_num,route_num,start,end,T}

。航线集合通过轨迹分段可以得到轨迹片段

的集合。在通过船舶轨迹进行航线预测时，往往需要使用当前轨迹与航线轨迹进行对

比分析，然而船舶的航线一般情况下较长，而且有可能有比较多的转角较大的地方，因

此在进行航线预测时使用切分后的轨迹片段进行分析会得到更好的效果。

在初始轨迹分段切分后，中的轨迹片段并不都是完全不相似的，通过片段间的相

似性分析，将轨迹相似的片段进行聚类，可以得到轨迹不相似的片段集合，轨迹片段

间的相似性度量在第四章已经阐述。

经过切分后的轨迹片段简单得看成是一条直线（在转角较大的地方进行轨迹切分），

因此，使用起始点的轨迹数据表示轨迹片段可以很大程度上保留轨迹片段的信息。在航

线预测问题上，需要统计每一条轨迹片段覆盖的各条航线的数目，因此每一个轨迹片段

一共有三个变量：起点轨迹信息，终点轨迹信息，以及各条航线的统计数目。

123

910

图航线轨迹分段示意图

5-2

图中，对航线

5-2

L={ship_num,route_num,startPos,endPos,T}

111111

和

L={ship_num,route_num,startPos,endPos,T}

2222221

进行分段，

可以得到各航线片段，

航线可以得到条航线片段，其中和有三个航线片段是相似的，因此两条航线

LLL

212

经过聚类分析后共得到个航线片段。其中轨迹片段、、因为有两条航线经过，

10123

行航线数目分别为

ship_numship_num

和。

轨迹片段聚类算法：

Algorithm

：

RoutePieceClustering

InputS

：航线集合

OututSet

：轨迹片段集合

第五章基于AIS数据的船舶航行轨迹预测

1Set

：初始化轨迹集合，用于存储所有的轨迹片段

：

foreach (

in S)

：

temp=GetPiece(

);//

对航线进行切断

(t in temp) foreach

：

foreach(p in Set)

：更新航线片段的信息

if IfSimiliar(t,p) then Update(p,t);//p;

：

if p= then (t);

：

end for;

：

end for;

：

end for;

：

return t;

5.3 基于AIS数据的船舶航行轨迹预测算法

预测船舶未来的航行轨迹是辅助航运服务的重要基础之一，在本文中通过海量船舶

的历史轨迹数据分析得出有效的航线，并以船舶当前轨迹为基础，通过与历史航线进行

对比分析，找到根据当前轨迹船舶最优可能航行的线路，以实现对船舶动态的预测，对

于船舶的轨迹预测问题，该问题的数学描述详见。在本节中，将以上一节提及的数

5.1

据为基础进行算法设计，包括基于概率统计的预测算法、基于船舶轨迹相似度的预测算

法、基于加权的预测算法、基于朴素贝叶斯的预测算法。

KNN

5.3.1

基于概率统计的船舶航行轨迹预测算法

基于概率统计的航线预测算法的基本思想是通过对以往船舶的轨迹历史数据进行统

计，挖掘船舶当前轨迹与航线之间的联系，建立船舶航行轨迹与航线之间的映射函数

f()

，从而达到根据船舶当前轨迹预测航线的目的。

统计的方法一共两种，一是以航线片段为统计的维度，二是以船舶轨迹经过的船舶

区域序列为统计维度。

1、基于航线片段的统计方法

基于航线片段的统计方法的基本思想：根据当前轨迹与轨迹片段集合进行匹配，得

到与当前轨迹最接近的轨迹片段序列，根据轨迹片段序列与航线之间的关系可以计算得

出当前船舶轨迹与各航线的相似程度，选择相似程度最高的航线作为预测的结果。

综上，该统计算法一共有以下几个流程：

华南理工大学硕士学位论文

（）分析轨迹片段与航线之间的关系。上一节中，航线集合通过分段得到轨迹片段

集合，并且统计得出轨迹片段与航线之间的关系，得到各航线片段与航线之间的转移概

率。

使用以矩阵作为存储结构存储各航线片段与航线的概率，其中表示航线片段

属于航线的概率。

令航线片段的行程覆盖数目为，其中，条行程属于航线，条行程属于航

SNmRn

线，则航线片段属于航线的概率

RSR

kij

ijik

，属于航线的概率为。对所

有船舶的轨迹数据进行统计，可以得到所有航线片段属于各条航线的概率。

计算航线片段与各航线之间转移概率的方法：

Algorithm

：

CalTransfromRate

InputA

：船舶轨迹数据，航线片段集合

S=sss

{,,......,}

，航线集合

R=RRR

{,,......,}

；

Outputp

：各航线片段属于各个航线的概率矩阵；

：初始化矩阵；

：

foreach ( ai in A)

：若属于轨迹片段，属于航线，则

aiSiSirip[Pi][ri]=p[Pi][ri+1];

：

end for;

：

foreach (

ssss

in )//

{,,......,}

遍历所有的航线片段

：

foreach(

{,,......,}

RRR

)//

遍历所有的航线

：

p=cn

ijiji

计算各航线片段到各航线的转移概

C[i][j]=C[i][j]/C[i][length(C[i])-1];

：

end for;

：

end for;

：

return p;

（2）使用当前轨迹与轨迹片段集合进行匹配，得出与当前轨迹最接近的轨迹片段序

列。

第一步是使用轨迹分段法对船舶当前的轨迹进行切分，生成轨迹片段序列

L=LLL

{,,......,}

；

第五章基于AIS数据的船舶航行轨迹预测

第二步再利用第四章使用的轨迹片段相似性方法得出与船舶轨迹最相近的轨迹片段

****

序列。

S=sss

{,,......,}

（）步骤（）中利用概率统计可以得到航线片段序列中每一个航线片段与各航线

之间的转移概率，因此可得到中每一个片段与各行航线的转移概率，综合中所有

航线片段的概率计算得出船舶当前轨迹属于各航线的概率，选择概率高的航线作为最终

的预测结果。

假设轨迹片段之间是相互独立的，当前轨迹与航线的相似度计算如下：

jij

∏

(5-1)

其中，片段表示当前轨迹与航线的相似度，轨迹表示轨迹片段与航线

Pps

jij

的转移概率。

基于航线片段统计方法的航线预测算法：

Algorithm

：基于轨迹片段统计方法的航线预测算法

Input

：航线片段集合

S=sssR=RRR

{,,......,}{,,......,}

1212

，航线集合，各航线片

段属于各航线的概率矩阵（由（）中提及的方法统计所得），船舶当前轨迹

p*1

序列；

OutputTy

：样本所属类别

：初始化概率数组，存储每一条航线的概率；

：根据船舶当前轨迹计算得到轨迹片段序列

S*=GetIndex(T,S);//

：

foreach (

in S*)//

遍历所有的相似轨迹片段序列

( foreach

in R)//

遍历所有航线：

：

p=p×p

jjij

;//

计算当前轨迹属于每一条航线的概率

for; end

：

end for;

：初始化型变量，用于存储最大的概率，初始化变量，存储预测

intmaxRatey

的类别；

：

foreach (

in p)//

遍历所有航向的概率

p>RatemaxRate=p;p

iii

max

then y=;//

选取概率最大的航线作为预

：

华南理工大学硕士学位论文

测的结果

：

end for;

：

return y;

2、基于区域的统计方法

与中的方法类似，只是统计的维度发生了变化，统计各区域与航线之间的关系，

得到各区域与航线之间的转移概率。根据船舶的轨迹可以得到船舶航行的区域序列，根

据统计概率可以得到区域序列中每一个区域与各航线之间的转移概率，综合各区域的概

率计算得出船舶当前轨迹属于各航线的概率并以概率从高到低进行排序，将概率最高的

若干条航线作为预测结果的候选集。

该方法的基础工作是统计所有航行区域属于各航线的概率，以矩阵作为存储结构

存储各航线区域与航线的转移概率，其中表示航线区域与航线的转移概率。设

航行区域的行程覆盖数目为，其中，条行程属于航线，条行程属于航线，

DNmRnR

则航行区域属于航线的概率，属于航线的概率为。对所有

DRR

p=m/N

p=n/N

船舶的轨迹数据进行统计，可以得到所有航行区域属于各条航线的概率。

计算区域属于各航线的方法：

Algorithm

：

CalDistrictRate

InputA

：船舶轨迹数据，航线区域集合

D=ddd

{,,......,}

，航线集合

R=RRR

{,,......,}

；

Outputp

：各航线片段属于各个航线的概率矩阵；

：初始化矩阵；

：

for ( ai in A)

：若属于轨迹片段，属于航线，则

aiSiSirip[Pi][ri]=p[Pi][ri+1];

：

end for;

：

foreach (

ssss

in )//

{,,......,}

遍历所有的航线区域

：

foreach(

{,,......,}

RRR

)//

遍历所有的航线

：

p=cn

ijiji

计算各航线区域到各航线的转移概率

：

end for;

：

end for;

10return p;

：

第五章基于AIS数据的船舶航行轨迹预测

基于区域统计方法的航线预测算法如下：

Algorithm

：基于区域统计方法的航线预测算法

Input

：航线集合

R=RRR

{,,......,}

，各航线区域与航线之间的概率矩阵，船

舶当前轨迹序列

OutputTC

：样本所属类别

：初始化概率数组

p=ppp

{,,......,}

，存储每一条航线的概率；

：根据船舶当前轨迹计算得到当前轨迹的区域序列（使用第

D*=GetDistrict(T);//

四章的方法）

：

for(

in D*)//D*

遍历区域序列

：

for(

in )//

{,,......,}

RRR

遍历所有的航线

：

p=p×p

jjij

;//

计算每一条航线的概率

for; end

：

end for;

：初始化型变量，用于存储最大的概率，初始化变量，存储预测

intmaxRatey

的类别；

：

foreach (

pppp

in )//

{,,......,}

遍历所有航向的概率

p>RatemaxRate=p;p

iii

max

then y=;//

选取概率最大的航线作为预

：

测的结果

：

end for;

：

return p;

5.3.2

基于船舶轨迹相似度的船舶航行轨迹预测算法

基于船舶轨迹相似度的航线预测算法的基本思想是根据船舶已行驶的轨迹与现有航

线进行匹配，找出与当前轨迹最接近的航线作为预测的结果。由第四章可知，船舶轨迹

可以切分成若干个轨迹片段，因此将当前轨迹的轨迹片段序列与各航线的估计序列片段

作对比即可找出最优航线。

航线预测算法的基本流程：

（）使用轨迹切断算法对船舶当前轨迹进行切断，组成轨迹片段序列。

华南理工大学硕士学位论文

（）遍历分析得出的所有的轨迹片段，使用轨迹片段相似性分析，计算得到相似轨

迹片段序列。

（）计算每一条航线的相似度，选择相似度最高的航线作为预测的结果。

基于轨迹相似度的航线预测算法如下：

Algorithm

：基于轨迹相似度的航线预测算法

Input

：航线集合

S=SSRR=RRR

{,,......,}{,,......,}

1212

，航线集合，预测的轨迹

OutPutTy

：预测所属航线

：初始化数组

p=ppp

{,,......,}

，用于存储各航线的概率，初始化，用

count

于存储相似的片段数目；

：使用轨迹切断方法得出的轨迹片段；

S=GetDistrict(T,S);

//T

：

for (

RRRR

{,,......,}

)//

遍历所有的航线

：初始化为

count=0;//count0

：

for (

in )//

遍历船舶当前轨迹所有的轨迹片段

：

.contains() then count=count+1;

：

end for;

：

end for;

：初始化结果类别，初始化最大概率；

ymaxRate

：

for (

pppp

in )//

{,,......,}

遍历所有的概率

maxRate=;y=;// then

ppp

iii

选择概率最大的航线作为预测

：

if maxRate<

的结果

count

;//

计算每一天航线的概率

psize

：

end for;

：

return y;

5.3.3 KNN

基于加权的船舶航行轨迹预测算法

最近邻算法是一种常见的分类算法，其基本思想是找到与预测样本差异最小的个体，

并认为预测样本的类别与该个体的类别一致。样本之间的差异可用空间距离和相似度度

量两种，在距离度量中，距离越大差异越大，在相似度度量中数值越大差异越小。

第五章基于AIS数据的船舶航行轨迹预测

最近邻算法仅仅使用最接近预测样本的个体作为观测样本会带来产生较大的误差，

容易出现过拟合的情况，特别是当观测的个体是噪声数据时对预测的影响非常大。因此，

最近邻算法的优化方法是最近邻（），通过观测多个与预测样本差异较小的个体

KKNN

往往能够得到更好的预测结果。最近邻的基本思想是找到与预测样本最接近的个样

本（称之为邻居），然后采用投票的方式选择得票最高的类别。一般情况下，目前样本

与个邻居的差异是不同的，在进行类别判别时，每一个邻居对结果的影响程度不同，

因而每一个邻居的权重各不相同，由此引申出加权最近邻算法。

用表示个最近邻与目标个体之间的差异度量，用表示个最近邻对目标个

DKWK

体的影响权重：，对于，，即差异越小，影响权重往往越大。



W=1

D<DW>W

ijij

通常的做法是把做成的函数：在加权最近邻中确定权重向量是一个关键点，

WDKW

W=f(D)

，然后再对做归一化处理；另一种做法是对设定固定的阶梯值。用

WWC

表示类别的取值集合，用表示目标个体的个最近类别，当时，，否

R=C

R=1

则，在加权最近邻目标算法中，类别的概率为，因此个

R=0

p(C)=R⋅W

jii



体类别判别为。

argmaxR⋅W



将算法应用于航线预测方法，可以将航线看成是预测的结果，将所有船舶的

KNN

每一个轨迹点数据作为一个样本。因此，航线预测可以简单描述如下：根据当前船舶的

轨迹数据找到与该数据最接近的个船舶轨迹点，计算这个轨迹点的航线，得票最

高的航线为最终的预测结果。

设样本集合为，其中表示样本，，表示特征

S=sssssS=(X,R)X

{,,,......,}

123

niiiii

向量，表示该样本对应的航线。，其中和分

RX=(x,y,cog,sog,ship_type,time)xy

iiiiiiii

别表示当前位置的经纬度，表示当前位置的船舶偏向角，表示当前位置的航速，

cogsog

ship_type

表示船舶的类型，表示当前时间。通过这些特征计算样本之间的差异。

time

基于航线预测算法的流程如下：

KNN

Algorithm

：航线预测算法

KNN

InputSKT

：样本集合，邻居数目，预测样本

OutputTR

：样本所属航线

：数据预处理；

：初始化小根堆；

Heap

华南理工大学硕士学位论文

3for(

：

in S)

：计算与

的相似度；

Sim

：维护大根堆：

若大根堆的元素小于，往大根对插入节点

；否则，判断相似度

Sim

与头结点的大小，若头结点的元素，则替换掉头结点，并调

HeapSim>Heap

整小根堆。

：

end for;

：计算向量权重：；

ww=f(heap)

：计算

CRW

xii

=⋅

argmax()



；

：

returne

；

5.3.4

基于朴素贝叶斯的船舶航行轨迹预测算法

朴素贝叶斯严格意义上是一种分类模型，通过对样本的统计分析求解特征与类别之

间的联合概率，从而求出在给定特征条件下的各类别的条件概率。将朴素贝叶斯应用与

航线预测中，将航线看成类别，船舶的轨迹数据看成特征，则贝叶斯模型可以简单描述

为在观察属性的条件下出现概率最大的类别即为其判定类别。

如所述，每一条航线可以表示为一组航线片段的序列，船舶

5.2

R=rrrr

{,,,......,}

123

当前行驶轨迹可表示为，对行驶轨迹进行切分可得到一组轨迹片段序

T=tttt

{,,,......,}

123

列，则船舶轨迹可表示为，其中表示轨迹的第个分段。通过

T=sssss

{,,,......,}

123

与航线片段集合进行相似度度量，可以得到船舶轨迹一个轨迹片段最相近的航线片

段，集船舶轨迹的相似航线片段序列为通过船舶的轨迹预测。

P=PPPP

{,,,......,}

123

航线，相当于最大化后验概率，由贝叶斯公式可得：

p(R|T,P)

pRTP∝pTPR⋅pR

(|,)(,|)()

ccc

(5-2)

其中，先验概率概率可以对轨迹数据进行统计得出，计算的船舶覆盖率或

p(R)R

者航线的覆盖率即可。设所有船舶的数量为，行程数量为，而经过航线而上的船

舶数量为，行程数量为，则：

()(5-3)

第五章基于AIS数据的船舶航行轨迹预测

或者：

()

(5-4)

pTPR

(,|)

是给定航线条件下轨迹路段以及相似路段的联合概率，其表达式如

下：

pTPR=pTPR⋅pPR

(,|)(|,)(|)

ccc

(5-5)

相似路段序列与轨迹路段序列是一一对应，只要确定轨迹路段，相似路段序列

就能唯一的，概率可以表达如下：

p(T|P,R)

pTPRptpR

(|,)(|,)

ciic

∏

(5-6)

公式

(5-6)

中，利用了类似朴素贝叶斯的条件独立性假设，假设每一个航线片段之间

是条件独立的，即与的求解如下：

tttptpR

iiic

−(|,)

−

没有关联。概率

ptpR=pxycogsogpR

(|,)(,,,|,)

iiciiiiic

(5-7)

根据航线片段与轨迹片段的空间的相关性进行求解，与的相关性越大，概

pttp

iiii

率越大，反之，相关性越小，概率越小。

pPR

(|)

是给定航线条件下相似路段序列的条件概率，即要求解一个序列的概率，

可以利用马尔可夫假设进行求解。马尔可夫假设当前状态与只与前一个状态相关，而与

之前的状态无关，因此在给定状态序列下，求解序列的概率可得：

HP(H)

pHphhhphh

()(,,......,)(|)

011

mii

∏

−

(5-8)

使用对因此求解需要对进一步分解。由马尔

HMM

p(P|R)pPPPPR

cmc

(,,,......,|)

123

可夫假设可得：

pPRpPPRpPPRPP

(|)(,|)(|,),,......,

cmciic

=∝

0112

∏

−

(5-9)

pPPRPP

(|,)

iici

−−

1i1

求解可以理解为在航线，轨迹片段从片段转移至的概率。将该

概率近似地看成从片段转移至的概率以及到航线转移概率之积，即：

−

pPPRpPPpRP

(|,)(|)(|)

iiciici

−−

≈⋅

(5-10)

综上，得到最终计算航线概率的公式为：

华南理工大学硕士学位论文

pRTpTPRpR

(|)(,|)()

ccc

=⋅

=⋅⋅

pTPRpPRpR

(|,)(|)()

ccc

=⋅⋅

∏

ptpRpPRpR

(|,)(|)()

iiccc

(5-11)

=⋅⋅

∏∏

ptpRpPPRpR

(|,)(|,)()

iiciicc

−

=⋅⋅⋅

∏∏

ptpRpPPpRPpR

(|,)(|)(|)()

iiciicic

−

先验概率可通过航线船舶的覆盖度进行统计，条件概率根据两个片

()

pTPR

(|,)

段之间的相似性进行计算，相似程度与片段之间的距离相关，片段间的转移概率

pPPpPR

(|)(|)

iic

−

以及片段与航线之间的转移概率通过对历史数据的统计得出。

航行轨迹预测算法的流程如下：

、基础概率统计。包括每一条航线的概率，片段之间的转移概率以及片段与航线之

间的转移概率。

、对船舶当前的轨迹进行切分，形成轨迹片段序列

P=PPPP

{,,,......,}

123

；

、根据当前轨迹片段序列与航线的轨迹片段进行相似性分析，找出最接近的轨迹片

123

,,,......,}{

PPPP=P

；段序列

、根据轨迹片段之间的相似性计算

与的相似的概率；

ptpRpPPpRPpRpRT

(|,)(|)(|)()(|)

iiciicicc

⋅⋅⋅=

∏∏

−

、根据公式

概率，求求出航

线的概率。

RpRT

(|)

基于朴素贝叶斯的航行轨迹预测算法如下：

Algorithm

：

NaiveBai

InputRT

：历史航线集合，船舶轨迹

OutPutC

：航线类别

1Pr

：初始化链表，用于存储每一条航线的概率；

：对船舶轨迹进行切断，形成轨迹片段组合

P=GetPiece(T);

//T

：对历史航线集合进行轨迹片段切分，每一条航线都可

P=GetPiece(R);//R

以表示为片段的集合

第五章基于AIS数据的船舶航行轨迹预测

4CalTransRate(P,S);//

：计算各片段之间的转移概率，计算片段与航线之间的

转移概率

：

foreach( in R)

,);// GetSimPiece(

寻找最相似片段序列：

的概率

Pr[

]

：计算概率航线

：

end for;

：寻找最大概率航线

argmax(Pr)



;//

：

return C;

5.4 实验分析

5.4.1

基础数据

本文提供的分析数据从年月份开始采集至今，共采集有效轨迹数据超过

201692.4

亿条，所采集的区域覆盖全球。其中珠三角内的有效数据超过万条，占比约，

600025%

其中包含了条船舶共条行程数据（经过异常数据处理，删除轨迹异常、

59106227891

航线过短的行程）。对所有船舶行程采用第四章的船舶轨迹聚类算法进行聚类，得到

212865-3

条航线。对航线的船舶行程覆盖度进行统计并由多到少进行排序后如图所示，

横轴表示航线编号，纵轴表示航线覆盖船舶的数量，从图中可以看出，只有少部分的航

线的船舶数量覆盖数超过条，其余的航线船舶覆盖数量较少。说明船舶在选择航线

的时候有一定的偏好，当船舶数量和行程数增多时，航线的船舶覆盖度会增加。

900

800

700

600

500

400

300

200

100

1223455677899

5296307418529

1111111111111

0122344566789

6307418529630

图航线船舶覆盖图（只选取覆盖数目超过的航线）

5-3 20

华南理工大学硕士学位论文

本文是建立在海量船舶数据上研究航线轨迹预测，设定航线船舶覆盖数量为，

AIS20

选择船舶覆盖数量超过的航线作为研究的对象，共条航线，这些航线覆盖的行

201849

程数为，平均每条航线的船舶覆盖数量超过。上述条航线为文章就算实

985275098527

验的基础航线轨迹数据。

5.4.2

实验设置

1、验证数据集

为了验证各算法在航线轨迹预测中的预测效果，本文在上一节描述的数据中进行实

验，共分为两个验证数据集：数据集为已标注的数据集，数据集为无标注数据集。

数据集A：数据集中的所有航线已经通过人工标注其所属航线，共条船舶

A1782

轨迹。由于该数据集有标注的数据，因此将该航线预测问题定义为分类问题，在实验中

使用分类准确率对实验的结果进行评价。准确率的定义如下：

precition

(5-12)

其中，表示船舶轨迹中预测正确的轨迹数目，表示船舶轨迹中预测数目错误的轨

迹数目。

数据集B：数据集中的测试数据采用随机抽样的方法从原始数据中选取，对于该

数据集的预测结果验证使用多次随机随机实验计算各算法平均的预测准确率，实验的次

数、采样的比例如表所示。

5-1

对于数据集，由于数据是未标注的，所以需要采用轨迹距离度量来衡量预测的航

线和实际航线的相似性。两者若距离低于阀值，则预测结果正确，若预测距离超过阀值，

则预测结果错误。轨迹距离的定义如下：

其中，表示预测的航线，表示真实的航线，是距离函数，计算两条航线之

dist

间的距离，使用第四章提及的轨迹相似性的度量方法来进行计算。若，则预

RMSEd

≥∇

测错误，，则预测正确。

RMSEd

<∇

表训练和测试样本选取

5-1

航线数量训练测试比例次数

RMSE=distop

(,)

(5-13)

98527 78822 19705

：

98527 88675 9852

：

第五章基于AIS数据的船舶航行轨迹预测

2、算法参数设置

使用中描述的航线预测算法在上述两个数据集中进行实验，对各个算法的全局

5.3

参数进行如下设置：

基于区域统计算法：区域大小、

width

height=2

加权最紧邻：加权函数为，加权函数采用，表示第个最近邻，近邻个

Kii

1/21/2

数。

K={3,5,10}

船舶当前航行轨迹的长度对航线预测具有重要的影响，船舶在不同阶段可能预测的

结果不同，如果船舶只航行了很短的距离，航线预测的结果可能非常不准确，因为船舶

才刚出发，难以通过当前轨迹进行预测，然而如果船舶已经航行了比较长的距离，则预

测的结果比较准确。基于此事实，本文在实验中进行如下模拟：对于预测数据集中每一

条航线，设置个轨迹预测点，即已知船舶从出发到该轨迹点的船舶轨迹，进行航线预

测。个轨迹预测点的设置如下（、、、、）：，，，，

5T1T2T3T4T55%10%30%50%70%

（表示从轨迹序列从前往后数轨迹长度处的点）。预测过程如图和所示：

x%x%5-55-6

图5-4 航线轨迹图

图中，表示船舶的需要进行测试的航线，、和为三个预测点位，即

5-4L1T1T2T3

船舶到达该点时对船舶的未来轨迹进行预测，当船舶到达时，其历史的轨迹为

T1T1

之间所有轨迹组成的序列，当船舶到达时，其历史轨迹为之前所有轨迹组成的序

T2T2

列，当船舶到达时，其历史轨迹为之前所有轨迹组成的序列。

T3T3

华南理工大学硕士学位论文

30%

20%

30%

20%

30%

40%

30%

L2L2

L3L3

T2T2

L1L1

T1T1

T4T4

L4L4

70%

100%

30%0

图5-5 航线轨迹预测示意图

图中，表示船舶达到时的预测结果，船舶到达时的预测结果，图表

5-5aT1bT2c

示船舶到达时的预测结果，图表示船舶到达的预测结果。

T3dT4

5.4.3

实验结果

1、数据集

对数据集使用多种预测方法进行实验，实验统计的结果如表和图所示，其

5-25-6

中横轴表示各种各个预测点，纵轴表示预测准确率，单位为百分比。从总体的趋势上看，

每一条曲线的趋势都是逐渐上升，表示从到预测的准确率不断的提高，这是由于

T1T5

从到已知船舶的轨迹越来越长，对船舶轨迹的描述越来越多，因此预测页越来越

T1T5

准确。从预测的算法上看，预测准确率最高的是基于朴素贝叶斯的预测算法预测算法，

不论从各个预测点来看预测的结果明显优于其他算法，并且在和两个预测点的预

T4T5

测准确率超过了，而基于轨迹相似性的预测算法在轨迹点的预测准确率也超过

90%T5

了。但是基于加权和基于统计的两种算法效果较差，特别是基于加权

90%KNNKNN

预测算法的总体预测效果最差，只有在时预测的准确率才超过了，主要是因为

T580%

本文算法只是从估计点的角度出发，没有从船舶的整体轨迹入手，很容易造成大

KNN

误差。

第五章基于AIS数据的船舶航行轨迹预测

表5-2 各预测算法预测准确率

预测算法

加权KNN-3

加权KNN-5

加权KNN-10

基于统计（轨迹）

基于统计（区域）

轨迹相似性

预测位置点

T1 T2 T3 T4 T5

0.58 0.6430.7580.792 0.829

0.783 0.8520.62 0.69 0.753

0.789 0.8650.6040.6760.743

0.802 0.8760.6340.6830.764

0.814 0.8870.6520.6940.788

0.901 0.95 0.7540.8030.877

0.6630.7130.82 0.857 0.913

各算法预测准确率

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

T1T2T3T4T5

图5-6 船舶航行轨迹预测准确率

2、数据集

对数据集使用多种预测方法进行实验，实验统计的结果如表以及图所示，

5-35-7

其中横轴表示各种预测算法，纵轴表示预测准确率，单位为百分比。从总体趋势上看，

与数据集相同，从到预测的准确率逐渐升高。从总体的预测结果上看，数据

AT1T5

集的平均预测准确率相对要低。从预测算法上看，朴素贝叶斯算法仍然是明显由于其

他算法，从到该算法预测准确率都高于其余各个算法，在和的准确率上

T1T5T4T5

超过了，的准确率超过了。从总体上看，加权算法的预测效果最差的

85%T380%KNN

算法，而基于区域、基于轨迹和航线轨迹相似性三种算法总体的预测准确率相差不大。

华南理工大学硕士学位论文

从稳定性上看，而朴素贝叶斯和基于轨迹相似性两个算法的稳定性最好，基于规律的两

个算法的稳定性相差不大，而基于加权算法的稳定性最差。

KNN

表5-3 各预测算法预测准确率

预测算法

加权KNN-

基于统计（轨迹）

基于统计（区域）

预测位置点

T1 T2 T3 T4 T5

0.5650.5940.6920.748 0.774

0.5940.6280.7010.732 0.782

0.5720.6420.6850.764 0.798

0.6480.6540.7430.796 0.827

0.6320.6430.7380.784 0.845

0.7590.8060.864 0.901NB 0.682

0.6820.7480.802 0.8320.624

轨迹相似性

各算法预测准确率

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

T1T2T3T4T5

图5-7 船舶航行轨迹预测准确率

第五章基于AIS数据的船舶航行轨迹预测

各算法预测准确率标准差

T1T2T3T4T5

图5-8 船舶航行轨迹预测标准差

综上，无论从数据集还是数据集，基于朴素贝叶斯的预测算法在五个预

ABT1-T5

测点的预测准确率明显高于其他算法，而且预测的准确率较高，表明本文建立的基于

AIS

的船舶航行轨迹预测模型的有效性，在理论上和实际中都有较好的效果。

5.5 总结

本章在第四章轨迹聚类的基础上对船舶航行轨迹预测进行建模，并从原始轨迹数据

选取部分数据进行实验。节对船舶航行轨迹预测进行描述，从数学的角度进行阐述；

5.1

5.2

节是基本的数据处理，对航线的轨迹进行分段，切分成轨迹序列，为后续的算法研

究提供基础；节对该模型进行模型求解设计，包括基于概率统计的算法、基于轨迹

5.3

相似度的算法、加权最近邻算法以及朴素贝叶斯算法，对这些算法在船舶轨迹预测的

应用上进行理论推导。最后从原始数据中选取部分数据进行实验，将上述提及的算法应

用于这些数据中，实验结果表明朴素贝叶斯算法与其他算法相比具有更优越的性能，同

时表明本文的技术路线具有一定的参考价值。

华南理工大学硕士学位论文

第六章总结和展望

6.1 工作总结

在航运业越来越发达的背景下研究智能化预测船舶未来航行轨迹是有重要意义的。

以船舶未来的轨迹为基础，可以对船舶进行动态监测，发现船舶的异常行为，对交通流

的分析以及航运事故的规避提供了基础。

本文的研究内容是基于船舶当前轨迹预测船舶未来航行轨迹，以船舶历史航线轨迹

数据为基础，找出与当前轨迹最接近的航线，将该航线作为最终的预测结果。主要内容

包括三个方面：

一是对原始数据进行预处理，包括航线轨迹数据的提取、缺失数据插补以及异常数

据处理；

二是对原始航线数据进行聚类，得到新的航线集合，集合中每一条航线的轨迹互不

相同；

三是航线轨迹预测，以历史航线为基础，根据当前的轨迹与历史航线做对比，寻找

与当前轨迹最接近的航线作为预测的结果。

6.2 未来展望

、本文的研究内容局限于船舶航行轨迹的预测，并没有对该内容的应用进行深究，

参考文献

[1]Qiao S, Shen D, Wang X, et al. A lf-adaptive parameter lection trajectory prediction

approach via hidden Markov models[J]. IEEE Transactions on Intelligent Transportation

Systems, 2015, 16(1):

[2]

Mathew W, Raposo R, Martins B. Predicting future locations with hidden Markov

models[C]//Proceedings of the 2012 ACM Conference on Ubiquitous Computing. ACM,

2012:

[3]

Ye N, Zhang Y, Wang R, et al. Vehicle trajectory prediction bad on Hidden Markov

Model[J]. KSII Transactions on Internet & Information Systems, 2016, 10(7).MLA

[4]

Hu W, Tian G, Li X, et al. An improved hierarchical Dirichlet process-Hidden Markov

model and its application to trajectory modeling and retrieval[J]. International journal of

computer vision, 2013, 105(3):

[5]

Houenou A, Bonnifait P, Cherfaoui V, et al. Vehicle trajectory prediction bad on motion

model and maneuver recognition[C]//2013 IEEE/RSJ International Conference on

Intelligent Robots and Systems. IEEE, 2013:

[6]Wiest J, Hoffken M, Krel U, et al. Probabilistic trajectory prediction with Gaussian

mixture models[C]// Intelligent Vehicles Symposium. IEEE, 2012:141-146.

[7]

乔少杰金琨韩楠等一种基于高斯混合模型的轨迹预测算法软件学

,,. [J].

报

,2015,05:1048-1063.

[8]

刘文颖吴琼杨以涵基于改进最小二乘支持向量机的电力系统受扰轨迹在线预测

,,.

[J]. (),2008,03:6-11.

华北电力大学学报自然科学版

[9]

Le QI, Zheng Z. Trajectory Prediction of Vesls bad on Data Mining and Machine

Learning[J]. Journal of Digital Information Management, 2016.

[10]

Wang Q, Zhang Z, Wang Z, et al. The trajectory prediction of spacecraft by grey

method[J]. Measurement Science and Technology, 2016, 27(8):

[11]

邓晖赵晋泉柳勇军吴小辰基于改进灰色模型的受扰轨迹实时预测方法

,,,. Verhulst

[J]. ,2012,09:18-23+29.

电力系统保护与控制

[12]

徐婷婷柳晓鸣杨鑫基于神经网络的船舶航迹实时预测大连海事大学学

,,. BP[J].

报

,2012,01:9-11.

[13]Gan S, Liang S, Li K, et al. Ship trajectory prediction for intelligent traffic management

using clustering and ANN[C]// Ukacc, International Conference on Control. 2016:1-6.

[14]

李万高赵雪梅孙德厂基于改进贝叶斯方法的轨迹预测算法研究计算机应

,,. [J].

华南理工大学硕士学位论文

用

,2013,07:1960-1963.

[15]

赵菲卢焕章张志勇滑动窗口核岭回归运动目标轨迹预测算法红外与激光工

,,. [J].

程

,2013,03:829-835.

[16] 张婵. 一种基于支持向量机的缺失值填补算法[J]. 计算机应用与软

件,2013,(05):226-228.

[17][J].,2011,(24):155-159.

龚辉锋. 牛顿搜索算法在处理缺失值中的应用统计与决策

[18]

张松兰,王鹏,徐子伟. 基于统计相关的缺失值数据处理研究[J]. 统计与决

策

,2016,(12):13-16.

[19]KNN[J].

韩珂,谢强.基于改进的船舶监控数据缺失值填补方法信息与电脑(理论

版)

,2016,(21):128-129+138.

[20]

Macqueen J. Some Methods for Classification and Analysis of Multivariate

Obrvations[C]//Journal of Intelligent Learning Systems and

dings of 5-th Berkeley Symposium on Mathematical Statistics

and Probability. Berkeley: University of California Press,2012:281-297.

[21]

Atev S, Masoud O, Papanikolopoulos N. Learning Traffic Patterns at Interctions by

Spectral Clustering of Motion Trajectories[C]//Faitih International

Conference on Intelligent Robots and Systems. Beijing, 2006:4851-4856.

[22]

Zhang T, Ramakrishnan R, Livny M. BIRCH: An Efficient Data Clustering Method for

Very Large Databas[C]//Magement of data. Proceedings of the 1996 ACM SIGMOD

international Conference on Management of Data New York:ACM Press,2006:103-114.

[23]Lorbeer B, Kosareva A, Deva B, et al. A-BIRCH: Automatic Threshold Estimation for the

BIRCH Clustering Algorithm[C]//INNS Conference on Big Data. Springer International

Publishing, 2016: 169-178.

[24]

Guha S, Rastogi R, Shim K. CURE: An Efficient Clustering Algorithm for Large

Databas[C]//HaasI. Proceedings of the 1998 ACM SIGMOD International Conference

on Management of Data. Seattle: ACM Press, 1998:73-84.

[25]

Ester M. Kriegel H. Sander J. A Density-Bad Algorithm for Discovering Clusters in

Large Spatial Databas with Noi[C]//The Advancement of Artificial

Intelligence. Proceedings of the 2nd International Conference. Oregon:

Knowledge Discovery and Data Mining, 1996: 226 -231.

[26]Kumar K M, Reddy A R M. A fast DBSCAN clustering algorithm by accelerating

neighbor arching using Groups method[J]. Pattern Recognition, 2016, 58: 39-48.

参考文献

[27]Hou J, Gao H, Li X. DSets-DBSCAN: A Parameter-Free Clustering Algorithm[J]. IEEE

Transactions on Image Processing, 2016, 25(7): 3182-3193.

[28]

Wang W, Yang J, Muntz R. STING: A Statistical Information Grid Approach to Spatial

Data Mining[C]//Very Large Data Bas (VLDB’97). Proceedings of 23rd International

Conference on Very Large Data Bas. Greece

：，：

Perkin Elmer1997186-195.

[29]

Wang W, Yang J, Muntz R. STING+: AnApproach to Active Spatial Data

Mining[C]//Data Engineering. 15th International Conference on Data Engineering,

Sydney

：

IEEE,1999:116-125.

[30]

Rumelhart DE, Zipr D. Feature Discovery by Competitive Learning[J]. Cognitive

Science

，

1985, 9(1):75-112.

[31]

Kohonen T. Self-Organization and Associate Memory[M]. Berlin:

Springer-Verlag,1984112-115.

[32]

Kohonen T. The Self-Organizing Map[J]. Neurocomputing, 1998, 21(1-3):1-6.

[33]

Fisher D. Improving Inherence through Conceptual Clustering[C]//AAAI

dings of the sixth National conference. American

：

AAAI

Press,1987:461-465.

[34]

Everitt BS, Hand DJ. Finite Mixture Distributions[M]. London:Chapman & Hall CRC,

1981

：

50-56.

华南理工大学硕士学位论文

[40]Anitha J, Peter J D. A spatial fuzzy bad level t method for mammogram mass

gmentation[C]//Electronics and Communication Systems (ICECS), 2015 2nd

International Conference on. IEEE, 2015: 1-6.

[41]

S.Gaffney,tory Clustering with Mixtures of Regression Models[c].In

proceeding of 5

ACM Sigmoid International Conference of knowledge Discovert and

Data.

[42]Chudova D, Gaffney S, Mjolsness E, et al. Translation-invariant mixture models for curve

clustering[C]// ACM SIGKDD International Conference on Knowledge Discovery and

Data Mining, Washington, Dc, Usa, August. DBLP, 2003:79-88.

[43]Alon J, Sclaroff S, Kollios G, et al. Discovering Clusters in Motion Time-Series Data[C]//

Computer Vision and Pattern Recognition, 2003. Proceedings. 2003 IEEE Computer

Society Conference on. IEEE Xplore, 2003:I-375- I-381 vol.1.

[44]

，

NANNI MPedreschi -focund clustering of trajectories of ,oving

objects.[J].Journal of Intelligent Information Systems,2006,27(3):267-289.

[45]Gudmundsson J, Valladares N. A GPU Approach to Subtrajectory Clustering Using the

Fréchet Distance[J]. Parallel & Distributed Systems IEEE Transactions on, 2015,

26(4):924-937.

[46]Birant D, Kut A. ST-DBSCAN: An algorithm for clustering spatial–temporal data[J].

参考文献

[52]KHARRAT A,POPA I.S,ZEITOUNIK,FAIZ ring algorithm for network

constraint trajectories[C].Proceedings of the 13

International Conference Spatial Data

llier,France,2008:631-647.

[53]

Knorr E M,NG R T,Tucakov V.Distance-bad outliers:Algorithms and

applications[j].VLDB Journal,2008,8(3):237-253.

[54]Palma A T, Bogorny V, Kuijpers B, et al. A clustering-bad approach for discovering

interesting places in trajectories[C]// ACM Symposium on Applied Computing. DBLP,

2008:863-868.

[55]Pelekis N, Kopanakis I, Kotsifakos E E, et al. Clustering Trajectories of Moving Objects

in an Uncertain World[C]// IEEE International Conference on Data Mining. IEEE,

2009:417-427.

[56]

LEE J.G,HAN IS tory clustering:appartition-and-group

framework[C],proceedings of the ACM Sigmoid International Conference on

management of g,China,2007:593-604.

[57]

Michael C patterns of activity from video data[C].Proceedings of IEEE

International Conference of Data Mining.2004.

[58]

Ristic Scala,nde,tical Analysis of Motion Patterns in AIS

Data Anomoly Detection and Motion Prediction[C].In Proceedings of the 11

IEEE

International Conference on Information e,Gemany,2008:1-7.

[59]

Riveiro M,Falkman G,Ziemke T,Warston :an interactive and visual analutical

tool for the detecction of behavioral anomalities inf matitime traffic data[C].Proceedings

of the Defen,Security,and Sending,2009:13-17.

[60]

Riveiro M,Johansson F,ting Maritime Situation Awareness Using Self

Organizing Maps and Gaussian Mixture Models[C].Tenth Scandinavian Conference on

Artificial Intelligence,2008,173:84-91.



[61]

Riveiro-M,Falkman G,Ziemke ing about anomalies:a study of the analytical

precess of detecting and identifying anomalous behavior in mritime traffic

data[C],Proceedings of SPIE Defence,curity,and Sending 2009:13-17.

[62]

华南理工大学硕士学位论文

[65],,,,. [J].

郝晓静李国新李明珠张亚粉常晓凤无迹卡尔曼滤波算法在目标跟踪中的研究

电子设计工程

,2012,13:161-164.

[66]Tong X, Chen X, Sang L, et al. Vesl trajectory prediction in curving channel of inland

river[C]// International Conference on Transportation Information and Safety. IEEE,

2015.

[67]

Perera L P, Oliveira P, Soares C G. Maritime traffic monitoring bad on vesl detection,

tracking, state estimation, and trajectory prediction[J]. IEEE Transactions on Intelligent

Transportation Systems, 2012, 13(3):

[68]

Perera L P, Oliveira P, Soares C G. Maritime traffic monitoring bad on vesl detection,

tracking, state estimation, and trajectory prediction[J]. IEEE Transactions on Intelligent

Transportation Systems, 2012, 13(3):

[69]

Le Q I, ZHENG Z. Trajectory Prediction of Vesls bad on Data Mining and Machine

Learning[J]. Journal of Digital Information Management, 2016, 14(1).MLA

[70]Gounaridis D, Koukoulas S. Urban land cover thematic disaggregation, employing

datats from multiple sources and RandomForests modeling[J]. International Journal of

Applied Earth Obrvations & Geoinformation, 2016, 51:1-10.

[71]Smidt E R, Conley S P, Zhu J, et al. Identifying Field Attributes that Predict Soybean

Yield Using Random Forest Analysis[J]. Agronomy Journal, 2016, 108(2).

[72]Pashaei E, Ozen M, Aydin N. Splice sites prediction of human genome using

AdaBoost[C]// Ieee-Embs International Conference on Biomedical and Health

Informatics. IEEE, 2016:300-303.

[73]Liu H, Tian H Q, Li Y F, et al. Comparison of four Adaboost algorithm bad artificial

neural networks in wind speed predictions[J]. Energy Conversion & Management, 2015,

92(92):67-81.

[74][J]

韩兆洲, 林少萍, 郑博儒. 多类支持向量机分类技术及实证. 统计与决策,

2015(19):10-13.

[75], . [J]. ,

李琼陈利一种改进的支持向量机文本分类方法计算机技术与发展

2015(5):78-82.

[76],,,. [J].

董立岩隋鹏孙鹏李永丽基于半监督学习的朴素贝叶斯分类新算法吉林大学

学报工学版

(),2016,(03):884-889.

[77]Tang B, Kay S, He H. Toward Optimal Feature Selection in Naive Bayes for Text

Categorization[J]. IEEE Transactions on Knowledge & Data Engineering, 2016,

28(9):2508-2521.

参考文献

[78]

Ameur B, Masmoudi S, Derbel A G, et al. Fusing Gabor and LBP feature ts for KNN

and SRC-bad face recognition[C]// International Conference on Advanced

Technologies for Signal and Image Processing. 2016:453-458.

[79] 张著英,黄玉龙,王翰虎. 一个高效的分类算法.计算机科

KNN[J]

学

,2008,(03):170-172.

[80]Ma C, Huang J. Asymptotic properties of Lasso in high-dimensional partially linear

models[J]. Science China Mathematics, 2016, 59(4):769-788.

[81]LASSO[J].

蒋翠侠,刘玉叶,许启发. 基于分位数回归的对冲基金投资策略研究管理

科学学报,

2016,(03):107-126.

[82][J].

孙广路,齐浩亮. 基于在线排序逻辑回归的垃圾邮件过滤清华大学学报(自然科

学版),

2013,(05):734-741.

[83]Lee S. Detecting Differential Item Functioning Using the Logistic Regression Procedure

in Small Samples[J]. Applied Psychological Measurement, 2016.

[84]

Hathwa R,Bezdek J,Huband le visual asssment of cluster tendency for large

data t[J].Pattern Recognition,2006,39[7],1315-1324.

[85]

Husband J,Bezdek J,Hathaway d visual asssment of ding of

International Conference of North Ameracan Fuzzy Information Processing

Society,2004:101-104.

[86]

Husband J,Hathaway t;Visual asssment of cluster tendency for large data

rn Recognition,2005,38(1):1875-1886.

[87]

Tobler W.A compuer movie simulation urban growth in the Detriot ic

Geography,1970,46(2):234-240.

给老师发邮件格式-小学五年级语文

本文发布于:2023-11-25 09:14:36，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/zhishi/a/1700874877234901.html

本文word下载地址：基于ais数据的船舶航行轨迹预测.doc

本文 PDF 下载地址：基于ais数据的船舶航行轨迹预测.pdf

上一篇：OTU_AIS告警

下一篇：返回列表

标签：ais

2023-11-25浅谈航空情报服务(AIS)向航空信息管理(AIM)转变
2023-11-25AIS岸基系统巡检维护须知
2023-11-25雷达与ais目标位置信息融合方法的研究
2023-11-25穿在ais的使用方法和教程
2023-11-25ACARSAIS中频数字接收机的设计与实现
2023-11-25医院内创伤严重度评分法_AIS_ISS法
2023-11-25剑桥雅思阅读AUSTRALIA’SSPORTINGSUCCESS及答案解析
2023-11-25中国海事局关于印发《国内航行船舶船载电子海图系统和自动识别系统设备
2023-11-25创伤评分95679
2023-11-25(完整)A is for apple儿歌歌词

留言与评论（共有 0 条评论）