本文作者:kaifamei

一种化学结构识别方法及识别系统与流程

更新时间:2025-12-22 01:14:44 0条评论

一种化学结构识别方法及识别系统与流程



1.本发明属于化学结构识别技术领域,具体涉及一种化学结构识别方法及识别系统。


背景技术:



2.在化学、药物发现领域内,存在海量期刊、专利等文献资料,如果能够对这些文献资料中的化合物图像进行准确识别和存储,就可以方便科研人员进行检索,帮助科研人员进行分析研究,极大的提高科研工作效率,鉴于把期刊、专利等文献中的化合物2d表征图像转化为机器可读的格式的巨大工作价值,学术界做了很多研究工作,也存在一些开源项目工具,提供针对分子图像的识别功能,举例如molvec工具,然而,现有技术方案还不能系统的解决从专利、期刊、电子图书等pdf格式的文档中,一键快速提取分子图像,并且将分子图像转化为机器可读的格式进行存储的问题,本发明提出一种化学结构识别方法及识别系统来解决该问题。


技术实现要素:



3.本发明根据历史的文献资料生成图像分割数据集和图像识别数据集,分别用于训练图像分割模型和图像识别模型,通过图像分割模型在图像中确定包含化学结构的图像检测区域,并且提取相应的化学结构图像,通过图像识别模型识别化学结构图像中的化学原子和超文本,最后得到机器可读格式的化学结构式。
4.为了达到上述的发明目的,给出如下所述的一种化学结构识别方法,主要包括以下的步骤:
5.基于历史的文献资料,获取不同风格的包含化学结构的图像的原始数据集,并且根据所述原始数据集生成图像分割数据集,从而继续根据所述图像分割数据集生成图像识别数据集;
6.针对需要进行化学结构识别的文献资料,使用pdf文件解析工具,把pdf格式的文献资料都转换成若干个待识别图像,通过所述图像分割数据集训练图像分割模型,训练后的所述图像分割模型分别在若干个待识别图像中识别化学结构,同时确定包含化学结构的图像检测区域,并且提取与所述图像检测区域相对应的化学结构图像;
7.根据所述图像识别数据集,分别生成图像识别学习数据集和图像识别测试数据集,并且使用所述图像识别学习数据集训练图像识别模型,还使用所述图像识别测试数据集对于训练后的所述图像识别模型的性能进行检验,当检验通过时,通过训练后的所述图像识别模型识别出所述化学结构图像中的化学原子和超文本;
8.基于从所述化学结构图像中识别出化学原子和超文本的识别结果,继续从识别结果中识别区分出化学原子、超文本,以推理构建化学分子图,进而解析输出符合smiles或者inchi规范的化学结构式,完成从所述若干个待识别图像中识别生成化学结构式之后,评估识别生成的化学结构式的准确性。
9.作为本发明的一种优选技术方案,根据所述原始数据集生成图像分割数据集,从而继续根据所述图像分割数据集生成图像识别数据集,包括如下的步骤:
10.使用第一机器学习模型对于所述原始数据集中的不同风格的包含化学结构的图像进行处理,以在图像中识别化学结构,同时确定包含化学结构的图像检测区域,还提取与图像检测区域相对应的图像,形成所述图像分割数据集;
11.依靠人工对于所述图像分割数据集中的预设数量的图像进行标记处理,以区分正确的图像和错误的图像,并且得到预设数量的标记过的图像,还使用所述标记过的图像作为教师数据进行机器学习,分别为所述图像分割数据集中的不同风格的图像生成一个第二机器学习模型;
12.通过第二机器学习模型从所述图像分割数据集中的不同风格的未标记过的图像中提取出正确的图像,并且将全部正确的图像形成所述图像识别数据集。
13.作为本发明的一种优选技术方案,所述正确的图像指的是图像不包括具有与化学结构的特征相似的特征的背景,并且图像包含完整的化学结构,所述错误的图像指的是图像包括具有与化学结构的特征相似的特征的背景,或者图像包含的化学结构被部分隐藏。
14.作为本发明的一种优选技术方案,依靠人工标记的所述图像分割数据集中的图像的数量,远小于所述图像分割数据集中的未标记过的图像的数量。
15.作为本发明的一种优选技术方案,根据所述图像识别数据集分别生成图像识别学习数据集和图像识别测试数据集,包括如下的步骤:
16.将所述图像识别数据集分为图像识别学习数据集,和图像识别测试数据集两部分;
17.分别提取所述图像识别学习数据集的数据特征,以及所述图像识别测试数据集的数据特征;
18.计算所述图像识别学习数据集的数据特征,与所述图像识别测试数据集的数据特征之间的相似度;
19.判断所述图像识别学习数据集的数据特征与所述图像识别测试数据集的数据特征之间的相似度是否大于预设的相似度阈值,若大于,则判定所述图像识别学习数据集适合作为所述图像识别模型的学习数据集,反之,继续下个步骤;
20.重复以上的步骤,直到相应的图像识别学习数据集的数据特征与相应的图像识别测试数据集的数据特征之间的相似度大于预设的相似度阈值为止。
21.作为本发明的一种优选技术方案,根据所述图像识别数据集分别生成图像识别学习数据集和图像识别测试数据集,还包括如下的步骤:
22.将所述图像识别数据集分为图像识别学习数据集,和图像识别测试数据集两部分;
23.分别提取所述图像识别学习数据集的数据特征,所述图像识别测试数据集的数据特征,以及所述图像识别数据集的数据特征;
24.计算所述图像识别学习数据集的数据特征,与所述图像识别测试数据集的数据特征之间的相似度,当相似度大于预设的相似度阈值时,继续下个步骤,反之,跳转最后一个步骤;
25.计算所述图像识别学习数据集的数据特征,与所述图像识别数据集的数据特征之
间的相似度,当相似度大于预设的相似度阈值时,继续下个步骤,反之,跳转最后一个步骤;
26.计算所述图像识别测试数据集的数据特征,与所述图像识别数据集的数据特征之间的相似度,当相似度大于预设的相似度阈值时,继续下个步骤,反之,跳转最后一个步骤;
27.判定所述图像识别学习数据集适合作为所述图像识别模型的学习数据集,结束步骤;
28.重新根据所述图像识别数据集生成所述图像识别学习数据集和所述图像识别测试数据集,直到同时满足以上的判断条件为止。
29.本发明还提供了一种化学结构识别系统,主要包括以下的模块:
30.数据集生成模块,用于根据历史的文献资料获取不同风格的包含化学结构的图像的原始数据集,并且根据所述原始数据集生成图像分割数据集,还继续根据所述图像分割数据集生成图像识别数据集;
31.检测模块,用于针对需要进行化学结构识别的文献资料使用pdf文件解析工具,把pdf格式的文献资料都转换成若干个待识别图像,通过所述图像分割数据集训练图像分割模型,训练后的所述图像分割模型分别在若干个待识别图像中识别化学结构,同时确定包含化学结构的图像检测区域,并且提取与所述图像检测区域相对应的化学结构图像;
32.识别模块,用于根据所述图像识别数据集,分别生成图像识别学习数据集和图像识别测试数据集,并且使用所述图像识别学习数据集训练图像识别模型,还使用所述图像识别测试数据集对于训练后的所述图像识别模型的性能进行检验,当检验通过时,通过训练后的所述图像识别模型识别出所述化学结构图像中的化学原子,以及超文本;
33.化学式生成模块,用于根据从化学结构图像中识别出化学原子和超文本的识别结果,继续从识别结果中识别区分出化学原子、超文本,以推理构建化学分子图,进而解析输出符合smiles或者inchi规范的化学结构式,还用于在完成从若干个待识别图像中识别生成化学结构式之后,评估识别生成的化学结构式的准确性。
34.与现有技术相比,本发明的有益效果至少如下所述:
35.1、本发明首先基于历史文献资料获取包含化学结构的图像的原始数据集,并且根据原始数据集生成图像分割数据集和图像识别数据集;其次针对需要进行化学结构识别的文献资料,把pdf格式的文献资料都转换成若干个待识别图像,在若干个待识别图像中识别化学结构,提取化学结构图像;再次根据图像识别数据集,分别生成图像识别学习数据集和图像识别测试数据集,通过图像识别模型识别出化学结构图像中的化学原子,以及超文本;最后基于化学原子和超文本,推理构建化学分子图,解析输出符合smiles或者inchi规范的化学结构式;
36.2、本发明解决了现有技术不能从pdf格式的文档中快速提取出机器可读格式的化学结构式的问题,并且本发明根据图像分割数据集生成图像识别数据集,使图像识别数据集中包含正确的图像,同时确保由图像识别数据集能够生成合适的图像识别学习数据集,从而提高使用图像识别模型识别化学原子、超文本的准确性,进而提高最后生成的化学结构式的准确率。
附图说明
37.图1为本发明的一种化学结构识别方法的步骤流程图;
38.图2为本发明的生成合适的图像识别学习数据集的一种方法的步骤流程图;
39.图3为本发明的一种化学结构识别系统的组成结构图。
具体实施方式
40.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
41.可以理解,本技术所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本技术的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
42.发明人针对现有技术方案还不能系统的解决从专利、期刊、电子图书等pdf格式的文档中,一键快速提取分子图像,并且将分子图像转化为机器可读的格式进行存储的问题,提供了如图1所示的一种化学结构识别方法,主要通过执行如下的步骤过程来实现:
43.步骤一、基于历史的文献资料,获取不同风格的包含化学结构的图像的原始数据集,并且根据上述原始数据集生成图像分割数据集,从而继续根据上述图像分割数据集生成图像识别数据集;
44.步骤二、针对需要进行化学结构识别的文献资料,使用pdf文件解析工具,把pdf格式的文献资料都转换成若干个待识别图像,通过上述图像分割数据集训练图像分割模型,训练后的上述图像分割模型分别在若干个待识别图像中识别化学结构,同时确定包含化学结构的图像检测区域,并且提取与上述图像检测区域相对应的化学结构图像;
45.步骤三、根据上述图像识别数据集,分别生成图像识别学习数据集和图像识别测试数据集,并且使用上述图像识别学习数据集训练图像识别模型,还使用上述图像识别测试数据集对于训练后的上述图像识别模型的性能进行检验,当检验通过时,通过训练后的上述图像识别模型识别出上述化学结构图像中的化学原子和超文本;
46.基于从上述化学结构图像中识别出化学原子和超文本的识别结果,继续从识别结果中识别区分出化学原子、超文本,以推理构建化学分子图,进而解析输出符合smiles或者inchi规范的化学结构式,完成从上述若干个待识别图像中识别生成化学结构式之后,评估识别生成的化学结构式的准确性。
47.具体的,在上述步骤一到上述步骤四中,首先根据各种各样的期刊、专利等文献资料,生成拟合真实情况的原始数据集,并且还由原始数据集生成图像分割数据集和图像识别数据集,其次使用图像分割数据集训练图像分割模型,该图像分割模型用来在图像中识别出化学结构,确定包含化学结构的图像检测区域,提取相应的化学结构图像,再次基于图像识别数据集生成合适的图像识别学习数据集来训练图像识别模型,并且使用图像识别模型从化学结构图像中识别出组成化学结构的化学原子和超文本,最后根据化学原子和超文本,生成机器可读格式的化学结构式,举例如符合smiles或者inchi规范的化学结构式。
48.进一步的,根据上述原始数据集生成图像分割数据集,从而继续根据上述图像分割数据集生成图像识别数据集,包括如下的步骤:
49.第一步、使用第一机器学习模型对于上述原始数据集中的不同风格的包含化学结
构的图像进行处理,以在图像中识别化学结构,同时确定包含化学结构的图像检测区域,还提取与图像检测区域相对应的图像,形成上述图像分割数据集;
50.第二步、依靠人工对于上述图像分割数据集中的预设数量的图像进行标记处理,以区分正确的图像和错误的图像,并且得到预设数量的标记过的图像,还使用上述标记过的图像作为教师数据进行机器学习,分别为上述图像分割数据集中的不同风格的图像生成一个第二机器学习模型;
51.第三步、通过第二机器学习模型从上述图像分割数据集中的不同风格的未标记过的图像中提取出正确的图像,并且将全部正确的图像形成上述图像识别数据集;
52.进一步的,上述正确的图像指的是图像不包括具有与化学结构的特征相似的特征的背景,并且图像包含完整的化学结构,上述错误的图像指的是图像包括具有与化学结构的特征相似的特征的背景,或者图像包含的化学结构被部分隐藏;
53.具体的,要想从pdf格式的文献资料中,识别产生机器可读格式的化学结构式,一般需要把包含化学结构的pdf格式的文献资料转换成图像的格式,从而在该图像中识别出化学结构,确定化学结构的位置,也即标注出包含化学结构的图像检测区域,进而只需从与图像检测区域相对应的图像中识别出化学原子、超文本,就能生成机器可读格式的化学结构式,其中,在大量的包含化学结构的图像中准确标注出上述图像检测区域,从而得到与图像检测区域相对应的正确的图像是非常重要的,因为假如通过错误的图像来训练图像识别模型,那么将对图像识别模型的性能造成不利的影响,进而导致生成的机器可读格式的化学结构式的准确性降低,甚至不能生成机器可读格式的化学结构式,为了确保得到正确的图像给出上述第一步到上述第三步;
54.在上述第一步到上述第三步中,首先通过传统的第一机器学习模型标注图像检测区域,从而生成图像分割数据集,上述第一机器学习模型已经预先完成了训练,因此第一机器学习模型能够在上述待识别图像中识别出化学结构,并且能够使用举例如边界框标注法在化学结构的周围绘制一个框,这个框对应的就是图像检测区域,因为使用第一机器学习模型标注图像检测区域的准确性往往低于依靠人工标注图像检测区域的准确性,所以上述图像分割数据集中一般会包含上述错误的图像,为了确保上述图像识别模型的性能,应该从上述图像分割数据集中去除掉错误的图像,接着对于上述图像分割数据集中的部分图像进行人工标记,人工标记的方法能够保证产生正确的与图像检测区域相对应的图像,并且使用这些图像分别为上述图像分割数据集中的不同风格的图像训练一个第二机器模型,训练后的该第二机器模型能够分类正确的图像和错误的图像,与不同风格的图像都使用同一个第二机器模型相比,具有更好的分类性能,最后针对上述图像分割数据集中的不同风格的未标记过的图像,分别使用相应的第二机器模型进行分类,并且去除掉其中错误的图像,将全部的正确的图像形成图像识别数据集;
55.进一步的,依靠人工标记的上述图像分割数据集中的图像的数量,远小于上述图像分割数据集中的未标记过的图像的数量,举例如对于上述图像分割数据集中的10%的图像采用人工标记的方式,这样做不仅能够产生第二机器模型,用来自动分类上述图像分割数据集中的其余图像,而且还能够降低产生上述图像识别数据集的成本。
56.进一步的,根据所述图像识别数据集分别生成图像识别学习数据集和图像识别测试数据集,包括如下的步骤:
57.第一步、将上述图像识别数据集分为图像识别学习数据集,和图像识别测试数据集两部分;
58.第二步、分别提取上述图像识别学习数据集的数据特征,以及上述图像识别测试数据集的数据特征;
59.第三步、计算上述图像识别学习数据集的数据特征,与上述图像识别测试数据集的数据特征之间的相似度;
60.第四步、判断上述图像识别学习数据集的数据特征与上述图像识别测试数据集的数据特征之间的相似度是否大于预设的相似度阈值,若大于,则判定上述图像识别学习数据集适合作为上述图像识别模型的学习数据集,反之,继续下个步骤;
61.第五步、重复以上的步骤,直到相应的图像识别学习数据集的数据特征与相应的图像识别测试数据集的数据特征之间的相似度大于预设的相似度阈值为止;
62.具体的,发明人考虑到影响上述图像识别模型的性能的主要因素之一是图像识别学习数据集,如果图像识别学习数据集出现了数据偏移的问题,也就是说图像识别学习数据集中的数据的属性特征不能充分代表上述图像识别数据集中的数据的属性特征的话,那么由图像识别学习数据集生成的图像识别模型的泛化能力将降低,为了解决该问题,应当使图像识别学习数据集与图像识别测试数据集或者图像识别数据集保持相同的数据分布;
63.在上述第一步到上述第五步中,首先将图像识别数据集划分为图像识别学习数据集和图像识别测试数据集,可以采用k折验证法,留出验证法等,接着分别提取图像识别学习数据集和图像识别测试数据集的数据特征,可以通过获取图像识别学习数据集和图像识别测试数据集的概率密度函数、概率分布函数、似然函数来生成相应的数据特征,其次计算图像识别学习数据集的数据特征与图像识别测试数据集的数据特征之间的相似度,再次当该相似度的值大于相似度阈值时,则说明了上述图像识别学习数据集不具有数据偏移的问题,否则的话,则说明了上述图像识别学习数据集具有数据偏移的问题,最后重新生成图像识别学习数据集,直到图像识别学习数据集不具有数据偏移的问题,上述方法在根据图像分割数据集得到图像识别数据集的基础之上,继续确保由图像识别数据集能够得到合适的图像识别学习数据集,进而保证上述图像识别模型的性能。
64.进一步的,参考如图2所示,根据上述图像识别数据集分别生成图像识别学习数据集和图像识别测试数据集,还包括如下的步骤:
65.第一步、将上述图像识别数据集分为图像识别学习数据集,和图像识别测试数据集两部分;
66.第二步、分别提取上述图像识别学习数据集的数据特征,上述图像识别测试数据集的数据特征,以及上述图像识别数据集的数据特征;
67.第三步、计算上述图像识别学习数据集的数据特征,与上述图像识别测试数据集的数据特征之间的相似度,当相似度大于预设的相似度阈值时,继续下个步骤,反之,跳转最后一个步骤;
68.第四步、计算上述图像识别学习数据集的数据特征,与上述图像识别数据集的数据特征之间的相似度,当相似度大于预设的相似度阈值时,继续下个步骤,反之,跳转最后一个步骤;
69.第五步、计算上述图像识别测试数据集的数据特征,与上述图像识别数据集的数
据特征之间的相似度,当相似度大于预设的相似度阈值时,继续下个步骤,反之,跳转最后一个步骤;
70.第六步、判定上述图像识别学习数据集适合作为上述图像识别模型的学习数据集,结束步骤;
71.第七步、重新根据上述图像识别数据集生成上述图像识别学习数据集和上述图像识别测试数据集,直到同时满足以上的判断条件为止;
72.具体的,还可以通过上述第一步到上述第七步来生成合适的图像识别学习数据集,以训练上述图像识别模型,首先依然将图像识别数据集分为图像识别学习数据集和图像识别测试数据集,并且分别提取图像识别学习数据集、图像识别测试数据集、图像识别数据集的数据特征,其次当图像识别学习数据集的数据特征与图像识别测试数据集的数据特征之间的相似度大于相似度阈值时,说明了上述图像识别学习数据集不具有数据偏移的问题,继续下个步骤,反之,返回第一步重新生成图像识别学习数据集,再次当图像识别学习数据集的数据特征与图像识别数据集的数据特征之间的相似度也大于相似度阈值时,说明了上述图像识别学习数据集不具有数据偏移的问题,继续下个步骤,反之,返回第一步重新生成图像识别学习数据集,最后当图像识别测试数据集的数据特征与图像识别数据集的数据特征之间的相似度继续大于相似度阈值时,说明了上述图像识别学习数据集不具有数据偏移的问题,反之,返回第一步重新生成图像识别学习数据集,通过上述方法能够提高使用图像识别模型从化学结构图像中识别化学原子、超文本的准确性;
73.此外,在上述图像识别学习数据集具有数据偏移的问题时,还可以通过分别在图像识别学习数据集和图像测试学习数据集中随机选取相同数量的数据并且将数据进行互换的方式,来生成新的图像识别学习数据集,同时还需要确保本次生成的图像识别学习数据集和上次生成的图像识别学习数据集的内容不完全一致。
74.参考如图3所示,本发明还提供一种化学结构识别系统,用来实现如以上内容所描述的一种化学结构识别方法,具体的,将各个模块的功能描述如下:
75.数据集生成模块,用于根据历史的文献资料获取不同风格的包含化学结构的图像的原始数据集,并且根据上述原始数据集生成图像分割数据集,还继续根据上述图像分割数据集生成图像识别数据集;
76.检测模块,用于针对需要进行化学结构识别的文献资料使用pdf文件解析工具,把pdf格式的文献资料都转换成若干个待识别图像,通过上述图像分割数据集训练图像分割模型,训练后的上述图像分割模型分别在若干个待识别图像中识别化学结构,同时确定包含化学结构的图像检测区域,并且提取与上述图像检测区域相对应的化学结构图像;
77.识别模块,用于根据上述图像识别数据集,分别生成图像识别学习数据集和图像识别测试数据集,并且使用上述图像识别学习数据集训练图像识别模型,还使用上述图像识别测试数据集对于训练后的上述图像识别模型的性能进行检验,当检验通过时,通过训练后的上述图像识别模型识别出上述化学结构图像中的化学原子,以及超文本;
78.化学式生成模块,用于根据从化学结构图像中识别出化学原子和超文本的识别结果,继续从识别结果中识别区分出化学原子、超文本,以推理构建化学分子图,进而解析输出符合smiles或者inchi规范的化学结构式,还用于在完成从若干个待识别图像中识别生成化学结构式之后,评估识别生成的化学结构式的准确性。
79.应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
80.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一个非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
81.以上上述的实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
82.以上上述的实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
83.以上上述的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种化学结构识别方法,其特征在于,包括如下的步骤:基于历史的文献资料,获取不同风格的包含化学结构的图像的原始数据集,并且根据所述原始数据集生成图像分割数据集,从而继续根据所述图像分割数据集生成图像识别数据集;针对需要进行化学结构识别的文献资料,使用pdf文件解析工具,把pdf格式的文献资料都转换成若干个待识别图像,通过所述图像分割数据集训练图像分割模型,训练后的所述图像分割模型分别在若干个待识别图像中识别化学结构,同时确定包含化学结构的图像检测区域,并且提取与所述图像检测区域相对应的化学结构图像;根据所述图像识别数据集,分别生成图像识别学习数据集和图像识别测试数据集,并且使用所述图像识别学习数据集训练图像识别模型,还使用所述图像识别测试数据集对于训练后的所述图像识别模型的性能进行检验,当检验通过时,通过训练后的所述图像识别模型识别出所述化学结构图像中的化学原子和超文本;基于从所述化学结构图像中识别出化学原子和超文本的识别结果,继续从识别结果中识别区分出化学原子、超文本,以推理构建化学分子图,进而解析输出符合smiles或者inchi规范的化学结构式,完成从所述若干个待识别图像中识别生成化学结构式之后,评估识别生成的化学结构式的准确性。2.根据权利要求1所述的一种化学结构识别方法,其特征在于,根据所述原始数据集生成图像分割数据集,从而继续根据所述图像分割数据集生成图像识别数据集,包括如下的步骤:使用第一机器学习模型对于所述原始数据集中的不同风格的包含化学结构的图像进行处理,以在图像中识别化学结构,同时确定包含化学结构的图像检测区域,还提取与图像检测区域相对应的图像,形成所述图像分割数据集;依靠人工对于所述图像分割数据集中的预设数量的图像进行标记处理,以区分正确的图像和错误的图像,并且得到预设数量的标记过的图像,还使用所述标记过的图像作为教师数据进行机器学习,分别为所述图像分割数据集中的不同风格的图像生成一个第二机器学习模型;通过第二机器学习模型从所述图像分割数据集中的不同风格的未标记过的图像中提取出正确的图像,并且将全部正确的图像形成所述图像识别数据集。3.根据权利要求2所述的一种化学结构识别方法,其特征在于,所述正确的图像指的是图像不包括具有与化学结构的特征相似的特征的背景,并且图像包含完整的化学结构,所述错误的图像指的是图像包括具有与化学结构的特征相似的特征的背景,或者图像包含的化学结构被部分隐藏。4.根据权利要求3所述的一种化学结构识别方法,其特征在于,依靠人工标记的所述图像分割数据集中的图像的数量,远小于所述图像分割数据集中的未标记过的图像的数量。5.根据权利要求1所述的一种化学结构识别方法,其特征在于,根据所述图像识别数据集分别生成图像识别学习数据集和图像识别测试数据集,包括如下的步骤:将所述图像识别数据集分为图像识别学习数据集,和图像识别测试数据集两部分;分别提取所述图像识别学习数据集的数据特征,以及所述图像识别测试数据集的数据特征;
计算所述图像识别学习数据集的数据特征,与所述图像识别测试数据集的数据特征之间的相似度;判断所述图像识别学习数据集的数据特征与所述图像识别测试数据集的数据特征之间的相似度是否大于预设的相似度阈值,若大于,则判定所述图像识别学习数据集适合作为所述图像识别模型的学习数据集,反之,继续下个步骤;重复以上的步骤,直到相应的图像识别学习数据集的数据特征与相应的图像识别测试数据集的数据特征之间的相似度大于预设的相似度阈值为止。6.根据权利要求1所述的一种化学结构识别方法,其特征在于,根据所述图像识别数据集分别生成图像识别学习数据集和图像识别测试数据集,还包括如下的步骤:将所述图像识别数据集分为图像识别学习数据集,和图像识别测试数据集两部分;分别提取所述图像识别学习数据集的数据特征,所述图像识别测试数据集的数据特征,以及所述图像识别数据集的数据特征;计算所述图像识别学习数据集的数据特征,与所述图像识别测试数据集的数据特征之间的相似度,当相似度大于预设的相似度阈值时,继续下个步骤,反之,跳转最后一个步骤;计算所述图像识别学习数据集的数据特征,与所述图像识别数据集的数据特征之间的相似度,当相似度大于预设的相似度阈值时,继续下个步骤,反之,跳转最后一个步骤;计算所述图像识别测试数据集的数据特征,与所述图像识别数据集的数据特征之间的相似度,当相似度大于预设的相似度阈值时,继续下个步骤,反之,跳转最后一个步骤;判定所述图像识别学习数据集适合作为所述图像识别模型的学习数据集,结束步骤;重新根据所述图像识别数据集生成所述图像识别学习数据集和所述图像识别测试数据集,直到同时满足以上的判断条件为止。7.一种化学结构识别系统,用于实现如权利要求1-6任一项所述的方法,其特征在于,包括如下的模块:数据集生成模块,用于根据历史的文献资料获取不同风格的包含化学结构的图像的原始数据集,并且根据所述原始数据集生成图像分割数据集,还继续根据所述图像分割数据集生成图像识别数据集;检测模块,用于针对需要进行化学结构识别的文献资料使用pdf文件解析工具,把pdf格式的文献资料都转换成若干个待识别图像,通过所述图像分割数据集训练图像分割模型,训练后的所述图像分割模型分别在若干个待识别图像中识别化学结构,同时确定包含化学结构的图像检测区域,并且提取与所述图像检测区域相对应的化学结构图像;识别模块,用于根据所述图像识别数据集,分别生成图像识别学习数据集和图像识别测试数据集,并且使用所述图像识别学习数据集训练图像识别模型,还使用所述图像识别测试数据集对于训练后的所述图像识别模型的性能进行检验,当检验通过时,通过训练后的所述图像识别模型识别出所述化学结构图像中的化学原子,以及超文本;化学式生成模块,用于根据从化学结构图像中识别出化学原子和超文本的识别结果,继续从识别结果中识别区分出化学原子、超文本,以推理构建化学分子图,进而解析输出符合smiles或者inchi规范的化学结构式,还用于在完成从若干个待识别图像中识别生成化学结构式之后,评估识别生成的化学结构式的准确性。

技术总结


本发明属于化学结构识别技术领域,具体涉及一种化学结构识别方法及识别系统,方法包括:基于历史文献资料获取包含化学结构的图像的原始数据集,并且根据原始数据集生成图像分割数据集和图像识别数据集;针对需要进行化学结构识别的文献资料,把PDF格式的文献资料都转换成若干个待识别图像,在若干个待识别图像中识别化学结构,提取化学结构图像;根据图像识别数据集,分别生成图像识别学习数据集和图像识别测试数据集,通过图像识别模型识别出化学结构图像中的化学原子,以及超文本;基于化学原子和超文本,推理构建化学分子图,解析输出符合SMILES或者InChI规范的化学结构式,本发明能从PDF格式的文档中提取出机器可读格式的化学结构式。的化学结构式。的化学结构式。


技术研发人员:

徐优俊 李合敏 裴剑锋 杨华 张舰航 周佳翰 韩宁生 朱金涛

受保护的技术使用者:

苏州四季唤鱼生物科技有限公司

技术研发日:

2022.10.26

技术公布日:

2023/1/19


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-71850-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2023-01-23 08:19:22

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论