北京工业大学蒋雪晴获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京工业大学申请的专利一种中文电子病历后结构化信息的抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114420233B 。
龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210052810.6,技术领域涉及:G16H10/60;该发明授权一种中文电子病历后结构化信息的抽取方法是由蒋雪晴;杜金莲;高红雨;张潇;张津丽设计研发完成,并于2022-01-18向国家知识产权局提交的专利申请。
本一种中文电子病历后结构化信息的抽取方法在说明书摘要公布了:本发明公开了一种中文电子病历后结构化信息的抽取方法,首先使用BERT模型对含有不同症状实体修饰成分的句子进行分类,然后利用现有的命名实体识别模型对每类句子中的症状实体做不同类别的标注,达到识别实体修饰成分的目的。提出基于规则的中文电子病历中症状实体属性值的特征化抽取方法。通过总结病历文本症状语义段的行文规则,形成属性值的抽取模板,将抽取到属性值存储到数据库中。本发明基于现有的病历文本抽取技术成果,深入分析病历文本的行文规则,对已经完成分词和标注的症状语义段进行实体修饰识别和特征化的属性值抽取,能为后续的上层应用提供结构化的数据支持。
本发明授权一种中文电子病历后结构化信息的抽取方法在权利要求书中公布了:1.一种中文电子病历后结构化信息的抽取方法,其特征在于:实现该方法的具体步骤如下: 步骤一:对句子分类; 使用BERT模型对句子进行分类,分别得到包含主要症状实体、伴随症状实体和否认症状实体的三类句子;句子标签有三种:0、1、2,分别表示含主要症状实体的句子、含否认症状实体的句子、含伴随症状实体的句子; 步骤二:分词和命名实体标注; 利用现有的中文电子病历分词系统和命名实体识别系统对病历文本进行分词和实体标注;与症状实体相关的词标签类别有9种:症状S、人体部位BP、时间点TP、时间段P、具体情景SS、否定词A、高程度HL、低程度LL和无具体类别U; 步骤三:编写规则修正标注结果; 总结症状实体的属性值在病历文本中的位置分布和表达规律,设计规则模板对步骤二的标注结果进行修正,提高属性抽取的精度; 步骤四:命名实体修饰识别; 根据步骤一获得的句子分类结果和步骤三获得的实体标注结果,对不同类句子中的症状实体做标签替换,实现症状实体修饰的识别; 步骤五:对每条病历文本以“开始时间”为分割点进行文本分块; 步骤六:抽取属性并存储至数据库; 步骤三设计了一系列的规则模板,以修正病历文本中属性值的标注结果;规则主要分为三类——第一类:合并规则,该类规则主要是为了解决原标注结果中完整的语义片段被过度分词并标注的问题;对于规则识别出的语义片段,仅保留最后一个标签,而将片段内的其他标签和空格删除,实现将片段内各个词合并成一个整体的目的; 第二类:分类规则,该类规则是为了解决原标注结果中“开始时间”和“持续时间”的标注标签相同的问题;由规则识别出的语义片段中的时间均为“持续时间”,将其中的P标签替换为表示持续时间的新标签DP,达到区分“开始时间”和“持续时间”的目的; 第三类:否定规则,该类规则主要是为了解决病历文本中“身体部位”与“症状”两类实体被否定词分隔的问题;对于该规则识别出的语义片段,将否定词前移,并利用Regex5将“身体部位”与“症状”两类实体合并; 步骤四根据步骤一获得的句子分类结果和步骤三获得的实体标注结果,分别将句子标签为1、2的句子中的症状实体标签S替换为伴随症状DS、否认症状AS,从而将症状实体分为主要症状、伴随症状、否认症状三类实体。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励