南京大学张建兵获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京大学申请的专利一种基于小样本学习的环评领域命名实体识别技术获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115270795B 。
龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210872873.6,技术领域涉及:G06F40/295;该发明授权一种基于小样本学习的环评领域命名实体识别技术是由张建兵;王久亮;褚有刚;黄书剑;戴新宇;陈家骏设计研发完成,并于2022-07-21向国家知识产权局提交的专利申请。
本一种基于小样本学习的环评领域命名实体识别技术在说明书摘要公布了:本发明公开了一种基于小样本学习的环评领域命名实体识别技术,包括:获取环评领域文件中的语料并预处理;对预处理后的语料进行人工标注,得到人工标注样本和未标注样本;人工收集并整理环评领域中的实体,以词表的形式保存到实体库;对实体库进行扩充;建立命名实体识别模型;利用人工标注样本和未标注样本分阶段训练命名实体识别模型;得到训练好的命名实体识别模型;在预测阶段,利用扩充后的实体库修正命名实体识别模型的预测结果。本发明综合利用少量人工标注样本和人工整理的实体库作为监督信号,分阶段逐步扩展伪标签数据,利用混合数据提高模型的泛化能力,以较少的人工标注的数据即可训练出较为高效的NER模型。
本发明授权一种基于小样本学习的环评领域命名实体识别技术在权利要求书中公布了:1.一种基于小样本学习的环评领域命名实体识别技术,其特征在于,包括以下步骤: 步骤1,获取环评领域文件中的语料,对语料进行预处理;对预处理后的语料进行人工标注,对每种实体类型至少标注10个样本,得到人工标注样本和未标注样本; 步骤2,人工收集并整理环评领域中的实体,以词表的形式保存到实体库;对实体库进行扩充; 步骤3,建立命名实体识别NER模型,所述模型由预训练编码器、双向长短时记忆网络BiLSTM和条件随机场CRF构成;其中,预训练编码器的获取方法包括:获取通用领域预训练好的编码器,在环评领域对语料进行预训练,得到预训练编码器; 步骤4,利用人工标注样本和未标注样本分阶段训练命名实体识别NER模型;得到训练好的命名实体识别NER模型; 步骤5,在预测阶段,利用扩充后的实体库修正命名实体识别NER模型的预测结果;得到最终识别结果,完成基于小样本学习的环评领域命名实体识别; 其中,步骤2中,对实体库进行扩充的方法包括: 步骤2-1,从实体库中获取实体t,构建实体词表T; 步骤2-2,从步骤1中得到的未标注样本中随机筛选句子作为样本集S,样本集S中包含样本s;对照实体词表T,计算样本s中包含实体的数量,并按照数量将样本集中所有的样本从大到小排序;选择前K个样本构造实体扩充的原样本集S′; 步骤2-3,对原样本集S′中的样本s′做数据增强,通过同义词替换及回译的方法,得到增强后的样本s′p;计算s′p的困惑度以及与原样本s′的余弦相似度,仅当s′p的困惑度低于阈值Sppl且与原样本的余弦相似度高于阈值Ssim时,s′p作为合格的增强样本保留备用,否则丢弃; 步骤2-4,对比合格的增强样本s′p与原样本s′,考察发生改动的连续文字区域tspan,计算tspan的词性,若词性为名词的概率高于阈值pnoun,则表示tspan是一个新实体,将增强样本s′p与原样本s′保存到介质中备用,并将tspan加入实体库; 对原样本集S′中所有样本进行步骤2-3和步骤2-4的操作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210046 江苏省南京市栖霞区仙林大道163号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励