北京航空航天大学许木璠获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京航空航天大学申请的专利一种基于网络和文本内容的文献引用目的分类系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115577101B 。
龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211162503.X,技术领域涉及:G06F16/35;该发明授权一种基于网络和文本内容的文献引用目的分类系统是由许木璠;时磊;季煜文设计研发完成,并于2022-09-23向国家知识产权局提交的专利申请。
本一种基于网络和文本内容的文献引用目的分类系统在说明书摘要公布了:本发明通过网络安全领域的方法,实现了一种基于网络和文本内容的文献引用目的分类系统。通过数据准备;训练弱分类器,并使用弱分类器对无标签数据进行初步分类;基于粗分类结果进行有针对性的人工标注;在获得的扩充后的有标签引用数据集上进行特征工程;基于有标签数据,获取最优分类器;使用最优分类器进行文献分类6个步骤实现对于文献的引用目的分类。最终实现衡量在文献文本中出现的各个引用之间的重要性,甄别出重要引用,以此辅助文献研究者对于文献间知识的传递过程的探究的技术效果。
本发明授权一种基于网络和文本内容的文献引用目的分类系统在权利要求书中公布了:1.一种基于引用网络和引用文本的文献引用目的分类系统,其特征在于:通过6个步骤实现对于文献的分类: 步骤1,数据准备:获取包含引用所在文章,引用目标文章,引用上下文的有标签无标签数据集,使用WPS文档转换工具将pdf中的文字提取为txt文本,之后使用parsCit工具对文档中可能存在的引用进行结构化提取,包括引用上下文;对于提取完成的引用,使用标题相似度查找来确认引用对象文章身份,一并记录于引用文本数据集中; 之后,有标签数据进行标签映射,将原先分类映射为“重要引用”及“非重要引用”两类,从而将已有标注数据合并转化为统一的两类标注数据;将两类标注数据与引用文本数据集进行匹配,收集匹配成功的引用条目作为有标签引用数据,引用文本数据集中的其余数据条目作为无标签引用数据; 步骤2,训练弱分类器,并使用弱分类器对无标签数据进行初步分类,基于引用文本和引用文章本身信息的358维度特征进行训练,使用步骤1中获得的有标签引用数据有监督训练RandomForest分类器,使用训练完成的分类器对步骤1中获得的无标签引用数据进行分类,获得无标签引用数据集的两类引用粗分类结果; 步骤3,基于粗分类结果进行有针对性的人工标注,参考步骤2中获得的粗分类结果,使用python编写的标注工具对被分类为“重要引用”的引用上下文信息进行人工查看,有必要时返回pdf格式论文中进行查阅,最终判断粗分类结果是否正确,收集正确分类为“重要引用”的引用数据条目注入已有标签引用数据集,获得“重要引用”被大幅扩充后的有标签引用数据集,所述标注工具为使用python编写的标注程序,用来方便标注者在标注过程中进行操作; 步骤4,进行特征选择部分运算,在步骤3获得的扩充后的有标签引用数据集,以及无标签引用数据集,结合基于MAG学术知识图谱的引用网络进行特征工程,根据先验知识、实验结果对特征进行筛选、计算方法更新和替换;首次将引文网络特征纳入分类特征中;最终,在有标签引用数据集内的每一条引用记录都会对应36维度的特征向量作为分类器训练基础; 步骤5,基于有标签数据,获取最优分类器,使用ExtraTree分类器在有标签引用数据集上结合步骤4中特征选择部分运算结果以及所述无标签引用数据,经调试获得效果最佳的分类器; 步骤6,使用步骤5中得到的最优分类器,对所有可以获取引用、引用对象、引用上下文的文章进行引用目的分类,得到对于文献的引用目的准确分类结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京航空航天大学,其通讯地址为:100191 北京市海淀区学院路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励