浙江大学陈珂获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学申请的专利基于标签自适应文本表征的大规模多标签文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115658906B 。
龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211395781.X,技术领域涉及:G06F16/35;该发明授权基于标签自适应文本表征的大规模多标签文本分类方法是由陈珂;彭程;寿黎但;骆歆远;陈刚设计研发完成,并于2022-11-08向国家知识产权局提交的专利申请。
本基于标签自适应文本表征的大规模多标签文本分类方法在说明书摘要公布了:本发明公开了一种基于标签自适应文本表征的大规模多标签文本分类方法。本发明首先探索文本的标签自适应表征,来同时有效地处理在大规模多标签分类下的头标签与尾标签的分类性能;利用预训练的语言模型为文本学习一个表征池,从而使得不同的标签可以关注不同的表征完成相关性判别。同时考虑到深度模型和长文本的特性,提出了文本表征增强,保证池中表征的差异性和全面性。因此,本发明能够给大规模标签提供有效的判别性文本特征来提升预测性能。与目前的大规模多标签算法相比,本发明一方面可以保证大规模多标签的整体分类性能,另一方面也保证尾标签能更好地关注细节文本特征,其性能优于当前最先进的大规模多标签算法。
本发明授权基于标签自适应文本表征的大规模多标签文本分类方法在权利要求书中公布了:1.一种基于标签自适应文本表征的大规模多标签文本分类方法,其特征在于,包括如下步骤:1对于数据集中的每一个原始文本xi,利用预训练的Transformer-based语言模型作为特征编码器E·,将原始文本xi处理成标记化的文本序列并截取最大长度为Lent的序列qent,下标ent表示整体文本;分别从特征深度和文本粒度两方面进行特征增强来生成文本基特征; 2利用文本基特征构造文本表征池,在构造表征池时使表征为标签不可知;所述步骤2中,将文本基特征Hl输入多注意力网络MAl·,计算文本基特征Hl间的多个线性组合来获得注意力表示其中,Pl表示文本表征池的大小,即注意力映射的数量;Ml中第j个表示通过下式获得: 其中,wj是第j个注意力单元的参数,αij是的归一化系数; 利用文本基特征Hf获得文本表征池 3实现大规模标签与文本表征池间的自适应匹配:在构建文本表征池Ml与Mf后,为每个标签匹配池中最相关的表征预测其相关性得分;让每个标签同时在两个表征池中匹配表征; 4利用学习到的模型,预测输入文本x与相关标签。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励