上海瀛数信息科技有限公司刘丽娟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海瀛数信息科技有限公司申请的专利一种基于多角度特征学习的主题网页信息抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115544345B 。
龙图腾网通过国家知识产权局官网在2026-04-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211358182.0,技术领域涉及:G06F16/951;该发明授权一种基于多角度特征学习的主题网页信息抽取方法是由刘丽娟;闵宗茹;巨星海;黄勃南;池淏;张明金;杜俊丽设计研发完成,并于2022-11-01向国家知识产权局提交的专利申请。
本一种基于多角度特征学习的主题网页信息抽取方法在说明书摘要公布了:本发明涉及网页信息抽取技术领域,具体公开了一种基于多角度特征学习的主题网页信息抽取方法,且公开了本发明使用网页爬虫,获取页面的HTML源码,可以对页面的内容特征进行提取,包括标题、域名、IP归属地等。对于网页标题和网页内容中的特征,采用相应字符串匹配和识别算法来实现提取特征;对于域名信息、IP归属地、搜索引擎等数据,则借助相应的接口,完成信息提取和特征获取,基于多角度特征学习的主题网页信息抽取方法比关键词法的F值提高了4%以上,验证了该方法的有效性;关键词法相比SVM法,F值降低了10%;相比本文法,F值降低了17%,可见该方法在算法可行性和效果上均优于其他方法。
本发明授权一种基于多角度特征学习的主题网页信息抽取方法在权利要求书中公布了:1.一种基于多角度特征学习的主题网页信息抽取方法,其特征在于:包括主题网页抽取与爬虫抽取原理; 一种基于多角度特征学习的主题网页信息抽取方法,包含以下步骤: 一、文本分词 二、多角度特征分析 从网页标题、网页内容、域名信息、IP归属地的角度选取7个特征,通过提取网页的主题特征,对其量化处理,生成特征向量进行分析; 将网页标题和网页内容分开分析,为各自特征赋予对应的权重,具体过程如下:使用特征函数Fi来分别刻画其对应的身份特征,定义某一网页的身份特征向量: Fi={F1,F2,F3,F4,F5,F6,F7}1 其中,F1为网页标题是否包含主题重点词,F2为网页标题是否命中主题衍生词,F3为网页内容是否包含主题重点词,F4为网页内容是否命中主题衍生词,F5为域名注册商是否为境外公司,F6为IP归属地是否为境外,F7为网页标题在搜索引擎是否有返回结果; 每个特征函数的输出为实数值,表示网页中对应的身份特征状态,具体定义如下: F1:网页标题是否包含主题重点词; F1的定义如下: ; F2:网页标题是否命中主题衍生词; F2的定义如下: ; F3:网页内容是否包含主题重点词; F3的定义如下: ; F4:网页内容是否命中特定敏感词; F4的定义如下: ; F5:域名注册商是否为境外公司; F5的定义如下: ; F6:IP归属地是否为境外; F6的定义如下: ; F7:网页标题在搜索引擎的返回结果; F7的定义如下: ; 将上述F1、F2…Fi,的敏感特征经过独立的循环神经网络后,再经过全连接神经网络,进行后期融合,使得每个独立的循环神经网络都能学习到; 具体是根据上述特征,判断一个网站是否为主题网页时,使用线性分类器进行处理,线性分类函数如式2: 2 式2中,Fi表示网页敏感身份特征的取值,Fi=1时,判断该网站为主题网站;Fi=-1时,则表示页面正常,该网站为正常网站,式2中,wi为7个敏感特征分量的权值,其相应的计算公式如式3: 3 而上式中ei的计算公式为式4: 4 式4中,和分别为单独使用敏感特征Fi检测页面时的正确率和误判率; 使用此种方式,得出的S值将在区间[-1,1]中,当S接近于-1时,则认为此网页为非主题网页,当S值更接近于1时,则认为此网页为主题网页。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海瀛数信息科技有限公司,其通讯地址为:200081 上海市虹口区东体育会路100弄1号1404室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励