Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 卓望数码技术(深圳)有限公司左利获国家专利权

卓望数码技术(深圳)有限公司左利获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉卓望数码技术(深圳)有限公司申请的专利一种基于Bandit算法的主题爬虫方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116127169B

龙图腾网通过国家知识产权局官网在2026-04-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310084819.X,技术领域涉及:G06F16/951;该发明授权一种基于Bandit算法的主题爬虫方法是由左利;乔喆;戴晶;周宇飞;张皎设计研发完成,并于2023-01-13向国家知识产权局提交的专利申请。

一种基于Bandit算法的主题爬虫方法在说明书摘要公布了:本发明公开了一种基于Bandit算法的主题爬虫方法,基于关联词库API,扩展关键字的相关性,找出相关性的关键字词语,基于Bandit算法的训练优化目标模型,及时计算出每个关键字收益,即感兴趣程度,区分出每个主题爬虫对应的关键字范围,进行在线主题爬虫的内容抓取。能够对关键字的相似度进行扩展,获取到更多有价值的信息,高度寻找有效页面;能够体现使用者真正的兴趣点,及时调整纠正爬虫行为,避免时间与空间资源的浪费。

本发明授权一种基于Bandit算法的主题爬虫方法在权利要求书中公布了:1.一种基于Bandit算法的主题爬虫方法,其特征在于:包括有以下步骤: S01:创建关联词库; S02:创建主题爬虫,预设与主题相关的关键字和站点,并对关键字进行分词预处理,区分用户关键字和相关性关键字; S03:创建Bandit算法模型,Bandit算法模型的初始输入参数为用户设置的预设次数上限阈值n和预设收益率阈值p,以及S02中的关键字的动态参数信息; 关键字的动态参数信息包括感兴趣系数α和不感兴趣系数β,每个关键字的感兴趣系数α和不感兴趣系数β初始值均预设为1; S04:爬虫爬取新网页; 采用布隆过滤器来快速识别是否为新网页; 若为新网页,则执行S05; 若不为新网页,则直接丢弃; S05:对新网页的关键信息进行数据格式化,将当前信息进行提取,组织为一个数据包; S06:根据数据包的关键字属性数据与用户关键字和相关性关键字进行匹配; 若数据包的关键字属性数据命中了用户关键字,则直接跳转到步骤S13,进行网页下载; 若数据包的关键字属性数据没有命中用户关键字,则执行步骤S07; S07:根据数据包的关键字属性数据继续与相关性关键字进行匹配; 若数据包的关键字属性数据也没有命中相关性关键字,则直接丢弃该数据包; 若数据包的关键字属性数据命中了相关性关键字,则执行S08; S08:通过人工进行标注,反馈给用户,询问该数据包是否要进一步爬取内容; S09:用户对该数据包进行筛选判断,在页面上进行“标注”操作后反馈; S10:收到用户反馈信息后,该相关性关键字中的Beta参数值相应变化;若用户接收,即用户同意进一步爬取该数据包的内容,则α改变为α+1;反之则β改变为β+1,并且跳转执行步骤S11; S11:爬虫下载队列对已经明确的URL地址,进行内容爬取; S12:根据输入的关键字以及对应的Beta参数,通过Bandit算法模型计算出每个关键字收益率p; S13:根据每个关键字收益率p对关键字的感兴趣程度进行排序; 所述步骤S03中,每个关键字的动态参数信息用于根据Beta分布期望公式αα+β计算每个关键字的收益率,即:p=αα+β; 所述步骤S08中,还包括以下操作内容: 若数据包的关键字属性数据命中了相关性关键字,但是通过Bandit算法模型识别出该关键字在历史记录中多次被标识为“确定不感兴趣的关键字”,则也直接丢弃该数据包; 所述步骤S13中,根据关键字的格式化数据包的被用户反馈不爬取的次数与预设次数上限阈值比较结果,和该关键字的收益率p与预设收益率阈值的比较结果,来确定关键字的标识; 所述步骤S13中,还包括以下操作内容: 若某个关键字的α+β值大于等于1000,而收益率p值小于等于0.1,且该关键字被用户馈不使用的次数大于或者等于预设次数阈值、该关键字收益率p小于预设收益率阈值,则将该关键字标识为“确定不感兴趣的关键字”。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人卓望数码技术(深圳)有限公司,其通讯地址为:518000 广东省深圳市南山区粤海街道高新区社区高新南七道015号深港产学研基地W601;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。