(12)发明专利说明
(21)申请号 CN201610864062.6 (22)申请日 2016.09.29 (71)申请人 西南科技大学
地址 621010 四川省绵阳市青龙大道59号
(10)申请公布号 CN106484828B
(43)申请公布日 2020.01.21
书
(72)发明人 张晖;杨春明;李晓伟;李波;赵旭剑
(74)专利代理机构 北京众合诚成知识产权代理有限公司
代理人 夏艳
(51)Int.CI
权利要求说明书 说明书 幅图
(54)发明名称
一种分布式互联网数据快速采集系统及采集方法
(57)摘要
本发明公开了一种分布式互联网数据快速
采集系统,包括种子网站设置节点,超链接采集层,实时队列,网页下载与解析层,网页数据存储层五个层;种子网站设置节点用于设置存储数据源的各项参数及抽取规则;超链接采集层用于对数据源的超链接列表网页进行请求并提取目标网页的超链接;实时队列用于存取超链接采集层提取的URL超链接及其对应的抽取规则及已访问过的URL超链接;网页下载与解析层用于请求并
解析实时队列中未访问过的URL超链接并格式化提取特定数据;网页数据存储层用于存储网页下载与解析层格式化抽取的目标数据。本发明采用分布式分层协作方式进行数据采集,能够应对数据采集量大、数据来源多、实时性要求高的系统应用需求。
法律状态
法律状态公告日
2017-03-08 2017-03-08 2017-04-05 2017-04-05 2020-01-21
法律状态信息
公开 公开
实质审查的生效 实质审查的生效 授权
法律状态
公开 公开
实质审查的生效 实质审查的生效 授权
权利要求说明书
一种分布式互联网数据快速采集系统及采集方法的权利要求说明书内容是....请下载后查看
说明书
一种分布式互联网数据快速采集系统及采集方法的说明书内容是....请下载后查看
因篇幅问题不能全部显示,请点此查看更多更全内容