登录
-
开发者加盟
-
网站联盟
首页
软件搜索
软件分类
软件注册
我的软件包
帮助
开发者档案
抓糖网
主页
:
www.zhuatang.com
邮箱
:
QQ/MSN
:
zhsoft88@gmail.com
电话
:
暂未提供电话服务
相关软件
五笔打字训练程序WBXL 5.1
海狗垂直搜索专用网络蜘蛛系..
海星垂直搜索专用网页结构化..
海鹞企业级邮件营销服务器 ..
海蛛垂直搜索专用网络蜘蛛系..
海猫网页预览拍照服务器 5.2
海葵垂直搜索专用网页抓取服..
囧浏览器 0.1
查看更多>>
客户服务
如果您在使用“
海狗垂直搜索专用网络蜘蛛系统
”的过程中遇到问题,请与软件开发者
抓糖网
联系。
软行天下
仅处理
您在支付注册费用及注册信息发送过程中出现的问题。
如何注册购买共享软件?
在线咨询 >>
海狗垂直搜索专用网络蜘蛛系统
No.29198
最新版本
1.2
更新日期
2008-12-18
软件大小
17MB
运行平台
Win9x/ME/NT/2000/XP/2003,Vista,Linux/Unix
所属分类
网络工具 - 搜索工具
推荐等级
<< 投票
人气指数
11064
下载1
下载2
下载3
注册价格:
10000.00
元/套
海狗垂直搜索专用网络蜘蛛系统 注册说明
“
海狗垂直搜索专用网络蜘蛛系统
”是一款共享软件,您可以先下载试用,觉得满意后再
付费成为注册用户
。本软件在未注册之前会有“
30天免费试用
”的功能限制,如果您在试用后决定一直使用下去,请通过本站向软件开发者支付
10000.00
元/套的注册费用,以获得该软件的使用授权和软件开发者提供的技术支持与服务。
海狗垂直搜索专用网络蜘蛛系统 功能介绍
海狗是一款垂直搜索专用网络蜘蛛系统,它应用了领先的结构化抽取技术,采用XSLT构造抽取模板。海狗不仅适用于垂直搜索引擎的数据抓取,更可适用于网络信息采集等领域,功能非常强大。
一般的垂直搜索引擎的网络蜘蛛,视网页数据为字符流,采用正则表达式模板来串行抽取网页数据,其存在的问题是效率低,抽取精度不高,网页改动对抽取的影响比较大,正则表达式极可能要重写,否则数据则抽取不到。譬如说要抽取id属性值为a的div节点内容,其书写形式可以是
,也可以是
,还可以是
等,正则表达式不易书写。如果在id属性前面或后面添加一个或多个其它的属性,就更不好办了。使用正则抽取还有个大难题,就是闭合节点
的选择事关重大,因为此div的内容中还可能嵌套其它div节点。如果没选准确,或者网页源码稍有改动,就得不到正确的数据了。
而这些问题,对于采用结构化抽取手段的海狗来说,根本就不是问题了。使用XPATH指令//div[@id='a'] 即可得到id属性值为a的div节点内容,不必担心其书写形式,也不必考虑闭合节点的位置。海狗支持XPATH2.0,XSLT2.0等最新的XML技术,可利用语言的特性来解决数据抽取、数据格式化等问题,并且可以扩展。海狗是使用海星来结构化网页的,在此基础上抽取数据是非常简单的。
海狗功能特色
一、提供WEB管理接口,操作方便
海狗启动后,用户可用浏览器访问http://localhost:6474(注:6474为默认端口,用户也可修改此端口号),登录后便可进行查看系统信息、管理持久类、管理任务和修改登录用户名及密码的工作。任务管理包括新建、修改、复制、启动、停止等项。一切都是通过浏览器来进行,非常简单。
二、蜘蛛程序运行时间多样,选择灵活
为了适应各种情况,海狗提供了多种运行时间选择:手动运行,每隔X分钟,每隔X小时,每天X时X分,每周周XX时X 分,每月X日X点X分,每年X月X日X时X分。这些时间选择,完全满足了数据抓取任务的要求。
每项任务都可选择自己的运行时间,任务启动后,海狗会在合适的时刻运行此项任务,执行数据的抓取工作,经由用户提供的持久类,将数据保存起来。
三、支持多种数据库
海狗支持通用的数据库PostgreSQL,支持嵌入式数据库HSQLDB。HSQLDB已内置到海狗中,勿需另外安装,方便用户测试和执行轻量级的抓取任务。如果抓取任务多,并发运行的线程多,就需要采用PostgreSQL数据库。注意,数据库均需采用utf8编码,这样才能保证输入汉字不会出现乱码现象。
四、抽取数据直接入库
基于用户提供的持久类(pclass)和XSLT模板,海狗能将抽取到的数据直接存到数据库中,方便用户管理。
五、系统能自动收集URL种子
在海狗运行抓取任务过程中,URL种子是由系统自动采集的,勿需用户参与,并且用户可以编写过滤规则,过滤掉不需要的种子。另外,为了适应某些网页的URL链接不用
来书写,导致系统采集不到的问题,海狗提供了相应接口,通过执行用户自己书写的种子抽取模板,能采集到这些隐藏的种子,从而抓取到相应的数据。
六、可分步进行抽取工作
某些数据是不能马上取到的,它需要经过多个操作步骤才能得到最终结果页面,譬如?槿∷阉饕娴乃阉鹘峁氖荩旱谝徊揭蟮玫浇峁斜碇械某唇樱诙酱蚩庑┝唇樱槿∷璧氖荨U庖磺性诤9分芯汕崴墒迪帧?
七、模板采用XSLT语言
海狗使用结构化的抽取手段,模板需用XSLT语言书写,用户可充分利用语言的特性来抽取数据,格式化数据。
想做一个垂直搜索引擎吗?使用海狗吧,它让您如虎添翼!
海狗,让垂直搜索更简单!
关于我们
-
联系方法
-
客户服务
-
合作伙伴
-
意见反馈
-
免责声明
本站共享软件之资料与版权为其开发者所拥有并承担责任。用户使用本站之注册服务即表示接受
用户协议
© 2004-2009 软行天下共享软件注册中心 | 西安软行科技有限公司
增值电信业务经营许可证
陕ICP证B2-20060051号