软行天下-中国共享软件注册中心 登录 - 开发者加盟 - 网站联盟  
 首页 
 软件搜索 
 软件分类 
 软件注册 
 我的软件包 
 帮助 
 
  开发者档案 
   

开发者档案 抓糖网
 主页:www.zhuatang.com
 邮箱:
 QQ/MSN:zhsoft88@gmail.com
 电话:暂未提供电话服务

  相关软件 
   

五笔打字训练程序WBXL 5.1
海狗垂直搜索专用网络蜘蛛系..
海星垂直搜索专用网页结构化..
海鹞企业级邮件营销服务器 ..
海蛛垂直搜索专用网络蜘蛛系..
海猫网页预览拍照服务器 5.2
海葵垂直搜索专用网页抓取服..
囧浏览器 0.1
查看更多>> 
  客户服务 
 
    如果您在使用“海狗垂直搜索专用网络蜘蛛系统”的过程中遇到问题,请与软件开发者 抓糖网 联系。
    软行天下仅处理您在支付注册费用及注册信息发送过程中出现的问题。
如何注册购买共享软件?
在线咨询 >>




 

  海狗垂直搜索专用网络蜘蛛系统



No.29198
最新版本  1.2
更新日期  2008-12-18
软件大小  17MB
运行平台  Win9x/ME/NT/2000/XP/2003,Vista,Linux/Unix
所属分类  网络工具 - 搜索工具
推荐等级     << 投票
人气指数  11064
下载试用 下载1 下载2 下载3 注册价格:10000.00 元/套
  立即成为注册用户


海狗垂直搜索专用网络蜘蛛系统 注册说明

   “海狗垂直搜索专用网络蜘蛛系统”是一款共享软件,您可以先下载试用,觉得满意后再付费成为注册用户。本软件在未注册之前会有“30天免费试用”的功能限制,如果您在试用后决定一直使用下去,请通过本站向软件开发者支付 10000.00 元/套的注册费用,以获得该软件的使用授权和软件开发者提供的技术支持与服务。

  海狗垂直搜索专用网络蜘蛛系统 功能介绍

海狗是一款垂直搜索专用网络蜘蛛系统,它应用了领先的结构化抽取技术,采用XSLT构造抽取模板。海狗不仅适用于垂直搜索引擎的数据抓取,更可适用于网络信息采集等领域,功能非常强大。

一般的垂直搜索引擎的网络蜘蛛,视网页数据为字符流,采用正则表达式模板来串行抽取网页数据,其存在的问题是效率低,抽取精度不高,网页改动对抽取的影响比较大,正则表达式极可能要重写,否则数据则抽取不到。譬如说要抽取id属性值为a的div节点内容,其书写形式可以是,也可以是,还可以是等,正则表达式不易书写。如果在id属性前面或后面添加一个或多个其它的属性,就更不好办了。使用正则抽取还有个大难题,就是闭合节点的选择事关重大,因为此div的内容中还可能嵌套其它div节点。如果没选准确,或者网页源码稍有改动,就得不到正确的数据了。

而这些问题,对于采用结构化抽取手段的海狗来说,根本就不是问题了。使用XPATH指令//div[@id='a'] 即可得到id属性值为a的div节点内容,不必担心其书写形式,也不必考虑闭合节点的位置。海狗支持XPATH2.0,XSLT2.0等最新的XML技术,可利用语言的特性来解决数据抽取、数据格式化等问题,并且可以扩展。海狗是使用海星来结构化网页的,在此基础上抽取数据是非常简单的。

海狗功能特色

一、提供WEB管理接口,操作方便

海狗启动后,用户可用浏览器访问http://localhost:6474(注:6474为默认端口,用户也可修改此端口号),登录后便可进行查看系统信息、管理持久类、管理任务和修改登录用户名及密码的工作。任务管理包括新建、修改、复制、启动、停止等项。一切都是通过浏览器来进行,非常简单。

二、蜘蛛程序运行时间多样,选择灵活

为了适应各种情况,海狗提供了多种运行时间选择:手动运行,每隔X分钟,每隔X小时,每天X时X分,每周周XX时X 分,每月X日X点X分,每年X月X日X时X分。这些时间选择,完全满足了数据抓取任务的要求。

每项任务都可选择自己的运行时间,任务启动后,海狗会在合适的时刻运行此项任务,执行数据的抓取工作,经由用户提供的持久类,将数据保存起来。

三、支持多种数据库

海狗支持通用的数据库PostgreSQL,支持嵌入式数据库HSQLDB。HSQLDB已内置到海狗中,勿需另外安装,方便用户测试和执行轻量级的抓取任务。如果抓取任务多,并发运行的线程多,就需要采用PostgreSQL数据库。注意,数据库均需采用utf8编码,这样才能保证输入汉字不会出现乱码现象。

四、抽取数据直接入库

基于用户提供的持久类(pclass)和XSLT模板,海狗能将抽取到的数据直接存到数据库中,方便用户管理。

五、系统能自动收集URL种子

在海狗运行抓取任务过程中,URL种子是由系统自动采集的,勿需用户参与,并且用户可以编写过滤规则,过滤掉不需要的种子。另外,为了适应某些网页的URL链接不用来书写,导致系统采集不到的问题,海狗提供了相应接口,通过执行用户自己书写的种子抽取模板,能采集到这些隐藏的种子,从而抓取到相应的数据。

六、可分步进行抽取工作

某些数据是不能马上取到的,它需要经过多个操作步骤才能得到最终结果页面,譬如?槿∷阉饕娴乃阉鹘峁氖荩旱谝徊揭蟮玫浇峁斜碇械某唇樱诙酱蚩庑┝唇樱槿∷璧氖荨U庖磺性诤9分芯汕崴墒迪帧?

七、模板采用XSLT语言

海狗使用结构化的抽取手段,模板需用XSLT语言书写,用户可充分利用语言的特性来抽取数据,格式化数据。

想做一个垂直搜索引擎吗?使用海狗吧,它让您如虎添翼!

海狗,让垂直搜索更简单!



立即成为注册用户


关于我们 - 联系方法 - 客户服务 - 合作伙伴 - 意见反馈 - 免责声明
本站共享软件之资料与版权为其开发者所拥有并承担责任。用户使用本站之注册服务即表示接受 用户协议
© 2004-2009 软行天下共享软件注册中心 | 西安软行科技有限公司
增值电信业务经营许可证
陕ICP证B2-20060051号
支付宝信任商家