|
使用实例分析2--杭州公司名录
实例1是一个很简单的抓取新闻的例子,现在我们来看一个稍微复杂一些的例子。这个例子的特殊就在于联系方式需要点击两次才能完全看到。这个实例的功能是采集阿里巴巴里的杭州公司的联系方式,以便供电话营销使用。
基本操作:
查看网页源代码:点击IE浏览器的查看,再点“源文件”。 网页编辑软件Dreamweaver的使用:下载安装这个软件,打开软件后点击
三个按钮中最中间的这个,软件界面就分成了两大块,上面显示网页代码,下面显示网页的大致样子。我们经常要把网页源代码粘贴到Dreamweaver的代码区域,然后就可以看到网页的样子。学会这个,主要是为了找到信息的标识。
1.点击新建任务这个按钮,点击后会出现如下界面:
任务名称:随便起个名字,就叫杭州公司吧 任务起始地址:就是公司列表的那个网址,http://search.china.alibaba.com/search/company_search.htm?keywords=&province=%D5%E3%BD%AD &city=%BA%BC%D6%DD&biztype=0&Submit2=%CB%D1%CB%F7。在阿里巴巴里搜索杭州的公司库可以看到这个网址.
2.切换到“采集对象网址标识”选项卡,设置标识
采集对象所在网页网址标识:打开起始地址,我们可以发现公司列表的网址区别于别的网址的标志就是.cn.alibaba.com,因此我们把这个作为采集对象所在网页网址标识.
想要抓到下一页的公司信息,我们还要设置下页网址标识,下页的网址是http://search.china.alibaba.com/search/company_search.htm?province=%D5%E3%BD%AD&city=%BA%BC%D6%DD &sort_type=trustscore&begin_page=2,下页网址关键字可以取company_search.htm,如果设置了下页网址关键字,则“间隔”一栏必须填0 说明:
下页网址关键字那一栏也可以填写下页网址前标,http://search.china.alibaba.com/search/company_search.htm?province=%D5%E3%BD%AD&city=%BA%BC%D6%DD &sort_type=trustscore&begin_page=,用这个作为下页网址前标,下页网址后标为空。如果这样设置,则“间隔”一栏必须不填0,一般填1。begin_page=2,这是第二页;begin_page=3,这是第三页,因此间隔就是1
采集页数:就暂时采集20页吧
下面就遇到问题了,我们点击出来的公司详细信息的页面里看不到所有的联系方式,必须点击“详细信息”这个连接才能看到。怎么办?设置一下关联页面就可以了。如果公司详细信息的页面直接能看到所有的联系方式,不需要再打开新窗口,我们就不需要设置关联页面了。 以http://shinlight18.cn.alibaba.com/为例,详细信息这个链接的网址是在<td height="28" colspan="2" bgcolor="#FFFFFF"
class="s" style="padding-left:8px;
padding-bottom:8px;"> <a href=" 和 "
>之间的,所以关联页面网址前标就是前者那个字符串,关联页面网址后标就是"
>。这样填写了之后点击添加按钮添加进去就可以了。 顺便说一下,关联页面网址标识一栏也可以填写/contact/,这样就不用填写关联页面网址前标、关联页面网址后标了。被关联页面网址标识一般不用填写。
3.切换到“采集对象前后标识”选项卡
这里的设置和设置实例2原理一样,不多说了,请参照实例2。
好了,全部设置完毕,点击“更新任务设置”返回,然后点击载入任务,把“杭州公司”载入,并且选中。点击“开始”按钮开始采集,就可以看到采集到的公司联系方式了。
|