|
使用实例分析1--新浪财经新闻
以下通过一个实例来说明软件的使用方法 ,这个实例的功能是采集新浪财经新闻。
基本操作:
查看网页源代码:点击IE浏览器的查看,再点“源文件”。 网页编辑软件Dreamweaver的使用:下载安装这个软件,打开软件后点击
三个按钮中最中间的这个,软件界面就分成了两大块,上面显示网页代码,下面显示网页的大致样子。我们经常要把网页源代码粘贴到Dreamweaver的代码区域,然后就可以看到网页的样子。学会这个,主要是为了找到信息的标识。
1.点击新建任务这个按钮,点击后会出现如下界面:
任务名称:随便起个名字,就叫新浪财经新闻吧 任务起始地址:就是新闻列表的那个网址,http://finance.sina.com.cn/guonei/index.shtml
2.切换到“采集对象网址标识”选项卡,设置标识
采集对象所在网页网址标识:就是新闻内容的链接与该网页上其它链接的区别,我们可以看到新闻链接的网址里都有/200这个字符串,其它网址里没有,因此此项就填写/200。别忘了要点击“添加标识”按钮添加进去哦。
3.切换到“采集对象前后标识”选项卡
信息名称:设置一个有意义的可以区分其它信息的名字,我们第一个要抓的是新闻标题,因此就叫“标题”,此处可以随便填写。
然后把任何一条新闻的网页代码粘贴到Dreamweaver里,开始找信息前标识、后标识
信息前标识、后标识:这个就不难理解了。比如标题,在新闻详细内容的页面的源文件中找出信息标题的前后标识。比如如下代码:<font
color=#05006C><h1>人民币周四再度走强
收盘价创汇改以来新高</h1></font>,那么信息前标识就是<h1>,信息后标识就是</h1>。因为查找字符串是先查找前标识,然后从前标识的位置开始查找后标识第一次出现的位置,这中间的信息会被采集到。 一定要注意,信息前标识在网页代码中只能出现一次,在Dreamweaver里按Ctrl+F查找<h1>,可以发现只能查找到一次,因此可以作为前标识。 后标识就不是严格要求只能出现一次,只要保证从前表识的那个位置开始查找后标识,是第一次出现的就行了。比如如下代码:<TD
width=20>电话</TD><TD
width=30>87378458</TD>,用<TD
width=20>电话</TD>作为前标识,那么可以用</TD>作为后表识,就可以抓到<TD
width=30>87378458这部分代码,虽然</TD>出现了两次,但是从前标识那个位置开始,</TD>是第一次出现的,所以就用</TD>作为后标识。
设置好后点“添加”,然后以同样的方法把内容也设置好添加进去。
好了,全部设置完毕,点击“更新任务设置”返回,然后点击载入任务,把“新浪财经新闻”载入,并且选中。点击“开始”按钮开始采集,就可以看到采集到的新闻了,简单吧。
|