SCSCMS系列课程之第四课
本课主要讲解阳光企业网站管理系统采集功能。
采集功能是我们第一次自主开发,功能与性能都会受限制,但我们相信随着我们的研究深入,功能会越来越好!
首页进入网站后台,内容管理,数据采集。在采集管理里,点击右上边“采集开始”。
采集第一步:
1.采集主题:主要说明采集什么网站什么栏目。可随便写。
2.采集类型:文章或者新闻。
3.分页采集设置:批量生成适合有规律比较多页的形式;列表添加适合无规律页数少的情况。【重要】
4.源代码编码:指被采集网页的编码,如果选择错误将可能导致出现乱码!
5.作者信息:指编写此采集规则的作者信息。可随便写。
采集第二步:
1.采集主题,源代码编码,采集类型,源代码编码都是由第一步选定的,不可更改!
2.分页列表:列出所有需要采集的网页的链接,修改无效!
3.分页源代码:列出采集页中第一页的源代码做样本,供下面操作时查看,修改无效!
4.链接匹配代码:指采集链接其中之一的样本,由ASP正侧式匹配截取。格式是: 链接开始代码{$SCS}链接结束代码,注意禁止出现?*+^$这些ASP正侧式通匹符,否则可能截取不正确!【重要难点】
5.转成绝对地址:因为网页中一般不会采用绝对地址。例如链接地址为showarticle.asp那么就需要替换成http://www.scscms.com/article/showarticle.asp之类的。
6.内容标签过滤:指采集的内容中需要过滤的标签。强烈建议过滤iframe,object,script三种标签,其余自己酌情选择。特别注意如果过滤html标签等效过滤所有标签,不建议过滤html。总之越靠后的越不推荐过滤!
7.内容字符替换:指把采集到的内容,用特定的字符替换对应的字符。格式是:查找字符|替换字符
多个替换请使用分行隔开,可以为空表示不替换。
8.保存远程图片:指采集过程中把文章内容中的图片全部保存到本网站目录下,如果被采集网站图片过多就会造成速度缓慢,容易造成采集超时,同时占用大量空间。所以不推荐选择保存!
采集第三步:
1.采集主题,源代码编码,采集类型,源代码编码都是由第一步选定的,不可更改!
2.采集分类:指把采集到的内容归纳到哪个分类中。
3.采集列表:列出可采集的所有文章标题及链接,没打上勾的表示不采集!
4.文章详细源码:是采集列表中的第一个链接的样本源代码,供下面操作时查看,修改无效!
5.标题标志代码:指采集文章标题的结构标签。必需含{$SCS}【重要】
6.内容标志代码:指采集文章内容的结构标签。必需含{$SCS}【重要难点】
7.分页标志代码:当需要采集分页时设置,填写 scscms 表示没有分页。保持原分页结构指被采集文章是分页的地方采集入库时也对应分页。【难点】
8.时间标志代码:指采集文章时间的结构标签,必须符合yyyy-mm-dd或者yyyy-mm-dd hh:nn:ss格式,其它格式特别是含中文的不能入库。可直接指定值。
9.作者标志代码:指采集文章作者的结构标签。可直接指定值。
10.来源标志代码:指采集文章来源的结构标签。可直接指定值。
11.关键词代码:指采集文章关键词的结构标签。可直接指定值。
12.概要代码代码:指采集文章概要代码的结构标签。可直接指定值。
13.采集备注:针对此采集主题的一些说明注解。可随便写。
14.采集操作:三个选择,保存不采集指先保存此采集规则暂不采集。采集不保存指马上采集但并不保存修改过的采集规则。采集并保存指采集同时保存修改后的采集规则。
最后点下一步将结束此采集过程的修改,如果选择了采集立刻进入采集状态。
名词解释:
【可随便写】指并不重要的数据。
【修改无效】指你修改或者删除并不影响采集过程。
【可直接指定值】指一般文章内容无对应的值时,或者你不想使用采集中的值时,可直接指定内容。
视频地址http://www.scscms.com/media/2010-10/25902467.html
关键词: scscms,系列课程,阳光系统 编辑时间: 2011-01-10
2
高兴0
支持1
搞笑0
不解1
谎言0
枪稿0
震惊0
无奈0
无聊0
反对0
愤怒
- 中搜索:SCSCMS系列课程之第四课
- 中搜索:SCSCMS系列课程之第四课
- 暂无评论
网友评论