数据采集器(适用数据迁移)

数据采集器(适用数据迁移)

网站搬家利器!适合其他系统网站快速迁移到PHPOK程序上
发布时间:04月16日 22:40,查看次数:285,版本:20190416

MD5值:993DEDA3D3D76EB00233E2DC19179EA6

上传插件

方法一

直接通过后台的【本地后台上传插件】,将下载过来的ZIP包直接上传解压。

优点:操作便捷!

缺点:部分主机会解压失败

方法二

下载插件后,本地解压,并通过FTP将 文件夹 上传到 plugins 目录下。

优点:安装比较顺利。

缺点:可能需要你懂点网建知识,会一点点小编程

安装插件

上传成功后的插件会在【未安装插件】列表中,请点击安装

图片

安装后,会显示到【已安装列表】,这时候插件是不可用状态,请点击状态,变成【绿标】即表示插件安装成功

图片

参数调整

您在安装过程中,因为一些原因,没有配置好参数,可以在这里进行配置

图片

快捷栏目管理

系统支持插件的一些配置信息自定义到:左侧菜单/全局区/内容区,这大块上,以方便维护人员快速进入

图片

图片



内容介绍

建站过程中,我们会无数次的碰到这样的问题:如何把旧网站的数据迁移到新网站上来,数据迁移历来是产品迭代更新时最棘手的。官方从实际入手,编写相应的数据采集插件,只要做简单的页面标识,即可快速将数据迁移到新平台上来!也方便开发人员填充数据(不至于大量填写:测试测试,Demo,Demo)

特别说明:

本插件从一开始的定位方向很明确,用于平台网站迁移,功能简陋,性能一般。如果您的网站有大量数据需要采集,建议您使用火车头采集器

请合理使用,勿使用于非法!

2019年4月21日:更新修正采集网站中实体&符号Bug

采集教程

采集原理

程序通过 curl 远程获取网页数据(HTML),然后通过正则方式获取筛选自己相要的内容信息(比如一些文本信息,图片信息,文件信息等)。为简化操作,本系统使用通配符:(*) 来表示任意值,其他正则表达式未深入测试。

在这里,再次声明下,本工作功能脆弱,仅适合网站搬家,不支持现在流行的异步获取数据,不支持JSON解析!

本程序所有的列表+内容采集原理:

通过【采集范围】的左侧(又称开始标识符,或开始字符串)删除在这个代码块之前的所有的数据!通过【采集范围】的右侧(又称结束标识符,或结束字符串)删除在这个代码块之后的所有数据,仅保留在这两个代码块之间的数据!

列表中:剩余的代码,则通过正则获取URL信息(列表仅仅采集网址,不能采集其他)

采集内容的原理和列表一样,因为内容有多个字段组成,每个字段的规则基本上都是这样子走的!

删除代码块前+后的代码

去除一些多余的代码

替换一些代码(简单的文本替换)

格式化获取到的内容:1)文本,2)HTML,3)文本转时间戳,4)整数格式化,5)浮点格式化,6)取前80字,用于摘要,7)取图片,基本上就这样子了

图片


项目维护

右上解点击【添加采集项目】或各个项目的【编辑】,即可进入采集项目维护界面。

标题:(方便管理)

网址:其作用是补全相对地址,因此要求填写:http://域名/目录/https://域名/目录/,或直接填写:http://域名/https://域名/,以方便地址补全(此项操作要求使用者自己测试,主要用于图片文件获取)

发布目标:即您要将发布的信息保存到哪个项目中(系统会根据指定的项目,创建要采集的字段),注意分类的选择!

列表网址:通常我们说的列表页,下有分页的那个页面,像新闻一般都是:标题+摘要+图片+链接组成(例如网址:https://www.phpok.com/website-knowledge.html,这就是一个列表页),一行一个列表。如果列表太多,请选择旁边的【网址生成器】快速生成有规律的页面

采集范围:设定网页中要采集的某个区块

图片

项目复制

我们一直强调,本插件主要为搬家服务,自然有一些自己的特色,比如当前的项目复制功能,即可实现同一个项目类型不同分类的快速定位!

图片

字段管理

创建完成项目后,系统会自动把需要采集的内容字段都统一写到字段管理,这个些管理相当于火车头的【内容采集规则】里的标签列表,我们对要采集的字段进行规则处理!处理原则和上述的采集原理是一模一样的!

这里画了一张图和火车头采集器内容规则采集的对比图(当然,我们的程序功能是弱爆了)

比较图

A,B,C,D四个部分功能基本上是和火车头一一对应的!

采集测试

写好规则后,我们要需要对数据进行测试验证,以确保采集的数据是我们想要的

请点击【测试】在打开的标签页里输入要测试的网址!注意,列表采集测试请点击【采集列表】,内容采集测试请点击【采集内容】

图片

图片

采集并发布

上述准备工作做好后,我们就可以开始采集数据了!

采集的先后顺序是:

1、【采网址】,先通过列表采集,获取我们要采集的内容页网址

2、【采内容】,网址采集完后,请点击采内容,进行内容采集,直接采集结束

3、【发布内容】,发布前先随机查验,请点击内容,随机抽样检查采集的内容是否符合要求。确保数据符合,我们再点发布

图片

网站迁移

迁移条件

1、关闭防采集功能

2、能手动修改旧版网站模板信息(或是内容)(用于改造我们需要的的网址及内容信息)

3、仅限开发人员使用

网站迁移

在旧站页面上将要采集的列表加上唯一标签,以方便采集时不会有太多垃圾数据及遗漏数据。大要说明如下图

图片

看到上面的源代码图片,我们一般会在后台设置这样子的标签:

图片

但实际过程中,一个页面这重复的标签就多了,于是我们对源代码页进行改造(目前网上大部分程序源码对应的页面都是模板的),我们模板代码里加上开头标识符和结束标识符

<div class="phpok-list-start"></div><ul class="list">
</ul><div class="phpok-list-stop"></div>

这样子,我们就可以在【采集范围】设置如下

图片

于是我们采集的定位就确保准确!

同样的原理也适合采集内容字段。这个方法甚至可以用于采集完整的时间(因为页面一般呈现的时间只有年月日,但我们数据库存的是年月日时分秒,甚至是时间戳格式,我们可以自己重新定义标签及内容,然后再执行采集!

注意,此方法要求必须是开发人员!普通用户慎用

特别提醒

1、列表或详细页采集Ajax异步加载的,当前系统无力采集(例如点击数)也就是说现代绝大多数酷炫特效类的网站,基本上可以排除了,获取不到数据

2、请使用右键查看源代码或按CTRL+U获取源代码的格式,不要通过F12或检查模式获取代码(如下图)

图片

所以,这里再次说明下,本工具仅用于网站搬家!因为刚刚上面碰到的问题,如果有代修改权限,这些都不是问题!




效果截图

图片
论坛咨询