QueryList使用jQuery的方式来做采集,拥有丰富的插件。下面来演示QueryList使用PhantomJS插件抓取JS动态创建的页面内容。

一、安装

使用Composer安装:

1.安装QueryList

GitHub: https://github.com/jae-jae/QueryList

2.安装PhantomJS插件

GitHub: https://github.com/jae-jae/QueryList-PhantomJS

二、下载PhantomJS二进制文件

PhantomJS官网:http://phantomjs.org ,下载对应平台的PhantomJS二进制文件。

三、插件API

QueryList browser($url,$debug = false,$commandOpt = []):使用浏览器打开连接

四、使用

以采集「今日头条」手机版为例,「今日头条」手机版基于React框架,内容是纯动态渲染出来的。

下面演示QueryList的PhantomJs插件用法:

1.安装插件

 

 

2.Example-1

获取动态渲染的HTML:

 

 

获取所有p标签文本内容:

 

 

输出:

 

 

使用http代理:

 

 

3.Example-2

自定义一个复杂的请求:

 

 

开启debug模式,并从本地加载cookie文件:

 

发表回复

您的电子邮箱地址不会被公开。