PHP 爬虫体验(三) - 使用PHP + puppeteer爬取js动态渲染的页面内容

栏目: php · 发布时间: 2021-05-07

简介  这篇文章主要介绍了PHP 爬虫体验(三) - 使用PHP + puppeteer爬取js动态渲染的页面内容以及相关的经验技巧,文章约3851字,浏览量384,点赞数8,值得推荐!

之前写的两篇爬虫体验基本上涵盖了一般的Html页面提取场景,但是有些时候,如果目标页面不是纯静态的页面,而是使用js动态渲染的页面(比如one),之前的爬虫就不好使了,这种时候就要借助一些其他工具来进行实现。

一般爬取动态页面的思路是通过软件模拟浏览器行为获取到渲染后的页面镜像,然后再对渲染后的页面进行分析,常用的工具有selenium,phantomJs,puppeteer等,通过对项目维护程度、对PHP友好度的对比,我选用的是puppeteer。

根据官方介绍,谷歌在2017年开发了自家Chrome浏览器的Headless特性,puppeteer便是这个时候诞生的,它的原理是通过调用Chrome DevTools开放的接口与Chrome通信,将浏览器开放接口进行封装,方便用户调用,可以很容易地实现浏览器行为的模拟。

尝试一下puppeteer,安装起来其实非常简单:

1
npm i puppeteer

根据官方API写了example.js进行测试:

1
2
3
4
5
6
7
8
9
10
11
async function (){
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('http://wufazhuce.com');
return page.content();
};

(async () => {
const a = await start();
process.stdout.write(a);
})();

执行node example.js便可以看到控制台输出了渲染完成之后的页面Html,这个时候便能够使用php的fopen读取stdout获取到html文本进行下一步处理了。

在github上面查找相关支持,发现有spatie/browsershot这个项目直接把操作步骤封装好了,这样便可以使用puppeteer进行动态生成html内容的获取,然后继续使用dom-crawler来获取想要抓取的内容了:

1
2
3
4
5
6
7
8
$this->crawler = new Crawler();
$html = Browsershot::url($this->url)
->setOption('args', [
'--no-sandbox',
'--disable-setuid-sandbox'
])
->bodyHtml();
$this->crawler->addHtmlContent($html);

原文:大专栏  PHP 爬虫体验(三) - 使用PHP + puppeteer爬取js动态渲染的页面内容



以上就是本文的全部内容,希望对大家的学习有所帮助,本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 原文地址:https://www.cnblogs.com/sanxiandoupi/p/11641858.html

php爬虫(示例代码)

PHP爬虫抓取(示例代码)

什么?php也能做爬虫?

php爬虫 phpspider(示例代码)

PHP 7安装使用体验,升级PHP要谨慎(示例代码)

php多线程爬虫类(示例代码)

关于php网络爬虫phpspider。(示例代码)

PHP 爬虫(示例代码)