python爬虫获取动态网页时如何过滤图片

849次阅读
没有评论

python爬虫获取动态网页时如何过滤图片

我们在下载软件的时候,经常会被附带一些不需要的软件,如果下载下来不仅占用内容,还要延迟我们下载的时间。要想阻止这种结果的产生,我们需要在下载软件时多一些步骤。同样的,我们用python爬虫获取动态网页数据时,图片这方面完全是可以过滤掉的,我们既不需要,而且加载也很耽误时间。小编上网搜集了相关过滤图片的处理办法,学会了之后本篇全部分享给各位小伙伴。

 

在这个爬虫里不用看任何图片信息,所以图片没有加载的必要,为了提升一点点运行效率,将所有图片拦截掉:

//开启拦截器
await page.setRequestInterception(true)
await page.on('request',interceptedRequest => {
    //判断加载的url是否以jpg或png结尾,符合条件将不再加载
    if(interceptedRequest.url().endsWith('.jpg') || interceptedRequest.url().endsWith('.png')){
        interceptedRequest.abort();
    }else{
        interceptedRequest.continue();
    }
})

 

拓展:调整窗口大小

在浏览器弹出时,会发现打开的窗口显示范围很小,不仅不方便浏览,可能还会导致点击或输入等操作出错,所以还是有必要进行调整:

await page.setViewport({
    width: 1920,
    height: 1080,
})

 

过滤掉所有的图片后,小伙伴们是不是发现运行的速度变快很多了呢?另外我们在浏览网页的时候因为窗口过小也会很不方便,所以小编带来了一个拓展解决的小技巧,大家可以了解下。

 

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:wuyou2021-05-22发表,共计751字。
新手QQ群:570568346,欢迎进群讨论 Python51学习