只需几行代码搞定海量美图收集
发布时间:2023-01-13 05:19:57 279 相关标签: # html# python# 爬虫# 技术# 信息
互联网公开的信息很多,比如精美图片这类,如果单靠人工收集显然不现实,会懂技术的都会通过爬虫程序实现采集美图。单线程相对来说显得太过缓慢,多线程并发同时获取才是真效率。下面几行代码值得大家看看我是如何采集精美图片的。
# coding=utf-8
import os.path
from time import sleep
import requests
import re
dirname = 'photo/'
if not os.path.exists(dirname):
os.mkdir(dirname)
url = 'https://www.vmgirls.com/17081.html'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36 Edg/99.0.1150.46'
}
res = requests.get(url, headers=headers)
# print(res.text)
print(res.status_code)
#
# 只匹配括号内的内容
url_list = re.findall('', res.text)
print(url_list)
for urls in url_list:
name = urls.split('/')[-1]
new_url = 'https:' + urls
# print(new_url)
res_content = requests.get(url=new_url, headers=headers).content
sleep(2)
# 保存文件
with open('photo/' + name + '.jpeg', mode='wb') as f:
f.write(res_content)
上面就是有关于美图爬取的一些经验,需要的小伙伴拿走不谢。
文章来源: https://blog.51cto.com/u_13488918/5999055
特别声明:以上内容(图片及文字)均为互联网收集或者用户上传发布,本站仅提供信息存储服务!如有侵权或有涉及法律问题请联系我们。
举报