爬虫下载图片打不开是什么原因,最新简易爬虫教程

前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:GitPython PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 1.获取图片的url链接 首先,打开百度…

序言

文中的句子及图片来源于网络,仅作学习培训、沟通交流应用,不具备一切商业行为,版权归创作者全部,如有问题请尽快在线留言以作解决。

创作者: GitPython

PS:如果有需要Python学习材料的小伙伴可以加点击进入连接自主获取

http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef

1.获取图片的url连接

最先,打开百度图片主页,注意下图url中的cndex

Python爬虫实战:批量下载网站图片

然后,把页面切换成传统式换页版(flip),由于这样有助于大家抓取图片!

Python爬虫实战:批量下载网站图片

对比了好多个url发觉,pn主要参数是要求到的总数。根据改动pn主要参数,观查返回的数据信息,发觉每一页不得超过是60个图片。

注:gsm主要参数是pn参数16进制表述,除掉可以

Python爬虫实战:批量下载网站图片

随后,鼠标右键查验网页源码,立即(ctrl F)检索 objURL

Python爬虫实战:批量下载网站图片

那样,大家看到了必须图片的url了。

2.把图片连接储存到当地

如今,我们要做的就是把这些信息内容抓取出去。

注:网页页面中有objURL,hoverURL…但我们用的都是objURL,由于这是原照

那样,怎样获取objURL?用正则表达式!

那我们该如何用正则表达式完成呢?实际上只需一行代码…

results = re.findall(\'\"objURL\":\"(.*?)\",\', html) 

关键编码:

1.获取图片url编码:

# 获取图片url联接def get_parse_page(pn,name):  for i in range(int(pn)):    # 1.获取网页页面    print(\'已经获取第{}页\'.format(i 1))    # 百度搜索图片主页的url    # name是你需要检索核心关键词    # pn是你要下载的页码    url = \'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%s&pn=%d\' %(name,i*20)    headers = {      \'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4843.400 QQBrowser/9.7.13021.400\'}    # 发送请求,获取相对应    response = requests.get(url, headers=headers)    html = response.content.decode()    # print(html)    # 2.正则表达式分析网页页面    # \"objURL\":\"http://n.sinaimg.cn/sports/transform/20170406/dHEk-fycxmks5842687.jpg\"    results = re.findall(\'\"objURL\":\"(.*?)\",\', html) # 回到一个目录    # 依据获取过的图片连接,把图片储存到当地    save_to_txt(results, name, i)

2.储存图片到本地代码:

# 储存图片到当地def save_to_txt(results, name, i):  j = 0  # 在当目录下创建文件夹  if not os.path.exists(\'./\'   name):    os.makedirs(\'./\'   name)  # 免费下载图片  for result in results:    print(\'已经储存第{}个\'.format(j))    try:      pic = requests.get(result, timeout=10)      time.sleep(1)    except:      print(\'现阶段图片无法下载\')      j  = 1      continue    # 可忽视,这一段编码有bug    # file_name = result.split(\'/\')    # file_name = file_name[len(file_name) - 1]    # print(file_name)    #    # end = re.search(\'(.png|.jpg|.jpeg|.gif)$\', file_name)    # if end == None:    #   file_name = file_name   \'.jpg\'    # 把图片储存到文件夹    file_full_name = \'./\'   name   \'/\'   str(i)   \'-\'   str(j)   \'.jpg\'    with open(file_full_name, \'wb\') as f:      f.write(pic.content)    j  = 1

3.主函数代码:

# 主函数if __name__ == \'__main__\':  name = input(\'输入您你要下载核心关键词:\')  pn = input(\'你要免费下载前两页(1页有60张):\')  get_parse_page(pn, name)

使用说明书:

# 配备下列控制模块import requests import reimport osimport time# 1.运作 py源代码# 2.键入你要检索核心关键词,例如“柯基”、“小泰迪”等# 3.键入你要下载的页码,例如5,那便是免费下载 5 x 60=300 张图片

个人收藏 检举

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2022年8月22日 下午9:42
下一篇 2022年8月22日 下午9:46

相关推荐

  • 营销软件怎么代理,软件的市场需求如何

    转自老Vee微信公众号2019年1月14日文 伴随一场大雪掠境过后带来的持续阴霾,从昨天开始终于看到了久违的阳光。 下周的天气预报,晴好为主。 照惯例,这个时候管理软件厂商陆续进入“总结规划+年会表彰”季。各业务线条对照2018年的成绩单论功行赏,分支机构与总部对新的一年具体业务指标讨价还价。代理商们则早与厂商确定了2019年的销售计划和结算政策。 所有的总结都是按部就班,所有的规划都是轻车熟路。…

    2022年5月18日
    600
  • 自媒体红利消退,未来该如何增加收益

    现在越来越多人觉得自媒体已经饱和了,的确,现在连隔壁老王家的那个旺财随便叫几秒钟,然后发上平台后都能获得收益,如此低门槛,让自媒体的红利在不知不觉中慢慢消退,未来作者该如何在哪方面增加收益呢?追风今天来谈谈自己的看法吧! 第一:平台补贴不停,作者更新就别停。其实现在有某些网络大V,跟他的粉丝说平台以后会停止补贴,建议他的粉丝尽早脱坑。追风认为,这是不负责任的。平台从来都没有通过任何官方形式和渠道发…

    2022年8月11日
    690
  • 大学生创业贷款在哪申请,贷款要求与贷款利率说明

    近日,有不少网友咨询大学生创业贷款如何申请的相关问题。今日,给大家答疑解惑。 申请大学生创业贷款条件 创业扶持 毕业五年内(含应届)的大中专毕业生均可申请创业担保贷款,毕业两年内的大学生只需提供有可行性的创业计划书,洛阳市创业贷款担保中心根据前期资料的审查情况,可先为其发放创业启动资金5万元,其余款项在建立经营实体后会根据实际经营状况后续发放。其中普通高校、大学生村官、和留学归国人员可申请中央财政…

    2022年6月22日
    600
  • 萤石云视频手机版安装教程,教你怎么使用和操作

    随着萤石产品类目的逐渐丰富,AI能力的扩展以及生态合作伙伴的逐渐加入,萤石云视频APP迎来了全新的5.0版本。 萤石云视频APP5.0作为萤石智能家居生态的体验入口,连接萤石智能终端产品,并基于这些产品打造符合个人生活习惯的生活场景,给用户提供人性化的使用体验,以及便捷的配套服务。 具体表现如何,就让我们接下来一起看看吧! 外观升级,简洁清爽 在升级到5.0版本后,你可以明显看到首页中,界面的整体…

    2022年7月8日
    2120
  • 东莞一日游景点推荐,分享一个省时又省钱的攻略

    东莞是一个神秘的地方,因为你的对它的印象还停留在四年前,但身为一座文化古城,号称世界工厂、全国文明城市、全国篮球城市、广东四小虎等等。究竟这里有什么吸引的地方?为什么会有这么多优秀称号?跟我一起把东莞反转,打破沙盘探到底! 首先,po上东莞的大局 这期与接下几期我们先把东莞市区给反了。东莞市区主要由四个部分组成:莞城、南城、东城和万江。毫无疑问,他们可以作为东莞市的老市区,一直以来是东莞市的政治、…

    2022年10月12日
    470
  • 通讯录怎么恢复,联系人数据恢复技巧

    手机通讯录如何恢复?手机通讯录删除恢复教程:有人会“不经意的”删除自己手机中通讯录或是通话记录。如果没有备份手机联系人,想要打电话给许久未见的朋友、前段时间需要沟通的客户等,没有了通讯录似乎什么也做不了;如果你前一天和异性工作伙伴通了很久的电话,急于拿出一些“证据”证明自己的“清白”,那么通话记录就很重要啦。那么手机通讯录如何恢复?手机通话记录删除了怎么恢复? 本篇为大家提供了手机通讯录及手机通话…

    2022年6月26日
    500
  • 联想手机中国(联想手机中国品牌负责人介绍)

    联想创始人是柳传志,但严格说来联想属于中科院计算所创办,任何人都不能叫创始人,第一人的联想董事长是计算所所长曾茂朝,但把联想发扬光大的是柳传志。 柳传志1944年4月出生于江苏,1955至1961年,在北京市第二十五中学(原育英学校)学习。17岁柳传志高中毕业,去应征飞行员,由于舅舅有“政治问题”没有入选。 1961至1966年,柳传志在中国人民解放军军事电信工程学院(现西安电子科技大学)学习,在…

    2022年5月2日
    1150
  • seo关键词快速排名前三位是哪个,关键词排名快速提升技巧

    SEO优化网站关键词排名快速提升的要点和方法有哪些 1、当网站还没有建立索引的时候,需要蜘蛛程序(搜索引擎爬虫)来爬取网站,可以通过提交链接、发布外部链接吸引蜘蛛抓取网页。 2、搜索引擎识别网页很关键,他识别的情况很重要,只有搜索引擎才准确的知道,普通站长只能通过对算法规则的理解,网页要采用搜素引擎能识别的html代码制作,对搜索引擎的特别标题进行优化,如:title、description、ke…

    2022年6月12日
    710
  • ig夺冠是什么比赛,ig夺冠对中国的意义

    【总决赛FNCvsIG第一局】 FNC是一套需要打出中野优势的中期发力阵容,而IG是一套稳定发育的中后期打团阵容,比赛开始双方打野常规开局。比赛的前期,双方本是线上平稳的发育,IG在很好的规避掉FNC中野强势期后,通过多次的野辅游走中路接连斩杀FNC中单刀妹,将FNC的发力点打哑火,随后IG在15分钟中路抱团连推FNC两座防御塔,建立起前期优势。比赛的中期,FNC明显有些着急,在落后的情况下接连与…

    2022年7月3日
    1040
  • 台式机刻录光驱哪个牌子好(推荐一款质量最好的刻录光驱)

    说起光驱,很多人都觉得应该是上一代的产品,现在的电脑不需要。其实并非如此,毕竟很多人家里还有一些珍藏的光盘,另外还有些老的电脑也会用到光盘来安装系统,我们可以把光驱从机箱中去掉,但最好还是有一个外置的刻录光驱,以备不时之需。最近我看到ORICO推出了一款全新的光驱产品,它最大的特点就是多接口设计,除了传统的USB之外,还配备了时下流行的TYPE-C,所以不管是新旧电脑,它都能通吃。 从包装盒上可以…

    2022年10月23日
    1490

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信