求大神帮忙看看python这个问题

求大神帮忙看看python这个问题我的目的是，通过正则表达式抓去网页中http开头jpg结尾的字符串，然后进行工整的遍历，求大神帮我看看这代码哪里错了啊，谢谢了

推荐答案 2017-04-12

首先，仅从你的正则就能看出来，它肯定不会精确匹配你想要的内容，因为正则默认是贪婪捕获的，所以，你可以按以下方式进行匹配：

import re

#以下内容我已经用你给的网站测试过，是可以正常匹配的
#如果有什么其他需要，在追问
IMG = re.compile('"http:[^ ]+\.jpg?"')
imglist = re.findall(IMG, html) #假设html是你下载的网页内容

#看你的download函数似乎不是很健全，贴个我的函数(模拟浏览器提交数据，
＃可防止网站屏蔽，经常使用，目前挺稳定）
import time
import socket
import urlparse
import urllib2

def dowload (url, trynum = 2):
    print 'Downloading:', url
    user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11'
    headers = {'User-agent': user_agent}
    request = urllib2.Request(url, headers = headers)
    try:
        html = urllib2.urlopen(request, timeout=10).read()
    except (urllib2.URLError, socket.timeout):
        html = None
        if trynum > 0:
            time.sleep(5)
            return dowload (url, trynum - 1)
    if not html:
        print 'Erro: Failed to download the url: %s' %(url)
    return html

温馨提示：答案为网友推荐，仅供参考

当前网址：http://33.wendadaohang.com/zd/4P50hdWdWP44BhWcBh.html

其他回答

第1个回答 2017-04-12

你那正则是贪婪匹配，你匹配不到的。本回答被提问者采纳

相似回答

麻烦懂python的大神看一下这句话哪里有问题,怎么改呢?答：在第一个例子中，你没有正确使用格式化字符串。你需要在冒号后面加上一个浮点数格式化说明符，以告诉 Python 你想要将数字格式化为多少位小数。例如，你可以在 't: . 2fy' 中添加一个 '.2'，让它变成 't: .2f'，这将格式化数字为保留两位小数的浮点数。修改后如下：```print( 't: {:.2f}...

请大神们帮忙解答一下Python作业难题?答：我的请大神们帮忙解答一下Python作业难题? 用Python编写一个组合两个字符串的方法,从第一个字符串中提取一个字符,然后从第二个字符串中提取一个字符,依此类推。一旦一个字符串没有剩下的字符,它应该和另一个字符串一起继续... 用Python编写一个组合两个字符串的方法,从第一个字符串中提取一个字符,然后从...

俺们是Python的小菜,求大神帮忙解决个问题答：解决办法：两种：（1）指定JudgeYear.py的编码为GBK 做法：在你的文件最开始部分，添加两行代码：!/usr/bin/python# -*- coding: gbk -*-这个是用来指定当前文件，即你的JudgeYear.py文件，编码为gbk的。（2）不指定JudgeYear.py的编码，但是把JudgeYear.py文件本身的编码转换为UTF-8 做法：用No...