تنزيل صورة عبر urllib و python


Answers

import urllib
f = open('00000001.jpg','wb')
f.write(urllib.urlopen('http://www.gunnerkrigg.com//comics/00000001.jpg').read())
f.close()
Question

لذلك أحاول إنشاء نص برمجي Python يقوم بتنزيل webcomics ووضعه في مجلد على سطح المكتب. لقد عثرت على بعض البرامج المشابهة هنا والتي تقوم بشيء مماثل ، ولكن لا شيء يشبه ما أحتاجه. الذي وجدته متشابهًا هنا ( http://bytes.com/topic/python/answers/850927-problem-using-urllib-download-images ). لقد حاولت استخدام هذا الرمز:

>>> import urllib
>>> image = urllib.URLopener()
>>> image.retrieve("http://www.gunnerkrigg.com//comics/00000001.jpg","00000001.jpg")
('00000001.jpg', <httplib.HTTPMessage instance at 0x1457a80>)

ثم فتشت جهاز الكمبيوتر الخاص بي عن ملف "00000001.jpg" ، ولكن كل ما وجدته هو الصورة المخبأة له. لست متأكدًا حتى من حفظ الملف على جهاز الكمبيوتر الخاص بي. بمجرد أن أفهم كيفية تحميل الملف ، أعتقد أنني أعرف كيفية التعامل مع الباقي. بشكل أساسي ، استخدم فقط حلقة for وحرف السلسلة في '00000000'. 'jpg' وقم بزيادة '00000000' إلى أكبر رقم ، والذي يجب أن أحدده بطريقة أو بأخرى. أي توصيات على أفضل طريقة للقيام بذلك أو كيفية تنزيل الملف بشكل صحيح؟

شكر!

EDIT 6/15/10

هنا هو البرنامج النصي المكتمل ، فإنه يحفظ الملفات إلى أي دليل تختاره. لسبب غريب ، لم يتم تنزيل الملفات وفقط. أي اقتراحات حول كيفية تنظيفه سيكون موضع تقدير كبير. أعمل حاليًا على معرفة كيفية العثور على العديد من القصص المصورة على الموقع حتى أتمكن من الحصول على أحدث واحد فقط ، بدلاً من إنهاء البرنامج بعد رفع عدد معين من الاستثناءات.

import urllib
import os

comicCounter=len(os.listdir('/file'))+1  # reads the number of files in the folder to start downloading at the next comic
errorCount=0

def download_comic(url,comicName):
    """
    download a comic in the form of

    url = http://www.example.com
    comicName = '00000000.jpg'
    """
    image=urllib.URLopener()
    image.retrieve(url,comicName)  # download comicName at URL

while comicCounter <= 1000:  # not the most elegant solution
    os.chdir('/file')  # set where files download to
        try:
        if comicCounter < 10:  # needed to break into 10^n segments because comic names are a set of zeros followed by a number
            comicNumber=str('0000000'+str(comicCounter))  # string containing the eight digit comic number
            comicName=str(comicNumber+".jpg")  # string containing the file name
            url=str("http://www.gunnerkrigg.com//comics/"+comicName)  # creates the URL for the comic
            comicCounter+=1  # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception
            download_comic(url,comicName)  # uses the function defined above to download the comic
            print url
        if 10 <= comicCounter < 100:
            comicNumber=str('000000'+str(comicCounter))
            comicName=str(comicNumber+".jpg")
            url=str("http://www.gunnerkrigg.com//comics/"+comicName)
            comicCounter+=1
            download_comic(url,comicName)
            print url
        if 100 <= comicCounter < 1000:
            comicNumber=str('00000'+str(comicCounter))
            comicName=str(comicNumber+".jpg")
            url=str("http://www.gunnerkrigg.com//comics/"+comicName)
            comicCounter+=1
            download_comic(url,comicName)
            print url
        else:  # quit the program if any number outside this range shows up
            quit
    except IOError:  # urllib raises an IOError for a 404 error, when the comic doesn't exist
        errorCount+=1  # add one to the error count
        if errorCount>3:  # if more than three errors occur during downloading, quit the program
            break
        else:
            print str("comic"+ ' ' + str(comicCounter) + ' ' + "does not exist")  # otherwise say that the certain comic number doesn't exist
print "all comics are up to date"  # prints if all comics are downloaded



ربما تحتاج إلى "وكيل المستخدم":

import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36')]
response = opener.open('http://google.com')
htmlData = response.read()
f = open('file.txt','w')
f.write(htmlData )
f.close()



إصدار Python 3 من إجابة DiGMi:

from urllib import request
f = open('00000001.jpg', 'wb')
f.write(request.urlopen("http://www.gunnerkrigg.com/comics/00000001.jpg").read())
f.close()



بالنسبة إلى بايثون 3 ، ستحتاج إلى استيراد import urllib.request :

import urllib.request 

urllib.request.urlretrieve(url, filename)

لمزيد من المعلومات راجع docs.python.org/3.0/library/…




إذا كنت بحاجة إلى دعم وكيل ، فيمكنك إجراء ذلك:

  if needProxy == False:
    returnCode, urlReturnResponse = urllib.urlretrieve( myUrl, fullJpegPathAndName )
  else:
    proxy_support = urllib2.ProxyHandler({"https":myHttpProxyAddress})
    opener = urllib2.build_opener(proxy_support)
    urllib2.install_opener(opener)
    urlReader = urllib2.urlopen( myUrl ).read() 
    with open( fullJpegPathAndName, "w" ) as f:
      f.write( urlReader )



الحل الأبسط قد يكون (python 3):

import urllib.request
import os
os.chdir("D:\\comic") #your path
i=1;
s="00000000"
while i<1000:
    try:
        urllib.request.urlretrieve("http://www.gunnerkrigg.com//comics/"+ s[:8-len(str(i))]+ str(i)+".jpg",str(i)+".jpg")
    except:
        print("not possible" + str(i))
    i+=1;



بصرف النظر عن اقتراحك بقراءة المستندات retrieve() بعناية ( http://docs.python.org/library/urllib.html#urllib.URLopener.retrieve ) ، أقترح فعليًا استدعاء read() على محتوى الرد ثم حفظه في ملف من اختيارك بدلاً من تركه في الملف المؤقت الذي يقوم باسترداده.