python - सूची में संलग्न पायथन यूनिकोड को हटा देगा



python-2.7 unicode (1)

यह ठीक है, और आप इसे ठीक नहीं कर सकते क्योंकि यह डिज़ाइन पायथन 2.x में है। एक सूची को छपाई करते समय, प्रत्येक मान को पहले repr फ़ंक्शन द्वारा संसाधित किया जाता है, इसलिए आप repr 'd मानों की एक सूची छपाई कर रहे हैं, जो आप में से प्रत्येक को print बाद जो देखते हैं, उससे भिन्न हो सकते हैं, क्योंकि print(value) आउटपुट str(value) , repr(value) नहीं repr(value)

यदि आपको वास्तव में वास्तविक मान (अर्थात, str(value) , repr(value) ) को देखने की आवश्यकता नहीं है, तो बस Python 3.x पर अपग्रेड करें।

मेरे पास स्ट्रिंग है: एक वाइस्क

जब मैं इसे ठीक से प्रिंट करता हूं, लेकिन जब मैं सूची में संलग्न करता हूं तो इसे u'a wi\u0119c' बदल जाता है u'a wi\u0119c' तब मैं फाइल करने के लिए सहेजने की कोशिश कर रहा हूं ( json.dumps का उपयोग json.dumps क्योंकि सूची में बहुत सारे शब्द हैं) और यह u'a wi\u0119c' रहता है।

कैसे ठीक करने के लिए u'a wi\u0119c' एक więc करने के लिए?

import urllib2
from bs4 import BeautifulSoup
import sys
import json
reload(sys)
sys.setdefaultencoding('utf-8')

def scrapsl():
    wordlist = []
    deflist = []
    soup = BeautifulSoup(urllib2.urlopen('https://sjp.pl/slownik/lp.phtml?page=1').read(), "html.parser")
    nextpage = soup.find_all('b')[1].a.get('href')
    for i in range(2, 52):
        wordlist.append(unicode(soup.find_all('tr')[i].td.text))
        print(unicode(soup.find_all('tr')[i].td.text))
        sp = BeautifulSoup(urllib2.urlopen('https://sjp.pl/' + str(wordlist[(len(wordlist) - 1)]).replace(' ', "+")).read(), "html.parser")
        deflist.append({wordlist[(len(wordlist) - 1)]: sp.find_all('p')[3].text})
        print(str(i) + "\\52")
    print wordlist
    writelist = []
    writelist.append(wordlist)
    writelist.append(deflist)
    ftw = open("slownik.txt", 'w')
    ftw.write(json.dumps(writelist))
    ftw.close()
scrapsl()

धन्यवाद





beautifulsoup