python encoding list




Come rimuovere i caratteri speciali dall'output di BeautifulSoup? (3)

Sto affrontando problemi con i caratteri speciali come ° e ® che rappresentano il segno di grado Fahrenheit e il segno registrato,

quando stampo la stringa contiene i caratteri speciali, dà un output come questo:

Preheat oven to 350° F
Welcome to Lorem Ipsum Inc® 

C'è un modo in cui posso produrre i caratteri esatti e non i loro codici? Per favore mi faccia sapere.


Penso che da qualche parte, un programma sta citando & deg and & reg senza un punto e virgola. Prova a usare "& deg" + ";" e "& reg" + ";" nel tuo file HTML, se effettivamente è un file HTML. E per favore spiega il contesto.


$ python -c'from BeautifulSoup import BeautifulSoup
> print BeautifulSoup("""<html>Preheat oven to 350&deg; F
> Welcome to Lorem Ipsum Inc&reg;""",
> convertEntities=BeautifulSoup.HTML_ENTITIES).contents[0].string'
Preheat oven to 350° F
Welcome to Lorem Ipsum Inc®

In Beautiful Soup 4:

my_text = """Preheat oven to 350&deg; F
Welcome to Lorem Ipsum Inc&reg; """

soup = BeautifulSoup(my_text, 'html.parser')

print(soup)

Risultato:

Preheat oven to 350° F
Welcome to Lorem Ipsum Inc® 




beautifulsoup