使用BeautifulSoup的get_text()方法获取文本内容时,默认会保留换行符。如果想要忽略换行符,可以使用get_text()方法的参数strip=True。
下面是一个示例代码:
from bs4 import BeautifulSoup
html = '''
This is a paragraph.
This is another paragraph with a line break.
Line break ignored.
'''
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text(strip=True)
print(text)
输出结果:
This is a paragraph.
This is another paragraph with a line break.Line break ignored.
在这个例子中,我们首先导入了BeautifulSoup模块,然后定义了一个包含换行符的HTML代码。
接下来,我们使用BeautifulSoup将HTML代码解析成一个BeautifulSoup对象。然后,我们调用get_text()方法,并将strip参数设置为True。这样,get_text()方法会忽略换行符,并返回去除换行符的文本内容。
最后,我们打印输出了获取到的文本内容。