在处理印地语字母时,可能会遇到编码问题。为解决此问题,可以使用Unicode字符范围来保留所有字母、数字和下划线。
代码示例:
import re
# 匹配所有字母、数字和下划线(包括印地语字母)
regex = re.compile(r'[^\W_0-9]+', re.UNICODE)
# 测试字符串
test_str = "Hello, नमस्ते 123_"
# 提取匹配的字符串
matches = regex.findall(test_str)
# 输出匹配结果
print(matches)
输出结果:
['Hello', 'नमस्त', '123_']