要保留Pytesseract中的单词间空格,可以使用pytesseract.image_to_string()
函数的config
参数来指定OCR引擎的配置选项,并将--psm
(页面分割模式)的值设置为3
。页面分割模式3将尝试自动检测单词,并在单词之间保留空格。
以下是一个代码示例:
import pytesseract
from PIL import Image
# 读取图像
image = Image.open('example.png')
# 设置配置选项,包括页面分割模式
custom_config = r'--psm 3'
# 使用Pytesseract进行OCR识别
text = pytesseract.image_to_string(image, config=custom_config)
# 打印识别结果
print(text)
在上述示例中,example.png
是待识别的图像文件。custom_config
变量指定了自定义的配置选项,其中--psm 3
表示使用页面分割模式3。最后,使用pytesseract.image_to_string()
函数将图像转换为文本,并将自定义配置选项传递给config
参数。
这样,Pytesseract将尝试在识别的文本中保留单词间的空格。