Tesseract OCR 安装与中文+英文识别实现
一、下载
https://digi.bib.uni-mannheim.de/tesseract/
下载,尽量选择时间靠前的(识别更好些)。符合你的运行机(我的是windows64)
持续点击下一步安装,安装你认可的路径即可,没必要配置环境变量(后续在代码里指定即可)。
二、下载语言包
https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata
(这是中文的。有了它,后续的识别会更精准)
下载到的语言包放到安装目录的 Tesseract-OCR\tessdata 目录下
三、代码实现和图片优化
注意:图片的优化很重要,这会极大的提高识别。
【图片越大、像素越清晰,识别的准确度越高。
如果是小图片,需要额外做放大、锐化、对比度等处理。 本文章不做这方面的优化。
各位可以截大图和小图对比一下结果就知道了。】
下面以python实现为例:
程序:替换你的安装路径和图片地址,运行即可测试。
import pytesseract from PIL import Image # 设置Tesseract路径(根据实际安装路径修改) pytesseract.pytesseract.tesseract_cmd = r'C:\soft_install\Tesseract-OCR\tesseract.exe' def ocr_scan(image_path): """ 对指定图片文件进行OCR识别 :param image_path: 图片文件路径(支持PNG/JPG等格式) """ try: # 加载图片文件 image = Image.open(image_path) # 识别文字(中英文混合) text = pytesseract.image_to_string(image, lang='chi_sim+eng') print("识别结果:\n", text.strip()) except FileNotFoundError: print(f"错误:文件 '{image_path}' 不存在") except Exception as e: print(f"发生错误:{str(e)}") if __name__ == "__main__": # 直接指定图片路径(示例路径) image_path = "processed_latest.png" # 修改为你的图片路径 ocr_scan(image_path)
图片实例如下:
(图1 未经过放大和二值化阈值等处理。 会存在识别失真)
(图2 经过放大和二值化阈值处理。 上面的程序可以正确识别)
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们。