博客
关于我
Windows 10操作系统下Tesseract图像识别(转)为文字的安装与测试
阅读量:551 次
发布时间:2019-03-09

本文共 818 字,大约阅读时间需要 2 分钟。

安装Tesseract OCR并进行文字识别测试

完成以下步骤,确保系统环境规范配置,推荐使用最优安装方式。

首先,访问Tesseract OCR官方网站,选择最新版本进行下载。 [去除下载链接]

安装步骤:

  • 完成Tesseract OCR的标准安装。
  • 推荐同时安装Tesseract相关语言包,包括英语和简体中文版本,避免功能异常。
  • 装入完成后,初始化系统环境变量,推荐设置Tesseract的安装路径以提高运行效率。
  • 用于编程调用时,安装pytesseract库:
    pip install pytesseract
  • 环境变量配置:

  • 添加系统变量TESSERACT_HOME,指向Tesseract的安装路径。
  • 在终端验证安装:
    tesseract -v

    确认输出中显示版本号,表示安装成功。

  • 注意事项:

  • 环境变量生效需计算机重启,确保所有打开终端窗口重载环境设置。
  • 避免使用在线安装包pip install tesseract-ocr,会导致额外文件占用,影响系统资源。
  • 测试确认:

  • 准备待测试图片文件。
  • 使用Python环境调用Tesseract进行文字识别:
    from PIL import Image
    import pytesseract
    import cv2 as cv
    img_path = 'thjnbshlw2.jpg'
    img = cv.imread(img_path)
    text = pytesseract.image_to_string(Image.fromarray(img))
    print(text)
  • 预期输出展示图片中的文字内容。
  • 确保安装成功后,运行上述代码检查结果,若无异常提示TesseractNotFound Error,说明系统环境配置正确。

    建议使用pip install -U pytesseract进行更新,以确保环境兼容性。

    请注意,这些步骤为基础操作,具体用途需结合实际应用场景进行优化。

    转载地址:http://ougsz.baihongyu.com/

    你可能感兴趣的文章
    Netty工作笔记0063---WebSocket长连接开发2
    查看>>
    Netty工作笔记0070---Protobuf使用案例Codec使用
    查看>>
    Netty工作笔记0077---handler链调用机制实例4
    查看>>
    Netty工作笔记0084---通过自定义协议解决粘包拆包问题2
    查看>>
    Netty工作笔记0085---TCP粘包拆包内容梳理
    查看>>
    Netty常用组件一
    查看>>
    Netty常见组件二
    查看>>
    netty底层源码探究:启动流程;EventLoop中的selector、线程、任务队列;监听处理accept、read事件流程;
    查看>>
    Netty心跳检测机制
    查看>>
    Netty核心模块组件
    查看>>
    Netty框架内的宝藏:ByteBuf
    查看>>
    Netty框架的服务端开发中创建EventLoopGroup对象时线程数量源码解析
    查看>>
    Netty源码—2.Reactor线程模型一
    查看>>
    Netty源码—3.Reactor线程模型三
    查看>>
    Netty源码—4.客户端接入流程一
    查看>>
    Netty源码—4.客户端接入流程二
    查看>>
    Netty源码—5.Pipeline和Handler一
    查看>>
    Netty源码—5.Pipeline和Handler二
    查看>>
    Netty源码—6.ByteBuf原理一
    查看>>
    Netty源码—6.ByteBuf原理二
    查看>>