tesseract-ocr训练方法

作者: 分类: 技术文章 时间: 2012-05-26

tesseract-ocr有2和3两个版本,不同版本训练方法稍有不同。

第3版本的训练方法官版教程在这里:TrainingTesseract3

第2版的训练方法官版教程在这里:TrainingTesseract

我使用的是最新的3.01版本的。训练所需准备:

1.下载并安装3.01版本的tesseract。事实上并不需要安装这步骤,我下载的是压缩包版,解压即可,这里我解压到E:\Tesseract-ocr目录。

2.下载并安装jTessBoxEditor 工具,这是一个Box file editors,用来编辑训练文件的,直接下载地址在这里。这个软件是用java写的,运行需要安装jre,好在这个东西比.net好装多了,怎么运行可以见它的readme文件。

3.一张用来训练的tiff格式图片。

阅读全文»

文字识别引擎试用:tesseract-ocr

作者: 分类: 技术文章 时间: 2012-05-20

        tesseract-ocr是一 个OCR引擎,在1985年到1995年由HP实验室开发,后来由google开发并且开源,支持多平台,支持多达40种语言,其中包括中文,支持训练,tesseract-ocr是一个命令行程序,但是也提供多种语言的包装器,如.Net 、Python、Ruby、C、Java,方便集成到程序中使用。

命令行调用很简单:

tesseract.exe <image> <outputName> [-l lang] [configs]

<image>:要识别的图片路径

<outputName>:命令行模式下,tesseract会把识别出来的文字结果保存在一个文本文件中,outputName是该文件的名字,如果值为“lixin”,那么结果会保存在程序根目录下的lixin.txt文件中。

[-l lang]:默认情况下自带了英文的字典,如果想识别中文或者其他语言,需要在下载相应的语言包,并存放在程序“/tessdata”目录下,例如我下载了一个简体中文包,文件名为“chi_sim.traineddata”,解压到“tessdata”目录下,然后该值为:“-l chi_sim”。

[configs]:配置项。

调用的例子: tesseract.exe d:\test.jpg resultFile –l chi_sim

阅读全文»

那个金山快盘的sdk微微的更新了一下

作者: 分类: 技术文章 时间: 2012-05-11

        金山快盘在推出API后,官方的放出了python和java版的sdk,所以可以选择去下个用用。不过我还是喜欢用自己写的。这次给自己的sdk做了一个小小更新,更正了出现中文会出错的问题,快盘的url地址是不允许中文的,所以要给中文的url参数值做个urllib.quote 加工。

项目地址:http://mykuaipansdk.codeplex.com/

使用很简单,下面是个简单的例子:

#coding=utf-8

import kuaipan

kp=kuaipan.KuaiPan('用户的token','用户的token_secret')

kp.create_folder("/tempPath")

kp.delete("/tempPath")

kp.create_folder("/中文目录")

kp.upload('/mypic中文2.jpg',u'd:\\testkp\\图片.jpg')

kp.copy('/mypic中文2.jpg','/mypic中文22222.jpg')

 

金山快盘挺好用的,不过里面的文件多了,发现每次开机启动快盘后都要运行一段时间用来查找文件改动情况,随着文件越来越多,这个时间花费越来越多,出现了影响开机速度了。

使用tfspreview快速搭建团队开发管理平台

作者: 分类: 技术文章 时间: 2012-05-09

        小组里两个成员,原本都是独立完成开发项目的,因此没有团队协作和版本控制的需求。突然之间,小组成员变为4个,并且决定要使用团队协作与版本控制工具来管理项目开发。

        Team Foundation Server 2010 是 Microsoft 应用程序生命周期管理 (ALM) 解决方案的核心协作平台,具有“应用程序生命周期管理”、“规划和跟踪项目”、“版本控制”等N多功能。

        但是受到环境限制,没有机器可以部署该系统。加上其2G的安装包、微软一贯漫长的安装过程、对硬件配置要求高、配置麻烦、属于付费产品等诸多原因,想快速部署这么一套管理系统可不是容易的事情。

        所以选择了“tfspreview”这款服务。tfspreview是一款微软在Azure云平台上提供Team Foundation Server 的产品。只要申请注册便能使用,是快速搭建团队协作平台的好方法。

        首先是申请服务,申请成功后会得到一个属于你的一个网址,通过windows live 账号登陆后,在页面中点击“Create a team project”创建团队项目。

        然后打开vs2010,在菜单中选择“连接到Team Foundation Server”,输入创建服务时给予的网址,这样就把项目开发引入到了团队管理中来了。

相比起自己在机器上安装部署tfs,简直就是太快太容易了。