軟件介紹
tesseract ocr是原先惠普開(kāi)發(fā)的圖像識(shí)別類(lèi)庫(kù),后面成為Open source,據(jù)說(shuō)曾經(jīng)的圖像識(shí)別能力排名第三,為大家提供的版本是4.0.0 for windows。 使用方法 下載完后進(jìn)行安裝,默認(rèn)情況下安裝程序會(huì)給你配置系統(tǒng)環(huán)境變量,以指向安裝目錄(之后可以通過(guò)DOS界面在任意目錄運(yùn)行tesseract)。安裝完成后目錄如下: 附錄: tessdata 目錄存放的是語(yǔ)言字庫(kù)文件,和在命令行界面中可能用到的參數(shù)所對(duì)應(yīng)的文件. 這個(gè)安裝程序默認(rèn)包含了英文字庫(kù)。 使用Tessract-OCR引擎識(shí)別驗(yàn)證碼 打開(kāi)DOS界面,輸入tesseract: 如果出現(xiàn)如上輸出,表示安裝正常。 我準(zhǔn)備了一張驗(yàn)證碼放在D盤(pán)根目錄下,上圖: 結(jié)果為: 附錄: Usage:tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...] pagesegmode values are: 0 = Orientation and script detection (OSD) only. 1 = Automatic page segmentation with OSD. 2 = Automatic page segmentation, but no OSD, or OCR 3 = Fully automatic page segmentation, but no OSD. (Default) 4 = Assume a single column of text of variable sizes. 5 = Assume a single uniform block of vertically aligned text. 6 = Assume a single uniform block of text. 7 = Treat the image as a single text line. 8 = Treat the image as a single word. 9 = Treat the image as a single word in a circle. 10 = Treat the image as a single character. -l lang and/or -psm pagesegmode must occur before anyconfigfile. tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...] tesseract 圖片名 輸出文件名 -l 字庫(kù)文件 -psm pagesegmode 配置文件 例如: tesseract code.jpg result -l chi_sim -psm 7 nobatch -l chi_sim 表示用簡(jiǎn)體中文字庫(kù)(需要下載中文字庫(kù)文件,解壓后,存放到tessdata目錄下去,字庫(kù)文件擴(kuò)展名為 .raineddata 簡(jiǎn)體中文字庫(kù)文件名為: chi_sim.traineddata) -psm 7 表示告訴tesseract code.jpg圖片是一行文本 這個(gè)參數(shù)可以減少識(shí)別錯(cuò)誤率. 默認(rèn)為 3 configfile 參數(shù)值為tessdataconfigs 和 tessdata essconfigs 目錄下的文件名
|
[溫馨提示]:
點(diǎn)下面下載:(推薦使用"迅雷"進(jìn)行下載,系統(tǒng)下載大全QQ交流群:)