火車采集器(LocoySpider)是一款專業(yè)的功能強大的網(wǎng)絡數(shù)據(jù)/信息挖掘軟件。通過靈活的配置,您可以很輕松的從網(wǎng)頁上抓取文字、圖片、文件等任何資源。程序支持遠程下載圖片文件,支持網(wǎng)站登陸后的信息采集,支持探測文件真實地址,支持代理,支持防盜鏈的采集,支持采集數(shù)據(jù)直接入庫和模仿人手工發(fā)布等許多功能特點;疖嚥杉髦С謴娜魏晤愋偷木W(wǎng)站采集獲取您所需要的信息,如各種新聞類網(wǎng)站、論壇、電子商務網(wǎng)站、求職招聘網(wǎng)站等。同時具有強大的網(wǎng)站登錄采集、多頁和分頁的采集、網(wǎng)站跨層采集、POST采集、腳本頁面采集、動態(tài)頁面采集等高級采集功能。強大的php和c#插件支持,讓您可以通過二次開發(fā)實現(xiàn)您所想要的任何更強大的功能。 火車采集器功能- 規(guī)則自定義 - 通過采集規(guī)則的定義,可以搜索所有網(wǎng)站采集幾乎任何類型的信息。
- 多任務,多線程 - 可以同時進行多個信息采集任務,每個任務可以使用多個線程。
- 所見即所得 - 任務采集過程所見即所得,過程中遍歷的鏈接信息、采集信息、錯誤信息等都會及時的反映在軟件界面中。
- 數(shù)據(jù)保存 - 數(shù)據(jù)邊采集邊自動保存到關系數(shù)據(jù)庫中,并且數(shù)據(jù)結構能夠自動適應,軟件可以根據(jù)采集規(guī)則自動創(chuàng)建數(shù)據(jù)庫,以及其中的表和字段,也可以通過導庫方式靈活的將數(shù)據(jù)保存到客戶已有的數(shù)據(jù)庫結構中。
- 斷點續(xù)采 - 信息采集任務可以在停止后從斷點開始繼續(xù)采集,從此你用不再擔心你的采集任務意外中斷了。
- 網(wǎng)站登錄 - 支持網(wǎng)站Cookie,支持網(wǎng)站可視化登錄,即使登錄時需要驗證碼的網(wǎng)站也能采集。
- 計劃任務 - 通過這個功能可以讓你的采集任務定時、定量或者一直循環(huán)執(zhí)行。
- 采集范圍限制 - 可以根據(jù)采集的深度和網(wǎng)址的標識來限制采集的范圍。
- 文件下載 - 可以將采集到的二進制文件(諸如:圖片、音樂、軟件、文檔等等)下載到本地磁盤或者采集結果數(shù)據(jù)庫中。
- 結果替換 - 可以將采集的結果根據(jù)規(guī)則替換成你定義的內(nèi)容。
- 條件保存 - 可以根據(jù)某個條件來決定那些信息保存,那些信息過濾。
- 過濾重復內(nèi)容 - 軟件可根據(jù)用戶設置和實際情況對重復內(nèi)容和重復網(wǎng)址自動刪除重復內(nèi)容。
- 特殊鏈接識別 - 運用此功能可以將用JavaScript動態(tài)生成的鏈接或其他更古怪的連接識別出來。
- 數(shù)據(jù)發(fā)布 - 可以通過自定義接口,將已采集的結果數(shù)據(jù)發(fā)布到任意的內(nèi)容管理系統(tǒng)和指定數(shù)據(jù)庫中,F(xiàn)在已支持的目標發(fā)布媒體包括:數(shù)據(jù)庫(access, sql server,my sql,oracle) ,靜態(tài)htm文件。
- 預留編程接口 - 定義多個編程接口,用戶可以在事件中利用PHP,C#語言進行編程,擴充采集功能。
火車采集器特色- 支持所有網(wǎng)站編碼:完美支持采集所有編碼格式的網(wǎng)頁,程序還可以自動識別網(wǎng)頁編碼。
- 多種發(fā)布方式:支持目前所有主流和非主流的CMS,BBS等網(wǎng)站程序,通過系統(tǒng)的發(fā)布模塊能實現(xiàn)采集器和網(wǎng)站程序間的完美結合。
- 全自動:無人值守工作,配置好程序后,程序?qū)⒁罁?jù)您的設置自動運行,完全無需人工干預。
- 本地編輯:本地可視化編輯已采集的數(shù)據(jù)。
- 采集測試:這是其它任何同類采集軟件所不能比的,程序支持直接查看采集結果并測試發(fā)布。
- 管理方便:使用站點+任務方式管理采集節(jié)點,任務支持批量操作,再多的數(shù)據(jù)管理也很輕松。
- 通用性強:無論新聞、論壇、視頻、黃頁、圖片、下載類網(wǎng)站,只要通過瀏覽器能看到的結構化的內(nèi)容,通過指定匹配規(guī)則,都能采集到您所需要的內(nèi)容。
- 穩(wěn)定、高效:五年磨一劍,軟件不斷更新進步,采集速度快,性能穩(wěn)定,占用資源少。
- 擴展性強、適用范圍廣:自定義web發(fā)布,自定義主流的數(shù)據(jù)庫的保存和發(fā)布,自定義本地php及.net外部編程接口處理數(shù)據(jù),讓數(shù)據(jù)都能為你所用。
火車采集器更新日志- 修改軟件啟動界面,使用更為友好
- 增加插件異常處理,方便調(diào)試插件
- 運行日志增加任務id
- 修復非管理員開機啟動失敗問題、
- 修復任務批量處理非內(nèi)容標簽復制問題
- 修復"如果為空再次提取"的bug
- WECenter的UBB轉(zhuǎn)化功能完善
- 隨機插入功能改進
- 修復ul,ol等標簽帶style時無法過濾問題
- 官方插件模塊接口等資源更新
開發(fā)軟件工具的最終目的是為了提高軟件生產(chǎn)率和改善軟件的質(zhì)量。
|
[溫馨提示]:
點下面下載:(推薦使用"迅雷"進行下載,系統(tǒng)下載大全QQ交流群:)