
SysNucleus WebHarvy
詳情介紹
WebHarvy是一款專業(yè)的網(wǎng)頁數(shù)據(jù)抓取工具??梢宰詣幼ト〔亩鄠€頁面提取數(shù)據(jù),你可以直接在網(wǎng)頁上選擇需要選擇的資源,也可以直接將整個網(wǎng)頁保存為HTML的格式,可以幫助用戶快速從網(wǎng)頁上提取數(shù)據(jù)并保存在不同的格式,允許您將抓取的數(shù)據(jù)導出為Excel,XML,CSV,JSON或TSV文件。智能地識別數(shù)據(jù)模式發(fā)生在web頁面。 SysNucleus WebHarvy自動提取文字、圖片、網(wǎng)址和電子郵件從網(wǎng)站,并保存了各種格式的內容。從網(wǎng)頁上采集數(shù)據(jù)作為導航到包含數(shù)據(jù)和點擊數(shù)據(jù)被捕獲的網(wǎng)頁一樣簡單。可以自動抓取并從多個網(wǎng)頁中提取數(shù)據(jù)。只是指出了“鏈接到下一頁'和WebHarvy網(wǎng)站刮板將自動刮從所有頁面的數(shù)據(jù)。使用這款軟件,您可以從各種網(wǎng)站提取數(shù)據(jù),例如產品目錄或搜索結果,這些網(wǎng)站可能涉及房地產,電子商務,學術研究,娛樂,技術等不同類別。
通過 WebHarvy 的點擊界面,網(wǎng)頁抓取變得非常簡單。無需編寫代碼或腳本來抓取數(shù)據(jù)。您將使用 WebHarvy 的內置瀏覽器加載和導航網(wǎng)站,并且可以通過單擊鼠標選擇要抓取的數(shù)據(jù)。
2、智能模式檢測
WebHarvy 自動識別網(wǎng)頁中出現(xiàn)的數(shù)據(jù)模式。要從網(wǎng)頁中抓取項目列表或表格(名稱、地址、電子郵件、價格等),不需要額外的配置。如果數(shù)據(jù)重復,WebHarvy 會自動抓取它。
3、保存到文件或數(shù)據(jù)庫
抓取的數(shù)據(jù)可以以多種格式保存。當前版本的 WebHarvy 網(wǎng)頁抓取軟件允許您將抓取的數(shù)據(jù)保存為 Excel、XML、CSV、JSON 或 TSV 文件。您還可以將數(shù)據(jù)導出到 SQL 數(shù)據(jù)庫。
4、處理分頁
網(wǎng)站通常會在多個頁面中顯示產品列表或搜索結果等數(shù)據(jù)。WebHarvy 可以自動從多個頁面爬行和抓取數(shù)據(jù)。只需指出“下一頁的鏈接”,WebHarvy 就會自動從所有頁面中抓取數(shù)據(jù)。
5、提交關鍵詞
通過自動向搜索表單提交輸入關鍵字列表來抓取數(shù)據(jù)??梢詫⑷我鈹?shù)量的輸入關鍵字提交到多個輸入文本字段來執(zhí)行搜索??梢詮妮斎腙P鍵字的所有組合的搜索結果中抓取數(shù)據(jù)。
6、保護隱私
為了匿名抓取數(shù)據(jù)并防止網(wǎng)絡抓取軟件被網(wǎng)絡服務器阻止,您可以選擇通過代理服務器或 VPN 訪問目標網(wǎng)站。可以使用單個代理服務器或代理服務器列表。
7、類別抓取
WebHarvy 允許您從指向網(wǎng)站內類似頁面/列表的鏈接列表中抓取數(shù)據(jù)。這允許您使用單一配置來抓取網(wǎng)站內的類別和子類別。
8、常用表達
正則表達式 (RegEx) 可以應用于網(wǎng)頁的文本或 HTML 源來抓取匹配部分。這種強大的技術為您在抓取數(shù)據(jù)時提供了更大的靈活性和控制力。
9、JavaScript 支持
在抓取數(shù)據(jù)之前,在瀏覽器中運行您自己的 JavaScript 代碼。這可用于與頁面元素交互、修改 DOM 或調用目標頁面中已實現(xiàn)的 JavaScript 函數(shù)。
10、圖像抓取
可以下載圖像或抓取圖像 URL。WebHarvy 可以自動抓取電子商務網(wǎng)站產品詳細信息頁面中顯示的多張圖像。
11、自動執(zhí)行瀏覽器任務
WebHarvy 可以輕松配置為執(zhí)行諸如 單擊鏈接、 選擇列表/下拉選項、在字段中輸入文本、 滾動頁面、 打開彈出窗口等任務。
WebHarvy 需要 Windows 操作系統(tǒng)才能運行。如果您想在 Mac 上運行 WebHarvy,您應該通過 BootCamp 安裝 Windows 或通過 Parallels 運行 WebHarvy。目前不支持 OS X / macOS。
2、基于 Chrome 構建
最新版本的 WebHarvy 是使用 Google 的開源 Chrome 瀏覽器項目構建的,這使得它更加安全、穩(wěn)定和更快。
3、從云運行
WebHarvy 可以在 Amazon AWS EC2 Windows 實例中運行
功能特點
1、簡單的網(wǎng)頁抓取通過 WebHarvy 的點擊界面,網(wǎng)頁抓取變得非常簡單。無需編寫代碼或腳本來抓取數(shù)據(jù)。您將使用 WebHarvy 的內置瀏覽器加載和導航網(wǎng)站,并且可以通過單擊鼠標選擇要抓取的數(shù)據(jù)。
2、智能模式檢測
WebHarvy 自動識別網(wǎng)頁中出現(xiàn)的數(shù)據(jù)模式。要從網(wǎng)頁中抓取項目列表或表格(名稱、地址、電子郵件、價格等),不需要額外的配置。如果數(shù)據(jù)重復,WebHarvy 會自動抓取它。
3、保存到文件或數(shù)據(jù)庫
抓取的數(shù)據(jù)可以以多種格式保存。當前版本的 WebHarvy 網(wǎng)頁抓取軟件允許您將抓取的數(shù)據(jù)保存為 Excel、XML、CSV、JSON 或 TSV 文件。您還可以將數(shù)據(jù)導出到 SQL 數(shù)據(jù)庫。
4、處理分頁
網(wǎng)站通常會在多個頁面中顯示產品列表或搜索結果等數(shù)據(jù)。WebHarvy 可以自動從多個頁面爬行和抓取數(shù)據(jù)。只需指出“下一頁的鏈接”,WebHarvy 就會自動從所有頁面中抓取數(shù)據(jù)。
5、提交關鍵詞
通過自動向搜索表單提交輸入關鍵字列表來抓取數(shù)據(jù)??梢詫⑷我鈹?shù)量的輸入關鍵字提交到多個輸入文本字段來執(zhí)行搜索??梢詮妮斎腙P鍵字的所有組合的搜索結果中抓取數(shù)據(jù)。
6、保護隱私
為了匿名抓取數(shù)據(jù)并防止網(wǎng)絡抓取軟件被網(wǎng)絡服務器阻止,您可以選擇通過代理服務器或 VPN 訪問目標網(wǎng)站。可以使用單個代理服務器或代理服務器列表。
7、類別抓取
WebHarvy 允許您從指向網(wǎng)站內類似頁面/列表的鏈接列表中抓取數(shù)據(jù)。這允許您使用單一配置來抓取網(wǎng)站內的類別和子類別。
8、常用表達
正則表達式 (RegEx) 可以應用于網(wǎng)頁的文本或 HTML 源來抓取匹配部分。這種強大的技術為您在抓取數(shù)據(jù)時提供了更大的靈活性和控制力。
9、JavaScript 支持
在抓取數(shù)據(jù)之前,在瀏覽器中運行您自己的 JavaScript 代碼。這可用于與頁面元素交互、修改 DOM 或調用目標頁面中已實現(xiàn)的 JavaScript 函數(shù)。
10、圖像抓取
可以下載圖像或抓取圖像 URL。WebHarvy 可以自動抓取電子商務網(wǎng)站產品詳細信息頁面中顯示的多張圖像。
11、自動執(zhí)行瀏覽器任務
WebHarvy 可以輕松配置為執(zhí)行諸如 單擊鏈接、 選擇列表/下拉選項、在字段中輸入文本、 滾動頁面、 打開彈出窗口等任務。
軟件優(yōu)勢
1、需要 WindowsWebHarvy 需要 Windows 操作系統(tǒng)才能運行。如果您想在 Mac 上運行 WebHarvy,您應該通過 BootCamp 安裝 Windows 或通過 Parallels 運行 WebHarvy。目前不支持 OS X / macOS。
2、基于 Chrome 構建
最新版本的 WebHarvy 是使用 Google 的開源 Chrome 瀏覽器項目構建的,這使得它更加安全、穩(wěn)定和更快。
3、從云運行
WebHarvy 可以在 Amazon AWS EC2 Windows 實例中運行
下載地址
- 電腦版
SysNucleus WebHarvy v7.2.0.217
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
同類軟件
網(wǎng)友評論
共0條評論(您的評論需要經過審核才能顯示)























贛公網(wǎng)安備 36010602000087號