神通T-Bees 網絡信息采集系統,共有五個功能模塊,分別是流程定義管理、流程實例管理、站點管理、分類管理、全局設置。系統采用兩條流程為主線串聯系統功能,一個是“網頁內容采集流程”,該流程的主要目的是完成從互聯網上采集用戶指定的站點的所有網頁的內容,一個是“網頁內容模板解析流程”,該流程的主要目的是對“網頁內容采集流程”執行完畢之后,對采集的到網頁文件,按照業務需求定制內容解析模板,進行內容解析,完成“非結構化”到“結構化”的轉換。

網頁爬?。?/font>對爬取的流程進行設計,通過新建流程、查看流程、保存流程、刪除流程、執行流程、調度流程、監控流程、終止流程以及結果導出等操作,實現對網頁內容采集流程和網頁內容模板解析流程的整個生命周期的管理。在網頁內容模板解析中,通過定制內容解析模板,對爬取到的網頁內容進行解析,實現將非結構化網頁轉換成結構化數據,從而提取網頁中的表格數據。并基于聚類技術,實現定義最少的解析模板,解析最多的網頁內容。
爬取結果加工:對爬取到的網頁進行自動的加工和處理,基于機器學習和自然語言處理技術,將Web格式的網頁轉換為純文本文件,對重復采集的網頁進行去重,對同源網頁進行版本對照,對網頁的內容進行的自動分類和自動聚類,為將加工后的網頁生成索引以便檢索。