大數據云采集CCP平臺
PFG獨立研發的“CCP(云數據采集)平臺”,擁有14個自主開發的軟件著作權,囊括了數據采集、數據清洗、中文語義識別和數據庫等多種技術革新。PFG極強的獨立研發能力保證了“互聯網+”研究戰略的進行。

“CCP(云數據采集)”平臺采用了先進的多線程、分布式架構,可以同時在數十臺終端電腦上運行,每個終端可以同時運行30個線程,構成了一個龐大的網絡,能夠在短時間內抓取大量的網頁數據。另外,平臺還設計了緩存池,大量的數據獨立儲存在每臺終端中,數據采集完畢,再分別獨立上傳到服務器上,避免了短時間內大量數據入庫造成的沖擊。在應對特殊需求方面,CCP設計了IP變換功能,可以變換IP來訪問網頁,突破默寫訪問的限制。在應對動態頁面方面,CCP設計了兩種采集模式:無刷新后臺數據采集和模擬瀏覽器采集。前者可以用于應對大規模的靜態頁面,實現快速采集;后者可以應對日益增加的動態頁面,模擬瀏覽器工作,實現所見即所得。在應對圖片文字方面,CCP設計了OCR識別模塊,可以把采集到的圖片文字識別出來,各種各樣的頁面數據都能夠實現采集。
Cloud Collection Platform for Internet open data


PFG獨立研發的“CCP(云數據采集)平臺”,擁有14個自主開發的軟件著作權,囊括了數據采集、數據清洗、中文語義識別和數據庫等多種技術革新。PFG極強的獨立研發能力保證了“互聯網+”研究戰略的進行。

“CCP(云數據采集)”平臺采用了先進的多線程、分布式架構,可以同時在數十臺終端電腦上運行,每個終端可以同時運行30個線程,構成了一個龐大的網絡,能夠在短時間內抓取大量的網頁數據。另外,平臺還設計了緩存池,大量的數據獨立儲存在每臺終端中,數據采集完畢,再分別獨立上傳到服務器上,避免了短時間內大量數據入庫造成的沖擊。在應對特殊需求方面,CCP設計了IP變換功能,可以變換IP來訪問網頁,突破默寫訪問的限制。在應對動態頁面方面,CCP設計了兩種采集模式:無刷新后臺數據采集和模擬瀏覽器采集。前者可以用于應對大規模的靜態頁面,實現快速采集;后者可以應對日益增加的動態頁面,模擬瀏覽器工作,實現所見即所得。在應對圖片文字方面,CCP設計了OCR識別模塊,可以把采集到的圖片文字識別出來,各種各樣的頁面數據都能夠實現采集。