我現(xiàn)在需要對一個網(wǎng)站的文章列表和列表里面的實際內(nèi)容進(jìn)行自動化數(shù)據(jù)采集,列表里面能夠取得每個文章的id,而每個文章又是通過一個統(tǒng)一的接口(參數(shù)帶上那個文章id即可獲取到對應(yīng)的json)里面又有一部分?jǐn)?shù)據(jù)需要采集然后進(jìn)行數(shù)據(jù)分析。
目前有什么比較成熟的框架或者輪子能夠?qū)崿F(xiàn)我的需求嗎?(要多線程,而且可以7x24小時穩(wěn)定運行,因為采集數(shù)量巨大)
另外問一下,采集到的內(nèi)容如何存儲(百萬到千萬),數(shù)據(jù)里面有一些數(shù)字?jǐn)?shù)據(jù),需要進(jìn)行統(tǒng)計分析,用mysql可以嗎?或者說還有其他更加成熟簡便的輪子可以用嗎?