hadoop爬蟲股票數據挖掘_Hadoop和數據挖掘有關系嗎

1. 國內外著名的互聯網公司使用hadoop都做了什麼談HADOOP在大規模數據處理領域的具體應用。

節點數： 15台機器的構成的伺服器集群伺服器配置： 8核CPU，16G內存，1.4T硬碟容量。 HADOOP在網路：HADOOP主要應用日誌分析，同時使用它做一些網頁資料庫的數據挖掘工作。節點數：10 - 500個節點。主要使用了2個集群：一個由1100台節點組成的集群，包括8800核CPU（即每台機器8核）,和12000TB的原始存儲(即每台機器12T硬碟)一個有300台節點組成的集群，包括2400核CPU（即每台機器8核），和3000TB的原始存儲(即每台機器12T硬碟)由此基礎上開發了基於SQL語法的項目：HIVE HADOOP在HULU 主要用於日誌存儲和分析13台機器構成的集群（8核PUC，單台機器：4TB硬碟）基於HBASE資料庫 HADOOP在TWITTER 使用HADOOP用於存儲微博數據，日誌文件和許多中間數據使用基於HADOOP構件的Cloudera's CDH2系統，存儲壓縮後的數據文件（LZO格式） HADOOP在雅虎：主要用於支持廣告系統及網頁搜索機器數：25000，CPU：8核集群機器數： 4000 個節點 (2*4cpu boxes w 4*1TB disk & 16GB RAM)

2. hadoop開發和數據挖掘選哪個好

1、SparkVSHadoop有哪些異同點？Hadoop:分布式批處理計算，強調批處理，常用於數據挖掘、分析Spark:是一個基於內存計算的開源的集群計算系統，目的是讓數據分析更加快速,Spark是一種與Hadoop相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些有用的不同之處使Spark在某些工作負載方面表現得更加優越，換句話說，Spark啟用了內存分布數據集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。Spark是在Scala語言中實現的，它將Scala用作其應用程序框架。與Hadoop不同，Spark和Scala能夠緊密集成，其中的Scala可以像操作本地集合對象一樣輕松地操作分布式數據集。盡管創建Spark是為了支持分布式數據集上的迭代作業，但是實際上它是對Hadoop的補充，可以在Hadoop文件系統中並行運行。通過名為Mesos的第三方集群框架可以支持此行為。Spark由加州大學伯克利分校AMP實驗室(Algorithms,Machines,andPeopleLab)開發，可用來構建大型的、低延遲的數據分析應用程序。雖然Spark與Hadoop有相似之處，但它提供了具有有用差異的一個新的集群計算框架。首先，Spark是為集群計算中的特定類型的工作負載而設計，即那些在並行操作之間重用工作數據集（比如機器學習演算法）的工作負載。為了優化這些類型的工作負載，Spark引進了內存集群計算的概念，可在內存集群計算中將數據集緩存在內存中，以縮短訪問延遲.在大數據處理方面相信大家對hadoop已經耳熟能詳，基於GoogleMap/Rece來實現的Hadoop為開發者提供了map、rece原語，使並行批處理程序變得非常地簡單和優美。Spark提供的數據集操作類型有很多種，不像Hadoop只提供了Map和Rece兩種操作。比如map,filter,flatMap,sample,groupByKey,receByKey,union,join,cogroup,mapValues,sort,partionBy等多種操作類型，他們把這些操作稱為Transformations。同時還提供Count,collect,rece,lookup,save等多種actions。這些多種多樣的數據集操作類型，給上層應用者提供了方便。各個處理節點之間的通信模型不再像Hadoop那樣就是唯一的DataShuffle一種模式。用戶可以命名，物化，控制中間結果的分區等。可以說編程模型比Hadoop更靈活.2、Spark在容錯性方面是否比其他工具更有優越性？從Spark的論文《ResilientDistributedDatasets:AFault-TolerantAbstractionforIn-MemoryClusterComputing》中沒看出容錯性做的有多好。倒是提到了分布式數據集計算，做checkpoint的兩種方式，一個是checkpointdata，一個是loggingtheupdates。貌似Spark採用了後者。但是文中後來又提到，雖然後者看似節省存儲空間。但是由於數據處理模型是類似DAG的操作過程，由於圖中的某個節點出錯，由於lineagechains的依賴復雜性，可能會引起全部計算節點的重新計算，這樣成本也不低。他們後來說，是存數據，還是存更新日誌，做checkpoint還是由用戶說了算吧。相當於什麼都沒說，又把這個皮球踢給了用戶。所以我看就是由用戶根據業務類型，衡量是存儲數據IO和磁碟空間的代價和重新計算的代價，選擇代價較小的一種策略。取代給中間結果進行持久化或建立檢查點，Spark會記住產生某些數據集的操作序列。因此，當一個節點出現故障時，Spark會根據存儲信息重新構造數據集。他們認為這樣也不錯，因為其他節點將會幫助重建。3、Spark對於數據處理能力和效率有哪些特色？Spark提供了高的性能和大數據處理能力，使得用戶可以快速得到反饋體驗更好。另一類應用是做數據挖掘，因為Spark充分利用內存進行緩存，利用DAG消除不必要的步驟，所以比較合適做迭代式的運算。而有相當一部分機器學習演算法是通過多次迭代收斂的演算法，所以適合用Spark來實現。我們把一些常用的演算法並行化用Spark實現，可以從R語言中方便地調用，降低了用戶進行數據挖掘的學習成本。Spark配有一個流數據處理模型，與Twitter的Storm框架相比，Spark採用了一種有趣而且獨特的法。Storm基本上是像是放入獨立事務的管道，在其中事務會得到分布式的處理。相反，Spark採用一個模型收集事務，然後在短時間內（我們假設是5秒）以批處理的方式處理事件。所收集的數據成為他們自己的RDD，然後使用Spark應用程序中常用的一組進行處理。作者聲稱這種模式是在緩慢節點和故障情況下會更加穩健，而且5秒的時間間隔通常對於大多數應用已經足夠快了。這種方法也很好地統一了流式處理與非流式處理部分。總結這幾天在看Hadoop權威指南、hbase權威指南、hive權威指南、大規模分布式存儲系統、zoopkeeper、大數據互聯網大規模數據挖掘與分布式處理等書同時補充，能靜下心來好好的完整的看完一本書，是相當不錯的。

3. hadoop如何分析論壇評論數據我現在想到的方案是：用爬蟲從某論壇抓取數據，抓取到數據之後我直接

crontab做定時執行腳本，hive的直接放腳本里，mr的打成jar通過腳本運行。爬數據—數據清洗—每個評論lucence分詞-取部分評論定義標簽，好評中評差評—通過貝葉斯學習獲得分類器模型—對測試數據預測—結果保存

4. Hadoop和數據挖掘有關系嗎

有一點關系吧
hadoop是大數據類型的數據倉庫

也就是說對海量數據進行抽調和分析
既然是數據分析自然和數據挖掘有關系，但並不等同

5. 什麼是hadoop，怎樣學習hadoop

Hadoop實現了一個分布式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬體上；而且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有著超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）文件系統中的數據。
Hadoop的框架最核心的設計就是：HDFS和MapRece。HDFS為海量的數據提供了存儲，則MapRece為海量的數據提供了計算。一句話來講Hadoop就是存儲加計算。
Hadoop這個名字不是一個縮寫，而是一個虛構的名字。該項目的創建者，Doug Cutting解釋Hadoop的得名：「這個名字是我孩子給一個棕黃色的大象玩具命名的。
Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平台。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點：
1、高可靠性Hadoop按位存儲和處理數據的能力值得人們信賴。
2、高擴展性Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。
3、高效性Hadoop能夠在節點之間動態地移動數據，並保證各個節點的動態平衡，因此處理速度非常快。
4、高容錯性Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。
5、低成本與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟體成本因此會大大降低。
Hadoop帶有用Java語言編寫的框架，因此運行在 Linux 生產平台上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫，比如 C++。
Hadoop大數據處理的意義
Hadoop得以在大數據處理應用中廣泛應用得益於其自身在數據提取、變形和載入(ETL)方面上的天然優勢。Hadoop的分布式架構，將大數據處理引擎盡可能的靠近存儲，對例如像ETL這樣的批處理操作相對合適，因為類似這樣操作的批處理結果可以直接走向存儲。Hadoop的MapRece功能實現了將單個任務打碎，並將碎片任務(Map)發送到多個節點上，之後再以單個數據集的形式載入(Rece)到數據倉庫里。
Hadoop由以下幾個項目構成

1、Hadoop Common ：Hadoop體系最底層的一個模塊，為Hadoop各子項目提供各種工具，如：配置文件和日誌操作等。
2、HDFS：分布式文件系統，提供高吞吐量的應用程序數據訪問，對外部客戶機而言，HDFS 就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件，等等。但是 HDFS 的架構是基於一組特定的節點構建的（參見圖 1），這是由它自身的特點決定的。這些節點包括 NameNode（僅一個），它在 HDFS 內部提供元數據服務；DataNode，它為 HDFS 提供存儲塊。由於僅存在一個 NameNode，因此這是 HDFS 的一個缺點（單點失敗）。存儲在 HDFS 中的文件被分成塊，然後將這些塊復制到多個計算機中（DataNode）。這與傳統的 RAID 架構大不相同。塊的大小（通常為 64MB）和復制的塊數量在創建文件時由客戶機決定。NameNode 可以控制所有文件操作。HDFS 內部的所有通信都基於標準的 TCP/IP 協議。
3、MapRece ：一個分布式海量數據處理的軟體框架集計算集群。
4、Avro ：doug cutting主持的RPC項目，主要負責數據的序列化。有點類似Google的protobuf和Facebook的thrift。avro用來做以後hadoop的RPC，使hadoop的RPC模塊通信速度更快、數據結構更緊湊。
5、Hive ：類似CloudBase，也是基於hadoop分布式計算平台上的提供data warehouse的sql功能的一套軟體。使得存儲在hadoop裡面的海量數據的匯總，即席查詢簡單化。hive提供了一套QL的查詢語言，以sql為基礎，使用起來很方便。
6、HBase ：基於Hadoop Distributed File System，是一個開源的，基於列存儲模型的可擴展的分布式資料庫，支持大型表的存儲結構化數據。
7、Pig ：是一個並行計算的高級的數據流語言和執行框架，SQL-like語言，是在MapRece上構建的一種高級查詢語言，把一些運算編譯進MapRece模型的Map和Rece中，並且用戶可以定義自己的功能。
8、ZooKeeper ：Google的Chubby一個開源的實現。它是一個針對大型分布式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務，將簡單易用的介面和性能高效、功能穩定的系統提供給用戶。
9、Chukwa ：一個管理大型分布式系統的數據採集系統由yahoo貢獻。
10、Cassandra ：無單點故障的可擴展的多主資料庫。
11、Mahout ：一個可擴展的機器學習和數據挖掘庫。
Hadoop 設計之初的目標就定位於高可靠性、高可拓展性、高容錯性和高效性，正是這些設計上與生俱來的優點，才使得Hadoop 一出現就受到眾多大公司的青睞，同時也引起了研究界的普遍關注。到目前為止，Hadoop 技術在互聯網領域已經得到了廣泛的運用，如Yahoo、Facebook、Adobe、IBM、網路、阿里巴巴、騰訊、華為、中國移動等。
關於怎樣學習hadoop，首先要了解並且深刻認識什麼是hadoop，它的原理以及作用是什麼，包括基本構成是什麼，分別有什麼作用，當然，在學習之前，至少要掌握一門基礎語言，這樣在學習起來才會事半功倍，因為目前hadoop在國內發展時間不長，有興趣的朋友可以先找一些書籍來學習，打好基本功，本站也將持續更新有關hadoop的學習方法以及資料資源共享，希望我們一起努力，有好的方法和建議歡迎交流。

6. 一分鍾了解互聯網數據挖掘流程

一分鍾了解互聯網數據挖掘流程

1、爬蟲抓取網路數據

真實的數據挖掘項目，一定是從獲取數據開始的，除了通過一些渠道購買或者下載專業數據外，常常需要大家自己動手爬互聯網數據，這個時候，爬蟲就顯得格外重要了。

Nutch爬蟲的主要作用是從網路上抓取網頁數據並建立索引。我們只需指定網站的頂級網址，如taobao.com，爬蟲可以自動探測出頁面內容里新的網址，從而進一步抓取鏈接網頁數據。nutch支持把抓取的數據轉化成文本，如（PDF、WORD、EXCEL、HTML、XML等形式）轉換成純文字字元。

Nutch與Hadoop集成，可以將下載的數據保存到hdfs，用於後續離線分析。使用步驟為：

向hdfs中存入待抓取的網站url

$ hadoop fs -put urldir urldir

註：

第一個urldir為本地文件夾，存放了url數據文件，每行一個url地址

第二個urldir為hdfs的存儲路徑。

啟動nutch，在NUTCH_HONE目錄下執行以下命令

$ bin/nutch crawlurldir –dir crawl -depth 3 –topN 10

命令成功執行後，會在hdfs中生成crawl目錄。

2、MapRece預處理數據

對於下載的原始文本文檔，無法直接進行處理，需要對文本內容進行預處理，包括文檔切分、文本分詞、去停用詞（包括標點、數字、單字和其它一些無意義的詞）、文本特徵提取、詞頻統計、文本向量化等操作。

常用的文本預處理演算法是TF-IDF，其主要思想是，如果某個詞或短語在一篇文章中出現的頻率高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來做分類。

輸入原始文本內容：

Againit seems that cocoa delivered……

執行TF-IDF預處理：

hadoop jar $JAR ……

輸出文本向量:

9219:0.246 453:0.098 10322:0.21 11947:0.272 ……

每一列是詞及其權重，使用冒號分隔，例如「9219:0.246」表示編號為9219的詞，對應原始單詞為「Again」，其權重值為0.246。

3、Mahout數據挖掘

預處理後的數據就可以用來做數據挖掘。Mahout是一個很強大的數據挖掘工具，是分布式機器學習演算法的集合，包括：協同過濾、分類、聚類等。

以LDA演算法為例，它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。它是一種無監督學習演算法，在訓練時不需要手工標注主題，需要的僅僅是指定主題的數量K。此外LDA的另一個優點則是，對於每一個主題均可找出一些詞語來描述它。

輸入預處理後的數據:

9219:0.246 453:0.098 ……

執行LDA挖掘演算法：

mahout cvb –k 20……

輸出挖掘結果：

topic1 {computer,technology,system,internet,machine}

topic2 {play,film,movie,star,director,proction,stage}

我們可以獲知用戶的偏好是哪些主題，這些主題是由一些關鍵片語成。

4、Sqoop導出到關系資料庫

在某些場景下，需要把數據挖掘的結果導出到關系資料庫，用於及時響應外部應用查詢。

sqoop是一個用來把hadoop和關系型資料庫中的數據相互轉移的工具，可以將一個關系型資料庫（例如：MySQL ,Oracle 等）中的數據導入到hadoop的hdfs中，也可以將hdfs的數據導出到關系型資料庫中：

sqoop export –connect jdbc:mysql://localhost:3306/zxtest –username root–password root –table result_test –export-dir /user/mr/lda/out

export操作實現把hdfs目錄/user/mr/lda/out下數據導出到mysql的result_test表。

7. 數據挖掘工程師和hadoop工程師那個發展空間更大一些數據挖掘工程師是不是也要懂 hadoop

個人理解，hadoop工程師偏向管理數據，數據挖掘工程師偏向從數據里提取有價值的信息，數據挖掘的准確性有很大部分是由可供分析的數據量程度決定的，所以離了大規模數據的存儲管理方式，比如hadoop，數據挖掘工程師無用武之地。另外數據挖掘工程師總是要跑數據挖掘演算法吧，如果大數據的平台是hadoop的話，你至少要知道hadoop的計算模型是什麼，它該如何高效地實現你要的演算法。

8. 數據挖掘和hadoop是什麼關系

有一個基於hadoop的數據挖掘庫，叫mahout，你可以從它開始學習。
至於一絕對是扯淡，沒有hadoop之前難道不做數據挖掘了嗎

9. 金融需要 hadoop，spark 等這些大數據分析工具嗎使用場景是怎樣的

看看用億信ABI做的相關案例
銀行大數據應用
國內不少銀行已經開始嘗試通過大數據來驅動業務運營，如中信銀行信用卡中心使用大數據技術實現了實時營銷，光大銀行建立了社交網路信息資料庫，招商銀行則利用大數據發展小微貸款。總的來看銀行大數據應用可以分為四大方面：
1、客戶畫像
客戶畫像應用主要分為個人客戶畫像和企業客戶畫像。個人客戶畫像包括人口統計學特徵、消費能力數據、興趣數據、風險偏好等；企業客戶畫像包括企業的生產、流通、運營、財務、銷售和客戶數據、相關產業鏈上下游等數據。值得注意的是，銀行擁有的客戶信息並不全面，基於銀行自身擁有的數據有時候難以得出理想的結果甚至可能得出錯誤的結論。比如，如果某位信用卡客戶月均刷卡8次，平均每次刷卡金額800元，平均每年打4次客服電話，從未有過投訴，按照傳統的數據分析，該客戶是一位滿意度較高流失風險較低的客戶。但如果看到該客戶的微博，得到的真實情況是：工資卡和信用卡不在同一家銀行，還款不方便，好幾次打客服電話沒接通，客戶多次在微博上抱怨，該客戶流失風險較高。所以銀行不僅僅要考慮銀行自身業務所採集到的數據，更應考慮整合外部更多的數據，以擴展對客戶的了解。包括：
（1）客戶在社交媒體上的行為數據（如光大銀行建立了社交網路信息資料庫）。通過打通銀行內部數據和外部社會化的數據可以獲得更為完整的客戶拼圖，從而進行更為精準的營銷和管理；
（2）客戶在電商網站的交易數據，如建設銀行則將自己的電子商務平台和信貸業務結合起來，阿里金融為阿里巴巴用戶提供無抵押貸款，用戶只需要憑借過去的信用即可；
（3）企業客戶的產業鏈上下游數據。如果銀行掌握了企業所在的產業鏈上下游的數據，可以更好掌握企業的外部環境發展情況，從而可以預測企業未來的狀況；
（4）其他有利於擴展銀行對客戶興趣愛好的數據，如網路廣告界目前正在興起的DMP數據平台的互聯網用戶行為數據。
2、精準營銷
在客戶畫像的基礎上銀行可以有效的開展精準營銷，包括：
（1）實時營銷。實時營銷是根據客戶的實時狀態來進行營銷，比如客戶當時的所在地、客戶最近一次消費等信息來有針對地進行營銷（某客戶採用信用卡采購孕婦用品，可以通過建模推測懷孕的概率並推薦孕婦類喜歡的業務）；或者將改變生活狀態的事件（換工作、改變婚姻狀況、置居等）視為營銷機會；
（2）交叉營銷。即不同業務或產品的交叉推薦，如招商銀行可以根據客戶交易記錄分析，有效地識別小微企業客戶，然後用遠程銀行來實施交叉銷售；
（3）個性化推薦。銀行可以根據客戶的喜歡進行服務或者銀行產品的個性化推薦，如根據客戶的年齡、資產規模、理財偏好等，對客戶群進行精準定位，分析出其潛在金融服務需求，進而有針對性的營銷推廣；
（4）客戶生命周期管理。客戶生命周期管理包括新客戶獲取、客戶防流失和客戶贏回等。如招商銀行通過構建客戶流失預警模型，對流失率等級前20%的客戶發售高收益理財產品予以挽留，使得金卡和金葵花卡客戶流失率分別降低了15個和7個百分點。
3、風險管理與風險控制
在風險管理和控制方麵包括中小企業貸款風險評估和欺詐交易識別等手段
（1）中小企業貸款風險評估。銀行可通過企業的產、流通、銷售、財務等相關信息結合大數據挖掘方法進行貸款風險分析，量化企業的信用額度，更有效的開展中小企業貸款。
（2）實時欺詐交易識別和反洗錢分析。銀行可以利用持卡人基本信息、卡基本信息、交易歷史、客戶歷史行為模式、正在發生行為模式（如轉賬）等，結合智能規則引擎（如從一個不經常出現的國家為一個特有用戶轉賬或從一個不熟悉的位置進行在線交易）進行實時的交易反欺詐分析。如IBM金融犯罪管理解決方案幫助銀行利用大數據有效地預防與管理金融犯罪，摩根大通銀行則利用大數據技術追蹤盜取客戶賬號或侵入自動櫃員機(ATM)系統的罪犯。
4、運營優化
（1）市場和渠道分析優化。通過大數據，銀行可以監控不同市場推廣渠道尤其是網路渠道推廣的質量，從而進行合作渠道的調整和優化。同時，也可以分析哪些渠道更適合推廣哪類銀行產品或者服務，從而進行渠道推廣策略的優化。
（2）產品和服務優化：銀行可以將客戶行為轉化為信息流，並從中分析客戶的個性特徵和風險偏好，更深層次地理解客戶的習慣，智能化分析和預測客戶需求，從而進行產品創新和服務優化。如興業銀行目前對大數據進行初步分析，通過對還款數據挖掘比較區分優質客戶，根據客戶還款數額的差別，提供差異化的金融產品和服務方式。
（3）輿情分析：銀行可以通過爬蟲技術，抓取社區、論壇和微博上關於銀行以及銀行產品和服務的相關信息，並通過自然語言處理技術進行正負面判斷，尤其是及時掌握銀行以及銀行產品和服務的負面信息，及時發現和處理問題；對於正面信息，可以加以總結並繼續強化。同時，銀行也可以抓取同行業的銀行正負面信息，及時了解同行做的好的方面，以作為自身業務優化的借鑒。

導航:首頁 > 數據行情 > hadoop爬蟲股票數據挖掘

hadoop爬蟲股票數據挖掘

與hadoop爬蟲股票數據挖掘相關的資料