需要金幣:2000 個金幣 | 資料包括:完整論文 | ||
轉換比率:金額 X 10=金幣數量, 例100元=1000金幣 | 論文字數:15949 | ||
折扣與優惠:團購最低可5折優惠 - 了解詳情 | 論文格式:Word格式(*.doc) |
摘要:隨著互聯網的環境推動和海量數據的增加,尤其當公司做大到要上市的時候,會面臨一個很大的問題:由于數據量的龐大,從開始整理數據,到做數據報表,往往會花費大量的時間。慢慢的大數據概念進入人們的視野中。隨著數據量的快速增加,公司需要根據自身的需求搭建合適的大數據平臺。 大數據平臺主要的功能就是對數據的處理和分析,是處理大數據的一種基礎設施。現在全球都在發展和完善大數據平臺的功能。從目前的發展現狀來看,大數據平臺主要應用于傳統信息技術企業、新興互聯網企業、高效研究院這三大陣營。 本文利用Hadoop集群搭建了平臺,介紹了搭建完成的大數據分析平臺各個模塊的功能。互聯網行業中常見的數據處理方式有數據預處理、數據分析和數據預測,選用了數據拼接、各省份訪問次數統計和業績預測三個案例。經過平臺的處理后,得到想要的結果,且都能實現平臺的各個方面功能。
關鍵詞 大數據平臺;分布式;Hadoop;數據處理
目錄 摘要 Abstract 1 緒論-1 1.1 大數據的相關概念-1 1.2 國內外發展狀況-2 1.3 本文的研究內容-3 2 大數據平臺及其搭建-4 2.1 Hadoop簡介-4 2.2 大數據平臺的搭建-4 2.2.1 Common-4 2.2.2 HDFS-9 2.2.3 MapReduce-12 2.2.4 YARN-13 3 大數據平臺對互聯網行業的影響-16 3.1 谷歌-16 3.2 FaceBook-16 3.3 百度、騰訊、阿里巴巴-17 4 大數據平臺在互聯網行業的實際應用-18 4.1 數據的預處理-18 4.1.1 數據拼接-18 4.1.2 運行結果-19 4.2 數據的分析-20 4.2.1 省份統計-20 4.2.2 運行結果-21 4.3 預測未來業績-22 4.3.1 數據清洗與訪問次數統計-22 4.3.2 最小二乘曲線擬合-23 4.3.3 求解過程及結果分析-25 結論-27 致謝-28 參考文獻-29 附錄-30 |