需要金幣:2000 個金幣 | 資料包括:完整論文 | ||
轉換比率:金額 X 10=金幣數量, 例100元=1000金幣 | 論文字數:18369 | ||
折扣與優惠:團購最低可5折優惠 - 了解詳情 | 論文格式:Word格式(*.doc) |
摘要:本篇論文從搜尋引擎的發展過程作為切入點開始切入,從中一點一滴地了解爬蟲的實際使用意義和在學習生活中的價值,完成基本的了解的后接著又對當今的爬蟲的發展態勢實施了學習和研究,然后結合的前的學習和研究進一步地總結已有的經驗,為下一步開展自己的研究打好一個可靠、穩固的基礎。 就在我對網絡爬蟲從一開始時期以來一直到如今的發展歷程有了相對全面的認識的后,我就得開始正式開始預備并且開始自己研究、分析分布式爬蟲節點現有的實現技術,主要有一些爬行的方法、典型的、被驗證過的頁面的測試評價算法、還有如何對超文本標記語言頁面文件實施分析、怎么樣才能熟練使用多線程技術、怎么能在不同頁面的間實現編碼轉換、還有要深入地了解什么是優雅爬行等等等等的諸如此類的東西。不僅如此,還要進一步學會怎么樣能將這些重要又有用的技術實踐在分布式爬蟲節點里面。 當我能很好地完成對實踐和基本概念的理解與掌握的后,接下來的就是把所學到的知識放到實際的工作當中去檢驗它們。最重點實施的是對分布型的爬蟲節點實施最基本的理性解析;接著還需要對爬蟲節點實施劃分各個部分的功能,要使各個部分的職能都會有詳細的調配,明確任務模塊;接下來要對爬蟲節點的工作順序實施仔細全面的設計;在完成了上面的工作的后就要升華設計理念了,這一步的工作主要是要實現對爬蟲節點具體類結構的設計工作。 終極的目的是完成一個分布式爬蟲系統的雛形,并且在因特網上實施驗證,實踐是檢驗真理的唯一標準,然后再來看看爬蟲節點在工作過后的狀態,以此就可以驗證分布式爬蟲的可行程度和有效程度。
關鍵詞:并行;爬蟲;數據采集;
目錄 摘要 Abstract 第一章 緒論-1 1.1課題研究背景-1 1.1.1搜尋引擎的發展-1 1.1.2爬蟲的研究及應用意義-2 1.2工作的目的與意義-2 1.3主要工作內容簡述-3 1.4本文組織結構-4 第二章 網絡爬蟲相關知識研究與關鍵技術概述-5 2.1 網絡爬蟲相關知識研究-5 2.1.1網絡爬蟲的研究歷史-5 2.1.2網絡爬蟲的發展現狀-5 2.2網絡爬蟲關鍵技術概述-6 2.2.1網絡爬蟲的爬行策略-6 2.2.2隨機代理器-8 2.2.3頁面解析-9 2.2.4優雅采集-10 2.2.5多線程技術-11 2.2.6消除已經出現過的頁面-12 2.2.7頁面的存儲-12 第三章 分布式網絡爬蟲節點設計詳解-14 3.1分布式網絡爬蟲節點基礎邏輯設計-14 3.2分布式網絡爬蟲節點結構設計-15 3.2.1下載模塊-17 3.2.2頁面解析模塊-18 3.2.3數據庫存儲模塊-20 3.2.4優雅采集模塊-20 3.2.5任務定位模塊-21 3.2.6節點通信模塊-22 3.3分布式網絡爬蟲節點詳細程序設計-22 3.3.1整體框架-22 3.3.2爬行節點詳細流程-23 3.3.3分布式網絡爬蟲節點類結構設計-26 第四章 系統實現與測試分析-29 4.1軟件系統實現說明-29 4.2軟件實驗測評分析-32 第五章 結束語-36 [參考文獻]-37 致謝-40 |