需要金幣:1000 個金幣 | 資料包括:完整論文 | ||
轉換比率:金額 X 10=金幣數量, 例100元=1000金幣 | 論文字數:9935 | ||
折扣與優惠:團購最低可5折優惠 - 了解詳情 | 論文格式:Word格式(*.doc) |
摘要:隨著網絡社區的快速發展,特別是Web2.0技術的興起和在線社交服務的迅速普及,網絡問答社區以"提問-回答"為主要內容已經浮出了水面。回答內容專業、平民用戶越來越多、結果通常相對理想、運作方式社交化的特點使得了特別多的青年、中年人爭相加入。在越來越多的問答平臺中,大多數青年人的言論呈現出自由、多樣化、熱點事件反應迅速,但易跟風、盲從的特點。 網絡問答社區的蓬勃發展,為網絡用戶獲得所需要的信息提供了一個新的方式。創作者將自己的知識儲備通過網絡進行分享,提問者通過網絡獲取答案。在這整個過程中,一些具有價值的回答通過雙方的問答獲得了其了現實價值。但在這種新形勢下,快速尋找問題的可靠答案有時候卻成了難題,答案質量參差不齊,內容雜亂無章,很多時候用戶根本無法在短時間內進行篩選。為了解決這一問題,實現初步的回答篩選和引導功能是十分有必要的。 該平臺是基于Python的分布式爬蟲,主要內容來源地為悟空問答,首先采用基于Ruby語言開發的Ruby庫——WebDriver獲取動態的HTML源代碼,再使用bs4庫下的BeautifalSoup進行解析,得到編譯方式為utf—8的源碼文本。得到文本后,使用正則表達式分離提取出有效信息,并規范其格式和進行初步篩選,最終達到一個問題選出一個最佳答案的結果。隨后調用Python的pymysql模塊,將獲取的數據存入mysql數據庫中,同時,使用TK接口Tkinter,形成交互式的前端界面。 借助此平臺,可以解決現有問答平臺個人無法在雜亂的信息中摘取有用的回答,或者缺少時間去篩選數量眾多的答案的問題,可以迅速且相對準確的找到匹配關鍵字的相關答案,從中推出最優(甚至次優)回答。亦或者用于想快速了解一個沒接觸過的事物時,可以較為全面、多角度的綜合了解。
關鍵詞:分布式爬蟲,問答社區,問答篩選,python
目錄 摘要 ABSTRACT 第1章 前言-1 1.1課題研究背景-1 1.2國內外研究現狀-1 1.3開發與運行環境-2 1.4課題研究內容-3 1.5課題研究目的與意義-3 1.5.1 研究目的-3 1.5.2 研究意義-3 1.6全文組織結構-4 第2章 問答數據搜索平臺的系統分析與相關技術介紹-5 2.1可行性分析-5 1.經濟可行性-5 2.技術可行性-5 3.操作可行性-5 2.2 需求分析-5 2.2.1 系統功能需求-5 2.2.2 對抓取HTML頁面源碼方式的分析-6 2.2.3 對HTML層級關系的分析-6 2.3 WebDriver-7 2.4正則表達式-8 2.5 兩個模塊:Pymysql與Tkinter-8 第3章 問答數據搜索平臺架構的設計-8 3.1問答數據搜索平臺架構-8 3.2調度器的設計-10 3.3 URL管理器與網頁下載器的設計-10 3.3.1 URL管理器-11 3.3.2網頁下載器-11 第4章 問答數據搜索平臺架構的實現-11 4.1調度器的實現-11 4.2 URL管理器與網頁下載器的實現-13 4.2.1 URL管理器-13 4.2.2網頁下載器-13 4.4 網頁解析器的設計-13 第5章 爬蟲測試-14 5.1爬取測試-15 5.2 數據庫測試-15 5.3 網絡連接測試-16 第6章 總結與展望-17 6.1 總結-17 6.2 展望-17 附錄-19 附上部分代碼:-19 參考文獻-19 |