?

      基于Python分布式爬蟲的問答數據搜索平臺.docx

      資料分類:計算機信息 上傳會員:小七想說話 更新時間:2022-10-25
      需要金幣1000 個金幣 資料包括:完整論文 下載論文
      轉換比率:金額 X 10=金幣數量, 例100元=1000金幣 論文字數:9935
      折扣與優惠:團購最低可5折優惠 - 了解詳情 論文格式:Word格式(*.doc)

      摘要:隨著網絡社區的快速發展,特別是Web2.0技術的興起和在線社交服務的迅速普及,網絡問答社區以"提問-回答"為主要內容已經浮出了水面。回答內容專業、平民用戶越來越多、結果通常相對理想、運作方式社交化的特點使得了特別多的青年、中年人爭相加入。在越來越多的問答平臺中,大多數青年人的言論呈現出自由、多樣化、熱點事件反應迅速,但易跟風、盲從的特點。

      網絡問答社區的蓬勃發展,為網絡用戶獲得所需要的信息提供了一個新的方式。創作者將自己的知識儲備通過網絡進行分享,提問者通過網絡獲取答案。在這整個過程中,一些具有價值的回答通過雙方的問答獲得了其了現實價值。但在這種新形勢下,快速尋找問題的可靠答案有時候卻成了難題,答案質量參差不齊,內容雜亂無章,很多時候用戶根本無法在短時間內進行篩選。為了解決這一問題,實現初步的回答篩選和引導功能是十分有必要的。

      該平臺是基于Python的分布式爬蟲,主要內容來源地為悟空問答,首先采用基于Ruby語言開發的Ruby庫——WebDriver獲取動態的HTML源代碼,再使用bs4庫下的BeautifalSoup進行解析,得到編譯方式為utf—8的源碼文本。得到文本后,使用正則表達式分離提取出有效信息,并規范其格式和進行初步篩選,最終達到一個問題選出一個最佳答案的結果。隨后調用Python的pymysql模塊,將獲取的數據存入mysql數據庫中,同時,使用TK接口Tkinter,形成交互式的前端界面。

      借助此平臺,可以解決現有問答平臺個人無法在雜亂的信息中摘取有用的回答,或者缺少時間去篩選數量眾多的答案的問題,可以迅速且相對準確的找到匹配關鍵字的相關答案,從中推出最優(甚至次優)回答。亦或者用于想快速了解一個沒接觸過的事物時,可以較為全面、多角度的綜合了解。

       

      關鍵詞:分布式爬蟲,問答社區,問答篩選,python

       

      目錄

      摘要

      ABSTRACT

      第1章 前言-1

      1.1課題研究背景-1

      1.2國內外研究現狀-1

      1.3開發與運行環境-2

      1.4課題研究內容-3

      1.5課題研究目的與意義-3

      1.5.1 研究目的-3

      1.5.2 研究意義-3

      1.6全文組織結構-4

      第2章 問答數據搜索平臺的系統分析與相關技術介紹-5

      2.1可行性分析-5

      1.經濟可行性-5

      2.技術可行性-5

      3.操作可行性-5

      2.2 需求分析-5

      2.2.1 系統功能需求-5

      2.2.2 對抓取HTML頁面源碼方式的分析-6

      2.2.3 對HTML層級關系的分析-6

      2.3 WebDriver-7

      2.4正則表達式-8

      2.5 兩個模塊:Pymysql與Tkinter-8

      第3章 問答數據搜索平臺架構的設計-8

      3.1問答數據搜索平臺架構-8

      3.2調度器的設計-10

      3.3 URL管理器與網頁下載器的設計-10

      3.3.1 URL管理器-11

      3.3.2網頁下載器-11

      第4章 問答數據搜索平臺架構的實現-11

      4.1調度器的實現-11

      4.2 URL管理器與網頁下載器的實現-13

      4.2.1 URL管理器-13

      4.2.2網頁下載器-13

      4.4 網頁解析器的設計-13

      第5章 爬蟲測試-14

      5.1爬取測試-15

      5.2 數據庫測試-15

      5.3 網絡連接測試-16

      第6章 總結與展望-17

      6.1 總結-17

      6.2 展望-17

      附錄-19

      附上部分代碼:-19

      參考文獻-19

      相關論文資料:
      最新評論
      上傳會員 小七想說話 對本文的描述:該平臺是基于Python的分布式爬蟲,主要內容來源地為悟空問答,首先采用基于Ruby語言開發的Ruby庫——WebDriver獲取動態的HTML源代碼,再使用bs4庫下的BeautifalSoup進行解析,得到編譯方式為......
      發表評論 (我們特別支持正能量傳遞,您的參與就是我們最好的動力)
      注冊會員后發表精彩評論獎勵積分,積分可以換金幣,用于下載需要金幣的原創資料。
      您的昵稱: 驗證碼:
      ?