熱門標簽:代寫本科論文 寫作發表 工程師論文 代寫一篇論文多少錢
當前位置: 代寫一篇論文多少錢 > 計算機論文 > 云計算環境下Web日志挖掘技術與模塊分析

云計算環境下Web日志挖掘技術與模塊分析

時間:2019-04-19 09:21作者:曼切
本文導讀:這是一篇關于云計算環境下Web日志挖掘技術與模塊分析的文章,本文基于云計算特點, 對Web日志挖掘技術進行描述, 同時對Web日志挖掘的數據模塊及數據源進行分析, 以期獲得較為科學的Web日志挖掘系統。

  摘    要: 文章介紹了基于云計算的Web日志挖掘技術的基本流程, 同時對Web日志挖掘的數據源、數據類型的深入研究與分析, 有針對性地進行了數據挖掘過程中每個具體模塊的詳細設計, 并利用Java語言對基于云計算Hadoop平臺的Web日志挖掘系統進行了實現設計。

  關鍵詞: 云計算; Web日志; 挖掘數據; 設計;

  Abstract: With an introduction to the basic process of weblog mining based on cloud computing, and also with deep research of data sources and data types in weblog mining, the paper designed the each module of the data mining processes, and implemented the designs of weblog mining system based on cloud computing using Java language.

  Keyword: cloud computing; weblog; data mining; design;

  云計算作為一種分布式計算模型, 通過網絡“云”, 并運用分布式計算、效用計算、并行計算、網絡存儲、虛擬化等計算機技術, 將網絡中的計算資源整合為一個巨大的虛擬資源池, 在資源池中, 大型的任務程序拆分成無數個較小的子任務程序, 并自動分配給資源池中的服務器或計算機, 最終將運算結果整合后返回給用戶。無論從基本原理的外部特征還是從實際的應用場景來看, 云計算和互聯網大數據始終是相伴相生的, 云計算很好的解決了互聯網大數據挖掘在存儲、運算、呈現過程中的問題, 且大幅度降低了數據挖掘所需的軟硬件設施的采購成本和維護成本, 為互聯網大數據的商業化提供了條件[1,2]。國內多個研究者針對Web日志挖掘系統設計與實現進行了研究, 如李雪峰等人針對Graph算法在云計算環境中的應用, 構建了網絡圖結構并搭建了其相應的云計算環境, 設計并優化了分布式網絡圖直徑的計算方法, 研究結果表明了該算法在集群部署的情況下, 能夠有效改進Graph數據挖掘的時間性能, 其在搜索引擎以及社交網絡分析領域都具有很強的應用性[3]。本文基于云計算特點, 對Web日志挖掘技術進行描述, 同時對Web日志挖掘的數據模塊及數據源進行分析, 以期獲得較為科學的Web日志挖掘系統。

云計算環境下Web日志挖掘技術與模塊分析

  1、 Web日志挖掘描述

  1.1、 Web日志挖掘概述

  自Web挖掘這一概念提出以來, Web日志挖掘技術經過了十多年的長足發展, 在各個研究領域都存在著大量應用。其中, 在商業范圍內的應用大致可分為:系統性能研究與改進、站點功能架構升級、定制化的服務內容[3]。

  1.2、 Web日志挖掘基本流程

  Web日志挖掘是針對準備好的數據進行普通數據挖掘擴展和衍生的一個過程。基本流程包括數據收集與預處理、模式發現、模式分析三個主要步驟。

  (1) 數據收集與預處理

  利用Web服務器、Web瀏覽器或是網絡爬蟲等工具能夠有效而迅速地對網絡上的海量信息進行采集, 并以某種特定、統一的格式進行保存。在正式數據挖掘開始前, 需要對收集到的數據進行預處理操作, 包括數據歸一化、數據清洗、數據去噪聲等, 保證每條數據記錄的規范性與完整性, 減少數據冗余所帶來的后續不必要的計算負擔。

  (2) 模式發現

  當數據預處理完成后, 對數據進行進一步的深入分析與研究過程稱為模式發現, 其旨在發現或是總結數據中最具價值的知識信息。模式發現所得到的結果將對決定著數據挖掘算法的適配度, 幫助不同數據選擇合適的挖掘算法。

  (3) 模式分析

  通過模式發現后的數據結果往往需要再次進行處理加工才能夠得到最終所需要的數據挖掘結果。模式發現過程的輸出為數字或是向量所構成的有效知識信息, 這些信息通過模式分析實現數據挖掘后方可得到真正的能夠為人所用的有效內容。

  1.3、 Web日志挖掘系統模塊設計

  Web日志挖掘系統分為三個主要模塊, 與Web日志數據挖掘基本流程的主要步驟一一對應。系統主要分為日志數據預處理模塊、日志數據存儲模塊以及日志數據挖掘模塊。其中, 日志存儲模塊可直接利用云計算平臺Hadoop中所自帶的分布式文件存儲系統 (HDFS) 實現數據的有效存儲。

  2、 Web日志挖掘模塊分析

  采用改進后的聚類算法進行數據挖掘的聚類分析, 并利用Hadoop平臺實現海量數據記錄的分布式并行處理, 旨在對Web日志數據實現有效數據挖掘, 獲取不同類型用戶群體對于站點內部的每個模塊的興趣度與關聯度, 從而為網站各個模塊優化及內容升級提供現實依據。

  2.1、 數據模塊結構

  Web日志數據模塊的大致結構流程如圖1所示, 包括Master節點與Slave節點兩個主要數據處理節點。首先, Master節點主機運行名字節點與任務追蹤器, 進行HDFS文件管理系統框架中的文件命名空間管理。另外, 在有管理員權限的情況下, Master節點還能夠實現框架中各類文件的增加、刪除、修改以及查找等操作以及MapReduce模型中的作業任務調度工作。與此同時, 各個Slave節點通過運行數據節點與任務追蹤器, 實現對已分割的數據記錄進行存儲并進行本地的算法運行, 直至輸出最終數據挖掘所得結果。Master節點與Slave節點互相配合、相輔相成, 能夠有效地實現數據挖掘模塊的基本功能。

  圖1 日志挖掘流程
圖1 日志挖掘流程

  2.2、 數據挖掘模塊實現

  將改進方案應用于MapReduce模型并行化思想, 此處使用Java語言將其進行具體實現。完整實現內容可分為四個主要階段:基于改進方案的Map階段、基于改進方案的Reduce階段、基于k-means算法的Map階段以及基于k-means算法的Reduce階段。詳細輸入輸出說明及部分關鍵代碼描述如下:

  (1) 基于改進方案的Map階段

  輸入:待處理的數據集記錄總數, 文本格式、可寫入權限已給出;數據向量集合, 文本格式。

  輸出:數據向量集合, 文本格式。

  while (i<sqrt (M) {if (P=NULL) {x=dis min (D) ;}else

  {x=disMaxInMin (D, P) ;}put (x, P) ;remove (x, D) ;}

  (2) 基于改進方案的Reduce階段

  輸入:待處理的數據集記錄總數M, 文本格式、可寫入權限已給出;數據向量集合P, 文本格式。

  輸出:松散距離 (集合范圍值) T1, 可寫入權限已給出;數據向量集合Y, 文本格式。

  while (i<sqrt (M) {x=disMaxInMin (D, P) ;}

  while (i<k) {depthmax=DepthMax (P', j, depthmax) ;j++}

  (3) 基于k-means的Map階段

  輸入:數據記錄條目數, 可寫入權限已給出;數據向量記錄, 文本格式;初始聚類向量中心數據點集合, 數組格式。

  輸出:聚類中心集合所對應的ID, 可寫入;數據向量記錄, 文本格式。

  for (i=0;i<k;i++) {if (dis tan ce (point, cluster[i]<min_dis tan ce) ) }

  {min_dis tan ce=dis tan ce (piont, cluser[i]) ;currentCluster_ID=i}

  (4) 基于k-means的Reduce階段

  輸入:聚類中心集合所對應的ID, 可寫入;數據向量記錄, 文本格式。

  輸出:類別向量中心集合, 數組格式。

  while (point s.hasNext () ) {Point Writable, currentPoint=point s.next () }

  num+=currentPoint.getNum () ;for (int, i=0;i<dim ension;i++)

  {Sum[i]+=currentPoint.point[i];}for (int, j=0;j<dim ension;j++)

  {mean[i]=sum[i]/num;}}

  3、 結束語

  本文首先通過對Web日志挖掘技術的基本流程、特性等方面進行了介紹, 并針對其進行了系統整體設計。其次, 通過對Web日志挖掘的數據源、數據類型的深入研究與分析, 有針對性地進行了數據挖掘過程中每個具體模塊的詳細設計, 并利用Java語言對基于云計算Hadoop平臺的Web日志挖掘系統的設計從基于改進方案的Map階段、基于改進方案的Reduce階段、基于k-means算法的Map階段以及基于k-means算法的Reduce階段一共四個階段進行了輸入輸出說明及部分關鍵代碼描述。

  參考文獻:

  [1]畢猛, 侯林, 倪盼, 等.基于馬爾科夫模型和貝葉斯定理的Web用戶瀏覽行為預測模型[J].東北大學學報 (自然科學版) , 2016, 37 (6) :775-80.
  [2]賀瑤, 王文慶, 薛飛.基于云計算的海量數據挖掘研究[J].計算機技術與發展, 2013, 23 (2) :69-72.
  [3] 李雪鋒.基于云計算環境的web數據挖掘算法研究[J].北京交通大學學報, 2010, 30 (2) :30-3.

聯系我們
范文范例
網站地圖 | 網站介紹 | 聯系我們 | 服務承諾| 服務報價| 論文要求 | 期刊發表 | 服務流程
怎么看老时时彩后组三