web日志挖掘的信息無(wú)障礙網(wǎng)站設(shè)計(jì)研究

時(shí)間: 2013-06-20 15:49:59 點(diǎn)擊數(shù): 65891 來(lái)源: 耐思智慧

0．引言

隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，互聯(lián)網(wǎng)給現(xiàn)代人們獲取信息帶來(lái)極大的便利，成為人們工作生活中非常重要的組成部分。信息無(wú)障礙即萬(wàn)維網(wǎng)對(duì)任何人士(包括殘障人士)都是可訪(fǎng)問(wèn)、可用的，殘障人士能感覺(jué)、理解和操縱Web，與Web 互動(dòng)。如何借助先進(jìn)的技術(shù)，消除數(shù)字鴻溝，為殘疾人提供有效的輔助手段，使他們能和健全人一樣無(wú)障礙地獲取網(wǎng)上信息，得到世界各國(guó)政府和組織越來(lái)越多的重視。
1．信息無(wú)障礙網(wǎng)站存在的問(wèn)題
很多部分實(shí)現(xiàn)了信息無(wú)障礙的網(wǎng)站，用戶(hù)每次訪(fǎng)問(wèn)時(shí)，網(wǎng)站語(yǔ)音都得從頭到尾的播報(bào)網(wǎng)站內(nèi)容，對(duì)于該用戶(hù)曾經(jīng)訪(fǎng)問(wèn)過(guò)本網(wǎng)站中部分頁(yè)面內(nèi)容期刊網(wǎng)，系統(tǒng)不能自動(dòng)過(guò)濾掉這些已經(jīng)閱讀的內(nèi)容，或者跳過(guò)這些已閱讀信息，而是依然按照布局順序重復(fù)播報(bào)。這對(duì)于閱讀障礙的用戶(hù)來(lái)說(shuō)非常浪費(fèi)時(shí)間和精力。避免重復(fù)瀏覽或者播報(bào)網(wǎng)站信息，將用戶(hù)曾經(jīng)閱讀過(guò)的內(nèi)容過(guò)濾掉，將沒(méi)有閱讀過(guò)的最新的感興趣的網(wǎng)頁(yè)內(nèi)容優(yōu)先播報(bào)給閱讀障礙用戶(hù)，提供智能化、個(gè)性化信息服務(wù)，是信息無(wú)障礙網(wǎng)站設(shè)計(jì)應(yīng)該重視的問(wèn)題。
2． web日志挖掘
web日志文件是在web服務(wù)器上每隔一定的時(shí)間產(chǎn)生的記錄文件，其內(nèi)容包括訪(fǎng)問(wèn)用戶(hù)的IP地址，訪(fǎng)問(wèn)時(shí)間、訪(fǎng)問(wèn)的頁(yè)面、頁(yè)面的大小、瀏覽器類(lèi)型、響應(yīng)狀態(tài)等等。web日志挖掘是對(duì)用戶(hù)訪(fǎng)問(wèn)Web時(shí)服務(wù)器方留下的訪(fǎng)問(wèn)記錄進(jìn)行挖掘，得到用戶(hù)的訪(fǎng)問(wèn)模式和訪(fǎng)問(wèn)興趣。通過(guò)對(duì)Web站點(diǎn)的日志記錄進(jìn)行預(yù)處理，將日志數(shù)據(jù)組織成傳統(tǒng)的數(shù)據(jù)挖掘方法能夠處理的事務(wù)數(shù)據(jù)形式，然后利用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行處理。
web日志預(yù)處理過(guò)程：
（1）數(shù)據(jù)收集從服務(wù)器端數(shù)據(jù)、客戶(hù)端數(shù)據(jù)、代理服務(wù)器端進(jìn)行。
（2）數(shù)據(jù)凈化刪除Web日志文件中不是由用戶(hù)請(qǐng)求，而是由瀏覽器自動(dòng)“請(qǐng)求”產(chǎn)生的訪(fǎng)問(wèn)記錄。具體包括圖片和音頻文件、樣式文件和腳本文件、不是GET的HTTP方法、彈出式廣告的記錄等。
（4）會(huì)話(huà)識(shí)別用戶(hù)在規(guī)定時(shí)間內(nèi)對(duì)服務(wù)器的一次有效訪(fǎng)問(wèn)，通過(guò)其連續(xù)請(qǐng)求的頁(yè)面，可以獲得其在網(wǎng)站中的訪(fǎng)問(wèn)行為和瀏覽興趣，有4種識(shí)別會(huì)話(huà)的模型：頁(yè)面類(lèi)型模型(page type model)，參引長(zhǎng)度模型(reference length model)，最大前向參引模型(maximal forwordreference model)和時(shí)間窗口模型(time window model)。最常采用的是時(shí)間窗口模型，以用戶(hù)訪(fǎng)問(wèn)時(shí)間作為劃分會(huì)話(huà)的分界，一般間隔時(shí)間取30min。
（5）路徑補(bǔ)充用戶(hù)有時(shí)瀏覽的頁(yè)面，是從本地緩存和代理服務(wù)器中調(diào)用的，不會(huì)向Web服務(wù)器發(fā)送請(qǐng)求，也就不會(huì)記錄日志，而這些請(qǐng)求可能對(duì)后續(xù)挖掘的實(shí)施有重要作用期刊網(wǎng)，缺少這些頁(yè)面記錄可能會(huì)使挖掘結(jié)果不是很準(zhǔn)確。為了能更精確的挖掘用戶(hù)的行為模式，有必要把這些缺失的路徑補(bǔ)充上去即路徑補(bǔ)充。如果當(dāng)前請(qǐng)求的頁(yè)與用戶(hù)上一次請(qǐng)求的頁(yè)之間沒(méi)有超文本鏈接，那么用戶(hù)很可能使用了瀏覽器上的“BACK"按鈕調(diào)用緩存在本機(jī)中的頁(yè)面。如果用戶(hù)的歷史訪(fǎng)問(wèn)記錄有多個(gè)頁(yè)面都包含與當(dāng)前請(qǐng)求頁(yè)的鏈接，則將請(qǐng)求時(shí)間最接近的Web頁(yè)的頁(yè)面作為當(dāng)前請(qǐng)求的來(lái)源。
3．基于web日志挖掘的網(wǎng)站設(shè)計(jì)
3.1網(wǎng)站設(shè)計(jì)架構(gòu)
網(wǎng)站為每位存在訪(fǎng)問(wèn)障礙的用戶(hù)建立網(wǎng)站訪(fǎng)問(wèn)記錄數(shù)據(jù)庫(kù)，用戶(hù)訪(fǎng)問(wèn)網(wǎng)站頁(yè)面，產(chǎn)生web日志文件，通過(guò)對(duì)web站點(diǎn)日志文件進(jìn)行數(shù)據(jù)凈化、用戶(hù)識(shí)別、會(huì)話(huà)識(shí)別，將有用數(shù)據(jù)存入事務(wù)數(shù)據(jù)庫(kù)，對(duì)該用戶(hù)訪(fǎng)問(wèn)過(guò)的頁(yè)面進(jìn)行相應(yīng)標(biāo)記，再對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行傳統(tǒng)的數(shù)據(jù)挖掘，分析出該用戶(hù)比較感興趣的信息類(lèi)型，為該用戶(hù)對(duì)網(wǎng)站所有類(lèi)型信息構(gòu)造優(yōu)先顯示頁(yè)面類(lèi)型序列表和對(duì)每類(lèi)信息未訪(fǎng)問(wèn)頁(yè)面、已訪(fǎng)問(wèn)頁(yè)面分別構(gòu)造優(yōu)先序列表，當(dāng)該用戶(hù)再次訪(fǎng)問(wèn)網(wǎng)站時(shí)利用離線(xiàn)分析所得的優(yōu)先序列表和網(wǎng)站文件映射數(shù)據(jù)庫(kù)將網(wǎng)頁(yè)鏈接按照用戶(hù)興趣高低動(dòng)態(tài)填充到網(wǎng)站導(dǎo)航框架，這樣用戶(hù)最感興趣類(lèi)型的網(wǎng)頁(yè)鏈接總是弄夠最先看到、聽(tīng)到，從而達(dá)到優(yōu)先訪(fǎng)問(wèn)的目的。
網(wǎng)站設(shè)計(jì)框架如下圖：

圖1 信息無(wú)障礙網(wǎng)站設(shè)計(jì)框架

3.2 網(wǎng)站導(dǎo)航
網(wǎng)站導(dǎo)航是根據(jù)信息無(wú)障礙網(wǎng)站結(jié)構(gòu)布局設(shè)計(jì)標(biāo)準(zhǔn)所設(shè)計(jì)的網(wǎng)站通用布局框架，除了包括信息無(wú)障礙要求的導(dǎo)航磚，通用切換等功能，還將頁(yè)面設(shè)計(jì)成由幾個(gè)通用的布局框架模塊組成，每個(gè)框架模塊將顯示網(wǎng)站上某一種類(lèi)型的網(wǎng)頁(yè)信息鏈接，具體網(wǎng)頁(yè)鏈接內(nèi)容則根據(jù)序列表先后順序動(dòng)態(tài)填充。網(wǎng)站所包含的信息類(lèi)型可以有很多，但在網(wǎng)站導(dǎo)航中只列出用戶(hù)最感興趣的幾種類(lèi)型的網(wǎng)頁(yè)鏈接，隨著用戶(hù)興趣的改變，其他類(lèi)型的網(wǎng)頁(yè)鏈接將動(dòng)態(tài)的填充到相應(yīng)級(jí)別的框架模塊中。
3.3 興趣提取
根據(jù)用戶(hù)瀏覽的歷史訪(fǎng)問(wèn)記錄(內(nèi)容信息和行為信息)、訪(fǎng)問(wèn)時(shí)間和訪(fǎng)問(wèn)頻率等來(lái)分析計(jì)算用戶(hù)興趣度，用戶(hù)的興趣一般集中于某一個(gè)主題或者多個(gè)主題期刊網(wǎng)，系統(tǒng)在通過(guò)聚類(lèi)進(jìn)行分析將用戶(hù)瀏覽的歷史頁(yè)面集自動(dòng)地分成n個(gè)聚簇(n是聚類(lèi)中聚類(lèi)中心的數(shù)目)，每一聚簇的頁(yè)面集體現(xiàn)了用戶(hù)的某類(lèi)興趣，構(gòu)造形成用戶(hù)的興趣類(lèi)。再利用用戶(hù)的隱式信息學(xué)習(xí)提取用戶(hù)興趣集，建立樹(shù)狀的用戶(hù)興趣模型。
3.4 序列模式
序列模式挖掘是對(duì)關(guān)聯(lián)規(guī)則挖掘的進(jìn)一步推廣，它挖掘出序列數(shù)據(jù)庫(kù)中項(xiàng)集之間的時(shí)序關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則強(qiáng)調(diào)的是兩個(gè)項(xiàng)之間的關(guān)聯(lián)，序列模式則加強(qiáng)調(diào)兩者之間的先后次序。這里我們將挖掘出兩種序列表：類(lèi)型序列表和頁(yè)面序列表。類(lèi)型序列表是通過(guò)對(duì)歷史訪(fǎng)問(wèn)記錄進(jìn)行挖掘統(tǒng)計(jì)出來(lái)的網(wǎng)站每種類(lèi)型信息訪(fǎng)問(wèn)優(yōu)先等級(jí)，是一組有序項(xiàng)集對(duì)應(yīng)表；頁(yè)面序列表則是以類(lèi)型挖掘權(quán)值和更新時(shí)間2個(gè)指標(biāo)得出的頁(yè)面訪(fǎng)問(wèn)有序集對(duì)應(yīng)表�？梢圆捎没贏(yíng)pfiori算法的改進(jìn)算法進(jìn)行挖掘得到上述兩種序列表。
3.5 序列-頁(yè)面映射
根據(jù)挖掘得到的序列模式對(duì)網(wǎng)站的靜態(tài)頁(yè)面文件進(jìn)行一一映射，按照興趣高低和文件序列先后動(dòng)態(tài)的填充如網(wǎng)站導(dǎo)航模塊框架中。
4.結(jié)束語(yǔ)

本文所提出對(duì)web日志文件挖掘提取用戶(hù)的興趣類(lèi)和訪(fǎng)問(wèn)類(lèi)型和頁(yè)面優(yōu)先序列，重構(gòu)站點(diǎn)頁(yè)面之間的鏈接關(guān)系，動(dòng)態(tài)顯示網(wǎng)頁(yè)信息的設(shè)計(jì)框架，以適應(yīng)有障礙用戶(hù)的訪(fǎng)問(wèn)興趣習(xí)慣為主要目標(biāo)，在一定程度上可以避免反復(fù)無(wú)用的頁(yè)面瀏覽和語(yǔ)音播報(bào)所造成的對(duì)存在訪(fǎng)問(wèn)障礙用戶(hù)產(chǎn)生的困擾和時(shí)間精力的浪費(fèi)，提高了訪(fǎng)問(wèn)效率，為消除信息鴻溝，真正做到信息人人共享發(fā)揮積極的作用。

更多網(wǎng)站建設(shè)資料：

Microsoft SQL Server Management Studio 如何導(dǎo)入導(dǎo)出數(shù)據(jù)
國(guó)內(nèi)社交網(wǎng)站創(chuàng)新研究及網(wǎng)站盈利模式
如何去建立一個(gè)好的網(wǎng)站
傳統(tǒng)文化網(wǎng)頁(yè)設(shè)計(jì)編排重點(diǎn)
電子商務(wù)網(wǎng)站建設(shè)規(guī)劃