200

web日志挖掘的信息無(wú)障礙網(wǎng)站設(shè)計(jì)研究

時(shí)間: 2013-06-20 15:49:59   點(diǎn)擊數(shù): 65686   來(lái)源: 耐思智慧

免費(fèi)會(huì)員注冊(cè)

0.引言

隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)給現(xiàn)代人們獲取信息帶來(lái)極大的便利,成為人們工作生活中非常重要的組成部分。信息無(wú)障礙即萬(wàn)維網(wǎng)對(duì)任何人士(包括殘障人士)都是可訪問(wèn)、可用的,殘障人士能感覺(jué)、理解和操縱Web,與Web 互動(dòng)。如何借助先進(jìn)的技術(shù),消除數(shù)字鴻溝,為殘疾人提供有效的輔助手段,使他們能和健全人一樣無(wú)障礙地獲取網(wǎng)上信息,得到世界各國(guó)政府和組織越來(lái)越多的重視。
1.信息無(wú)障礙網(wǎng)站存在的問(wèn)題
很多部分實(shí)現(xiàn)了信息無(wú)障礙的網(wǎng)站,用戶每次訪問(wèn)時(shí),網(wǎng)站語(yǔ)音都得從頭到尾的播報(bào)網(wǎng)站內(nèi)容,對(duì)于該用戶曾經(jīng)訪問(wèn)過(guò)本網(wǎng)站中部分頁(yè)面內(nèi)容期刊網(wǎng),系統(tǒng)不能自動(dòng)過(guò)濾掉這些已經(jīng)閱讀的內(nèi)容,或者跳過(guò)這些已閱讀信息,而是依然按照布局順序重復(fù)播報(bào)。這對(duì)于閱讀障礙的用戶來(lái)說(shuō)非常浪費(fèi)時(shí)間和精力。避免重復(fù)瀏覽或者播報(bào)網(wǎng)站信息,將用戶曾經(jīng)閱讀過(guò)的內(nèi)容過(guò)濾掉,將沒(méi)有閱讀過(guò)的最新的感興趣的網(wǎng)頁(yè)內(nèi)容優(yōu)先播報(bào)給閱讀障礙用戶,提供智能化、個(gè)性化信息服務(wù),是信息無(wú)障礙網(wǎng)站設(shè)計(jì)應(yīng)該重視的問(wèn)題。
2. web日志挖掘
web日志文件是在web服務(wù)器上每隔一定的時(shí)間產(chǎn)生的記錄文件,其內(nèi)容包括訪問(wèn)用戶的IP地址,訪問(wèn)時(shí)間、訪問(wèn)的頁(yè)面、頁(yè)面的大小、瀏覽器類型、響應(yīng)狀態(tài)等等。web日志挖掘是對(duì)用戶訪問(wèn)Web時(shí)服務(wù)器方留下的訪問(wèn)記錄進(jìn)行挖掘,得到用戶的訪問(wèn)模式和訪問(wèn)興趣。通過(guò)對(duì)Web站點(diǎn)的日志記錄進(jìn)行預(yù)處理,將日志數(shù)據(jù)組織成傳統(tǒng)的數(shù)據(jù)挖掘方法能夠處理的事務(wù)數(shù)據(jù)形式,然后利用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行處理。
web日志預(yù)處理過(guò)程:
(1)數(shù)據(jù)收集 從服務(wù)器端數(shù)據(jù)、客戶端數(shù)據(jù)、代理服務(wù)器端進(jìn)行。
(2)數(shù)據(jù)凈化 刪除Web日志文件中不是由用戶請(qǐng)求,而是由瀏覽器自動(dòng)“請(qǐng)求”產(chǎn)生的訪問(wèn)記錄。具體包括圖片和音頻文件、樣式文件和腳本文件、不是GET的HTTP方法、彈出式廣告的記錄等。
(4)會(huì)話識(shí)別 用戶在規(guī)定時(shí)間內(nèi)對(duì)服務(wù)器的一次有效訪問(wèn),通過(guò)其連續(xù)請(qǐng)求的頁(yè)面,可以獲得其在網(wǎng)站中的訪問(wèn)行為和瀏覽興趣,有4種識(shí)別會(huì)話的模型:頁(yè)面類型模型(page type model),參引長(zhǎng)度模型(reference length model),最大前向參引模型(maximal forwordreference model)和時(shí)間窗口模型(time window model)。最常采用的是時(shí)間窗口模型,以用戶訪問(wèn)時(shí)間作為劃分會(huì)話的分界,一般間隔時(shí)間取30min。
(5)路徑補(bǔ)充 用戶有時(shí)瀏覽的頁(yè)面,是從本地緩存和代理服務(wù)器中調(diào)用的,不會(huì)向Web服務(wù)器發(fā)送請(qǐng)求,也就不會(huì)記錄日志,而這些請(qǐng)求可能對(duì)后續(xù)挖掘的實(shí)施有重要作用期刊網(wǎng),缺少這些頁(yè)面記錄可能會(huì)使挖掘結(jié)果不是很準(zhǔn)確。為了能更精確的挖掘用戶的行為模式,有必要把這些缺失的路徑補(bǔ)充上去即路徑補(bǔ)充。如果當(dāng)前請(qǐng)求的頁(yè)與用戶上一次請(qǐng)求的頁(yè)之間沒(méi)有超文本鏈接,那么用戶很可能使用了瀏覽器上的“BACK"按鈕調(diào)用緩存在本機(jī)中的頁(yè)面。如果用戶的歷史訪問(wèn)記錄有多個(gè)頁(yè)面都包含與當(dāng)前請(qǐng)求頁(yè)的鏈接,則將請(qǐng)求時(shí)間最接近的Web頁(yè)的頁(yè)面作為當(dāng)前請(qǐng)求的來(lái)源。
3.基于web日志挖掘的網(wǎng)站設(shè)計(jì)
3.1網(wǎng)站設(shè)計(jì)架構(gòu)
網(wǎng)站為每位存在訪問(wèn)障礙的用戶建立網(wǎng)站訪問(wèn)記錄數(shù)據(jù)庫(kù),用戶訪問(wèn)網(wǎng)站頁(yè)面,產(chǎn)生web日志文件,通過(guò)對(duì)web站點(diǎn)日志文件進(jìn)行數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別,將有用數(shù)據(jù)存入事務(wù)數(shù)據(jù)庫(kù),對(duì)該用戶訪問(wèn)過(guò)的頁(yè)面進(jìn)行相應(yīng)標(biāo)記,再對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行傳統(tǒng)的數(shù)據(jù)挖掘,分析出該用戶比較感興趣的信息類型,為該用戶對(duì)網(wǎng)站所有類型信息構(gòu)造優(yōu)先顯示頁(yè)面類型序列表和對(duì)每類信息未訪問(wèn)頁(yè)面、已訪問(wèn)頁(yè)面分別構(gòu)造優(yōu)先序列表,當(dāng)該用戶再次訪問(wèn)網(wǎng)站時(shí)利用離線分析所得的優(yōu)先序列表和網(wǎng)站文件映射數(shù)據(jù)庫(kù)將網(wǎng)頁(yè)鏈接按照用戶興趣高低動(dòng)態(tài)填充到網(wǎng)站導(dǎo)航框架,這樣用戶最感興趣類型的網(wǎng)頁(yè)鏈接總是弄夠最先看到、聽(tīng)到,從而達(dá)到優(yōu)先訪問(wèn)的目的。
網(wǎng)站設(shè)計(jì)框架如下圖:
圖1 信息無(wú)障礙網(wǎng)站設(shè)計(jì)框架
3.2 網(wǎng)站導(dǎo)航
網(wǎng)站導(dǎo)航是根據(jù)信息無(wú)障礙網(wǎng)站結(jié)構(gòu)布局設(shè)計(jì)標(biāo)準(zhǔn)所設(shè)計(jì)的網(wǎng)站通用布局框架,除了包括信息無(wú)障礙要求的導(dǎo)航磚,通用切換等功能,還將頁(yè)面設(shè)計(jì)成由幾個(gè)通用的布局框架模塊組成,每個(gè)框架模塊將顯示網(wǎng)站上某一種類型的網(wǎng)頁(yè)信息鏈接,具體網(wǎng)頁(yè)鏈接內(nèi)容則根據(jù)序列表先后順序動(dòng)態(tài)填充。網(wǎng)站所包含的信息類型可以有很多,但在網(wǎng)站導(dǎo)航中只列出用戶最感興趣的幾種類型的網(wǎng)頁(yè)鏈接,隨著用戶興趣的改變,其他類型的網(wǎng)頁(yè)鏈接將動(dòng)態(tài)的填充到相應(yīng)級(jí)別的框架模塊中。
3.3 興趣提取
根據(jù)用戶瀏覽的歷史訪問(wèn)記錄(內(nèi)容信息和行為信息)、訪問(wèn)時(shí)間和訪問(wèn)頻率等來(lái)分析計(jì)算用戶興趣度,用戶的興趣一般集中于某一個(gè)主題或者多個(gè)主題期刊網(wǎng),系統(tǒng)在通過(guò)聚類進(jìn)行分析將用戶瀏覽的歷史頁(yè)面集自動(dòng)地分成n個(gè)聚簇(n是聚類中聚類中心的數(shù)目),每一聚簇的頁(yè)面集體現(xiàn)了用戶的某類興趣,構(gòu)造形成用戶的興趣類。再利用用戶的隱式信息學(xué)習(xí)提取用戶興趣集,建立樹(shù)狀的用戶興趣模型。
3.4 序列模式
序列模式挖掘是對(duì)關(guān)聯(lián)規(guī)則挖掘的進(jìn)一步推廣,它挖掘出序列數(shù)據(jù)庫(kù)中項(xiàng)集之間的時(shí)序關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則強(qiáng)調(diào)的是兩個(gè)項(xiàng)之間的關(guān)聯(lián),序列模式則加強(qiáng)調(diào)兩者之間的先后次序。這里我們將挖掘出兩種序列表:類型序列表和頁(yè)面序列表。類型序列表是通過(guò)對(duì)歷史訪問(wèn)記錄進(jìn)行挖掘統(tǒng)計(jì)出來(lái)的網(wǎng)站每種類型信息訪問(wèn)優(yōu)先等級(jí),是一組有序項(xiàng)集對(duì)應(yīng)表;頁(yè)面序列表則是以類型挖掘權(quán)值和更新時(shí)間2個(gè)指標(biāo)得出的頁(yè)面訪問(wèn)有序集對(duì)應(yīng)表?梢圆捎没贏pfiori算法的改進(jìn)算法進(jìn)行挖掘得到上述兩種序列表。
3.5 序列-頁(yè)面映射
根據(jù)挖掘得到的序列模式對(duì)網(wǎng)站的靜態(tài)頁(yè)面文件進(jìn)行一一映射,按照興趣高低和文件序列先后動(dòng)態(tài)的填充如網(wǎng)站導(dǎo)航模塊框架中。
4.結(jié)束語(yǔ)

本文所提出對(duì)web日志文件挖掘提取用戶的興趣類和訪問(wèn)類型和頁(yè)面優(yōu)先序列,重構(gòu)站點(diǎn)頁(yè)面之間的鏈接關(guān)系,動(dòng)態(tài)顯示網(wǎng)頁(yè)信息的設(shè)計(jì)框架,以適應(yīng)有障礙用戶的訪問(wèn)興趣習(xí)慣為主要目標(biāo),在一定程度上可以避免反復(fù)無(wú)用的頁(yè)面瀏覽和語(yǔ)音播報(bào)所造成的對(duì)存在訪問(wèn)障礙用戶產(chǎn)生的困擾和時(shí)間精力的浪費(fèi),提高了訪問(wèn)效率,為消除信息鴻溝,真正做到信息人人共享發(fā)揮積極的作用。

更多網(wǎng)站建設(shè)資料:

Microsoft SQL Server Management Studio 如何導(dǎo)入導(dǎo)出數(shù)據(jù)
國(guó)內(nèi)社交網(wǎng)站創(chuàng)新研究及網(wǎng)站盈利模式
如何去建立一個(gè)好的網(wǎng)站
傳統(tǒng)文化網(wǎng)頁(yè)設(shè)計(jì)編排重點(diǎn)
電子商務(wù)網(wǎng)站建設(shè)規(guī)劃
上一篇:網(wǎng)站建設(shè)的本質(zhì)意義是什么,企業(yè)為什么要建設(shè)公司網(wǎng)站? 下一篇:Microsoft SQL Server Management Studio 如何導(dǎo)入導(dǎo)出數(shù)據(jù)

旗下網(wǎng)站:耐思智慧 - 淘域網(wǎng) - 我的400電話 - 中文域名:耐思尼克.cn 耐思尼克.top

耐思智慧 © 版權(quán)所有 Copyright © 2000-2024 IISP.COM,Inc. All rights reserved

備案號(hào)碼: 粵ICP備09063828號(hào)  公安備案號(hào): 公安備案 粵公網(wǎng)安備 44049002000123號(hào)  域名注冊(cè)服務(wù)機(jī)構(gòu)許可:粵D3.1-20240003 CN域名代理自深圳萬(wàn)維網(wǎng)

聲明:本網(wǎng)站中所使用到的其他各種版權(quán)內(nèi)容,包括但不限于文章、圖片、視頻、音頻、字體等內(nèi)容版權(quán)歸原作者所有,如權(quán)利所有人發(fā)現(xiàn),請(qǐng)及時(shí)告知,以便我們刪除版權(quán)內(nèi)容

本站程序界面、源代碼受相關(guān)法律保護(hù), 未經(jīng)授權(quán), 嚴(yán)禁使用; 耐思智慧 © 為我公司注冊(cè)商標(biāo), 未經(jīng)授權(quán), 嚴(yán)禁使用

法律顧問(wèn):珠海知名律師 廣東篤行律師事務(wù)所 夏天風(fēng) 律師