由于互聯(lián)網(wǎng)的不斷普及,各式各樣、良莠不齊的發(fā)布內容日漸泛濫,傳統、純粹的“人?!睉鹦g(shù)已經(jīng)無(wú)法滿(mǎn)足當前互聯(lián)網(wǎng)媒體信息監控工作的實(shí)際需求。不過(guò)基于互聯(lián)網(wǎng)媒體發(fā)布內容主動(dòng)獲取、分析挖掘與表達呈現等系列技術(shù)開(kāi)展互聯(lián)網(wǎng)論壇監測工作,首先需要保證相關(guān)監測產(chǎn)品對于目標站點(diǎn)發(fā)布數據的提取比率,即監測產(chǎn)品信息提取部分的具體性能。
根據當前網(wǎng)絡(luò )監管部門(mén)對于互聯(lián)網(wǎng)論壇監護工作的實(shí)際應用需求,成熟的互聯(lián)網(wǎng)論壇監控產(chǎn)品必須具備針對指定信息源的深度挖掘技術(shù)。所謂深度挖掘,并不是業(yè)已成熟的追求數據引用量的大搜索引擎信息采集技術(shù),而是利用定向搜索手段完成針對指定信息源深入、全面地發(fā)布內容提取操作。
從整體框架結構角度,目前互聯(lián)網(wǎng)媒體可以劃分成匿名可瀏覽與需登錄瀏覽兩類(lèi);從發(fā)布頁(yè)面呈現風(fēng)格角度,仍然屬于HTML范疇的互聯(lián)網(wǎng)論壇帖文發(fā)布頁(yè)面同樣包含靜態(tài)和動(dòng)態(tài)兩類(lèi),其中動(dòng)態(tài)生成的論壇帖文發(fā)布頁(yè)一般使用ASP、PHP與JSP等通用腳本語(yǔ)言予以實(shí)現。雖然匿名可瀏覽同時(shí)發(fā)布頁(yè)面屬于靜態(tài)類(lèi)型的目標站點(diǎn)占到當前萬(wàn)聯(lián)網(wǎng)媒體的絕對多數,但是出于功能全面性與產(chǎn)品實(shí)用性等多方考慮,面向結構迥異、風(fēng)格多樣的數據發(fā)布源實(shí)施互聯(lián)網(wǎng)媒體信息監控工作,相關(guān)監控產(chǎn)品信息提取部分還需具備相當高的普適性與可擴展性。
關(guān)于獲取信息分析挖掘與表達呈現方面,針對異構的互聯(lián)網(wǎng)媒體發(fā)布內容,論壇信息監控工作在要求獲取內容統一存儲的同時(shí),對于在海量的互聯(lián)網(wǎng)媒體信息中實(shí)現熱點(diǎn)自動(dòng)發(fā)現的需求明確。一方面,異構信息歸一化存儲是后續各類(lèi)信息處理工作的根本保證。另—方面,基于海量數據實(shí)現論壇熱點(diǎn)自動(dòng)發(fā)現,更有利于互聯(lián)網(wǎng)媒體監控人員全面把握目標論壇輿情分布情況,跟蹤目標論壇潛在熱點(diǎn),及時(shí)完成熱點(diǎn)發(fā)現及應對決策生成工作。
互聯(lián)網(wǎng)論壇信息監控系統充分應用網(wǎng)絡(luò )協(xié)商與人機對話(huà)模擬等先進(jìn)技術(shù),基于專(zhuān)項研發(fā)的“定點(diǎn)網(wǎng)站深入發(fā)掘”機制,實(shí)現針對系統目標站點(diǎn)發(fā)布內容的全面獲取。在提取發(fā)帖作者、發(fā)帖時(shí)間、URL、標題等論壇帖文關(guān)鍵信息的基礎上,監控系統對于每份帖子進(jìn)行主題信息分析及內容快照。
監控系統針對獲取內容關(guān)鍵信息開(kāi)放單一和組合選項“與或”熱點(diǎn)查詢(xún)操作,最終呈現系統目標站點(diǎn)關(guān)于社會(huì )焦點(diǎn)更為全面的討論分布情況與話(huà)題具體內容。另一方面,監控系統借助獲取內容主題信息提取操作,開(kāi)放熱點(diǎn)數據報告定制功能。
文章來(lái)源:隨州網(wǎng)絡(luò )公司編輯整理,更多隨州網(wǎng)站建設新聞?wù)垍⒖迹篽ttp://www.bokce.com/