首頁(yè) > 優(yōu)秀范文 > 數(shù)據(jù)分析分析技術(shù)
時(shí)間:2023-05-26 08:59:55
序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇數(shù)據(jù)分析分析技術(shù)范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識(shí)!
在生物信息學(xué)的成果的理論基礎(chǔ)之上,通過(guò)統(tǒng)計(jì)的方法查找未知的生物化學(xué)功能的疾病基因的位置。這個(gè)方法預(yù)先通過(guò)患病家族連鎖分析,再推斷包含這些基因的染色體區(qū)域片段,然后檢查該區(qū)域來(lái)尋找基因[1]。
數(shù)據(jù)挖掘在DNA數(shù)據(jù)分析的發(fā)展?fàn)顩r
現(xiàn)今所采用的是分子生物學(xué)與微電子技術(shù)相結(jié)合的核酸分析檢測(cè)技術(shù)[2]。DNA芯片技術(shù)的基本原理是將cDNA或寡核昔酸探針以105~106位點(diǎn)/cm2>/sup>的密度結(jié)合在固相支持物(即芯片)上,每個(gè)位點(diǎn)上的cDNA或寡核昔酸探針的順序是已知的,將該探針與熒光標(biāo)記的待測(cè)樣品DNA,RNA或cDNA在芯片上進(jìn)行雜交,然后用激光共聚焦顯微鏡對(duì)芯片進(jìn)行掃描,并配合計(jì)算機(jī)系統(tǒng)對(duì)雜交信號(hào)做出比較和檢測(cè),從而迅速得出所需的信息。
基因數(shù)據(jù)挖掘常用的方法:①核酸與蛋白質(zhì)比較的預(yù)測(cè)分析:蛋白質(zhì)序列之間或核酸序列之間的兩兩比對(duì),通過(guò)比較兩個(gè)序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系。進(jìn)一步的比對(duì)是將多個(gè)蛋白質(zhì)或核酸同時(shí)進(jìn)行比較,尋找這些有進(jìn)化關(guān)系的序列之間共同的保守區(qū)域、位點(diǎn)和profile,從而探索導(dǎo)致它們產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸序列相比來(lái)探索核酸序列可能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)折疊類(lèi)型的信息。②針對(duì)核酸序列的預(yù)測(cè)方法:針對(duì)核酸序列的預(yù)測(cè)就是在核酸序列中尋找基因,找出基因的位置和功能位點(diǎn)的位置,以及標(biāo)記已知的序列模式等過(guò)程。在此過(guò)程中,確認(rèn)一段DNA序列是一個(gè)基因需要有多個(gè)證據(jù)的支持。一般而言,在重復(fù)片段頻繁出現(xiàn)的區(qū)域里,基因編碼區(qū)和調(diào)控區(qū)不太可能出現(xiàn);如果某段DN段的假想產(chǎn)物與某個(gè)已知的蛋白質(zhì)或其他基因的產(chǎn)物具有較高序列相似性的話(huà),那么這個(gè)DN段就非常可能屬于外顯子片段;在一段DNA序列上出現(xiàn)統(tǒng)計(jì)上的規(guī)律性,即所謂的“密碼子偏好性”,也是說(shuō)明這段DNA是蛋白質(zhì)編碼區(qū)的有力證據(jù);其他的證據(jù)包括與“模板”序列的模式相匹配、簡(jiǎn)單序列模式如TATA Box等相匹配等。
案例分析
疾病是由于基因的片段內(nèi)的某個(gè)位置存在或發(fā)生改變而引起的,也就是發(fā)生突變。能否找出其中不同的地方,進(jìn)而對(duì)其不同之處加以改變,使之成為正?;颍窟@都需要數(shù)據(jù)挖掘技術(shù)的支持。對(duì)基因的數(shù)據(jù)挖掘,就是對(duì)這些突變位置的尋找,并且找出該位置與所有者身患的疾病之間的關(guān)系。
方法的選擇:筆者在設(shè)計(jì)中選用單純的DNA序列進(jìn)行比較,基因在計(jì)算機(jī)的表示和存儲(chǔ)時(shí),可以使用一條很長(zhǎng)的字符串來(lái)表示基因的某一條序列,使用文件的形式進(jìn)行對(duì)基因工作者的提取成果創(chuàng)建一級(jí)數(shù)據(jù)庫(kù),使用文件修整的方法進(jìn)行數(shù)據(jù)的清洗,以滿(mǎn)足數(shù)據(jù)在二級(jí)數(shù)據(jù)庫(kù)中的一致性。同時(shí)在文件比較過(guò)程中,生成某兩個(gè)數(shù)據(jù)文件的差異狀況,保存在二級(jí)數(shù)據(jù)庫(kù)庫(kù)中,進(jìn)一步的操作是對(duì)差異的位置的某個(gè)類(lèi)型所占的比例。最后通過(guò)事先的對(duì)患者患病信息的統(tǒng)計(jì)得到的某種疾病在群中所占的比例,與其相比較,如果這兩個(gè)比例相等,則可以認(rèn)為這個(gè)位置的某個(gè)類(lèi)型引起疾病的發(fā)生。從醫(yī)學(xué)院得到一些基因片段文件信息和患者(所有者)患病情況。
系統(tǒng)的實(shí)現(xiàn):基因片段在計(jì)算機(jī)中以文件形式存儲(chǔ),用文件名標(biāo)識(shí)其所有者(源體)。片段起始地址和長(zhǎng)度信息和所有患者患病情況保存在本機(jī)數(shù)據(jù)庫(kù)中。在程序測(cè)試過(guò)程中,將片段復(fù)制成40份,對(duì)其中部分文件的序列進(jìn)行稍作修改,對(duì)所有患者的患病狀況進(jìn)行稍作修改,以創(chuàng)造測(cè)試環(huán)境。顯示在與基因數(shù)據(jù)挖掘軟件同在一根目錄下的序列文件的集合。
其中一個(gè)文件所存儲(chǔ)的基因信息,見(jiàn)圖1。
啟動(dòng)統(tǒng)計(jì)程序界面,單擊清空數(shù)據(jù)庫(kù)中的臨時(shí)用表數(shù)據(jù),將數(shù)據(jù)庫(kù)中有可能的雜音信息去掉。并對(duì)其中的所有文件進(jìn)行統(tǒng)計(jì)前片段剪切,使所有片段的起始地址和長(zhǎng)度都相同,避免發(fā)生序列移位。
沒(méi)有進(jìn)行片段剪切之前,瀏覽文件所存的片段信息,片段剪切完成之后,設(shè)置進(jìn)行比較操作的甲、乙組的文件添加,因?yàn)楸敬螠y(cè)試只檢驗(yàn)片段中的一塊區(qū)域(文件中片段的所有信息),所以在起始序號(hào)那里添加為0,終止序號(hào)那里添加為175。這樣則可以保證統(tǒng)計(jì)文件的所有信息都被統(tǒng)計(jì)。
單擊結(jié)果顯示按鈕,可以見(jiàn)到程序以表格和條形圖標(biāo)方式??梢钥吹?、3、5、12、14、16、18、13、31、34、87、94、139、166位置的條形段較高。說(shuō)明在這些接受統(tǒng)計(jì)的片段中,在上面提到的位置處存在的差異較大,與某遺傳疾病的關(guān)聯(lián)的可能性就越大。
如果用戶(hù)想要在初步統(tǒng)計(jì)結(jié)果的基礎(chǔ)上,按照數(shù)據(jù)庫(kù)中所有者的疾病狀況進(jìn)行詳細(xì)統(tǒng)計(jì)的話(huà),單擊菜單欄的詳細(xì)統(tǒng)計(jì)按鈕,選擇按疾病詳細(xì)統(tǒng)計(jì),則將彈出窗口。
選擇弱視,輸入,則在文本框中顯示與其關(guān)聯(lián)的位置為1、3、5、12、14、16、18、13、31、34、87、94、139、166。
由此,用戶(hù)可以根據(jù)本系統(tǒng)所給出的預(yù)測(cè)對(duì)弱視遺傳疾病與序列中的特定位置,選擇適當(dāng)算法進(jìn)行進(jìn)一步的計(jì)算及檢驗(yàn),證明預(yù)測(cè)結(jié)果是否符合關(guān)聯(lián)理論。數(shù)據(jù)挖掘方法體系中的智能聚類(lèi)的相關(guān)技術(shù)則可較好的解決類(lèi)別數(shù)判定、結(jié)果驗(yàn)證等問(wèn)題。
結(jié) 論
對(duì)于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無(wú)論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,需要一些新的和好的算法;但技術(shù)和軟件還遠(yuǎn)沒(méi)有達(dá)到成熟的地步,因此需要不斷探索及研究。
參考文獻(xiàn)
1 引言
隨著電信網(wǎng)絡(luò)的不斷演進(jìn),全省數(shù)據(jù)網(wǎng)、交換網(wǎng)、接入網(wǎng)設(shè)備單月產(chǎn)生告警原始日志近億條。以上告警通過(guò)網(wǎng)元網(wǎng)管、專(zhuān)業(yè)綜合網(wǎng)管、智能網(wǎng)管系統(tǒng)[1]三層收斂,監(jiān)控人員每月需處理影響業(yè)務(wù)或網(wǎng)絡(luò)質(zhì)量的告警事件為20萬(wàn)條,但一些對(duì)網(wǎng)絡(luò)可能造成隱患的告警信息被過(guò)濾掉。如何從海量告警數(shù)據(jù)中獲取與網(wǎng)絡(luò)性能指標(biāo)、運(yùn)維效率相關(guān)的有價(jià)值的數(shù)據(jù),對(duì)于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)架構(gòu)而言,似乎是一個(gè)不可能完成的任務(wù)。
在一般告警量情況下,ORACLE數(shù)據(jù)處理能力基本可以滿(mǎn)足分析需求,但當(dāng)告警分析量上升到億級(jí),如果采用傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式,一方面數(shù)據(jù)量過(guò)大,表的管理、維護(hù)開(kāi)銷(xiāo)過(guò)大,要做到每個(gè)字段建索引,存儲(chǔ)浪費(fèi)巨大;另一方面計(jì)算分析過(guò)程耗時(shí)過(guò)長(zhǎng),無(wú)法滿(mǎn)足實(shí)時(shí)和準(zhǔn)實(shí)時(shí)分析需求。因此必須采用新的技術(shù)架構(gòu)來(lái)分析處理海量告警信息,支撐主動(dòng)維護(hù)工作顯得尤為必要,為此我們引入了大數(shù)據(jù)技術(shù)。
2 分析目標(biāo)
(1)數(shù)據(jù)源:電信運(yùn)營(yíng)商網(wǎng)絡(luò)設(shè)備告警日志數(shù)據(jù),每天50 G。
(2)數(shù)據(jù)分析目標(biāo):完成高頻翻轉(zhuǎn)類(lèi)(瞬斷)告警分析;完成自定義網(wǎng)元、自定義告警等可定制告警分析;完成被過(guò)濾掉的告警分析、TOPN告警分析;核心設(shè)備和重要業(yè)務(wù)監(jiān)控。
(3)分析平臺(tái)硬件配置:云計(jì)算平臺(tái)分配8臺(tái)虛擬機(jī),每臺(tái)虛機(jī)配置CPU16核;內(nèi)存32 G;硬盤(pán)2 T。
3 制定方案
進(jìn)入大數(shù)據(jù)時(shí)代,行業(yè)內(nèi)涌現(xiàn)了大量的數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)處理和分析更高效、更有價(jià)值。Google、Facebook等公司提供可行的思路是通過(guò)類(lèi)似Hadoop[2]的分布式計(jì)算、MapReduce[3]、Spark[4]算法等構(gòu)造而成的新型架構(gòu),挖掘有價(jià)值信息。
Hadoop是Apache基金會(huì)用JAVA語(yǔ)言開(kāi)發(fā)的分布式框架,通過(guò)利用計(jì)算機(jī)集群對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分布式計(jì)算分析。Hadoop框架最重要的兩個(gè)核心是HDFS和MapReduce,HDFS用于分布式存儲(chǔ),MapReduce則實(shí)現(xiàn)分布式任務(wù)計(jì)算。
一個(gè)HDFS集群包含元數(shù)據(jù)節(jié)點(diǎn)(NameNode)、若干數(shù)據(jù)節(jié)點(diǎn)(DataNode)和客戶(hù)端(Client)。NameNode管理HDFS的文件系統(tǒng),DataNode存儲(chǔ)數(shù)據(jù)塊文件。HDFS將一個(gè)文件劃分成若干個(gè)數(shù)據(jù)塊,這些數(shù)據(jù)塊存儲(chǔ)DataNode節(jié)點(diǎn)上。
MapReduce是Google公司提出的針對(duì)大數(shù)據(jù)的編程模型。核心思想是將計(jì)算過(guò)程分解成Map(映射)和Reduce(歸約)兩個(gè)過(guò)程,也就是將一個(gè)大的計(jì)算任務(wù)拆分為多個(gè)小任務(wù),MapReduce框架化繁為簡(jiǎn),輕松地解決了數(shù)據(jù)分布式存儲(chǔ)的計(jì)算問(wèn)題,讓不熟悉并行編程的程序員也能輕松寫(xiě)出分布式計(jì)算程序。MapReduce最大的不足則在于Map和Reduce都是以進(jìn)程為單位調(diào)度、運(yùn)行、結(jié)束的,磁盤(pán)I/O開(kāi)銷(xiāo)大、效率低,無(wú)法滿(mǎn)足實(shí)時(shí)計(jì)算需求。
Spark是由加州伯克利大學(xué)AMP實(shí)驗(yàn)室開(kāi)發(fā)的類(lèi)Hadoop MapReduce的分布式并行計(jì)算框架,主要特點(diǎn)是彈性分布式數(shù)據(jù)集RDD[5],中間輸出結(jié)果可以保存在內(nèi)存中,節(jié)省了大量的磁盤(pán)I/O操作。Spark除擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)外,還支持多次迭代計(jì)算,特別適合流計(jì)算和圖計(jì)算。
基于成本、效率、復(fù)雜性等因素,我們選擇了HDFS+Spark實(shí)現(xiàn)對(duì)告警數(shù)據(jù)的挖掘分析。
4 分析平臺(tái)設(shè)計(jì)
4.1 Hadoop集群搭建
基于CentOS-6.5系統(tǒng)環(huán)境搭建Hadoop集群,配置如表1所示。
4.2 Spark參數(shù)設(shè)置[6]
Spark參數(shù)設(shè)置如表2所示。
4.3 數(shù)據(jù)采集層
數(shù)據(jù)采集:由于需采集的告警設(shè)備種類(lèi)繁多,故采取分布式的告警采集,數(shù)據(jù)網(wǎng)設(shè)備、交換網(wǎng)設(shè)備、接入網(wǎng)設(shè)備分別通過(guò)IP綜合網(wǎng)管、天元綜合網(wǎng)管、PON綜合網(wǎng)管進(jìn)行采集,采集周期5分鐘一次。采集機(jī)先將采集到的告警日志文件,通過(guò)FTP接口上傳到智能網(wǎng)管系統(tǒng)文件服務(wù)器上,再對(duì)文件進(jìn)行校驗(yàn),通過(guò)Sqoop推送到Hadoop集群上。
4.4 邏輯處理層
(1)建立高頻翻轉(zhuǎn)告警監(jiān)控工作流程
先將海量告警進(jìn)行初步刪選,通過(guò)數(shù)量、位置和時(shí)間三個(gè)維度的分析,得出高頻翻轉(zhuǎn)類(lèi)告警清單列表,最后由專(zhuān)業(yè)工程師甄別確認(rèn),對(duì)某類(lèi)告警進(jìn)行重點(diǎn)關(guān)注和監(jiān)控。
(2)差異化定制方案
按組網(wǎng)架構(gòu)細(xì)分,針對(duì)核心重要節(jié)點(diǎn)的所有告警均納入實(shí)時(shí)監(jiān)控方案;
按業(yè)務(wù)網(wǎng)絡(luò)細(xì)分,針對(duì)不同業(yè)務(wù)網(wǎng)絡(luò)設(shè)計(jì)個(gè)性化的監(jiān)控方案;
按客戶(hù)業(yè)務(wù)細(xì)分,針對(duì)客戶(hù)數(shù)字出租電路設(shè)計(jì)個(gè)性化的監(jiān)控方案。
4.5 數(shù)據(jù)分析層
Spark讀取Hive[7]表的告警數(shù)據(jù),然后在Spark引擎中進(jìn)行SQL統(tǒng)計(jì)分析。Spark SQL模K在進(jìn)行分析時(shí),將外部告警數(shù)據(jù)源轉(zhuǎn)化為DataFrame[8],并像操作RDD或者將其注冊(cè)為臨時(shí)表的方式處理和分析這些數(shù)據(jù)。一旦將DataFrame注冊(cè)成臨時(shí)表,就可以使用類(lèi)SQL的方式操作查詢(xún)分析告警數(shù)據(jù)。表3是利用Spark SQL對(duì)告警工單做的一個(gè)簡(jiǎn)單分析:
5 平臺(tái)實(shí)踐應(yīng)用
探索運(yùn)維數(shù)據(jù)分析的新方法,利用大數(shù)據(jù)分析技術(shù),分析可能影響業(yè)務(wù)/設(shè)備整體性能的設(shè)備告警,結(jié)合網(wǎng)絡(luò)性能數(shù)據(jù),找到網(wǎng)絡(luò)隱患,實(shí)現(xiàn)主動(dòng)維護(hù)的工作目標(biāo)。
5.1 高頻翻轉(zhuǎn)類(lèi)告警監(jiān)控
首先制定了高頻翻轉(zhuǎn)類(lèi)告警分析規(guī)則,將連續(xù)7天每天原始告警發(fā)生24次以上定義為高頻翻轉(zhuǎn)類(lèi)告警,并基于大數(shù)據(jù)平臺(tái)開(kāi)發(fā)了相應(yīng)的分析腳本,目前已實(shí)現(xiàn)全專(zhuān)業(yè)所有告警類(lèi)型的分析。表4是全省高頻翻轉(zhuǎn)類(lèi)TOP10排名。
5.2 核心設(shè)備和重要業(yè)務(wù)監(jiān)控
目前以設(shè)備廠(chǎng)商或?qū)<医?jīng)驗(yàn)評(píng)定告警監(jiān)控級(jí)別往往會(huì)與實(shí)際形成偏差,主要表現(xiàn)在以下幾個(gè)方面:監(jiān)控級(jí)別的差異化設(shè)定基于已知的告警類(lèi)型,一旦網(wǎng)絡(luò)重大故障上報(bào)未知的告警類(lèi)型就無(wú)法在第一時(shí)間有效監(jiān)控到;同一類(lèi)型的故障告警出現(xiàn)在不同網(wǎng)絡(luò)層面可能影響業(yè)務(wù)的程度是完全不同的;不同保障級(jí)別的客戶(hù)對(duì)故障告警監(jiān)控的實(shí)時(shí)性要求也是不同的。
通過(guò)大數(shù)據(jù)分析平臺(tái)對(duì)差異化監(jiān)控提供了靈活的定制手段,可根據(jù)告警關(guān)鍵字,分專(zhuān)業(yè)、地市、網(wǎng)管、機(jī)房、告警頻次等維度自主定制需要的告警數(shù)據(jù),實(shí)現(xiàn)日、周、月、某個(gè)時(shí)間區(qū)等統(tǒng)計(jì)分析。
應(yīng)用案例:省NOC通過(guò)大數(shù)據(jù)分析出一條編號(hào)為CTVPN80113的中國(guó)平安大客戶(hù)電路在一段時(shí)間內(nèi)頻繁產(chǎn)生線(xiàn)路劣化告警,但用戶(hù)未申告,省NOC隨即預(yù)警給政企支撐工程師,政支工程師與用戶(hù)溝通后,派維護(hù)人員至現(xiàn)場(chǎng)處理,發(fā)現(xiàn)線(xiàn)路接頭松動(dòng),緊急處理后告警消除、業(yè)務(wù)恢復(fù)。
5.3 被過(guò)濾告警分析
全省每天網(wǎng)絡(luò)告警數(shù)據(jù)300萬(wàn)條~500萬(wàn)條,其中99%都會(huì)根據(jù)告警過(guò)濾規(guī)則進(jìn)行過(guò)濾篩選,把過(guò)濾后的告警呈現(xiàn)給網(wǎng)絡(luò)監(jiān)控人員。過(guò)濾規(guī)則的準(zhǔn)確性直接影響告警數(shù)據(jù)的質(zhì)量。一般來(lái)說(shuō)告警過(guò)濾規(guī)則可以從具有豐富運(yùn)維經(jīng)驗(yàn)的網(wǎng)絡(luò)維護(hù)人員獲得,但是這個(gè)過(guò)程非常繁瑣,而且通過(guò)人工途徑獲得的告警過(guò)濾規(guī)則在不同的應(yīng)用環(huán)境可能存在差異,無(wú)法滿(mǎn)足網(wǎng)絡(luò)維護(hù)的整體需要。采用大數(shù)據(jù)技術(shù)對(duì)被過(guò)濾的告警進(jìn)行分析可以很好地完善過(guò)濾規(guī)則,讓真正急迫需要處理的告警優(yōu)先呈現(xiàn)給維護(hù)人員及時(shí)處理,真正做到先于客戶(hù)發(fā)現(xiàn)故障。表5是動(dòng)環(huán)專(zhuān)業(yè)被過(guò)濾的告警情況分布。
5.4 動(dòng)環(huán)深放電分析
動(dòng)環(huán)網(wǎng)管通過(guò)C接口采集蓄電池電壓數(shù)據(jù),在停電告警產(chǎn)生之后,電壓數(shù)據(jù)首次下降到45 V,表示該局站電池出現(xiàn)深放電現(xiàn)象,通過(guò)計(jì)算這一放電過(guò)程的持續(xù)時(shí)間,記為深放電時(shí)長(zhǎng),該時(shí)長(zhǎng)可以初步反映電池的放電性能。一個(gè)局站每天產(chǎn)生幾十萬(wàn)條電壓等動(dòng)環(huán)實(shí)時(shí)數(shù)據(jù)。
在告警數(shù)據(jù)分析的基礎(chǔ)上,實(shí)現(xiàn)對(duì)蓄電池電壓變化數(shù)據(jù)的分析,提醒分公司關(guān)注那些深放電次數(shù)過(guò)多和放電時(shí)長(zhǎng)過(guò)短的局站,核查蓄電池、油機(jī)配置、發(fā)電安排等,并進(jìn)行整治。利用Spark SQL統(tǒng)計(jì)了一個(gè)月內(nèi)撫州、贛州、吉安三分公司幾十億條動(dòng)環(huán)數(shù)據(jù),分析了其中深放電的情況如表6所示。
6 結(jié)論
本文利用HDFS+Spark技術(shù),實(shí)驗(yàn)性地解決告警數(shù)據(jù)存儲(chǔ)和分析等相關(guān)問(wèn)題:一是通過(guò)數(shù)據(jù)分析,從海量告警數(shù)據(jù)中發(fā)現(xiàn)潛在的網(wǎng)絡(luò)隱患;二是結(jié)合資源信息和不同專(zhuān)業(yè)的告警,最終為用戶(hù)提供綜合預(yù)警;三是轉(zhuǎn)變網(wǎng)絡(luò)監(jiān)控思路和方式,通過(guò)數(shù)據(jù)匯聚、數(shù)據(jù)相關(guān)性分析、數(shù)據(jù)可視化展示,提高了網(wǎng)絡(luò)監(jiān)控效率;最后還擴(kuò)展到對(duì)動(dòng)環(huán)實(shí)時(shí)數(shù)據(jù)、信令數(shù)據(jù)進(jìn)行分析。
從實(shí)際運(yùn)行效果來(lái)看,HDFS和Spark完全可以取代傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式,滿(mǎn)足電信運(yùn)營(yíng)商主動(dòng)運(yùn)維的需求。
參考文獻(xiàn):
[1] 中國(guó)電信股份有限公司. 中國(guó)電信智能網(wǎng)管技術(shù)規(guī)范-總體分冊(cè)[Z]. 2015.
[2] Tom white. Hadoop權(quán)威指南[M]. 4版. 南京: 東南大學(xué)出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業(yè)出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
中圖分類(lèi)號(hào):TP392 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2013) 02-0000-03
OLAP(On-Line Analytical Processing,即聯(lián)機(jī)分析處理)是一種多維數(shù)據(jù)庫(kù)技術(shù)。這種技術(shù)的設(shè)計(jì)目的是針對(duì)特定問(wèn)題的實(shí)時(shí)數(shù)據(jù)訪(fǎng)問(wèn)和分析,并且提供直觀易懂的查詢(xún)結(jié)果。還有一種處理技術(shù)OLTP(on-Line transaction processing,即聯(lián)機(jī)事務(wù)處理),與OLAP不同,OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用,主要是基本的、日常的事務(wù)處理。
1 OLAP技術(shù)介紹
1.1 OLAP技術(shù)的發(fā)展背景
60年代,關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲(chǔ))。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿(mǎn)足終端用戶(hù)對(duì)數(shù)據(jù)庫(kù)查詢(xún)分析的需要,SQL對(duì)大型數(shù)據(jù)庫(kù)進(jìn)行的簡(jiǎn)單查詢(xún)也不能滿(mǎn)足終端用戶(hù)分析的要求。用戶(hù)的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢(xún)的結(jié)果并不能滿(mǎn)足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫(kù)和多維分析的概念,即OLAP。OLAP技術(shù)正是為了滿(mǎn)足決策管理的需求而產(chǎn)生的。
1.2 OLAP特征
OLAP的技術(shù)核心是"維"(Dimension)這個(gè)概念?!熬S”是指一種視角,是一個(gè)判斷、說(shuō)明、評(píng)價(jià)和確定一個(gè)事物的多方位、多角度、多層次的條件和概念。通過(guò)把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維,使用戶(hù)能對(duì)不同維上的數(shù)據(jù)進(jìn)行動(dòng)態(tài)的多維快速訪(fǎng)問(wèn)和分析。包括:在維之間、成員之間交叉組合分析;對(duì)連續(xù)時(shí)間段進(jìn)行趨勢(shì)分析;將數(shù)據(jù)切片從不同切面比較數(shù)據(jù);向下鉆取到組合數(shù)據(jù)的更深層觀察細(xì)節(jié)數(shù)據(jù);向上上卷到細(xì)節(jié)數(shù)據(jù)的更高層觀察匯總數(shù)據(jù).因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。由此可以得出OLAP的四個(gè)特征:多維性、快速性、可分析性和信息性。
1.3 多維數(shù)據(jù)的概念及層次關(guān)系
關(guān)系數(shù)據(jù)庫(kù)是圍繞一條一條“記錄”而形成的。多維數(shù)據(jù)庫(kù)的技術(shù)核心是“維”,類(lèi)似于數(shù)組。下面舉例說(shuō)明:NBA(National Basketball Association)聯(lián)盟有三種收入來(lái)源(轉(zhuǎn)播、門(mén)票和廣告),下表是其中兩支NBA球隊(duì)(LAKERS,KINGS)的銷(xiāo)售收入,其中表1是關(guān)系表,表2是根據(jù)每支球隊(duì)的銷(xiāo)售來(lái)源轉(zhuǎn)化成的多維表。
通過(guò)上圖可以看出,表2中表達(dá)的數(shù)據(jù)關(guān)系更直觀。在多維數(shù)據(jù)庫(kù)中,通常將“球隊(duì)”定義成“組織”(Entity)維,將“收入來(lái)源”定義為“業(yè)務(wù)方向”(Business)維,銷(xiāo)售額定義為“科目”(Account)維。表2從組織維和業(yè)務(wù)方向維展示了銷(xiāo)售收入狀況。其中,“Entity”為維度,球隊(duì)名稱(chēng):LAKERS,KINGS為維度成員,即維值?!熬S”具有層級(jí)關(guān)系,如父子關(guān)系,兄弟關(guān)系等。如本例中,Entity和LAKERS的關(guān)系就是父子關(guān)系,LAKERS和KINGS的關(guān)系為兄弟關(guān)系。若在Entity和LAKERS之間定義了其他維值,如NBA、WEST(西部)和Pacific Division(太平洋賽區(qū)),即:Entity-NBA-WEST-Pacific Division-LAKERS,那“Entity”與“LAKERS”的層級(jí)關(guān)系就變成了祖輩與后代的關(guān)系。
1.4 多維數(shù)據(jù)分析的操作
OLAP的基本多維分析操作有鉆?。╮oll up和drill down)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)、drill across、drill through等,對(duì)數(shù)據(jù)進(jìn)行剖析,使用戶(hù)能從多個(gè)角度、多側(cè)面地觀察數(shù)據(jù)庫(kù)中的數(shù)據(jù),從而深入分析包含在數(shù)據(jù)中的信息。
鉆取是改變維的層次,變換分析的粒度。它包括向上鉆?。╮oll up)和向下鉆取(drill down)。roll up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而drill down則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則是切片;如果有三個(gè),則是切塊。旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(即行列互換)。
根據(jù)綜合性數(shù)據(jù)的組織方式的不同,目前常見(jiàn)的OLAP主要有基于多維數(shù)據(jù)庫(kù)的MOLAP及基于關(guān)系數(shù)據(jù)庫(kù)的ROLAP兩種。MOLAP是以多維的方式組織和存儲(chǔ)數(shù)據(jù),ROLAP則利用現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù)技術(shù)來(lái)模擬多維數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中,OLAP應(yīng)用一般是數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的前端工具,同時(shí)OLAP工具還可以同數(shù)據(jù)挖掘工具、統(tǒng)計(jì)分析工具配合使用,增強(qiáng)決策分析功能。
2 OLAP技術(shù)在企業(yè)財(cái)務(wù)預(yù)算數(shù)據(jù)分析中的具體
下面以O(shè)RACLE公司的產(chǎn)品Hyperion系統(tǒng)為例,介紹OLAP技術(shù)在企業(yè)財(cái)務(wù)預(yù)算數(shù)據(jù)分析中的應(yīng)用。Hyperion系統(tǒng)是一種基于Web的OLAP解決方案,該產(chǎn)品分為三層架構(gòu),客戶(hù)端、應(yīng)用服務(wù)器和Essbase數(shù)據(jù)庫(kù)。用戶(hù)可以通過(guò)瀏覽器訪(fǎng)問(wèn)應(yīng)用服務(wù)器,進(jìn)行檢索和分析數(shù)據(jù);也可以通過(guò)Essbase Spreadsheet Add-in插件直接對(duì)數(shù)據(jù)庫(kù)進(jìn)行操作,進(jìn)行數(shù)據(jù)訪(fǎng)問(wèn)和分析。Essbase Spreadsheet Add-in是一款軟件,可以與Microsoft Excel實(shí)現(xiàn)無(wú)縫連接。安裝該插件程序后,Excel應(yīng)用程序中將增加一個(gè)菜單項(xiàng)――Essbase。該菜單提供了可以對(duì)數(shù)據(jù)庫(kù)操作的命令,例如“連接”、“旋轉(zhuǎn)”、“放大”(向下鉆?。?、“縮小”(向上鉆?。ⅰ鞍l(fā)送”等功能按鈕。用戶(hù)僅通過(guò)單擊鼠標(biāo)然后進(jìn)行拖放就可以展開(kāi)立體式、快速靈活的數(shù)據(jù)訪(fǎng)問(wèn)和分析。
下面應(yīng)用前面總結(jié)的多維數(shù)據(jù)庫(kù)技術(shù)方法對(duì)一大型能源集團(tuán)公司的預(yù)算數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,數(shù)據(jù)分析的前提是在執(zhí)行了業(yè)務(wù)規(guī)則(可以認(rèn)為是計(jì)算財(cái)務(wù)數(shù)據(jù)的勾稽關(guān)系的公式)。連接數(shù)據(jù)庫(kù)和應(yīng)用“Budget”后,搭建一張利潤(rùn)表。如圖1:
下面從多角度組合分析該大型能源集團(tuán)公司的利潤(rùn)情況。比如我們想了解集團(tuán)公司下屬各單位2012年的盈利狀況,只需要選中“集團(tuán)公司”,然后雙擊,即可進(jìn)行向下鉆取,獲取各單位的數(shù)據(jù),如圖2:
以上是從組織維的角度對(duì)數(shù)據(jù)進(jìn)行了查詢(xún),現(xiàn)在換一個(gè)角度,我們從年份和場(chǎng)景進(jìn)行對(duì)比各下屬單位的盈利情況,通過(guò)對(duì)“2012年”和“預(yù)算”維值的拖拽,選擇“2012年”的兄弟級(jí)成員“2010年”和“2011年”,選擇“預(yù)算”的兄弟級(jí)成員“實(shí)際”,從而形成圖3:
對(duì)比2010年、2011年的預(yù)算數(shù)、實(shí)際數(shù)和2012年的預(yù)算數(shù)據(jù),經(jīng)分析發(fā)現(xiàn),從集團(tuán)公司層面,集團(tuán)公司2010年的實(shí)際利潤(rùn)1480超過(guò)了預(yù)計(jì)利潤(rùn)1450;2010年、2011年實(shí)際利潤(rùn)和2012年預(yù)算數(shù)據(jù)對(duì)比,每年利潤(rùn)成上升趨勢(shì),說(shuō)明公司經(jīng)營(yíng)狀況良好。但是再仔細(xì)分析發(fā)現(xiàn),2010年實(shí)際利潤(rùn)雖然達(dá)到了預(yù)期目標(biāo),但是有一家分公司的利潤(rùn)為-10,這就會(huì)讓分析人員去進(jìn)一步研究是什么原因造成了這種狀況,對(duì)“上海分公司”執(zhí)行“僅保留”操作,“2010年”、“預(yù)算”和“2011年”、“實(shí)際”執(zhí)行相同的操作,然后將“凈利潤(rùn)”展開(kāi),將“上海分公司”進(jìn)行“旋轉(zhuǎn)”操作,得到下圖4:
通過(guò)對(duì)圖4分析得出,上海分公司凈利潤(rùn)的減少是由于營(yíng)業(yè)總成本的增加和投資收益的減少造成的,經(jīng)過(guò)進(jìn)一步分析,其中營(yíng)業(yè)總成本的增加體現(xiàn)在人員管理費(fèi)的增加和研究開(kāi)發(fā)費(fèi)的增加,因?yàn)榻衲晟虾7止疽M(jìn)了一批技術(shù)人才進(jìn)行新技術(shù)的開(kāi)發(fā)研究,預(yù)計(jì)技術(shù)成熟后,即可投入到開(kāi)發(fā)生產(chǎn)中,為公司盈利。投資收益虧損是由于當(dāng)時(shí)對(duì)投資的一個(gè)項(xiàng)目沒(méi)有進(jìn)行很好的預(yù)估,造成了公司的虧損。通過(guò)一系列的分析,得出了結(jié)論,這能夠指導(dǎo)公司在將來(lái)制定更加合理的戰(zhàn)略決策。
3 總結(jié)
按照企業(yè)的業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行分析和探索、揭示隱藏其中的規(guī)律性,指導(dǎo)管理者決策,OLAP技術(shù)的靈活、高效的特點(diǎn)被體現(xiàn)的淋漓盡致,對(duì)于從大型多維數(shù)據(jù)庫(kù)在獲取數(shù)據(jù)也顯得輕而易舉,另外它還具有啟發(fā)性,引領(lǐng)分析者進(jìn)行進(jìn)一步的思考,做進(jìn)一步的分析,直至得到明確的結(jié)果和結(jié)論。能夠更好的指導(dǎo)企業(yè)進(jìn)行經(jīng)營(yíng)決策管理,提高企業(yè)經(jīng)濟(jì)效益,提升企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力。
參考文獻(xiàn):
[1]ERIK THOMSEN.OLAP解決方案:創(chuàng)建多維信息系統(tǒng)(第二版)[M].朱建秋.北京:電子工業(yè)出版社,2004.
[2]施伯樂(lè),朱揚(yáng)勇.數(shù)據(jù)庫(kù)與智能數(shù)據(jù)分析:技術(shù)、實(shí)踐與應(yīng)用[M].上海:復(fù)旦大學(xué)出版社,2003.
[3]姚家奕.多維數(shù)據(jù)分析原理與應(yīng)用實(shí)驗(yàn)教程[M].北京:電子工業(yè)出版社,2007.
[4]姚家奕.多維數(shù)據(jù)分析原理與應(yīng)用[M].北京:清華大學(xué)出版社,2004.
[5]劉汝焯.審計(jì)數(shù)據(jù)的多維分析技術(shù)[M].北京:清華大學(xué)出版社,2006.
[6]陳安,陳寧,周龍?bào)J.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2006.
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)03-0104-02
1 綜述
1.1 簡(jiǎn)介
在數(shù)字化時(shí)代,需要新一代系統(tǒng)架構(gòu)提升業(yè)務(wù)創(chuàng)新能力。在新一代系統(tǒng)架構(gòu)中,大數(shù)據(jù)是核心要素。業(yè)務(wù)應(yīng)用能否自主發(fā)現(xiàn)與自助獲得高質(zhì)量的大數(shù)據(jù),就成為業(yè)務(wù)創(chuàng)新成敗的關(guān)鍵。這就要在搭建大數(shù)據(jù)平臺(tái)時(shí),就著手大數(shù)據(jù)治理相關(guān)建設(shè)。
1.2 需求和意義
從某種意義上說(shuō)大數(shù)據(jù)治理架構(gòu)需要以元數(shù)據(jù)為核心、提高大數(shù)據(jù)質(zhì)量、透明化大數(shù)據(jù)資產(chǎn)、自助化數(shù)據(jù)開(kāi)發(fā)、自動(dòng)化數(shù)據(jù)、智能化數(shù)據(jù)安全,提升大數(shù)據(jù)平臺(tái)服務(wù)能力,讓大數(shù)據(jù)平臺(tái)變得易使用、易獲得、高質(zhì)量。
但是,目前很多技術(shù)解決方案存在諸多安全和效率隱患:業(yè)務(wù)系統(tǒng)多,監(jiān)管力度大;數(shù)據(jù)量龐大且呈碎片化分布,急需提升大數(shù)據(jù)質(zhì)量;數(shù)據(jù)格式不規(guī)范、難以在短時(shí)間內(nèi)找到所需數(shù)據(jù);數(shù)據(jù)在各階段的應(yīng)用角度不同,需要降低系統(tǒng)間的集成復(fù)雜度。
2 功能設(shè)計(jì)
2.1 總體架構(gòu)
本文講述的數(shù)據(jù)分析方法及實(shí)現(xiàn)技術(shù)是建立在Hadoop/Spark技術(shù)生態(tài)圈的基礎(chǔ)之上,以實(shí)現(xiàn)用戶(hù)集成處理、、清理、分析的一個(gè)統(tǒng)一的數(shù)據(jù)處理平臺(tái);按數(shù)據(jù)類(lèi)別分為線(xiàn)數(shù)據(jù)、歸檔數(shù)據(jù);按數(shù)據(jù)格式分為非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù);按數(shù)據(jù)模型分類(lèi)為范式化模型數(shù)據(jù)、維度模型數(shù)據(jù);按數(shù)據(jù)采集頻度分為非實(shí)時(shí)數(shù)據(jù)、準(zhǔn)實(shí)時(shí)數(shù)據(jù)處理架構(gòu);并提供數(shù)據(jù)中心平臺(tái)與安全管理方案,為企業(yè)級(jí)用戶(hù)建立一個(gè)通用數(shù)據(jù)處理和分析中心。如圖1所示。
2.2 在線(xiàn)數(shù)據(jù)
在線(xiàn)數(shù)據(jù)在線(xiàn)通過(guò)接口去獲得的數(shù)據(jù),一般要求為秒級(jí)或速度更快。首先應(yīng)當(dāng)將數(shù)據(jù)進(jìn)行區(qū)分:在線(xiàn)數(shù)據(jù)、或歸檔數(shù)據(jù)。本平臺(tái)中采用:Storm或Spark Streaming框架進(jìn)行實(shí)現(xiàn)。Spark Streaming將數(shù)據(jù)切分成片段,變成小批量時(shí)間間隔處理,Spark抽象一個(gè)持續(xù)的數(shù)據(jù)流稱(chēng)為DStream(離散流),一個(gè)DStream是RDD彈性分布式數(shù)據(jù)集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數(shù)操作,也可以通過(guò)一個(gè)滑動(dòng)窗口的數(shù)據(jù)進(jìn)行變換。
2.3 歸檔數(shù)據(jù)
歸檔數(shù)據(jù)是在線(xiàn)存儲(chǔ)周期超過(guò)數(shù)據(jù)生命周期規(guī)劃的數(shù)據(jù),處理的要求一般在分鐘級(jí)或速度更慢。通常歸檔數(shù)據(jù)的計(jì)算量、數(shù)據(jù)量、數(shù)據(jù)復(fù)雜度均超過(guò)試試數(shù)據(jù)處理。本平臺(tái)中采用:Hadoop、Spark技術(shù)生態(tài)體系內(nèi)的框架進(jìn)行計(jì)算,這里不詳細(xì)闡述。
2.4 非結(jié)構(gòu)化數(shù)據(jù)
通常非結(jié)構(gòu)化的數(shù)據(jù)不一定具備字段,即使具備字段其長(zhǎng)度也不固定,并且字段的又可是由可不可重復(fù)和重復(fù)的子字段組成,不僅可以包含結(jié)構(gòu)化數(shù)據(jù),更適合處理非結(jié)構(gòu)化數(shù)據(jù)。常見(jiàn)的非結(jié)構(gòu)化數(shù)據(jù)包括XML、文本、圖象、聲音、影音、各類(lèi)應(yīng)用軟件產(chǎn)生的文件。
針對(duì)包含文字、數(shù)據(jù)的為結(jié)構(gòu)化數(shù)據(jù)應(yīng)當(dāng)先利用數(shù)據(jù)清洗、數(shù)據(jù)治理工具進(jìn)行提取,這項(xiàng)工作目前仍依賴(lài)技術(shù)員進(jìn)行操作,由于格式的復(fù)雜性所以難以使用自動(dòng)化方式進(jìn)行較為高效的批處理。在治理數(shù)據(jù)的過(guò)程中,需要根據(jù)情況對(duì)數(shù)據(jù)本身額外建立描述數(shù)據(jù)結(jié)構(gòu)的元數(shù)據(jù)、以及檢索數(shù)據(jù)的索引服務(wù),以便后續(xù)更佳深度利用數(shù)據(jù)。
2.5 結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)具備特定的數(shù)據(jù)結(jié)構(gòu),通??梢赞D(zhuǎn)換后最終用二維的結(jié)構(gòu)的數(shù)據(jù),并且其字段的含義明確,是挖掘數(shù)據(jù)價(jià)值的主要對(duì)象。
本平臺(tái)中主要使用Hadoop Impala和Spark SQL來(lái)進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的處理。Impale底層采用C++實(shí)現(xiàn),而非Hadoop的基于Java的Map-Reduce機(jī)制,將性能提高了1-2個(gè)數(shù)量級(jí)。而Spark SQL提供很好的性能并且與Shark、Hive兼容。提供了對(duì)結(jié)構(gòu)化數(shù)據(jù)的簡(jiǎn)便的narrow-waist操作,為高級(jí)的數(shù)據(jù)分析統(tǒng)一了SQL結(jié)構(gòu)化查詢(xún)語(yǔ)言與命令式語(yǔ)言的混合使用。
結(jié)構(gòu)化數(shù)據(jù)根據(jù)采集頻度可以繼續(xù)分類(lèi)為:非實(shí)時(shí)數(shù)據(jù)、準(zhǔn)實(shí)時(shí)數(shù)據(jù)。
2.6 準(zhǔn)實(shí)時(shí)數(shù)據(jù)
通常準(zhǔn)實(shí)時(shí)數(shù)據(jù)是指數(shù)據(jù)存儲(chǔ)在平臺(tái)本身,但更新頻率接近于接口調(diào)用數(shù)據(jù)源的數(shù)據(jù)。適合用于支持?jǐn)?shù)據(jù)和信息的查詢(xún),但數(shù)據(jù)的再處理度不高,具有計(jì)算并發(fā)度高、數(shù)據(jù)規(guī)模大、結(jié)果可靠性較高的特點(diǎn)。通常使用分布式數(shù)據(jù)處理提高數(shù)據(jù)規(guī)模、使用內(nèi)存數(shù)據(jù)進(jìn)行計(jì)算過(guò)程緩沖和優(yōu)化。本平臺(tái)主要采用Spark SQL結(jié)合高速緩存Redis的技術(shù)來(lái)實(shí)現(xiàn)。Spark SQL作為大數(shù)據(jù)的基本查詢(xún)框架,Redis作為高速緩存去緩存數(shù)據(jù)熱區(qū),減小高并發(fā)下的系統(tǒng)負(fù)載。
2.7 非實(shí)時(shí)數(shù)據(jù)
非實(shí)時(shí)數(shù)據(jù)主要應(yīng)用于支持分析型應(yīng)用,時(shí)效性較低。通常用于數(shù)據(jù)的深度利用和挖掘,例如:因素分析、信息分類(lèi)、語(yǔ)義網(wǎng)絡(luò)、圖計(jì)算、數(shù)值擬合等。
非實(shí)時(shí)數(shù)據(jù)根據(jù)數(shù)據(jù)模型可繼續(xù)分類(lèi)為:范式化模型數(shù)據(jù)、維度模型數(shù)據(jù)。
2.8 范式化模型
范式化模型主要是針對(duì)關(guān)系型數(shù)據(jù)庫(kù)設(shè)計(jì)范式,通常稻菔遣捎玫諶范式3NF或更高范式。面向近源數(shù)據(jù)查詢(xún)、數(shù)據(jù)主題的整合。范式化模型數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)區(qū),建議使用并行MPP數(shù)據(jù)庫(kù)集群,既具備關(guān)系型數(shù)據(jù)庫(kù)的優(yōu)點(diǎn),又兼顧了大數(shù)據(jù)下的處理。
2.9 基于維度模型
維度模型數(shù)據(jù)主要應(yīng)用于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)挖掘和分析。過(guò)去多維度數(shù)據(jù)處理主要依賴(lài)OLAP、BI等中間件技術(shù),而在大數(shù)據(jù)和開(kāi)源框架的時(shí)代下,本技術(shù)平臺(tái)采用Hadoop Impala來(lái)進(jìn)行實(shí)現(xiàn)。Impala并沒(méi)有使用MapReduce這種不太適合做SQL查詢(xún)的范式,而是參考了MPP并行數(shù)據(jù)庫(kù)的思想另起爐灶,省掉不必要的shuffle、sort等開(kāi)銷(xiāo),使運(yùn)算得到優(yōu)化。
3 應(yīng)用效果
本系統(tǒng)在不同的業(yè)務(wù)領(lǐng)域上都可以應(yīng)用,以2016年在某銀行的應(yīng)用案例為例:該銀行已完成數(shù)據(jù)倉(cāng)庫(kù)建設(shè),但眾多數(shù)據(jù)質(zhì)量問(wèn)題嚴(yán)重影響了數(shù)據(jù)應(yīng)用的效果,以不同的數(shù)據(jù)存儲(chǔ)方式,以更高的要求去進(jìn)行數(shù)據(jù)的統(tǒng)一管理。通過(guò)組織、制度、流程三個(gè)方面的實(shí)施,以元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量平臺(tái)為支撐,實(shí)現(xiàn)了數(shù)據(jù)管控在50多個(gè)分支,60個(gè)局,1000余處的全面推廣,實(shí)現(xiàn)了全行的覆蓋;管理了120個(gè)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù),顯著提升了新系統(tǒng)的快速接入能力;通過(guò)14個(gè)數(shù)據(jù)規(guī)范和流程明確了數(shù)據(jù)管控的分工;數(shù)據(jù)考核機(jī)制的實(shí)施,使其在數(shù)據(jù)質(zhì)量評(píng)比中名列前茅。
4 結(jié)語(yǔ)
本文介紹了大數(shù)據(jù)下數(shù)據(jù)分析方法及實(shí)現(xiàn)技術(shù)的大體設(shè)計(jì)和思路,從需求分析、總體架構(gòu)和數(shù)據(jù)處理以及數(shù)據(jù)分析這幾個(gè)方面來(lái)介紹。文章在最后介紹出了這種平臺(tái)的應(yīng)用效果。筆者相信這些思路和技術(shù)能夠在業(yè)務(wù)中能得到很好的應(yīng)用。
前言:在對(duì)頻譜監(jiān)測(cè)數(shù)據(jù)分析中,簡(jiǎn)單統(tǒng)計(jì)分析已經(jīng)無(wú)法滿(mǎn)足頻譜監(jiān)測(cè)數(shù)據(jù)實(shí)際需求,需要對(duì)數(shù)據(jù)深入研究,探索配頻譜監(jiān)測(cè)數(shù)據(jù)潛在關(guān)聯(lián),尋找到異常信號(hào),有效提升頻譜監(jiān)測(cè)精確性,起到輔作用。數(shù)據(jù)挖掘技術(shù)在應(yīng)用過(guò)程中,能夠挖掘海量數(shù)據(jù)內(nèi)價(jià)值,有關(guān)監(jiān)督設(shè)備可以對(duì)數(shù)據(jù)進(jìn)行掃描,深入分析有關(guān)數(shù)據(jù)。
一、數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介
1.1數(shù)據(jù)挖掘的概念
在上世紀(jì)90年代內(nèi),研究人員提出了數(shù)據(jù)挖掘,主要目的就是希望能夠?qū)⑺杉降膽?yīng)用數(shù)據(jù)內(nèi)所具有的潛在價(jià)值信息挖掘,獲取價(jià)值信息。數(shù)據(jù)挖掘內(nèi)包含較多學(xué)科內(nèi)容,例如人工智能、統(tǒng)計(jì)、可視化技術(shù)、數(shù)據(jù)庫(kù)等。數(shù)據(jù)挖掘在對(duì)數(shù)據(jù)分析研究過(guò)程中,主要采取分類(lèi)及聚類(lèi)進(jìn)行監(jiān)測(cè),對(duì)有關(guān)知識(shí)進(jìn)行演變。數(shù)據(jù)挖掘常見(jiàn)模式主要分為四種,分別為頻繁模式、分類(lèi)模式、聚類(lèi)模式與異常模式[1]。
1.2數(shù)據(jù)挖掘的過(guò)程
1、數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備階段主要包含兩方面工作,分別為數(shù)據(jù)獲取和數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘應(yīng)用點(diǎn)在確定之后,能夠有效對(duì)有關(guān)數(shù)據(jù)進(jìn)行收集,同時(shí)對(duì)數(shù)據(jù)背景進(jìn)行掌握,對(duì)挖掘模式進(jìn)行確定。有關(guān)數(shù)據(jù)在收集之后,需要對(duì)數(shù)據(jù)內(nèi)所包含的冗余數(shù)據(jù)及空缺數(shù)據(jù)進(jìn)行預(yù)處理,為計(jì)算機(jī)分析奠定堅(jiān)實(shí)基礎(chǔ)。
2、數(shù)據(jù)挖掘。數(shù)據(jù)娃聚主要是在數(shù)量及挖掘目標(biāo)確定之后,選擇合適的數(shù)據(jù)挖掘方法及技術(shù),對(duì)數(shù)據(jù)進(jìn)行計(jì)算分析,構(gòu)建針對(duì)性數(shù)據(jù)。
3、挖掘結(jié)果展示。數(shù)據(jù)挖掘技術(shù)所得到的數(shù)據(jù)結(jié)果,十分抽象,除了數(shù)據(jù)挖掘技術(shù)行業(yè)工作人員無(wú)法對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行了解,所以需要對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行轉(zhuǎn)化,通過(guò)圖形及圖像的方式,將挖掘結(jié)果在屏幕內(nèi)顯示出來(lái),直觀將挖掘結(jié)果展示出來(lái),用戶(hù)能夠?qū)ν诰蚪Y(jié)果深入理解。
4、挖掘結(jié)果應(yīng)用分析。按照挖掘背景及目的,對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行系統(tǒng)性分析研究,進(jìn)而找到海量數(shù)據(jù)內(nèi)具有價(jià)值的信息,同時(shí)這些信息技有關(guān)生產(chǎn),對(duì)數(shù)據(jù)挖掘結(jié)果正確性進(jìn)行判斷,對(duì)數(shù)據(jù)挖掘有關(guān)知識(shí)進(jìn)行修正、完善[2]。
二、數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測(cè)數(shù)據(jù)分析中的應(yīng)用
2.1認(rèn)知無(wú)線(xiàn)電中頻譜資源預(yù)測(cè)應(yīng)用
認(rèn)知無(wú)線(xiàn)在頻譜監(jiān)測(cè)數(shù)據(jù)內(nèi)應(yīng)用,能夠有效提高頻譜監(jiān)測(cè)數(shù)據(jù)質(zhì)量,同時(shí)非授權(quán)用戶(hù)也可以對(duì)頻譜資源進(jìn)行利用。授權(quán)用戶(hù)在對(duì)頻譜監(jiān)測(cè)數(shù)應(yīng)用過(guò)程中,非授權(quán)用戶(hù)能夠直接將頻譜監(jiān)測(cè)數(shù)據(jù)資源讓出來(lái),非授權(quán)用戶(hù)就需要充分構(gòu)建頻譜途徑,構(gòu)建通信連接。非授權(quán)用戶(hù)要是沒(méi)有直接將頻譜資源讓出來(lái),授權(quán)用戶(hù)與非授權(quán)用戶(hù)之間就會(huì)產(chǎn)生矛盾,進(jìn)而造成通信中斷,這樣情況所將的損失將是無(wú)法預(yù)計(jì)的。所以,非授權(quán)用戶(hù)及授權(quán)用戶(hù)要是都能夠?qū)︻l譜資源精確劃分,能夠有效對(duì)資源矛盾事件防止,在這種情況下頻譜監(jiān)測(cè)資源利用效率也就顯著提升。
正式由于認(rèn)識(shí)無(wú)線(xiàn)電技術(shù)在實(shí)際應(yīng)用內(nèi)所具有的優(yōu)勢(shì),在對(duì)認(rèn)知無(wú)線(xiàn)電技術(shù)分析研究過(guò)程中,需要將重點(diǎn)放在授權(quán)用戶(hù)應(yīng)用規(guī)律上面,對(duì)授權(quán)用戶(hù)占據(jù)頻譜監(jiān)測(cè)數(shù)據(jù)空余時(shí)間進(jìn)行預(yù)測(cè),幫助非授權(quán)用戶(hù)能夠在授權(quán)用戶(hù)空余時(shí)間內(nèi)尋找利用有關(guān)資源,這種預(yù)測(cè)性分析研究主要是通過(guò)數(shù)據(jù)挖掘技術(shù)內(nèi)的頻發(fā)模式實(shí)現(xiàn)。
2.2異常無(wú)線(xiàn)電信號(hào)監(jiān)測(cè)應(yīng)用
無(wú)線(xiàn)電監(jiān)測(cè)站在常規(guī)監(jiān)測(cè)過(guò)程中,最為主要的一項(xiàng)工作就是對(duì)異常無(wú)線(xiàn)電信號(hào)進(jìn)行監(jiān)測(cè),嚴(yán)禁非法占用情況出現(xiàn),有效提高無(wú)線(xiàn)電通信安全性能。
按照無(wú)線(xiàn)電監(jiān)測(cè)所產(chǎn)生的數(shù)據(jù)可知,頻譜設(shè)備屬于常規(guī)性運(yùn)行,一旦出現(xiàn)異常運(yùn)行情況,所輸出的信號(hào)就與常規(guī)狀態(tài)下信號(hào)存在一定差異。所以,想要了解頻譜設(shè)備出現(xiàn)異常情況,只需要將將信號(hào)進(jìn)行分析比較,數(shù)據(jù)挖掘技術(shù)能夠有效對(duì)海量信號(hào)內(nèi)特點(diǎn)進(jìn)行提取,在海量信號(hào)內(nèi)尋找到異常信號(hào)。數(shù)據(jù)挖掘技術(shù)在無(wú)線(xiàn)電監(jiān)測(cè)內(nèi)應(yīng)用,首先是通過(guò)無(wú)線(xiàn)電監(jiān)測(cè)歷史數(shù)據(jù)構(gòu)建數(shù)據(jù)模型,模型在具有自我學(xué)習(xí)能力之后,能夠應(yīng)對(duì)無(wú)線(xiàn)電瞬息變化環(huán)境,對(duì)數(shù)據(jù)模型與歷史數(shù)據(jù)模型相似點(diǎn)進(jìn)行計(jì)算,在發(fā)現(xiàn)無(wú)線(xiàn)電設(shè)備出現(xiàn)異常運(yùn)行情況之后,數(shù)據(jù)模型就會(huì)發(fā)出警告。
結(jié)論:數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測(cè)數(shù)據(jù)分析內(nèi)應(yīng)用,能夠有效對(duì)l譜監(jiān)測(cè)數(shù)據(jù)分析流程進(jìn)行簡(jiǎn)化,在大量數(shù)據(jù)信息內(nèi)高效率的找到針對(duì)性數(shù)據(jù)信息,提高信息挖掘質(zhì)量,進(jìn)而為管理人員提供針對(duì)性意見(jiàn)。正式由于數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測(cè)數(shù)據(jù)分析內(nèi)所具有的作用,所以對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行分析研究,能夠有效推動(dòng)頻譜監(jiān)測(cè)數(shù)據(jù)發(fā)展。
引言
運(yùn)用大數(shù)據(jù)技術(shù)來(lái)加強(qiáng)對(duì)市場(chǎng)主體的服務(wù)和監(jiān)管,是促進(jìn)政府職能轉(zhuǎn)變、簡(jiǎn)政放權(quán)和優(yōu)化服務(wù)的有效手段,也是近年來(lái)的發(fā)展趨勢(shì)[1]。國(guó)務(wù)院辦公廳的《國(guó)務(wù)院辦公廳關(guān)于運(yùn)用大數(shù)據(jù)加強(qiáng)對(duì)市場(chǎng)主體服務(wù)和監(jiān)管的若干意見(jiàn)》中要求,各級(jí)政府部門(mén)都要充分認(rèn)識(shí)運(yùn)用大數(shù)據(jù)技術(shù)加強(qiáng)對(duì)市場(chǎng)主體服務(wù)和監(jiān)管的重要性,通過(guò)運(yùn)用大數(shù)據(jù)技術(shù)來(lái)提高對(duì)市場(chǎng)主體的服務(wù)水平、加強(qiáng)和改進(jìn)新形勢(shì)下的市場(chǎng)監(jiān)管能力,并以此為動(dòng)力推進(jìn)政府和社會(huì)信息資源的開(kāi)放和共享,提高政府部門(mén)運(yùn)用大數(shù)據(jù)技術(shù)的水平。為了進(jìn)一步加強(qiáng)和改進(jìn)市場(chǎng)監(jiān)管方法,提升市場(chǎng)監(jiān)管部門(mén)的市場(chǎng)主體服務(wù)能力,順應(yīng)大數(shù)據(jù)時(shí)代潮流,運(yùn)用大數(shù)據(jù)技術(shù)加強(qiáng)對(duì)市場(chǎng)主體的服務(wù)和監(jiān)管,促進(jìn)政府職能轉(zhuǎn)變,做好簡(jiǎn)政放權(quán)和優(yōu)化服務(wù),在現(xiàn)有軟硬件資源的基礎(chǔ)上,整合原工商、質(zhì)監(jiān)、食藥監(jiān)、物價(jià)、知識(shí)產(chǎn)權(quán)等相關(guān)部門(mén)各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),建設(shè)基于可視化技術(shù)的市場(chǎng)監(jiān)管大數(shù)據(jù)分析系統(tǒng)。基于可視化技術(shù)的市場(chǎng)監(jiān)管大數(shù)據(jù)分析系統(tǒng)由數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)分析軟件及相關(guān)軟硬件設(shè)備組成。
1系統(tǒng)架構(gòu)
系統(tǒng)采用松耦合、高聚合、多層次和面向服務(wù)的體系結(jié)構(gòu),堅(jiān)持功能實(shí)用、接口規(guī)范和高響應(yīng)時(shí)效的原則,采用J2EE架構(gòu)和多服務(wù)器、虛擬化和集群化的部署方式。支持Oracle、mysql、SqlServer、DB2等主流數(shù)據(jù)庫(kù),支持Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu)。采用了兼容性較好的B/S模式,并結(jié)合當(dāng)前科技創(chuàng)新工作的要求,支持Linux系統(tǒng)客戶(hù)端下的火狐、谷歌等主流瀏覽器。系統(tǒng)的基本架構(gòu)如圖1所示。系統(tǒng)的數(shù)據(jù)源來(lái)自原工商、質(zhì)監(jiān)、食藥監(jiān)、物價(jià)、知識(shí)產(chǎn)權(quán)等多個(gè)部門(mén)不同廠(chǎng)家、不同版本的業(yè)務(wù)軟件,經(jīng)過(guò)數(shù)據(jù)清洗模塊對(duì)各部門(mén)的數(shù)據(jù)進(jìn)行整理、清洗,存入數(shù)據(jù)倉(cāng)庫(kù)。J2EE平臺(tái)調(diào)用數(shù)據(jù)分析模型接口對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行分析,并通過(guò)可視化工具以圖、表等形式對(duì)結(jié)果進(jìn)行可視化輸出。
2數(shù)據(jù)預(yù)處理
由于數(shù)據(jù)源所在的數(shù)據(jù)產(chǎn)生部門(mén)、數(shù)據(jù)庫(kù)廠(chǎng)商和版本各不相同,數(shù)據(jù)庫(kù)中表結(jié)構(gòu)的差異較大,必須先對(duì)從各數(shù)據(jù)源中抽取的數(shù)據(jù)進(jìn)行預(yù)處理,將清洗整理過(guò)的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中,才能把數(shù)據(jù)完整、有效地提供給數(shù)據(jù)分析模塊進(jìn)行分析,并對(duì)分析產(chǎn)生的結(jié)果進(jìn)行可視化輸出。
2.1源數(shù)據(jù)抽取針對(duì)多部門(mén)不同的數(shù)據(jù)庫(kù)系統(tǒng),都開(kāi)發(fā)了相應(yīng)的數(shù)據(jù)庫(kù)接口進(jìn)行數(shù)據(jù)抽取,對(duì)于未采用數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)的數(shù)據(jù),則通過(guò)從軟件用戶(hù)端界面手動(dòng)導(dǎo)入的方法進(jìn)行抽取。抽取到的源數(shù)據(jù)保存在前置數(shù)據(jù)庫(kù)中。前置數(shù)據(jù)庫(kù)提供了自定義表結(jié)構(gòu)功能,用戶(hù)可通過(guò)數(shù)據(jù)導(dǎo)入模塊自行定義表結(jié)構(gòu)和數(shù)據(jù)表中的字段屬性,以便靈活導(dǎo)入未經(jīng)過(guò)事先定義的數(shù)據(jù)。以市場(chǎng)監(jiān)管工作中的反不正當(dāng)競(jìng)爭(zhēng)監(jiān)管數(shù)據(jù)為例,通過(guò)數(shù)據(jù)抽取模塊將行政執(zhí)法的基本數(shù)據(jù)(案件號(hào),案件名稱(chēng),當(dāng)事人,案值,處罰金額,立案時(shí)間等)導(dǎo)入系統(tǒng)后,系統(tǒng)將數(shù)據(jù)自動(dòng)轉(zhuǎn)化并存儲(chǔ)至前置庫(kù)的數(shù)據(jù)表中,數(shù)據(jù)表中相關(guān)字段的屬性自動(dòng)根據(jù)導(dǎo)入的字段類(lèi)型進(jìn)行判斷,若表中部分字段內(nèi)容缺失,系統(tǒng)先以默認(rèn)值填充,待數(shù)據(jù)清洗時(shí)進(jìn)一步處理。前置庫(kù)中的行政執(zhí)法信息數(shù)據(jù)如表1所示。
2.2數(shù)據(jù)清洗
數(shù)據(jù)清洗是對(duì)前置庫(kù)中的數(shù)據(jù)進(jìn)行校驗(yàn)和審查的過(guò)程[2]。數(shù)據(jù)清洗的目的是刪除前置庫(kù)中的重復(fù)信息、糾正錯(cuò)誤數(shù)據(jù),并將字段值的單位進(jìn)行統(tǒng)一[3-6]。來(lái)自各部門(mén)的歷史數(shù)據(jù)往往存在數(shù)據(jù)重復(fù)、無(wú)效值、空值等實(shí)際情況,需要對(duì)其進(jìn)行數(shù)據(jù)清洗后再存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中以供進(jìn)一步分析展示使用。對(duì)源數(shù)據(jù)的數(shù)據(jù)清洗主要采用以下方法進(jìn)行。對(duì)源數(shù)據(jù)中屬性值均相等的數(shù)據(jù)視為重復(fù)信息,將其進(jìn)行合并處理,只保留一條重復(fù)的數(shù)據(jù)。對(duì)源數(shù)據(jù)中的存在空值的不完整信息,若某個(gè)屬性存在的空值過(guò)多,且該屬性對(duì)所展示的問(wèn)題不是特別重要,則刪除該屬性;若該屬性?xún)H存在少量空值,則判斷該屬性與其它屬性間的相關(guān)性,存在相關(guān)性的根據(jù)其他屬性的值和相關(guān)規(guī)則推測(cè)該屬性的值,無(wú)法推測(cè)的保留空值。若處理后的某條數(shù)據(jù)存在的空值仍然過(guò)多,則將此條數(shù)據(jù)刪除,否則保留此條數(shù)據(jù)并保留空值。對(duì)源數(shù)據(jù)中日期等格式不規(guī)范的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,將不同的數(shù)據(jù)格式轉(zhuǎn)換成統(tǒng)一格式。清洗后的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,供數(shù)據(jù)分析模型和可視化工具讀取并產(chǎn)生可視化分析結(jié)果。
3基于可視化技術(shù)的大數(shù)據(jù)分析系統(tǒng)
利用數(shù)據(jù)可視化工具,開(kāi)發(fā)市場(chǎng)監(jiān)管大數(shù)據(jù)可視化平臺(tái),將處理過(guò)的市場(chǎng)監(jiān)管數(shù)據(jù)以多種類(lèi)型的圖、表等形式直觀地展現(xiàn)出來(lái),并對(duì)展現(xiàn)出來(lái)的信息進(jìn)行標(biāo)注、解析、匯總和分析,系統(tǒng)能直觀的顯示出市場(chǎng)主體的基本概況、發(fā)展趨勢(shì)、風(fēng)險(xiǎn)預(yù)警等信息。
3.1數(shù)據(jù)可視化技術(shù)
數(shù)據(jù)可視化技術(shù)是通過(guò)算法和工具對(duì)多維的信息空間進(jìn)行定量的處理和計(jì)算,將大型數(shù)據(jù)集中的數(shù)據(jù)處理后以圖形圖像形式表示出來(lái),從而將數(shù)據(jù)中隱藏的信息直觀地展現(xiàn)給用戶(hù)[7-9]。目前數(shù)據(jù)可視化技術(shù)已經(jīng)提出了多種方法,根據(jù)原理的不同可以劃分為面向像素的技術(shù)、基于幾何的技術(shù)、基于圖像的技術(shù)、基于圖標(biāo)的技術(shù)、基于層次的技術(shù)和分布式技術(shù)等[10-12]。
3.2市場(chǎng)監(jiān)管大數(shù)據(jù)分析系統(tǒng)
市場(chǎng)監(jiān)管大數(shù)據(jù)分析系統(tǒng)運(yùn)用大數(shù)據(jù)技術(shù)來(lái)提高市場(chǎng)監(jiān)管部門(mén)的公共服務(wù)能力,對(duì)市場(chǎng)主體事中后監(jiān)管數(shù)據(jù)進(jìn)行高效的采集和整合。系統(tǒng)利用市場(chǎng)監(jiān)管大數(shù)據(jù),制定規(guī)范了市場(chǎng)監(jiān)管大數(shù)據(jù)標(biāo)準(zhǔn)體系,將大數(shù)據(jù)分析結(jié)果作為提高市場(chǎng)監(jiān)管治理能力重要手段,不斷提高服務(wù)和監(jiān)管的針對(duì)性和有效性。市場(chǎng)監(jiān)管大數(shù)據(jù)分析系統(tǒng)主要包括數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)及分析展示平臺(tái)兩大部分。數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)將原有各單位業(yè)務(wù)軟件中的數(shù)據(jù)進(jìn)行抽取,進(jìn)行清洗及格式轉(zhuǎn)換后存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中;大數(shù)據(jù)分析展示平臺(tái)將數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通過(guò)建模,以可視化的方式將結(jié)果展示給市場(chǎng)監(jiān)管人員,提高市場(chǎng)監(jiān)管部門(mén)的公共服務(wù)能力和事中事后監(jiān)管水平。數(shù)據(jù)分析平臺(tái)包括綜合查詢(xún)、業(yè)務(wù)分析、風(fēng)險(xiǎn)預(yù)警、決策支持、綜合分析等主要功能模塊及年報(bào)監(jiān)控、統(tǒng)計(jì)報(bào)表等輔助功能模塊。系統(tǒng)的主要功能模塊如圖2所示。其中,大數(shù)據(jù)分析工具主要采用集成了報(bào)表引擎、全文檢索引擎、多維分析引擎、數(shù)據(jù)挖掘引擎及數(shù)據(jù)可視化組件中的BI工具實(shí)現(xiàn)。通過(guò)數(shù)據(jù)可視化BI組件,為用戶(hù)提供應(yīng)用層各功能模塊的分析結(jié)果可視化輸出,實(shí)現(xiàn)了市場(chǎng)主體分析的GIS熱力圖、放射性樹(shù)狀圖、標(biāo)簽云等各類(lèi)圖形和報(bào)表輸出等功能。
4系統(tǒng)實(shí)用效果
doi:10.3969/j.issn.1673 - 0194.2015.18.046
[中圖分類(lèi)號(hào)]TP391 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2015)18-00-02
新疆油田公司經(jīng)過(guò)10多年的數(shù)字油田建設(shè),于2008年建成數(shù)字油田,油田中心數(shù)據(jù)庫(kù)包括勘探、開(kāi)發(fā)、儲(chǔ)運(yùn)、生產(chǎn)輔助、經(jīng)營(yíng)管理等業(yè)務(wù)領(lǐng)域的各類(lèi)數(shù)據(jù),涉及油田開(kāi)發(fā)的數(shù)據(jù)包括單井、區(qū)塊的日月報(bào)數(shù)據(jù)、分析化驗(yàn)數(shù)據(jù)、試井與生產(chǎn)測(cè)井?dāng)?shù)據(jù)、井下作業(yè)數(shù)據(jù)、井史數(shù)據(jù)以及地理信息數(shù)據(jù)等,種類(lèi)豐富齊全,質(zhì)量達(dá)到標(biāo)準(zhǔn)要求,為生產(chǎn)數(shù)據(jù)分析應(yīng)用提供了數(shù)據(jù)資源基礎(chǔ)。2010年,新疆油田啟動(dòng)智能化油田建設(shè)工作,包括油氣生產(chǎn)物聯(lián)網(wǎng)(A11)項(xiàng)目及單井問(wèn)題診斷和優(yōu)化系統(tǒng)研發(fā)工作,加大了油田自動(dòng)化數(shù)據(jù)采集的力度及智能化分析應(yīng)用。通過(guò)近幾年的研究與實(shí)踐發(fā)現(xiàn),智能油田的全面感知、分析預(yù)測(cè)、優(yōu)化決策等均與大數(shù)據(jù)分析有關(guān),根據(jù)油田大數(shù)據(jù)分析發(fā)現(xiàn)油水井生產(chǎn)規(guī)律,可以更好地指導(dǎo)油田生產(chǎn)及優(yōu)化決策。
1 油田大數(shù)據(jù)的概念及處理流程
大數(shù)據(jù)首先具有四個(gè)主要特點(diǎn):數(shù)據(jù)量大(Volume)、產(chǎn)生速度快(Velocity)、數(shù)據(jù)類(lèi)型多(Variety),數(shù)據(jù)的真實(shí)性(Veracity),合稱(chēng)4V或4Vs。大數(shù)據(jù)由巨型數(shù)據(jù)集組成,其數(shù)據(jù)量超出人們采用常規(guī)方法在可接受時(shí)間內(nèi)收集、使用、管理和處理數(shù)據(jù)的能力,但最終體現(xiàn)為價(jià)值,實(shí)現(xiàn)數(shù)據(jù)信息知識(shí)智慧的轉(zhuǎn)變。在油田生產(chǎn)中大數(shù)據(jù)分析的概念可理解為:在油田生產(chǎn)、管理中產(chǎn)生的具有連續(xù)變化、能夠反映油田客觀規(guī)律的各類(lèi)數(shù)據(jù),以及對(duì)這些數(shù)據(jù)的分析處理。
大數(shù)據(jù)的處理主要包括7個(gè)步驟,分別是:數(shù)據(jù)采集和提取集成、數(shù)據(jù)清洗、數(shù)據(jù)分析從而發(fā)現(xiàn)有價(jià)值的規(guī)律、建立分析預(yù)測(cè)模型、結(jié)果展示可視化和知識(shí)表達(dá)、結(jié)果驗(yàn)證,以及對(duì)模型的效果評(píng)估優(yōu)化,如圖1所示。
2 大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)研究
結(jié)合目前新疆油田生產(chǎn)數(shù)據(jù)建設(shè)情況,以及油田生產(chǎn)應(yīng)用需求,構(gòu)建新疆油田大數(shù)據(jù)分析平臺(tái)及體系架構(gòu),如圖2所示,主要包括數(shù)據(jù)抽取、分布式存儲(chǔ)、大數(shù)據(jù)分析及展示應(yīng)用4層架構(gòu)。
數(shù)據(jù)抽取層主要是實(shí)現(xiàn)分布在各數(shù)據(jù)庫(kù)或系統(tǒng)中的數(shù)據(jù)整合,并轉(zhuǎn)換成適合數(shù)據(jù)挖掘或建模的形式,構(gòu)建樣本數(shù)據(jù)集;存儲(chǔ)層主要是實(shí)現(xiàn)匯總數(shù)據(jù)、模型數(shù)據(jù)、分析數(shù)據(jù)以及元數(shù)據(jù)等各類(lèi)數(shù)據(jù)的存儲(chǔ),相當(dāng)于數(shù)據(jù)倉(cāng)庫(kù);分析層是基于大數(shù)據(jù)建模算法和工具,挖掘數(shù)據(jù)中隱藏的模式或關(guān)系,采用數(shù)據(jù)建模軟件(如SPSS Modeler、Hadoop等)建立分類(lèi)或預(yù)測(cè)模型(規(guī)則、公式或方程式),從而生成預(yù)測(cè)結(jié)果,確定評(píng)估方法并利用測(cè)試樣本,結(jié)合專(zhuān)家經(jīng)驗(yàn)不斷提升模型精度,輔助油田生產(chǎn)決策;數(shù)據(jù)應(yīng)用層將建立的數(shù)據(jù)模型封裝成可運(yùn)行軟件,包括建模算法的實(shí)現(xiàn)、數(shù)據(jù)的可視化和界面設(shè)計(jì)等,最終展示給用戶(hù)使用,實(shí)現(xiàn)人機(jī)交互。
3 大數(shù)據(jù)分析技術(shù)研究
通過(guò)上述研究分析總結(jié)出大數(shù)據(jù)分析需要的兩大技術(shù):一是大數(shù)據(jù)抽取及預(yù)處理技術(shù),二是大數(shù)據(jù)分析技術(shù)。
3.1 大數(shù)據(jù)抽取及預(yù)處理技術(shù)
數(shù)據(jù)抽取就是將多種結(jié)構(gòu)和類(lèi)型的數(shù)據(jù)抽取轉(zhuǎn)化為單一的或便于處理的結(jié)構(gòu)類(lèi)型。不同時(shí)間、不同地點(diǎn)、不同名稱(chēng)的相同數(shù)據(jù)所表達(dá)的內(nèi)涵和算法要求一致,是標(biāo)準(zhǔn)化、規(guī)范化的自然語(yǔ)言集合,便于計(jì)算機(jī)理解,是數(shù)據(jù)提取的關(guān)鍵。
數(shù)據(jù)清洗主要用于確定有用記錄和字段,檢查數(shù)據(jù)是否存在缺失、數(shù)值異常等情況,解決辦法可用剔除法或使用估計(jì)值、平均值填補(bǔ),錯(cuò)誤數(shù)據(jù)可利用邏輯關(guān)系手動(dòng)替換。
數(shù)據(jù)構(gòu)建是為了滿(mǎn)足大數(shù)據(jù)建模需求而創(chuàng)建的新字段,以作為特征參數(shù),如平均值。
數(shù)據(jù)變換是把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式,如歸一化處理(概念、時(shí)間、度量、語(yǔ)義)等。
3.2 大數(shù)據(jù)分析技術(shù)
大數(shù)據(jù)分析主要包括聚類(lèi)分析、因子分析、相關(guān)分析、回歸分析、A/B測(cè)試以及數(shù)據(jù)發(fā)掘等,上述方法在油田常用的有聚類(lèi)分析、因子分析、回歸分析和數(shù)據(jù)發(fā)掘。
聚類(lèi)分析是把具有某種相似特征的物體或者事物歸為一類(lèi),目的在于辨別在某些特性上相似(但是預(yù)先未知)的事物,并按這些特性將樣本劃分成若干類(lèi),使在同一類(lèi)內(nèi)的事物具有高度同質(zhì)性,而不同類(lèi)的事物則有高度異質(zhì)性。
因子分析是用少數(shù)幾個(gè)因子去描述多個(gè)指標(biāo)或因素間的聯(lián)系,即將相互比較密切的幾個(gè)變量歸在同一類(lèi)中,每一類(lèi)變量就成為一個(gè)因子,以較少的幾個(gè)因子反映原數(shù)據(jù)的大部分信息。
回歸分析是在一組數(shù)據(jù)的基礎(chǔ)上,研究一個(gè)變量與其他變量之間的相關(guān)關(guān)系,尋找被隨機(jī)性掩蓋的變量之間的依存關(guān)系。通過(guò)回歸分析,可以把變量間復(fù)雜的、不確定的關(guān)系變得簡(jiǎn)單化、有規(guī)律化。
數(shù)據(jù)挖掘是大數(shù)據(jù)時(shí)代的關(guān)鍵技術(shù),是指從非完整的、海量的、有噪音的、模糊且隨機(jī)的數(shù)據(jù)中挖掘隱含在內(nèi)且人們未提前得知的有用信息的過(guò)程。一般來(lái)說(shuō),數(shù)據(jù)挖掘的功能有兩類(lèi):描述和預(yù)測(cè)。描述性挖掘用于展現(xiàn)集體數(shù)據(jù)的一般特性,而預(yù)測(cè)性挖掘用于推算處理數(shù)據(jù),完成預(yù)測(cè)目的。數(shù)據(jù)挖掘功能同目標(biāo)數(shù)據(jù)的類(lèi)型有關(guān),有些功能適用于不同類(lèi)型的數(shù)據(jù),有些功能則只適用于某種特定數(shù)據(jù)。數(shù)據(jù)挖掘功能能夠讓人得知未知信息,提升數(shù)據(jù)價(jià)值,從而應(yīng)用到不同領(lǐng)域。
4 大數(shù)據(jù)分析在油田生產(chǎn)中的應(yīng)用研究
4.1 異常井自動(dòng)識(shí)別
異常井作為影響產(chǎn)量的主要因素之一,目前被越來(lái)越多的油田生產(chǎn)管理人員重視,原來(lái)的異常井發(fā)現(xiàn)主要依靠人工發(fā)現(xiàn),需要人工查閱大量的油田生產(chǎn)資料才能最終確定,這種方式存在異常井檢索工作量大、發(fā)現(xiàn)周期長(zhǎng)的弱點(diǎn),影響異常井的及時(shí)診斷和措施制訂。采用聚類(lèi)分析和數(shù)據(jù)發(fā)掘方法對(duì)異常井進(jìn)行自動(dòng)識(shí)別,根據(jù)異常井的定義:油井當(dāng)天產(chǎn)量較上月產(chǎn)量波動(dòng)大于正常范圍的井為異常井,排除作業(yè)井、調(diào)開(kāi)井、常關(guān)井及停電井等因素影響,并采用技術(shù)實(shí)現(xiàn)算法的編譯,系統(tǒng)架構(gòu)B/S模式進(jìn)行,目前已廣泛應(yīng)用于油田日常生產(chǎn),實(shí)現(xiàn)了異常井的及時(shí)發(fā)現(xiàn),提高了進(jìn)一步診斷的及時(shí)性,提高了員工工作效率,如圖3所示。
4.2 異常井智能診斷
異常井診斷作為油田生產(chǎn)必須的一項(xiàng)日常工作一直困擾著油田生產(chǎn)業(yè)務(wù)人員,目前,大部分油田異常井診斷主要依靠人工完成,人工診斷工作量大且受人為經(jīng)驗(yàn)的影響,診斷符合率低,可能會(huì)導(dǎo)致后續(xù)措施制訂失誤,影響單井生產(chǎn)。因此,采用灰度圖像處理技術(shù)和人臉識(shí)別算法建立抽油井特征功圖庫(kù),通過(guò)油井當(dāng)前功圖與特征功圖的相似度對(duì)比,實(shí)現(xiàn)油井工況的自動(dòng)診斷,由于一種工況可能有多種表現(xiàn)形式,導(dǎo)致功圖解釋存在多種情況,因此,可采用因子分析法,分析每種工況下所關(guān)聯(lián)的因子變化情況,建立參數(shù)診斷規(guī)則庫(kù),通過(guò)相關(guān)因子的指標(biāo)項(xiàng)對(duì)比分析,確診異常原因,如圖4所示,為制訂合理的進(jìn)一步措施提供充分可靠的依據(jù),從而提高單井的生產(chǎn)時(shí)率。
4.3 間抽井開(kāi)關(guān)井計(jì)劃制訂
隨著油田開(kāi)發(fā)進(jìn)入后期階段,地層能量逐年匱乏,目前越來(lái)越多供液不足的井涌現(xiàn)出來(lái),我們將其定義為間抽井(間歇出油的井),目前,新疆油田主要由人工制訂下個(gè)月的間抽井開(kāi)關(guān)井計(jì)劃,但計(jì)劃是否合理還需進(jìn)一步驗(yàn)證,因此,如何更好地控制間抽井開(kāi)關(guān)時(shí)間,對(duì)于開(kāi)源節(jié)流、節(jié)能減排起著至關(guān)重要的作用??刹捎靡蜃臃治龊突貧w分析方法,挖掘影響間抽井開(kāi)關(guān)時(shí)間的因素,如動(dòng)液面、沉沒(méi)度、液面上升速度等,建立分析預(yù)測(cè)模型,對(duì)模型曲線(xiàn)進(jìn)行歸一化處理,從而供業(yè)務(wù)人員合理制定間抽井開(kāi)關(guān)制度,達(dá)到節(jié)能減排、提質(zhì)增效的目的。
4.4 油井清防蠟預(yù)測(cè)
目前油田上對(duì)油井清蠟措施的實(shí)施都按照人工制訂的計(jì)劃執(zhí)行,平均每口井1個(gè)月清蠟1次,這導(dǎo)致有些井還未結(jié)蠟就提前清、有些井已結(jié)蠟還未清等不合理情況時(shí)有發(fā)生,不但浪費(fèi)人力物力,而且影響油井生產(chǎn)。采用因子分析方法通過(guò)油井歷次結(jié)蠟周期、油井工況、清蠟方式以及用量等參數(shù)建立油井結(jié)蠟預(yù)測(cè)模型,采用回歸分析方法構(gòu)建預(yù)測(cè)模型分析曲線(xiàn),分析曲線(xiàn)上每個(gè)清蠟節(jié)點(diǎn)時(shí)間,推算出該井的合理清蠟周期,從而指導(dǎo)油井合理有序地清蠟,提高油田精細(xì)化管理水平。
5 結(jié) 語(yǔ)
通過(guò)大數(shù)據(jù)分析能發(fā)現(xiàn)油田生產(chǎn)作業(yè)規(guī)律,可以很好地解決油田生產(chǎn)業(yè)務(wù)問(wèn)題;通過(guò)對(duì)油田管理數(shù)據(jù)的分析,能夠發(fā)現(xiàn)并解決管理中存在的問(wèn)題和瓶頸;也可以通過(guò)各種相關(guān)數(shù)據(jù)的可視化對(duì)比分析,發(fā)現(xiàn)過(guò)去無(wú)法關(guān)注的問(wèn)題,這些是大數(shù)據(jù)分析的核心價(jià)值所在,大數(shù)據(jù)應(yīng)用的最終目標(biāo)是預(yù)測(cè)未來(lái),在認(rèn)識(shí)客觀規(guī)律的基礎(chǔ)上進(jìn)行分析預(yù)測(cè),從而指導(dǎo)油田生產(chǎn)。
主要參考文獻(xiàn)
[1]葛春燕.數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)公司客戶(hù)評(píng)估中的應(yīng)用研究[J].軟件,2013(1):116-118.
[2]楊澤民.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].軟件,2013(11):71-72.
[3]鐘瑛,張恒山.大數(shù)據(jù)的緣起、沖擊及其應(yīng)對(duì)[J].現(xiàn)代傳播:中國(guó)傳媒大學(xué)學(xué)報(bào),2013(7).
[4]April Reeve.大數(shù)據(jù)管理――數(shù)據(jù)集成的技術(shù)、方法與最佳實(shí)踐[M].余水清,潘黎萍,譯.北京:機(jī)械工業(yè)出版社,2014.
前言
新疆油田重油開(kāi)發(fā)公司是以稠油開(kāi)采為主的采油廠(chǎng)。有著將近10年的數(shù)字油田建設(shè)歷史。而且中心數(shù)據(jù)庫(kù)已經(jīng)做得很成熟,主要包括五大業(yè)務(wù)板塊數(shù)據(jù)。即勘探業(yè)務(wù)板塊、開(kāi)發(fā)業(yè)務(wù)板塊、生產(chǎn)業(yè)務(wù)板塊、經(jīng)營(yíng)業(yè)務(wù)板塊的數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)包括的內(nèi)容主要有單井、區(qū)塊的日月報(bào)數(shù)據(jù)、試井與生產(chǎn)測(cè)井?dāng)?shù)據(jù)、分析化驗(yàn)數(shù)據(jù)、井下作業(yè)和地理信息數(shù)據(jù)等。數(shù)據(jù)庫(kù)的數(shù)據(jù)資源種類(lèi)齊全,質(zhì)量高。2010年新疆油田重油開(kāi)發(fā)公司正式開(kāi)始進(jìn)行智能化油田建設(shè)工作,利用物聯(lián)網(wǎng)診斷單井問(wèn)題,使用大數(shù)據(jù)技術(shù)對(duì)油田進(jìn)行全面感知、分析預(yù)測(cè)、優(yōu)化決策找到油水井的生產(chǎn)規(guī)律,從而有助于油田生產(chǎn)工作進(jìn)行。
1 油田大數(shù)據(jù)的概念及處理流程
大數(shù)據(jù)有四個(gè)特點(diǎn)即量大(Volume)、快速生產(chǎn)(Velocity)、類(lèi)型豐富(Variety)、真實(shí)性(Veracity),被稱(chēng)為4V[1]。由于數(shù)據(jù)的數(shù)量非常大,就將數(shù)據(jù)組成數(shù)據(jù)集,進(jìn)行管理、處理實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。大數(shù)據(jù)對(duì)數(shù)據(jù)庫(kù)的整理流程是將數(shù)據(jù)轉(zhuǎn)化為信息,將信息轉(zhuǎn)化為知識(shí),再將知識(shí)轉(zhuǎn)化為智慧。這個(gè)過(guò)程應(yīng)用于油田可以理解為是對(duì)油田的生產(chǎn)和管理工作。大數(shù)據(jù)的七個(gè)處理步驟包括:對(duì)數(shù)據(jù)的提取和收集、清洗數(shù)據(jù)、分析數(shù)據(jù)找到潛在的內(nèi)在價(jià)值規(guī)律、建立預(yù)測(cè)模型、對(duì)結(jié)果進(jìn)行可視化的估計(jì)、驗(yàn)證結(jié)果、評(píng)估模型。
2 大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)研究
新疆油田為了滿(mǎn)足生產(chǎn)應(yīng)用,構(gòu)建了一個(gè)有效的大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)。此平臺(tái)主要包括四個(gè)基礎(chǔ)架構(gòu):數(shù)據(jù)抽取平臺(tái)、進(jìn)行分布式的存儲(chǔ)平臺(tái)、大數(shù)據(jù)的分析與展示平臺(tái)。最底層是數(shù)據(jù)抽取平臺(tái)主要是實(shí)現(xiàn)數(shù)據(jù)的整合,將數(shù)據(jù)轉(zhuǎn)化成適合進(jìn)行數(shù)據(jù)挖掘或者建模的形式,構(gòu)建可靠的樣本數(shù)據(jù)集。存儲(chǔ)平臺(tái)主要是對(duì)數(shù)據(jù)進(jìn)行匯總、建模、分析,最后將處理好的數(shù)據(jù)進(jìn)行儲(chǔ)存。其功能與數(shù)據(jù)倉(cāng)庫(kù)相似。大數(shù)據(jù)分析層,是在大數(shù)據(jù)建模的工具和算法基礎(chǔ)上,挖掘隱藏的數(shù)據(jù)模式和關(guān)系,利用數(shù)據(jù)軟件進(jìn)行分類(lèi)、建模,生成預(yù)測(cè)的結(jié)果,結(jié)合專(zhuān)家經(jīng)驗(yàn)利用測(cè)試的樣本選定評(píng)價(jià)方案不斷提高模型的精度,更好的用于油田的決策。數(shù)據(jù)應(yīng)用層主要是把建立的模型設(shè)計(jì)為運(yùn)行軟件,運(yùn)用建模方法實(shí)現(xiàn)數(shù)據(jù)的可視化界面設(shè)計(jì),更好的實(shí)現(xiàn)人機(jī)交互。
3 大數(shù)據(jù)分析技術(shù)研究
進(jìn)行大數(shù)據(jù)分析時(shí)我們經(jīng)常采用兩大技術(shù)即大數(shù)據(jù)預(yù)處理和抽取技術(shù),大數(shù)據(jù)分析技術(shù)。
3.1 大數(shù)據(jù)抽取及預(yù)處理技術(shù)
大數(shù)據(jù)預(yù)處理和抽取技術(shù)的原理是指將不同名稱(chēng),不同時(shí)間,不同地點(diǎn)的多種不同結(jié)構(gòu)和類(lèi)別的數(shù)據(jù)抽取處理成一種所表達(dá)的算法和內(nèi)涵一致便于處理類(lèi)型的數(shù)據(jù)結(jié)構(gòu)[2]。在檢查數(shù)據(jù)缺失、數(shù)據(jù)異常時(shí)可以使用數(shù)據(jù)清洗方法確定有用的數(shù)據(jù),一般采用剔除法或估計(jì)值法、填補(bǔ)平均值替換錯(cuò)誤的數(shù)據(jù)。為了滿(mǎn)足建模所需的大量數(shù)據(jù),創(chuàng)建新的字段時(shí)需要進(jìn)行數(shù)據(jù)庫(kù)的構(gòu)建。將原始數(shù)據(jù)用一定的方法如歸一法轉(zhuǎn)換為可用于數(shù)據(jù)挖掘的數(shù)據(jù),這個(gè)過(guò)程為數(shù)據(jù)轉(zhuǎn)換。
3.2 大數(shù)據(jù)分析技術(shù)
應(yīng)用于油田的大數(shù)據(jù)分析技術(shù)為:因子分析技術(shù)、聚類(lèi)分析技術(shù)、回歸分析技術(shù)和數(shù)據(jù)挖掘技術(shù)。其中的因子分析技術(shù)是指,利用少數(shù)的因子對(duì)多個(gè)指標(biāo)和因素間的相關(guān)性進(jìn)行描述,一般將密切相關(guān)的多個(gè)變量歸納為一類(lèi),這一類(lèi)數(shù)據(jù)就屬于一個(gè)影響因子,用較少的因子反應(yīng)大量數(shù)據(jù)的信息。聚類(lèi)分析技術(shù)是指把具有某種共同特性的事物或者物體歸屬于一個(gè)類(lèi)型,并按照這些特性劃分為幾個(gè)類(lèi)別,同種類(lèi)型的事物相似性較高。這樣更利于辨別預(yù)先未知的事物特征?;貧w分析是指在一組數(shù)據(jù)的基礎(chǔ)之上,研究一個(gè)變量和其他變量間隱藏的關(guān)系。利用回歸方程,進(jìn)行回歸分析,從而有規(guī)律地把變量之間的不規(guī)則,不確定的復(fù)雜關(guān)系簡(jiǎn)單得表示出來(lái)。
在使用大數(shù)據(jù)進(jìn)行分析時(shí),數(shù)據(jù)挖掘技術(shù)是最關(guān)鍵的一門(mén)技術(shù)。該技術(shù)將大量復(fù)雜的、隨機(jī)性的、模糊的、不完整的數(shù)據(jù)進(jìn)行分析,挖掘出對(duì)人類(lèi)未來(lái)有用的數(shù)據(jù),即提前獲得未知信息的過(guò)程[3]。數(shù)據(jù)挖掘功能分為預(yù)測(cè)功能和描述功能。數(shù)據(jù)預(yù)測(cè)是指對(duì)數(shù)據(jù)進(jìn)行處理推算,完成預(yù)測(cè)的目的。數(shù)據(jù)描述是展現(xiàn)集體數(shù)據(jù)的特性。數(shù)據(jù)挖掘功能是與數(shù)據(jù)的目標(biāo)類(lèi)型有關(guān),有的功能適用于不同類(lèi)型的數(shù)據(jù),有的功能則只適用于特定功能的數(shù)據(jù)。數(shù)據(jù)挖掘的作用就是讓人們能夠提前得到未知的消息,提升數(shù)據(jù)的有效性,使其可以應(yīng)用于不同的領(lǐng)域。
4 大數(shù)據(jù)分析在油田生產(chǎn)中的應(yīng)用研究
4.1 異常井自動(dòng)識(shí)別
油田生產(chǎn)過(guò)程中影響最大的一個(gè)因素是異常井的出現(xiàn),因此生產(chǎn)管理人員加大了對(duì)異常井的重視。最初,異常井的識(shí)別主要是依靠生產(chǎn)部門(mén)的生產(chǎn)人員,必須經(jīng)過(guò)人工查閱許多關(guān)于油田生產(chǎn)的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說(shuō)大量的檢索工作、耗費(fèi)時(shí)間長(zhǎng)等,對(duì)異常井的診斷和措施制定造成很大的困難。異常井是指油井當(dāng)天的產(chǎn)油量和上個(gè)月相比波動(dòng)很大,并大于正常的波動(dòng)范圍。目前廣泛采用數(shù)據(jù)挖掘技術(shù)和聚類(lèi)分析技術(shù)對(duì)異常井進(jìn)行識(shí)別,提高效率。為了實(shí)現(xiàn)算法編譯使用技術(shù),系統(tǒng)架構(gòu)B/S模式進(jìn)行,能夠及時(shí)發(fā)現(xiàn)異常井的存在。
4.2 異常井智能診斷
異常井診斷是油田每天進(jìn)行生產(chǎn)必須要完成的工序。而大部分油田采用人工方法對(duì)其進(jìn)行異常診斷,工作量極大,影響因素較多,診斷結(jié)果的可靠性較低,對(duì)后期進(jìn)行計(jì)劃實(shí)施造成很大的影響。這時(shí)可以采用智能診斷方法,利用灰度圖像處理技術(shù)和人臉識(shí)別算法建立抽油井的特征功圖庫(kù),對(duì)比油井當(dāng)前的功圖和所建立的特征功圖,實(shí)現(xiàn)異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時(shí)一種工況可能會(huì)有許多中表現(xiàn)方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個(gè)工況下關(guān)聯(lián)的因子間是如何變化,然后建立參數(shù)診斷數(shù)據(jù)庫(kù),對(duì)比相關(guān)因子的指標(biāo)項(xiàng),找到異常的原因,采取適合的方案進(jìn)行修改,從而提高單井的生產(chǎn)效率。
4.3 間抽井開(kāi)關(guān)井計(jì)劃制訂
當(dāng)油田開(kāi)發(fā)進(jìn)入后期階段就會(huì)出現(xiàn)很多問(wèn)題,過(guò)度開(kāi)發(fā)使得地層的能量越來(lái)越少,致使更多供液不足的井開(kāi)發(fā)出來(lái)。將這類(lèi)井稱(chēng)之為間歇出油井。新疆油田一般會(huì)使用人工方法制訂間歇出油井的開(kāi)關(guān)時(shí)間計(jì)劃,但是對(duì)于計(jì)劃的合理性沒(méi)有進(jìn)行檢驗(yàn)。若是能夠控制好間歇出油井的開(kāi)關(guān)時(shí)間,對(duì)油田實(shí)現(xiàn)節(jié)能減排是至關(guān)重要的。這時(shí)可以采用因子分析方法和回歸分析法進(jìn)行研究,利用數(shù)據(jù)挖掘技術(shù)找出影響間歇出油井的開(kāi)關(guān)時(shí)間的因素,建立合適的分析模型,對(duì)模型進(jìn)行線(xiàn)性回歸,進(jìn)行歸一化處理。從而為業(yè)務(wù)人員提供制訂間歇出油井開(kāi)關(guān)時(shí)間的合理方案,達(dá)到節(jié)能減排的效果。
4.4 油井清防蠟預(yù)測(cè)
目前油田上對(duì)于油井清蠟采取平均每口井一個(gè)月清洗一次蠟的措施,按照人工計(jì)劃進(jìn)行,出現(xiàn)了許多問(wèn)題。比如,一些井還沒(méi)有結(jié)蠟就已被清洗,有些井已經(jīng)結(jié)蠟,卻沒(méi)有得到及時(shí)清洗。這樣既浪費(fèi)大量的人力物力,而且還對(duì)油田的生產(chǎn)效率產(chǎn)生不利影響。若是利用因子分析法,將收集的關(guān)于結(jié)蠟周期、清蠟方式、清蠟用量、油井狀況等數(shù)據(jù)進(jìn)行分析,建立油井Y蠟?zāi)P?,再利用回歸分析法對(duì)建立的模型建立曲線(xiàn)方程,進(jìn)行預(yù)測(cè),找到結(jié)蠟時(shí)間,推斷出結(jié)蠟周期,更好的指導(dǎo)油田清蠟工序的進(jìn)行,提高油田的精細(xì)化管理。
5 結(jié)束語(yǔ)
總之,對(duì)比以前利用人工進(jìn)行油田生產(chǎn)可以發(fā)現(xiàn)大數(shù)據(jù)對(duì)于油田生產(chǎn)是非常必要的,可以更快的挖掘油田的生產(chǎn)作業(yè)規(guī)律,解決油田生產(chǎn)的困難。而且,可以利用油田數(shù)據(jù)進(jìn)行可視化分析,關(guān)注問(wèn)題的主要影響因素找到管理中存在的不足,預(yù)防未來(lái)問(wèn)題的出現(xiàn)。大數(shù)據(jù)的核心價(jià)值就是通過(guò)以往大量數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)出未來(lái),從而更好地指導(dǎo)油田的生產(chǎn)工作。
參考文獻(xiàn)
中圖分類(lèi)號(hào) TP3 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2017)180-0030-02
1 概述
保定?中國(guó)電谷智能電網(wǎng)可視化平臺(tái)整體采用大數(shù)據(jù)技術(shù)架構(gòu)進(jìn)行構(gòu)建,能蚨緣繽在運(yùn)行過(guò)程中產(chǎn)生的大規(guī)模、多種類(lèi)、結(jié)構(gòu)類(lèi)型復(fù)雜的業(yè)務(wù)數(shù)據(jù)進(jìn)行全景容納,全面反映電網(wǎng)運(yùn)行、監(jiān)測(cè)、能量采集和檢修過(guò)程的整體情況。較之傳統(tǒng)信息系統(tǒng),基于大數(shù)據(jù)和云計(jì)算的智能電網(wǎng)可視化平臺(tái)能夠有效提升系統(tǒng)數(shù)據(jù)分析的并行能力,顯著提高計(jì)算速度,進(jìn)一步提升智能調(diào)度的科學(xué)性和前瞻性,解決電網(wǎng)運(yùn)行狀態(tài)檢測(cè)和電能損耗等方面暴露出來(lái)的問(wèn)題,在負(fù)荷分布式控制和用戶(hù)側(cè)短期負(fù)荷預(yù)測(cè)方面取得突破。
2 設(shè)計(jì)規(guī)劃
2.1 設(shè)計(jì)思路
隨著大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等新興科技的發(fā)展,我國(guó)電力企業(yè)迎來(lái)轉(zhuǎn)變生產(chǎn)模式和管理模式,實(shí)現(xiàn)可持續(xù)發(fā)展的重要契機(jī),特別是對(duì)于堅(jiān)強(qiáng)智能電網(wǎng)的建設(shè),帶來(lái)了深遠(yuǎn)的影響,大數(shù)據(jù)在支撐電力企業(yè)業(yè)務(wù)發(fā)展的過(guò)程中,具備廣闊的應(yīng)用前景。
基于大數(shù)據(jù)架構(gòu)的智能電網(wǎng)可視化平臺(tái)系統(tǒng)數(shù)據(jù)來(lái)源于國(guó)網(wǎng)省電力公司數(shù)據(jù)中心各系統(tǒng),通過(guò)大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)清理、轉(zhuǎn)換和展示。用電信息采集系統(tǒng)、區(qū)域新能源管理系統(tǒng)、故障搶修管理系統(tǒng)等多個(gè)系統(tǒng),同時(shí)通過(guò)數(shù)據(jù)接口將區(qū)域新能源實(shí)時(shí)數(shù)據(jù)、電網(wǎng)運(yùn)行狀態(tài)信息、用電信息、配網(wǎng)搶修故障信息等系統(tǒng)的關(guān)鍵指標(biāo)數(shù)據(jù)傳輸?shù)酱髷?shù)據(jù)平臺(tái),利用大數(shù)據(jù)技術(shù)和云計(jì)算并行處理技術(shù),對(duì)關(guān)鍵指標(biāo)進(jìn)行挖掘、分析,并通過(guò)三維可視化技術(shù)直觀動(dòng)態(tài)展現(xiàn)。平臺(tái)的建設(shè)能夠促進(jìn)電力系統(tǒng)生產(chǎn)方式和管理方式的變革,推動(dòng)風(fēng)電、太陽(yáng)能等新能源、清潔能源的消納,幫助電力企業(yè)轉(zhuǎn)變耗能高、排放高、效能低的現(xiàn)狀,面向社會(huì)大眾倡導(dǎo)節(jié)能減排理念,打造耗能低、排放低、效率高的綠色可持續(xù)發(fā)展方式,同時(shí)運(yùn)用虛擬現(xiàn)實(shí)技術(shù)展現(xiàn)智能變電站、智能家居等智能電網(wǎng)取得的成果。
2.2 平臺(tái)架構(gòu)
建設(shè)大數(shù)據(jù)分析平臺(tái)將逐漸融入智能電網(wǎng)全景數(shù)據(jù),能夠容納海量、多樣、快速率的電網(wǎng)運(yùn)行、檢修、能耗等電網(wǎng)信息資產(chǎn)數(shù)據(jù),并運(yùn)用海量數(shù)據(jù)和云計(jì)算模式提供高性能并行處理能力,以較快速度解析出規(guī)律性或根本性的判斷、趨勢(shì)或預(yù)測(cè),在智能調(diào)度、狀態(tài)檢測(cè)、電能損耗分析、負(fù)荷分布式控制、用戶(hù)側(cè)短期負(fù)荷預(yù)測(cè)等領(lǐng)域存在極高的應(yīng)用價(jià)值。
電網(wǎng)全景數(shù)據(jù)的接入、存儲(chǔ)、管理和挖掘利用離不開(kāi)先進(jìn)技術(shù)的大數(shù)據(jù)平臺(tái)支撐,數(shù)據(jù)服務(wù)質(zhì)量的提高更離不開(kāi)技術(shù)的保障?;诖髷?shù)據(jù)架構(gòu)的智能電網(wǎng)可視化平臺(tái)的建設(shè),采用Hadoop技術(shù)架構(gòu),該架構(gòu)具備開(kāi)源、可擴(kuò)展、分布式應(yīng)用計(jì)算的特點(diǎn),為大數(shù)據(jù)實(shí)例化、具體化的應(yīng)用提供了有效支撐。本項(xiàng)目引入基于 Hadoop 架構(gòu)的分布式存儲(chǔ)、并行計(jì)算和多維索引技術(shù),立足電力行業(yè)大數(shù)據(jù)自身特點(diǎn),通過(guò)建立分布式并行計(jì)算平臺(tái),結(jié)合數(shù)據(jù)中心,解決電力生產(chǎn)、調(diào)度運(yùn)行過(guò)程中需要準(zhǔn)實(shí)時(shí)大規(guī)模信息采集、高吞吐、大并發(fā)地?cái)?shù)據(jù)存取和快速高效地分析計(jì)算問(wèn)題。系統(tǒng)物理架構(gòu)如圖1所示。
3 應(yīng)用場(chǎng)景
智能電網(wǎng)可視化平臺(tái)的建設(shè),緊緊抓住了政府打造“保定?電谷”可再生能源產(chǎn)業(yè)基地的契機(jī)。平臺(tái)采用了先進(jìn)的多媒體動(dòng)畫(huà)技術(shù)以及三維虛擬現(xiàn)實(shí)技術(shù),實(shí)時(shí)、直觀地反映保定電谷智能電網(wǎng)運(yùn)行狀態(tài)及業(yè)務(wù)管理過(guò)程,并為電網(wǎng)管理人員做出決策提供了輔助支持;平臺(tái)立足于堅(jiān)強(qiáng)智能電網(wǎng)與城市理念、發(fā)展及生活的關(guān)系,展現(xiàn)智能電網(wǎng)對(duì)保定電谷的支撐作用和重要意義,同時(shí)向全社會(huì)直觀展示了智能電網(wǎng)支撐中國(guó)經(jīng)濟(jì)可持續(xù)發(fā)展的作用,更體現(xiàn)了人與自然和諧相處的主題,增強(qiáng)了社會(huì)對(duì)公司的感知度和認(rèn)知度。系統(tǒng)主要包括下述幾個(gè)方面的應(yīng)用。
3.1 配電自動(dòng)化系統(tǒng)
配電自動(dòng)化系統(tǒng)目前采用數(shù)據(jù)批量導(dǎo)入方式,從調(diào)度部門(mén)獲取配電自動(dòng)化主站系統(tǒng)每日288點(diǎn)數(shù)據(jù),導(dǎo)入智能電網(wǎng)可視化平臺(tái)系統(tǒng)數(shù)據(jù)庫(kù),供指標(biāo)提取。主要內(nèi)容包括:
GIS地圖,以GIS地圖方式,對(duì)電谷區(qū)域進(jìn)行展示,同時(shí)對(duì)電谷區(qū)域涉及的兩座智能變電站進(jìn)行標(biāo)記,直觀展示保定智能電網(wǎng)分布情況。
谷峰差,以柱狀圖方式對(duì)東尹莊、花莊兩座變電站上月每天谷峰差進(jìn)行展示,為工作人員分析用電情況提供依據(jù)。
谷峰差率,以柱狀圖方式對(duì)東尹莊、花莊兩座變電站上月每天谷峰差進(jìn)行展示,為工作人員分析用電情況提供依據(jù)24小時(shí)實(shí)時(shí)負(fù)荷對(duì)比。
遙控成功率,以?xún)x表盤(pán)方式對(duì)電谷區(qū)域終端設(shè)備遙控成功率進(jìn)行展示。
終端在線(xiàn)率,以?xún)x表盤(pán)形式對(duì)智能電網(wǎng)建設(shè)中的智能終端設(shè)備的在線(xiàn)率與投運(yùn)率記性展示。
3.2 輸電線(xiàn)路在線(xiàn)監(jiān)測(cè)系統(tǒng)
智能電網(wǎng)可視化平臺(tái)目前對(duì)輸電線(xiàn)路在線(xiàn)監(jiān)測(cè)系統(tǒng)以鏈接的方式進(jìn)行了數(shù)據(jù)接入,主要對(duì)線(xiàn)路在線(xiàn)監(jiān)測(cè)系統(tǒng)中安裝的監(jiān)控設(shè)備反饋回的現(xiàn)場(chǎng)環(huán)境信息進(jìn)行展示,具體包括以下內(nèi)容:
氣象信息。利用輸電線(xiàn)路氣象監(jiān)測(cè)設(shè)備進(jìn)行數(shù)據(jù)采集分析,最終以表格的形式將當(dāng)天某一時(shí)刻數(shù)據(jù)展示到輸電線(xiàn)路在線(xiàn)監(jiān)測(cè)系統(tǒng)中,主要包括風(fēng)速、降雨量、氣溫、氣壓、相對(duì)溫度、最大風(fēng)速、極大風(fēng)速、光照強(qiáng)度等數(shù)據(jù)。
絕緣子污穢。利用絕緣子污穢度監(jiān)測(cè)設(shè)備進(jìn)行數(shù)據(jù)采集,具體包括鹽密、灰密等指標(biāo)。以曲線(xiàn)形式將最近一個(gè)月的數(shù)據(jù)展示到輸電線(xiàn)路在線(xiàn)監(jiān)測(cè)系統(tǒng)中。
導(dǎo)線(xiàn)溫度。主要對(duì)導(dǎo)線(xiàn)溫度進(jìn)行監(jiān)測(cè),最總以曲線(xiàn)的形式將最近一個(gè)月的數(shù)據(jù)展示到輸電線(xiàn)路在線(xiàn)監(jiān)測(cè)系統(tǒng)中。
導(dǎo)線(xiàn)弧垂。對(duì)導(dǎo)線(xiàn)弧垂、導(dǎo)線(xiàn)對(duì)地距離進(jìn)行監(jiān)測(cè),以曲線(xiàn)的形式將最近一個(gè)月的數(shù)據(jù)展示到系統(tǒng)中。
塔桿周邊環(huán)境。通過(guò)高清攝像頭對(duì)塔桿周邊環(huán)境進(jìn)行實(shí)時(shí)監(jiān)測(cè),將塔桿周邊環(huán)境照片傳輸給系統(tǒng),固定時(shí)間間隔更新圖片。
3.3 清潔能源
開(kāi)展了分布式光伏電源l電預(yù)測(cè)研究,開(kāi)展了光伏電源接入系統(tǒng)電壓穩(wěn)定、準(zhǔn)入容量、電能質(zhì)量等專(zhuān)題亞牛,開(kāi)展了分布式光伏發(fā)電實(shí)時(shí)監(jiān)控研究。
新能源系統(tǒng)接入。采集每個(gè)月用戶(hù)的各種數(shù)據(jù),形成保定地區(qū)的光伏用戶(hù)分布圖。通過(guò)數(shù)據(jù)沉淀及數(shù)據(jù)分析方式,展示出每個(gè)光伏用戶(hù)的發(fā)電量。
光伏發(fā)電、風(fēng)力發(fā)電實(shí)時(shí)監(jiān)控。通過(guò)安裝高清攝像頭,對(duì)國(guó)網(wǎng)保定供電公司下英利產(chǎn)業(yè)園光伏發(fā)電設(shè)備進(jìn)行實(shí)時(shí)監(jiān)控,將監(jiān)控畫(huà)面?zhèn)鬏數(shù)娇梢暬脚_(tái)系統(tǒng)中,供工作人員參考。對(duì)曲陽(yáng)等地風(fēng)力發(fā)電設(shè)備進(jìn)行實(shí)時(shí)監(jiān)控,將設(shè)備運(yùn)行狀態(tài)信息傳輸?shù)街悄茈娋W(wǎng)可視化平臺(tái)系統(tǒng)中。
3.4 智能家居
對(duì)智能家居進(jìn)行兩方面展示,一是對(duì)智能家居概念及應(yīng)用情況進(jìn)行了文字性介紹,二是通過(guò)視頻仿真模擬技術(shù),對(duì)保定智能電網(wǎng)建設(shè)工程在智能家居領(lǐng)域取得的成果進(jìn)行展示。主要包括智能安防控制系統(tǒng)、智能家居控制器、智能燈光控制系統(tǒng)、智能家電控制系統(tǒng)、家庭直流光伏系統(tǒng)五部分。
3.5 配網(wǎng)故障搶修
通過(guò)GIS地圖展示故障點(diǎn)位置,突出顯示,點(diǎn)擊查看具體故障信息,并對(duì)停電影響的臺(tái)區(qū)及用戶(hù)信息進(jìn)行查詢(xún)。同時(shí)實(shí)現(xiàn)車(chē)輛信息的實(shí)時(shí)監(jiān)控展示。
GIS地圖。通過(guò)GIS地圖方式,將故障點(diǎn)進(jìn)行標(biāo)注。直觀反映給工作人員,提高故障處理效率。
數(shù)據(jù)接入。將故障搶修系統(tǒng)中故障分布統(tǒng)計(jì)情況、故障點(diǎn)位置信息、故障原因等數(shù)據(jù)進(jìn)行提取。通過(guò)圖表、表格等形式進(jìn)行展示。
車(chē)輛定位功能。實(shí)現(xiàn)對(duì)搶修車(chē)輛位置定位功能,顯示搶修車(chē)輛的實(shí)時(shí)運(yùn)行軌跡。
停電范圍影響查詢(xún)功能。實(shí)現(xiàn)停電影響臺(tái)區(qū)和用戶(hù)的查詢(xún)功能。
3.6 現(xiàn)場(chǎng)監(jiān)控
加大對(duì)發(fā)電設(shè)備監(jiān)控力度,對(duì)智能變電站、英利產(chǎn)業(yè)園光伏發(fā)電設(shè)備、曲陽(yáng)等地風(fēng)力發(fā)電設(shè)備安裝高清攝像頭,進(jìn)行視頻監(jiān)控。通過(guò)視頻圖像采集終端設(shè)備以及無(wú)線(xiàn)網(wǎng)絡(luò),將傳來(lái)的圖片、視頻等數(shù)據(jù)展示在智能電網(wǎng)可視化平臺(tái)系統(tǒng)中。
3.7 智能變電站
智能電網(wǎng)可視化平臺(tái)系統(tǒng)對(duì)智能變電站的建設(shè)規(guī)模、建設(shè)內(nèi)容進(jìn)行了介紹。并且對(duì)智能變電站進(jìn)行了三維仿真模擬,對(duì)智能變電站進(jìn)行了全方位展示。
4 結(jié)論
近年來(lái),隨著堅(jiān)強(qiáng)智能電網(wǎng)全面建設(shè)的不斷推進(jìn),電網(wǎng)數(shù)據(jù)資源呈現(xiàn)幾何級(jí)增長(zhǎng),大數(shù)據(jù)、云計(jì)算為代表的全新IT技術(shù)在電力系統(tǒng)的建設(shè)中被廣泛應(yīng)用,數(shù)據(jù)與技術(shù)的結(jié)合,為優(yōu)化電能生產(chǎn)、合理調(diào)配資源提供了決策依據(jù)。運(yùn)用大數(shù)據(jù)、云計(jì)算技術(shù)推動(dòng)智能電網(wǎng)的發(fā)展已經(jīng)成為時(shí)代的必然選擇,而大數(shù)據(jù)也必將成為電力企業(yè)的核心 資產(chǎn)。
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)03-0245-03
Application of Big Data Analysis Technology in Wind Power Equipment Anomaly Prediction
ZHANG Hui-ting, WANG Jian, LING Wei-qing
(CIMS Research Center,Tongji University, Shanghai 201804, China)
Abstract: According to the working conditions of wind turbine generator monitoring complex, large amount of data, multi-source, complex, the characteristics of rapid growth, the abnormal current prediction methods in the face of big data to ensure accuracy and rapid processing, the proposed combination of Hadoop batch processing technology and BP neural network of wind turbine online anomaly prediction model, abnormal prediction of equipment state information. The experimental results show that the method has good acceleration effect under the premise of ensuring the accuracy, which can provide important reference information for the wind farm maintenance staff.
Key words: wind turbine; anomaly prediction; Hadoop batch processing;BP neural network
風(fēng)能作為一種蘊(yùn)藏量巨大且無(wú)污染的可再生能源,受到世界各國(guó)的關(guān)注與日俱增。但是,風(fēng)電機(jī)組的故障率會(huì)隨著運(yùn)行時(shí)間的加長(zhǎng)而不斷升高,這就需要對(duì)機(jī)組主要部件的故障做好預(yù)防工作。目前,風(fēng) 電 業(yè) 主 廣 泛 采 用 數(shù) 據(jù) 采 集 與 監(jiān) 控(supervisory control and data acquisition,SCADA)系統(tǒng)監(jiān)測(cè)風(fēng)電機(jī)組及其部件的運(yùn)行狀態(tài),然而,SCADA 系統(tǒng)的監(jiān)測(cè)項(xiàng)目針對(duì)各自監(jiān)控的對(duì)象,僅僅依靠對(duì)監(jiān)測(cè)數(shù)據(jù)設(shè)置閥值來(lái)進(jìn)行越限報(bào)警,而且在線(xiàn)監(jiān)測(cè)信息量大、采集數(shù)據(jù)點(diǎn)密,傳統(tǒng)的監(jiān)控系統(tǒng)難以滿(mǎn)足海量監(jiān)測(cè)稻蕕腦諳嘰理需求[1]。因此,如何通過(guò)風(fēng)電機(jī)組狀態(tài)監(jiān)測(cè)大數(shù)據(jù)進(jìn)行快速有效的機(jī)組設(shè)備異常預(yù)測(cè)成為了新的課題。
較多研究者通過(guò)建立狀態(tài)參數(shù)預(yù)測(cè)模型,分析風(fēng)電機(jī)組運(yùn)行狀態(tài)的真實(shí)變化情況。文獻(xiàn)[2]通過(guò)對(duì)齒輪箱溫度趨勢(shì)的分析建立了預(yù)測(cè)模型,該模型是基于單一運(yùn)行參數(shù)針對(duì)某個(gè)子系統(tǒng)構(gòu)建的,預(yù)測(cè)精度有待提高。文獻(xiàn)[3]首先建立了主軸軸承、齒輪箱的多元線(xiàn)性回歸溫度預(yù)測(cè)模型來(lái)對(duì)部件溫度進(jìn)行一步超前預(yù)測(cè)。文獻(xiàn)[4]提出了一種基于最小二乘支持向量機(jī)的風(fēng)電機(jī)組故障預(yù)警方法,利用實(shí)際風(fēng)場(chǎng)機(jī)組運(yùn)行監(jiān)控?cái)?shù)據(jù)驗(yàn)證了此方法的可行性,但是,對(duì)于結(jié)構(gòu)復(fù)雜的海量監(jiān)測(cè)數(shù)據(jù),該方法在保證精度的情況下難以滿(mǎn)足我們對(duì)于處理速度的要求。
針對(duì)如上問(wèn)題,本文提出了結(jié)合Hadoop批處理技術(shù)和BP神經(jīng)網(wǎng)絡(luò)狀態(tài)參數(shù)模型的風(fēng)電機(jī)組異常預(yù)測(cè)方法。首先,使用Hadoop平臺(tái)存儲(chǔ)海量歷史狀態(tài)監(jiān)測(cè)數(shù)據(jù),依據(jù)選取的狀態(tài)參數(shù),實(shí)現(xiàn)基于BP神經(jīng)網(wǎng)絡(luò)的異常預(yù)測(cè)算法,然后使用MapReduce框架并行的對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練,以獲得較好的加速效果,最后,通過(guò)實(shí)驗(yàn)驗(yàn)證該異常預(yù)測(cè)模型的有效性和精確性。
1 風(fēng)電設(shè)備異常預(yù)測(cè)模型體系概述
1.1 模型框架
基于模型預(yù)測(cè)精度與數(shù)據(jù)處理速度的需要,本文基于Hadoop集群,運(yùn)用MapReduce框架,提出了兼顧預(yù)測(cè)精度與運(yùn)行速度的風(fēng)電設(shè)備異常預(yù)測(cè)模型,該模型的框架結(jié)構(gòu)如圖1所示,主要包括數(shù)據(jù)采集層、存儲(chǔ)層、分析層、應(yīng)用層等4個(gè)模塊。
具體模塊描述如下:
1)數(shù)據(jù)采集層。主要包括風(fēng)電設(shè)備的狀態(tài)監(jiān)測(cè)數(shù)據(jù)、天氣數(shù)據(jù)、地理信息數(shù)據(jù)
以及各種特殊傳感器等業(yè)務(wù)系統(tǒng)的生產(chǎn)運(yùn)行管理數(shù)據(jù)。這些數(shù)據(jù)來(lái)源不一、模態(tài)各異,而且存在大量的重復(fù)數(shù)據(jù),該模塊主要完成異常數(shù)據(jù)和重復(fù)數(shù)據(jù)的清除工作,清理后的數(shù)據(jù)使用Sqoop等大數(shù)據(jù)連接器技術(shù)傳輸?shù)椒植际綌?shù)據(jù)庫(kù)或者文件系統(tǒng)中,Sqoop在傳輸數(shù)據(jù)時(shí)會(huì)自動(dòng)對(duì)其格式進(jìn)行標(biāo)準(zhǔn)化的調(diào)整,減少了人為的序列/反序列化操作。
2)存儲(chǔ)層。本文主要采用HBase,Hive等分布式數(shù)據(jù)庫(kù)作為存儲(chǔ)介質(zhì),HBase是一個(gè)構(gòu)建在HDFS上的分布式列存儲(chǔ)系統(tǒng),它具有高可靠、高性能以及可伸縮等特點(diǎn),可以方便地在服務(wù)器上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,提供類(lèi)sql查詢(xún)功能,可以將sql語(yǔ)句轉(zhuǎn)譯為MapReduce作業(yè)并在Hadoop上執(zhí)行,便于大批量數(shù)據(jù)處理任務(wù)的并行運(yùn)行[5]。這些分布式數(shù)據(jù)庫(kù)都具有高容錯(cuò)率和高吞吐量的特點(diǎn),可以很好地滿(mǎn)足海量歷史監(jiān)測(cè)數(shù)據(jù)的存儲(chǔ)要求,并且適用于數(shù)據(jù)的批處理訪(fǎng)問(wèn)模式。
3)分析層。集成有訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,基于SCADA狀態(tài)監(jiān)測(cè)數(shù)據(jù)、天氣數(shù)據(jù)以及地理信息數(shù)據(jù),應(yīng)用大數(shù)據(jù)分析技術(shù)進(jìn)行風(fēng)電設(shè)備的異常狀態(tài)預(yù)測(cè)。
傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法在處理海量數(shù)據(jù)集時(shí)面臨耗時(shí)長(zhǎng),甚至是內(nèi)存不足無(wú)法訓(xùn)練等問(wèn)題,本文在開(kāi)源云計(jì)算平臺(tái)Hadoop 的基礎(chǔ)上,實(shí)現(xiàn)了基于MapReduce框架的BP神經(jīng)網(wǎng)絡(luò)并行化運(yùn)行方式,可以并行的對(duì)訓(xùn)練樣本進(jìn)行批量訓(xùn)練,大大地提升了模型的精度和運(yùn)行速度。
4)應(yīng)用層。該模塊使用訓(xùn)練好的異常預(yù)測(cè)模型,結(jié)合在線(xiàn)輸入的監(jiān)測(cè)數(shù)據(jù),進(jìn)而獲得狀態(tài)參數(shù)的預(yù)測(cè)值,計(jì)算模型輸出值與實(shí)際監(jiān)測(cè)值的殘差,當(dāng)殘差發(fā)生劇烈波動(dòng)時(shí),判斷風(fēng)電設(shè)備的運(yùn)行狀態(tài)出現(xiàn)異常,并通過(guò)數(shù)據(jù)可視化技術(shù)對(duì)相關(guān)人員進(jìn)行展示。
1.2 基于MapReduce的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型
BP神經(jīng)網(wǎng)絡(luò)是一種按誤差反向傳播算法訓(xùn)練的多層前饋網(wǎng)絡(luò),在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,它能夠很好地表示任意的非線(xiàn)性映射關(guān)系,而無(wú)需事前了解描述這種映射關(guān)系的數(shù)學(xué)方程。BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)包括輸出層、輸入層和若干隱層,它的學(xué)習(xí)算法使用最速下降法,通過(guò)不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閥值來(lái)使網(wǎng)絡(luò)的誤差平方和最小。有研究表明,只要隱層含有足夠多的神經(jīng)元數(shù)目,僅僅包含一個(gè)隱層的神經(jīng)網(wǎng)絡(luò)就能夠以任意精度逼近一個(gè)連續(xù)的非線(xiàn)性函數(shù)[6]。因此,本文采用只含有一個(gè)隱層的神經(jīng)網(wǎng)絡(luò)模型,模型示意圖如圖2所示:
為了運(yùn)用并行運(yùn)算的方法來(lái)減少算法運(yùn)行時(shí)間,本文參考文獻(xiàn)[7]中對(duì) BP神經(jīng)網(wǎng)絡(luò)算法的MapReduce并行化方法,在Map階段對(duì)每個(gè)權(quán)值的變化量進(jìn)行計(jì)算并輸出,然后在Reduce階段對(duì)各個(gè)權(quán)值的總變化量進(jìn)行統(tǒng)計(jì),之后再統(tǒng)一調(diào)整權(quán)值,并且使用批處理的方式進(jìn)行訓(xùn)練。
1.3 風(fēng)電機(jī)組異常預(yù)測(cè)運(yùn)行流程
受風(fēng)速的波動(dòng)變化和天氣的季節(jié)性變化影響,風(fēng)電機(jī)組的運(yùn)行環(huán)境經(jīng)常發(fā)生劇烈的動(dòng)態(tài)變化,因而需要在不同的運(yùn)行工況之間進(jìn)行頻繁地切換,導(dǎo)致設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)的幅值在正常運(yùn)行狀態(tài)下也會(huì)發(fā)生較大的變化,這意味著我們不能根據(jù)幅值的大小來(lái)判斷機(jī)組的運(yùn)行安全程度。而目前主流的做法都是采用閥值報(bào)警的方法,即如果監(jiān)測(cè)信號(hào)達(dá)到了報(bào)警閥值,則判斷機(jī)組的運(yùn)行狀態(tài)出現(xiàn)異常,這導(dǎo)致了很多漏報(bào)和誤報(bào)的情況發(fā)生,為了提高風(fēng)電設(shè)備異常預(yù)測(cè)的精確度,本文采用了殘差分析的方式對(duì)機(jī)組的運(yùn)行狀態(tài)進(jìn)行判斷,基本流程如圖3所示:
具體過(guò)程闡述如下:
1)選取風(fēng)電機(jī)組正常運(yùn)行狀態(tài)下的 SCADA 數(shù)據(jù),經(jīng)過(guò)預(yù)處理得到可用的監(jiān)測(cè)數(shù)據(jù),然后將這些數(shù)據(jù)按一定的比例劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。
2)訓(xùn)練數(shù)據(jù)經(jīng)過(guò)歸一化處理后,選取風(fēng)速、齒輪箱油溫、機(jī)艙振動(dòng)傳感器X、機(jī)艙振動(dòng)傳感器Y,機(jī)艙振動(dòng)有效值和發(fā)電機(jī)轉(zhuǎn)速等6個(gè)狀態(tài)參數(shù)為模型的輸入?yún)?shù),對(duì)BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,直到模型的輸出值誤差達(dá)到理想的范圍。
3)用預(yù)測(cè)模型對(duì)目標(biāo)參數(shù)進(jìn)行預(yù)測(cè),與實(shí)際值對(duì)比,獲得殘差,如果殘差沒(méi)有超過(guò)閾值,則判斷狀態(tài)正常。
4)如果殘差超過(guò)閾值,則采用式(1)計(jì)算均方根誤差(root-mean- square-error,RMSE),來(lái)衡量殘差變化的劇烈程度,應(yīng)用目前流行的滑動(dòng)窗口技術(shù),可以更加準(zhǔn)確的反映其變化趨勢(shì),本文通過(guò)計(jì)算每天的 RMSE,來(lái)獲得 RMSE 的變化情況。
[D=1mi=1mxi-x2] (1)
式中:D為均方根誤差;m 為樣本數(shù);x為模型的預(yù)測(cè)值;xi為實(shí)際值。
5)當(dāng)RMSE超過(guò)閾值,則判斷機(jī)組狀態(tài)出現(xiàn)異常。
1.4 實(shí)驗(yàn)結(jié)果與分析
為了模擬風(fēng)電場(chǎng)大數(shù)據(jù)風(fēng)電機(jī)組異常狀態(tài)預(yù)測(cè)的相關(guān)情況,在實(shí)驗(yàn)室搭建的Hadoop平臺(tái)上對(duì)本文所述方法進(jìn)行了仿真實(shí)驗(yàn),Hadoop集群由一個(gè)主節(jié)點(diǎn)(Master)
個(gè)兩個(gè)從節(jié)點(diǎn)(Slave)組成,各節(jié)點(diǎn)是由Windows Server 2012 上的Hyper-V管理器創(chuàng)建的虛擬機(jī),節(jié)點(diǎn)的內(nèi)存為2G,硬盤(pán)為200G,在開(kāi)發(fā)的過(guò)程中用到了Eclipse、Hive、HBase等工具。
實(shí)驗(yàn)采用某風(fēng)電公司風(fēng)電場(chǎng)提供的2015年6月到2016年9月產(chǎn)生的實(shí)際運(yùn)行數(shù)據(jù),其中包含37臺(tái)風(fēng)機(jī)的監(jiān)測(cè)數(shù)據(jù),選取其中15臺(tái)風(fēng)機(jī)2016年7月份共15組監(jiān)測(cè)數(shù)據(jù),按一定的比例抽取數(shù)據(jù)作為測(cè)試樣本,對(duì)模型進(jìn)行訓(xùn)練,每組訓(xùn)練1000次,使得模型輸出值誤差范圍達(dá)到滿(mǎn)意的效果,進(jìn)而得到性能良好的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。
為了驗(yàn)證模型狀態(tài)參數(shù)預(yù)測(cè)的精確度,選取對(duì)應(yīng)1臺(tái)風(fēng)機(jī)2016年7月份的共15組監(jiān)測(cè)數(shù)據(jù)作為測(cè)試樣本對(duì)模型進(jìn)行測(cè)試,預(yù)測(cè)下一時(shí)刻齒輪箱油溫平均值,如圖4所示為其中2臺(tái)風(fēng)機(jī)實(shí)際監(jiān)測(cè)值與模型預(yù)測(cè)值的對(duì)比效果,其中,預(yù)測(cè)值為藍(lán)色曲線(xiàn),真實(shí)值為紅色曲線(xiàn),可以看到,兩條曲線(xiàn)基本吻合,驗(yàn)證了模型的有效性和精確性。
圖4 模型預(yù)測(cè)效果對(duì)比圖
為了測(cè)試模型并行化之后的加速效果,對(duì)同樣大小測(cè)試數(shù)據(jù)集分別在單機(jī)和集群環(huán)境下測(cè)試程序運(yùn)行時(shí)間,發(fā)現(xiàn)當(dāng)測(cè)試數(shù)據(jù)量較小時(shí),單機(jī)所用時(shí)間少于集群運(yùn)行時(shí)間,而隨著數(shù)據(jù)集的增大,集群的計(jì)算優(yōu)勢(shì)就越來(lái)越明顯。
1.5 結(jié)束語(yǔ)
針對(duì)在海量歷史監(jiān)測(cè)數(shù)據(jù)基礎(chǔ)上如何快速有效的對(duì)風(fēng)電設(shè)備的異常運(yùn)行狀態(tài)進(jìn)行預(yù)測(cè)這一問(wèn)題,本文基于當(dāng)前主流的大數(shù)據(jù)技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了風(fēng)電設(shè)備的異常預(yù)測(cè)模型?;贖adoop的MapReduce框架,通過(guò)對(duì)訓(xùn)練樣本學(xué)習(xí)得到并行化的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,提高數(shù)據(jù)批處理的效率,加速風(fēng)電機(jī)組異常狀態(tài)預(yù)測(cè)的計(jì)算過(guò)程和數(shù)據(jù)處理的效率。實(shí)例表明,在正常運(yùn)行工況下,預(yù)測(cè)模型能準(zhǔn)確地對(duì)狀態(tài)參數(shù)進(jìn)行預(yù)測(cè),同時(shí)具有出較好的加速效果,滿(mǎn)足海量監(jiān)測(cè)數(shù)據(jù)環(huán)境下風(fēng)電機(jī)組在線(xiàn)異常狀態(tài)預(yù)測(cè)的要求。
參考文獻(xiàn):
[1] Bin Lu, Yaoyu Li, Xin Wu and Zhongzhou Yang. A Review of Recent Advances
in Wind Turbine Condition Monitoring and Fault Diagnosis[J]. PEMWA 2009, IEEE, 2009(6): 1-7.
[2] 郭鵬, David Infield, 楊錫運(yùn). 風(fēng)電機(jī)組齒輪箱溫度趨勢(shì)狀態(tài)監(jiān)測(cè)及分析方法[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2011,31(32): 129-136.
[3] 張小田. 基于回歸分析的風(fēng)機(jī)主要部件的故障預(yù)測(cè)方法研究[D]. 北京: 華北電力大學(xué), 2013.
[4] 許駿龍, 李征. 基于支持向量機(jī)的風(fēng)電機(jī)組故障預(yù)警[J]. 工業(yè)控制計(jì)算機(jī), 2013(8): 54-56.
本文討論了一些站點(diǎn)分析的相關(guān)技術(shù)信息和幾種網(wǎng)站分析瀏覽者行為的理論與算法,及數(shù)據(jù)倉(cāng)庫(kù)的相關(guān)理論知識(shí)。并對(duì)站點(diǎn)日志數(shù)據(jù)進(jìn)行了實(shí)例分析,并指出了站點(diǎn)分析技術(shù)發(fā)展的方向。
一、緒論
互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟(jì)帶來(lái)新的革命,從而也影響著人們的生活?;ヂ?lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對(duì)廣大網(wǎng)民的信息載體,企業(yè)通過(guò)這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線(xiàn)。
電子商務(wù)就是網(wǎng)上實(shí)行各種商務(wù)活動(dòng)的總包裝,種種所謂電子商務(wù)解決方案,實(shí)際上就是實(shí)現(xiàn)各種網(wǎng)上商務(wù)活動(dòng)的硬件與軟件系統(tǒng)。它將影響到每一個(gè)人、每一個(gè)企業(yè)。電子商務(wù)的主體是我們每一個(gè)人、每一個(gè)企業(yè),電子商務(wù)發(fā)展的過(guò)程就是對(duì)人們的生活、企業(yè)的運(yùn)行的一種模式的一個(gè)巨大改變的過(guò)程。對(duì)于進(jìn)入虛擬世界的商家而言,僅僅吸引注意力還不行,對(duì)它們而言,站點(diǎn)的訪(fǎng)問(wèn)率絕對(duì)不僅僅是一個(gè)數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò)中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機(jī)。
電子商務(wù)站點(diǎn)用戶(hù)行為的分析這一問(wèn)題也因此成為現(xiàn)如今的熱門(mén)話(huà)題,被人們普遍關(guān)心起來(lái),尤其是被眾商家所重視。Web站點(diǎn)的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長(zhǎng)。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識(shí)(包括模式、規(guī)則、可視化結(jié)構(gòu)等)也成為現(xiàn)在人們最關(guān)注的信息。
在此情況下,站點(diǎn)用戶(hù)行為分析就可為網(wǎng)站或商家提供出大量有價(jià)值的信息,包括站點(diǎn)的受歡迎度的對(duì)比、商業(yè)廣告點(diǎn)擊情況總括、產(chǎn)品的反饋信息、站點(diǎn)各種信息的點(diǎn)擊情況等等。另外,還可根據(jù)不同的頁(yè)面內(nèi)容來(lái)分類(lèi)瀏覽者,以便做出更合理的頁(yè)面分類(lèi),促使網(wǎng)站逐步向個(gè)性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對(duì)互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對(duì)信息技術(shù)亦將產(chǎn)生深遠(yuǎn)的影響。
在電子商務(wù)早期階段時(shí),Web站點(diǎn)數(shù)據(jù)流分析通常是在主頁(yè)上安裝計(jì)數(shù)器以及在一個(gè)外部日志文件上運(yùn)行簡(jiǎn)單的統(tǒng)計(jì)程序記錄點(diǎn)擊率。但是,簡(jiǎn)單的點(diǎn)擊計(jì)數(shù)既不準(zhǔn)確也遠(yuǎn)未達(dá)到營(yíng)銷(xiāo)目的所需的詳細(xì)程度。因此,各公司開(kāi)始尋找更先進(jìn)的分析工具,這類(lèi)工具可以提供誰(shuí)在訪(fǎng)問(wèn)公司W(wǎng)eb站點(diǎn)以及訪(fǎng)問(wèn)者一旦進(jìn)入站點(diǎn)后將做些什么的全面信息。站點(diǎn)開(kāi)始分析的地方是Web服務(wù)器的訪(fǎng)問(wèn)日志。每當(dāng)用戶(hù)在站點(diǎn)上請(qǐng)求一個(gè)網(wǎng)頁(yè)時(shí),這個(gè)請(qǐng)求就被記錄在訪(fǎng)問(wèn)日志中。如:目前有多少用戶(hù)正在訪(fǎng)問(wèn)站點(diǎn)、他們正在看哪些網(wǎng)頁(yè)以及他們?cè)谡军c(diǎn)中呆了多長(zhǎng)時(shí)間。顯然,日志分析和行為概況的正確組合可以對(duì)Web站點(diǎn)的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實(shí)世界中捕獲到的,但這些信息卻可以較容易地在線(xiàn)收集到。Web數(shù)據(jù)流分析工具的這些最新進(jìn)展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶(hù)和他們習(xí)慣的詳細(xì)報(bào)告。
二、站點(diǎn)信息統(tǒng)計(jì)方法
Web頁(yè)面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢(shì)。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒(méi)有模式的無(wú)序數(shù)據(jù)之間,在查詢(xún)前無(wú)法預(yù)先確定其具體的類(lèi)型和格式;同時(shí)它們相應(yīng)的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒(méi)有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進(jìn)行抽取。而有時(shí),盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的
主要特點(diǎn):
1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類(lèi)型或不同的結(jié)構(gòu)表示。
2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。
3.結(jié)構(gòu)是部分的,有時(shí)部分?jǐn)?shù)據(jù)根本無(wú)結(jié)構(gòu),而部分?jǐn)?shù)據(jù)只有粗略的結(jié)構(gòu)。
4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫(kù)使用嚴(yán)格的分類(lèi)策略來(lái)保護(hù)數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對(duì)結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價(jià)是要頻繁修改結(jié)構(gòu)。
5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過(guò)當(dāng)前數(shù)據(jù)歸納出其結(jié)構(gòu),稱(chēng)之為事后模式引導(dǎo)。模式有時(shí)可被忽略,同時(shí)數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。
三、數(shù)據(jù)分析的方法
Web頁(yè)面的數(shù)據(jù)通常是利用統(tǒng)計(jì)模型和數(shù)學(xué)模型來(lái)分析的。使用的模型有線(xiàn)性分析和非線(xiàn)性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時(shí)間序列分析等。這些統(tǒng)計(jì)分析工具能提供可視化功能和分析功能來(lái)尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來(lái)分析、解釋數(shù)據(jù)。并通過(guò)交互式過(guò)程和迭代過(guò)程用來(lái)求精模型,最終開(kāi)發(fā)出最具適應(yīng)性的模型來(lái)將數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息。
知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)倉(cāng)庫(kù)的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢(shì)并發(fā)掘?qū)嵤?。它是分析Web頁(yè)面數(shù)據(jù)的重要方法。知識(shí)發(fā)現(xiàn)與模式識(shí)別的算法有以下幾種:
1.依賴(lài)性分析
依賴(lài)性分析算法搜索數(shù)據(jù)倉(cāng)庫(kù)的條目和對(duì)象,從中尋找重復(fù)出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴(lài)關(guān)系。利用依賴(lài)性分析算法可以從某一數(shù)據(jù)對(duì)象的信息來(lái)推斷另一數(shù)據(jù)對(duì)象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因?yàn)榻?jīng)過(guò)依賴(lài)性分析,商店認(rèn)為:很大一部分買(mǎi)飲料的顧客如果在取飲料的路上看到椒鹽餅干的話(huà)就會(huì)購(gòu)買(mǎi),因而此種分析影響了商店布局。
2.聚類(lèi)和分類(lèi)
在某些情況下,無(wú)法界定要分析的數(shù)據(jù)類(lèi),用聚類(lèi)算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類(lèi)或懷疑的數(shù)據(jù)類(lèi)。聚類(lèi)的過(guò)程是以某一特定時(shí)間為依據(jù),找出一個(gè)共享一些公共類(lèi)別的群體,它稱(chēng)為無(wú)監(jiān)督學(xué)習(xí)。分類(lèi)過(guò)程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時(shí)間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類(lèi)很少在關(guān)系數(shù)據(jù)庫(kù)中進(jìn)行定義,因而規(guī)范的數(shù)據(jù)模型中沒(méi)有它們的位置。最典型的例子是信用卡核準(zhǔn)過(guò)程,可確定能否按商品價(jià)格和其它標(biāo)準(zhǔn)把某一購(gòu)買(mǎi)者歸入可接受的那一類(lèi)中。分類(lèi)又稱(chēng)為有監(jiān)督學(xué)習(xí)。
3.神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)待分析數(shù)據(jù)中的模式來(lái)構(gòu)造模型。它對(duì)隱式類(lèi)型進(jìn)行分類(lèi)。圖像分析是神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一。神經(jīng)網(wǎng)絡(luò)用于模型化非線(xiàn)性的、復(fù)雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個(gè)層次組成:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當(dāng)?shù)臄?shù)據(jù)庫(kù)示例來(lái)訓(xùn)練和學(xué)習(xí)、校正預(yù)測(cè)的模型,提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。