亚洲伊人久久影院_色官网_色姑娘综合网_国产黄色片免费观看_特级毛片在线_亚洲九九

電話咨詢 在線咨詢 產(chǎn)品定制
電話咨詢 在線咨詢 產(chǎn)品定制
010-68321050

數(shù)據(jù)挖掘: 互聯(lián)網(wǎng)行業(yè)的達(dá)摩克利斯之劍

路暢 2018-10-25 1975 285

專屬客服號(hào)

微信訂閱號(hào)

大數(shù)據(jù)治理

全面提升數(shù)據(jù)價(jià)值

賦能業(yè)務(wù)提質(zhì)增效

10月21日,一篇名為《估值175億的旅游獨(dú)角獸,是一座僵尸和水軍構(gòu)成的鬼城?》的文章在社交網(wǎng)絡(luò)廣為流傳,直指在線旅游網(wǎng)站馬蜂窩存在點(diǎn)評(píng)大量造假、85%的數(shù)據(jù)從其他網(wǎng)站抓取的情況,引起了軒然大波。縱觀國(guó)內(nèi)外各大網(wǎng)站,因數(shù)據(jù)問(wèn)題曝光而給企業(yè)形象帶來(lái)負(fù)面影響的新聞經(jīng)常發(fā)生,互聯(lián)網(wǎng)行業(yè)由于本身的業(yè)務(wù)特點(diǎn),成為了數(shù)據(jù)問(wèn)題的“重災(zāi)區(qū)”,而數(shù)據(jù)挖掘既是互聯(lián)網(wǎng)企業(yè)安身立命的根本,也是產(chǎn)生黑色利潤(rùn)的重要工具,成為高懸在企業(yè)頭上的達(dá)摩克利斯之劍。數(shù)據(jù)挖掘?yàn)槭裁慈绱酥匾?本文將為你揭開(kāi)數(shù)據(jù)挖掘行業(yè)的神秘面紗。

       摘要: 10月21日,一篇名為《估值175億的旅游獨(dú)角獸,是一座僵尸和水軍構(gòu)成的鬼城?》的文章在社交網(wǎng)絡(luò)廣為流傳,直指在線旅游網(wǎng)站馬蜂窩存在點(diǎn)評(píng)大量造假、85%的數(shù)據(jù)從其他網(wǎng)站抓取的情況,引起了軒然大波。縱觀國(guó)內(nèi)外各大網(wǎng)站,因數(shù)據(jù)問(wèn)題曝光而給企業(yè)形象帶來(lái)負(fù)面影響的新聞經(jīng)常發(fā)生,互聯(lián)網(wǎng)行業(yè)由于本身的業(yè)務(wù)特點(diǎn),成為了數(shù)據(jù)問(wèn)題的“重災(zāi)區(qū)”,而數(shù)據(jù)挖掘既是互聯(lián)網(wǎng)企業(yè)安身立命的根本,也是產(chǎn)生黑色利潤(rùn)的重要工具,成為高懸在企業(yè)頭上的達(dá)摩克利斯之劍。數(shù)據(jù)挖掘?yàn)槭裁慈绱酥匾?本文將為你揭開(kāi)數(shù)據(jù)挖掘行業(yè)的神秘面紗。

馬蜂窩造假數(shù)據(jù)

圖1 馬蜂窩造假數(shù)據(jù)

(數(shù)據(jù)來(lái)源:新浪科技)

  數(shù)據(jù)挖掘是將商業(yè)數(shù)據(jù)庫(kù)中的諸多信息,經(jīng)過(guò)數(shù)據(jù)清洗和集成、選擇和變換、分析綜合、模型化處理等一系列步驟,提取出有效的、新穎的、潛在有用的以及最終可理解模式,進(jìn)行決策、控制、預(yù)測(cè)的高級(jí)處理過(guò)程。數(shù)據(jù)挖掘最早提出是在1989年,國(guó)內(nèi)對(duì)該領(lǐng)域研究稍晚,1993年國(guó)家自然科學(xué)基金開(kāi)始支持該領(lǐng)域研究。

  數(shù)據(jù)挖掘的方法

  從不同的角度看,數(shù)據(jù)挖掘技術(shù)有多種分類方法,如根據(jù)發(fā)現(xiàn)的知識(shí)種類分類, 根據(jù)挖掘的數(shù)據(jù)庫(kù)類型分類等等。目前常用數(shù)據(jù)挖掘方法包括如下:

  (1) 神經(jīng)網(wǎng)絡(luò)方法

  模擬人腦神經(jīng)元結(jié)構(gòu),以MP 模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),用神經(jīng)網(wǎng)絡(luò)連接的權(quán)值表示知識(shí),其學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計(jì)算上。目前主要有3 大類神經(jīng)網(wǎng)絡(luò)模型:①前饋式網(wǎng)絡(luò),以感知機(jī)、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表, 可用于預(yù)測(cè)、模式識(shí)別等方面。②反饋式網(wǎng)絡(luò),以Hopfield 的離散模型和連續(xù)模型為代表, 分別用于聯(lián)想記憶和優(yōu)化計(jì)算。③自組織網(wǎng)絡(luò),以ART模型、Koholon模型為代表, 用于聚類。

  (2) 遺傳算法

  一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,仿生全局優(yōu)化方法。主要優(yōu)點(diǎn)是隱含并行性、易和其它模型結(jié)合。

  (3) 決策樹(shù)方法

  一種常用于預(yù)測(cè)模型算法,通過(guò)將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的、潛在的信息。主要優(yōu)點(diǎn)是描述簡(jiǎn)單、分類速度快、 適合大規(guī)模的數(shù)據(jù)處理。

  (4) 粗集方法

  在數(shù)據(jù)庫(kù)中,將行元素看成對(duì)象, 列元素看成屬性,等價(jià)關(guān)系R 定義為不同對(duì)象在某個(gè)(或幾個(gè))屬性上取值相同,這些滿足等價(jià)關(guān)系的對(duì)象組成的集合稱為該等價(jià)關(guān)系R 的等價(jià)類。

  (5) 覆蓋正例排斥反例方法

  利用覆蓋所有正例、排斥所有反例的思想來(lái)尋找規(guī)則。首先在正例集合中任選一個(gè)種子,到反例集合中逐個(gè)比較。與字段取值構(gòu)成的選擇子相容則舍去,相反則保留。

  (6) 統(tǒng)計(jì)分析方法

  在數(shù)據(jù)庫(kù)字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系和相關(guān)關(guān)系,對(duì)它們的分析可采用統(tǒng)計(jì)學(xué)方法,進(jìn)行常用統(tǒng)計(jì)、回歸分析、相關(guān)分析、差異分析、主成分分析等。

  (7) 模糊集方法

  即利用模糊集合理論對(duì)實(shí)際問(wèn)題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析。系統(tǒng)的復(fù)雜性越高,模糊性越強(qiáng)。

  (8) 概念樹(shù)方法

  對(duì)數(shù)據(jù)庫(kù)中記錄的屬性字段按歸類方式進(jìn)行抽象,建立起來(lái)的層次結(jié)構(gòu)稱之為概念樹(shù)。對(duì)多個(gè)屬性字段的概念樹(shù)進(jìn)行提升,將得到高度概括的知識(shí)基表,然后可再將它轉(zhuǎn)換成規(guī)則。

  (9) 公式發(fā)現(xiàn)

  在工程和科學(xué)數(shù)據(jù)庫(kù)中,對(duì)若干數(shù)據(jù)項(xiàng)進(jìn)行一定的數(shù)學(xué)運(yùn)算,求得相應(yīng)的數(shù)學(xué)公式。比較典型的BACON完成了對(duì)物理學(xué)中大量定律的重新發(fā)現(xiàn),其基本思想是:對(duì)數(shù)據(jù)項(xiàng)進(jìn)行初等數(shù)學(xué)運(yùn)算,形成組合數(shù)據(jù)項(xiàng),若它的值為常數(shù)項(xiàng),就得到了組合數(shù)據(jù)項(xiàng)等于常數(shù)的公式。

  數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域

  (1)金融領(lǐng)域

  金融數(shù)據(jù)具有可靠性、完整性和高質(zhì)量等特點(diǎn)。這在很大程度上利于開(kāi)展數(shù)據(jù)挖掘工作以及挖掘技術(shù)的應(yīng)用。數(shù)據(jù)挖掘在金融領(lǐng)域中有許多具體的應(yīng)用,例如分析多維數(shù)據(jù),以把握金融市場(chǎng)的變化趨勢(shì);運(yùn)用孤立點(diǎn)分析等方法,研究洗黑錢等犯罪活動(dòng);應(yīng)用分類技術(shù),對(duì)顧客信用進(jìn)行分類,為維持與客戶的關(guān)系以及為客戶提供相關(guān)服務(wù)等決策提供參考。

  (2)醫(yī)療領(lǐng)域

  人類的遺傳史、疾病史以及醫(yī)療方法等醫(yī)療領(lǐng)域中都隱藏著海量的數(shù)據(jù)信息,對(duì)醫(yī)院內(nèi)部結(jié)構(gòu)、醫(yī)藥器具、病人檔案以及其他資料等的管理也產(chǎn)生了巨量的數(shù)據(jù)。對(duì)于這些數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘技術(shù),既有助于醫(yī)療人員發(fā)現(xiàn)疾病的規(guī)律,從而提高診斷的準(zhǔn)確率和治療的有效性,也可以幫助醫(yī)護(hù)人員提高工作效率和質(zhì)量,促進(jìn)健康醫(yī)療事業(yè)的發(fā)展。

  (3)零售和電商領(lǐng)域

  運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)海量的銷售數(shù)據(jù)進(jìn)行分析,可以有效地識(shí)別顧客的購(gòu)買行為,從而把握好顧客的購(gòu)買趨勢(shì)。商家可以根據(jù)數(shù)據(jù)挖掘結(jié)果有針對(duì)性地采取措施,改進(jìn)服務(wù)質(zhì)量,提高商品的銷售量,從而提高企業(yè)效益。此外,由于數(shù)據(jù)挖掘的推薦系統(tǒng)已經(jīng)成為電子商務(wù)的關(guān)鍵技術(shù),通過(guò)數(shù)據(jù)挖掘,再對(duì)網(wǎng)站進(jìn)行系統(tǒng)分析,對(duì)用戶的行為模式加以識(shí)別,在增加客戶黏性,提供個(gè)性化服務(wù),優(yōu)化網(wǎng)站設(shè)計(jì)等方面也取得了很好的效果。

  (4)電信領(lǐng)域

  電信運(yùn)營(yíng)商已逐漸發(fā)展為一個(gè)融合了語(yǔ)音、圖像、視頻等增值服務(wù)的全方位立體化的綜合電信服務(wù)商。運(yùn)營(yíng)商要合理地分析商業(yè)形式和模式,運(yùn)用數(shù)據(jù)挖掘是非常有必要的。例如對(duì)用戶行為、利潤(rùn)率、通信速率和容量、系統(tǒng)負(fù)載等電信數(shù)據(jù),可以運(yùn)用多維分析方法進(jìn)行分析;要發(fā)現(xiàn)異常模式,可以運(yùn)用聚類或孤立點(diǎn)分析等方法進(jìn)行數(shù)據(jù)挖掘;要得到電信發(fā)展的影響因素,可以運(yùn)用關(guān)聯(lián)或序列等模式進(jìn)行分析等。

  (5)社交網(wǎng)絡(luò)分析

  社交網(wǎng)絡(luò)分析是從關(guān)系和結(jié)構(gòu)兩個(gè)方面來(lái)了解、度量和預(yù)測(cè)行為的科學(xué)。結(jié)合圖論和非參數(shù)統(tǒng)計(jì)技術(shù),研究人員利用數(shù)據(jù),來(lái)識(shí)別網(wǎng)絡(luò)內(nèi)和跨網(wǎng)絡(luò)的關(guān)鍵人員和關(guān)鍵群體,或者特殊模式和重要途徑。通過(guò)這些數(shù)據(jù)來(lái)分析人們的活動(dòng)取向,為公司的營(yíng)銷提供有力的依據(jù),也可以利用多個(gè)社交媒體來(lái)交叉驗(yàn)證同一個(gè)人,對(duì)于追蹤犯罪行為、恐怖分子、戀童癖者尤為重要。

  數(shù)據(jù)挖掘的研究方向及發(fā)展趨勢(shì)

  數(shù)據(jù)挖掘研究方興未艾,目前研究焦點(diǎn)集中于以下幾個(gè)方面:

  (1)發(fā)現(xiàn)語(yǔ)言的形式化描述,標(biāo)準(zhǔn)化研究。即研究專門用于數(shù)據(jù)挖掘的語(yǔ)言,像SQL語(yǔ)言一樣走向形式化和標(biāo)準(zhǔn)化。

  (2)尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法。使知識(shí)發(fā)現(xiàn)過(guò)程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)的過(guò)程中進(jìn)行人機(jī)交互。

  (3)數(shù)據(jù)挖掘系統(tǒng)實(shí)施中的安全性和隱定性。數(shù)據(jù)挖掘能從不同角度、不同抽象層上看待數(shù)據(jù),這將潛在地影響數(shù)據(jù)私有性和安全性。隨著網(wǎng)絡(luò)日益普及,研究數(shù)據(jù)挖掘可能導(dǎo)致的非法數(shù)據(jù)入侵是實(shí)際應(yīng)用中亟待解決的問(wèn)題之一。

  (4)功能較強(qiáng)大的專用數(shù)據(jù)挖掘軟件。未來(lái)的幾個(gè)熱點(diǎn)發(fā)展方向,如網(wǎng)站數(shù)據(jù)挖掘、生物信息或基因數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘、個(gè)人數(shù)據(jù)挖掘,這些領(lǐng)域具有獨(dú)特的數(shù)據(jù)性質(zhì),需要專業(yè)軟件來(lái)支持。

  (5)探索新型應(yīng)用領(lǐng)域。主要集中體現(xiàn)在商業(yè)智能,企業(yè)、政府決策。隨著研究的深入,數(shù)據(jù)挖掘系統(tǒng)在處理特定問(wèn)題時(shí)有其局限性,開(kāi)發(fā)針對(duì)某一專業(yè)挖掘系統(tǒng)成為研究趨勢(shì)。

  總結(jié)

  數(shù)據(jù)挖掘是一個(gè)年輕且充滿希望的技術(shù)手段,目前發(fā)展非常迅速,應(yīng)用領(lǐng)域也在不斷擴(kuò)展,產(chǎn)業(yè)前景非常可觀。商業(yè)利益的驅(qū)動(dòng)既會(huì)促進(jìn)它的快速發(fā)展,也容易誘導(dǎo)它成為犯罪手段,而如何規(guī)范這項(xiàng)技術(shù)未來(lái)的發(fā)展,需要企業(yè)和政府共同努力,制定行業(yè)標(biāo)準(zhǔn)、規(guī)范行業(yè)行為。在此基礎(chǔ)上,企業(yè)恪守自己的底線,才能用好這把達(dá)摩克利斯之劍。

本文為我公司原創(chuàng),歡迎轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)標(biāo)明出處,違者必究!

評(píng)論

產(chǎn)業(yè)專題

申請(qǐng)產(chǎn)品定制

請(qǐng)完善以下信息,我們的顧問(wèn)會(huì)在1個(gè)工作日內(nèi)與您聯(lián)系,為您安排產(chǎn)品定制服務(wù)

  • *姓名

  • *手機(jī)號(hào)

  • *驗(yàn)證碼

    獲取驗(yàn)證碼
    獲取驗(yàn)證碼
  • *您的郵箱

  • *政府/園區(qū)/機(jī)構(gòu)/企業(yè)名稱

  • 您的職務(wù)

  • 備注

主站蜘蛛池模板: 99精品视频在线观看免费播放 | 黄色大片高清 | 黄色片网站免费观看 | 久久亚洲精品久久国产一区二区 | 欧美成人一二三区 | 最新中文在线视频 | 中文字幕 亚洲一区 | 在线a毛片 | 成人午夜在线播放 | 久久久噜噜噜久久熟有声小说 | 欧美一及 | 成人在线观看一区二区三区 | 欧美曾交| 精品国产一区二区三区久久久 | 黄色网址在线视频 | 女18一级大黄毛片免费女人 | 久久精品视频日本 | 欧美成人免费一级 | h色在线观看 | 国产精品毛片va一区二区三区 | 国产二区三区视频 | 国产精品视频免费在线观看 | 新久草在线视频 | 成人毛片视频免费 | 欧美成人影院 | 精品久久久久久久久久久下田 | 91av在线国产 | 久久艹艹艹 | h视频在线播放 | 亚洲情视频 | 色999久久久精品人人澡69 | av在线播放免费 | 久久99精品久久久久久秒播蜜臀 | 色综合久久久久综合99 | 91免费官网 | 久久精品一区二区三区国产主播 | 国产高清美女一级毛片久久 | 成人黄色免费网站 | 欧美精品18 | 在线看91 | 青热久思思 |