前言
資料探勘(Data Mining),是指從資料中發現知識的過程(Knowledge Discovery in Databases, KDD)。狹義的資料探勘一般指從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據中,提取隱含其中的、人們事先不知道的、但又是潛在有用知識的過程。自從電腦發明之後,科學傢們先後提齣瞭許多優秀的資料探勘演算法。2006年12月,在資料探勘領域的權威學術會議the IEEE International Conference on Data Mining(ICDM)上,科學傢們評選齣瞭該領域的十大經典演算法:C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Naive Bayes和CART。這是資料探勘學科的一個重要裏程碑,從此資料探勘在理論研究和實際應用兩方麵均進入飛速發展時期,並得到廣泛關注。
在實際生產活動中,許多問題都可以用資料探勘方法來建立模型,從而提升營運效率。例如,某企業在其行動終端應用(App)上售賣各種商品,它希望嚮不同的客戶群體精準推送差異化的產品和服務,從而提升銷售業績。在這個案例中,如何將韆萬量級的客戶劃分為不同的客戶群體,可以由資料探勘中的集群分析演算法來完成;針對某個客戶群體,如何判斷某個產品是否是他們感興趣的,可以由資料探勘中的分類分析演算法來完成;如何發現某個客戶群體感興趣的各種產品之間的關聯性,應該把哪些產品打包為方案,可以由資料探勘中的關聯分析演算法來完成;如何發現某個客戶群體的興趣愛好的長期趨勢,可以由資料探勘中的迴歸演算法來完成;如何綜閤考慮公司的KPI指標、行銷政策和App頁麵限製等條件,製訂最終的應用行銷方案,可以基於資料探勘中的ROC麯線建立數學模型求得最優解法來解決。
當前,許多企業正麵臨前所未有的競爭壓力。以營運商企業為例,從政策層麵看,當各個國傢對網路提齣瞭「提速降費」的策略:一方麵要提高網路連接速度、提供更好的服務,這意味著公司成本的提高;另一方麵要降低資費標準,這意味著單一產品收入的下降,營運商該如何化解這對矛盾?從營運商內部數據統計看,傳統的語音和簡訊、及其他業務收入占比正不斷下降,傳統的利潤點已經風光不再;流量收入目前已占據主要位置並保持上漲趨勢,但單純的流量經營又將麵臨「管道化」壓力;未來的利潤增長點要讓位於被稱為「第三條麯線」的數位化服務。電信業者該如何經營這一新鮮事物?從外部環境看,互聯網和電子商務企業藉助其在各方麵的優勢,已經對營運商形成瞭巨大的壓力,特別是在數位化服務行銷領域,傳統營運商企業已經不再具備優勢,又該如何應對互聯網企業的全麵競爭?
隨著移動互聯網和物聯網時代的來臨,人和萬事萬物被廣泛地聯繫在一起。人們在聯繫的過程產生瞭大量的數據,例如用戶基礎資訊、網頁瀏覽記錄、歷史消費記錄、影片監控影像,等等。據此,以Google為首的互聯網公司提齣瞭「大數據」(Big Data)的概念,並聲稱人類已經脫離瞭資訊時代(Information Time, IT),進入瞭大數據時代(Data Time,DT)。顯然,大量數據包含瞭非常豐富的淺層次資訊和深層次知識。對於同一競爭領域的企業,誰能獲取最大量的數據,展開最精準的資料探勘與模組建立分析,並加以細緻化的具體實施,誰便能在行業競爭中取得優勢。對於營運商企業而言,其具備的一個顯著優勢便是手握大量數據資源。如果能運用先進的資料探勘技術找齣客戶的行為規律,從傳統的經驗式、粗放式、「一刀切」式的營運決策嚮數據化、精細化、個性化的營運決策轉型,營運商將迎來新的騰飛。上述營運模式轉型的目標,便是所謂的「智慧營運」。
目前,人類對大數據尚沒有統一的、公認的定義,但幾乎所有學者和企業都認同大數據具備四大特徵(四大挑戰):體積巨大(Volume)、類型繁多(Variety)、價值密度低(Value)、需求即時處理(Velocity)。這其中最重要的一點是類型繁多,即過去人類的資料儲備以結構化資料為主,而未來將以非結構化資料為主。迴到之前提到的App行銷案例,企業基於用戶的基礎資訊、歷史消費資訊、簡單的網路行為資訊等結構化資料展開資訊建模,被認為是傳統的「基於資料探勘的智慧營運」。隨著時代的發展,企業還掌握瞭用戶觀看在線影片的內容數據、在營業網點接受營業員推薦的錶情資訊和語言交流數據、用戶在客服熱線中的語音諮詢數據等,這些被統稱為非結構化資料,隨著語音辨識、人臉識別、語義識別等新技術的發展成熟,對非結構化資料的分析資訊已成為可能,並將獲得廣闊的商業應用空間。基於非結構化資料的資訊建模又被稱為「基於人工智慧的智慧營運」。考慮當前大部分企業的實際營運現狀,本書將主要圍繞「基於資料探勘的智慧營運」展開討論,「基於人工智慧的智慧營運」將在後續書籍中展開討論。
本書共分為九章:第1章大數據、資料探勘與智慧營運綜述,講述資料探勘的基本概念和發展史、大數據的時代特徵、當前結構化資料探勘進展、非結構化資料探勘與人工技能進展、資料探勘的主流軟體等;第2章數據統計與資料前處理,講述在資料探勘之前的資料整閤、資料淨化、數據衍生、數據統計等;第3章集群分析,重點講述K-means、BIRCH、DBSCAN、CLIQUE等幾種主流經典聚類演算法;第4章分類分析,重點講述決策樹、KNN、貝氏、神經網路、SVM等幾種主流分類演算法;第5章迴歸分析,重點講述線性迴歸、非線性迴歸、邏輯迴歸等幾種主流迴歸演算法;第6章關聯分析,重點講述Apriori、FP-tree等幾種主流關聯演算法;第7章增強型資料探勘演算法,重點講述隨機森林、Bagging、Boosting等幾種主流增強演算法;第8章資料探勘在營運商智慧營運中的應用,展開講述資料探勘方法在外呼行銷、精準推送、方案適配、客戶保有、投訴預警、網路品質監控、室內定位中的應用;第9章麵嚮未來大數據的資料探勘與機器學習發展趨勢,簡要講述資料探勘領域的前沿研究進展。
全書以運用大資料探勘方法提升企業營運業績與效率為主線。第3章至第7章組成本書的理論知識部分,在講述理論知識的同時,這部分每章都配套列舉瞭大量實際應用案例,及其在SPSS等分析軟體中的具體操作流程。此外,第8章從營運商實際工作中選取瞭大量營運和銷售案例,詳細講述瞭數據採集、資訊建模、模型應用與精準行銷的全部過程。
本書基於作者所帶領的研究團隊多年研究積纍和在營運商企業廣泛應用應用的基礎上提煉而成。全書由曾麗麗博士組織並統稿,梁棟、張兆靜和彭木根撰寫瞭主要章節,研究團隊中的謝花花、柯聯興、張笑凱、魯晨、李子凡等在讀研究生參與瞭部分章節的寫作,鬍林、唐糖等團隊外專傢參與瞭部分章節的寫作並給齣瞭寶貴的意見。在此對有關人員一併錶示誠摯的感謝!
由於作者能力所限,疏漏之處在所難免,希望各位讀者海涵,並批評指正。
(註:本書中所提「數據」即「資料」)
作者