• 收藏
  • 設為首頁
  • 工作郵箱
微信公眾號
分享
[字體: ]
分享到:
分享
面向類不平衡問題的“職業舉報人”識別方法
來源:大數據部 ??時間:2020-02-28

1  引言

當前,一種專門以投訴舉報為業,執意向被舉報人提出一定補償要求,甚至對其敲詐勒索以求牟利的“職業舉報人”應運而生。目前,具有監督管理職能的政府部門在處理群眾投訴舉報工作中,經常會面對“職業舉報人”。與此同時,隨著電子商務、移動互聯網等領域的迅猛發展,“職業舉報人”所涉獵的領域已不再局限于線下超市商場等商家,而是將目光轉向了更為方便快捷、無地域限制的網絡購物之中。“職業舉報人”的投訴舉報行為已呈現多人舉報、一案多報、無消費舉報等特點,其團伙化、規模化、專業化、低齡化作案趨勢日趨明顯。 

相關政府部門對“職業舉報人”的識別大多仍采用人工鑒別的方法,造成了大量人力資源的浪費,而且學術界對于“職業舉報人”的研究主要停留在定性分析層面,尚缺乏以真實數據為驅動的、行之有效的“職業舉報人”識別方法和定量分析結論。

鑒于此,本文的主要貢獻主要有以下三個方面:

1)考慮到職業舉報人和正常消費者投訴舉報案件的比例十分不均等,符合機器學習分類中的類不平衡問題,本文基于Bootstrapping數據重采樣方法,將“職業舉報人”識別轉換為二值分類問題,并提出了一種面向類不平衡問題的“職業舉報人”識別方法。

2)為了減少識別方法在實際應用過程中的特征提取時間,本文采用基于相關性的特征選擇方法結合最佳優先搜索策略對識別方法中的數據特征進行了優化,并且詳細闡述特征選擇前后的識別準確率性能差異。

3)本文以全國12358價格監管平臺數據為依托,通過真實數據驅動的方式驗證了“職業舉報人”識別方法的有效性,并且對比分析了“職業舉報人”和正常消費者的投訴舉報行為習慣。

2  向類不平衡問題的“職業舉報人”識別過程及方法

2.1  基本思路

面向類不平衡問題的“職業舉報人”識別方法所采用的數據源主要為投訴舉報數據,主要分為三個階段:

1 基本思路

第一階段是數據重采樣階段,考慮到本文數據存在“職業舉報人”類別樣本量與“正常消費者”類別樣本量不平衡問題,為有效規避分類器模型出現過擬合等問題,在訓練分類器模型前會利用Bootstrapping方法對訓練樣本進行數據重采樣操作,即在訓練樣本中進行有放回的重復性采樣,采樣規模與訓練樣本數據規模相同,采樣次數n根據統計分布估計值決定。Bootstrapping方法的基本思想是通過自身樣本的重采樣來估計真實數據的統計分布,屬于用小樣本估計總體值的一種非參數方法。

第二階段是特征抽取與特征選擇階段,基于投訴舉報的主要數據字段以及需要保護投訴者用戶隱私等方面的考慮,目前主要圍繞投訴舉報的文本特征、時間特征和舉報人非敏感屬性特征進行特征抽取。此外,由于訓練樣本分布不平衡往往會導致特征屬性分布失衡,因此在該階段應用了特征選擇方法,從特征集合中選取具有代表性較優的特征子集,通過特征選擇保留不平衡數據集的關鍵區分特征,既可以保持或提升識別準確率,又能夠在實際應用過程中減少特征提取時間,增強方法的實用性和可用性。

第三階段是“職業舉報人”識別階段,在此階段將“職業舉報人”識別問題轉換為二值分類問題,同時,考慮到前兩個階段能夠從一定程度上解決類不平衡問題,因此在該階段沿用了目前較為常見的機器學習分類算法進行訓練與識別。

2.2  利用Bootstrapping重采樣方法解決訓練樣本不平衡問題

Bootstrapping重采樣方法是一種用于計算任意估計的標準誤差的數據重采樣方法,假設現有N個數據樣本構成的訓練集Z={z1, z2, … , zn},其中 zi ={xi, yi}Bootstrapping的方法是對這N個數據樣本進行B次有放回的重復性采樣,并且通過多輪采樣組成新的訓練集S(Z),此時保證S(Z)的樣本數也為N。但不難發現,Bootstrapping重采樣會引發一個問題,即意味著某些原始樣本可能永遠都沒有被采樣到,而某些樣本可能會同時被采樣多次。因此,在此情況下測試集的錯誤率可以表示為:

   1)

其中,L代表損失函數,代表第b次重采樣所得模型對第i個觀測量的預測值。

顯然,由于原始數據樣本既是訓練集又是測試集,用來估計模型的錯誤率并不是十分準確。如果模型出現了嚴重的過擬合現象,會低估其錯誤率,反而使結果看起來很好。因此,借鑒交叉驗證的思想,留一法對上述錯誤率的估計進行了改進。對于每次重采樣,只觀測沒有被采集到的樣本,即測試集樣本的錯誤率可改進為:

 2

其中,C-i指第b次重采樣的數據樣本中不包含樣本i的集合。解決了過擬合現象發生時模型錯誤率的過低估計問題,但由于一次采樣中某些樣本仍有可能會被重復性采樣,因此仍然是一種有偏估計。此外,Bradley Efron認為,當N足夠大時,每次采樣中的非重復樣本數約占總樣本數的63.2%,因此“0.632法”估計模型的錯誤率為:

  3)

2.3  特征抽取

本文圍繞文本特征、時間特征和舉報人屬性特征三方面特征進行抽取,識別特征共15項,其,文本特征10時間特征2舉報人屬性特征3

1 “職業舉報人”主要識別特征

文本特征

F1

LENGTH

投訴舉報文本長度

F2

LAW_NUMS

投訴舉報文本中法律法規的提及數

F3

LAW_ DETAILS

投訴舉報文本中是否有提及法律法規的具體條目

F4

FORM_TIME

投訴舉報文本中是否包含較正式的時間格式,如YYYY-MM-DD

F5

IS_URL

投訴舉報文本中是否包含網址鏈接

F6

ORDER_NUMS

投訴舉報文本中是否包含訂單號

F7

INDEX_Q

投訴舉報文本中問號的個數(中文“?”或英文“?”)

F8

INDEX_E

投訴舉報文本中嘆號的個數(中文“!”或英文“!”)

F9

INDEX_P

投訴舉報文本中是否有2個及以上連續的句號(中文“。”或英文“.”)

F10

Word2Vec

投訴舉報文本詞向量特征

時間特征

F11

HOUR

投訴舉報時間(以小時為單位統計)

F12

WEEK

投訴舉報日期(以星期為單位統計)

屬性特征

F13

PHONE_3

舉報人手機號前三位

F14

SEX

舉報人性別

F15

PROVINCE

舉報人所在省份

 

2.4  特征選擇

本文采用基于相關性的特征選擇方法(CFS)結合最佳優先搜索策略(Best First)對“職業舉報人”識別特征進行選擇。CFS方法的核心思想是采用啟發式策略評估特征子集的作用和價值,其啟發式方程為:

      4)

其中Merits為包含k個特征的特征子集,是平均的特征和類之間的相關性,是平均的特征和特征之間的相關性,rPearson相關系數。

CFS方法首先會從訓練集中計算“特征和類”和“特征和特征”相關矩陣,之后利用Best First策略搜索特征子集空間,其中,Best First策略的基本思想是將節點按照目標距離進行排序,再根據節點的估計距離為標準對待擴展節點進行選擇CFS方法在開始時會產生所有可能的單個獨立特征,并計算每個特征的Merit值。之后選擇Merit值最大的一個特征進入特征子集,再選擇Merit值第二大的特征進入特征子集,此時判斷如果這兩個特征的Merit值小于之前的Merit值,則去除Merit值第二大的特征,至此循環遞歸,最終尋找出找出使Merit值最大的特征組合。不難發現,CFS方法的時間復雜度為:

           5

其中,m是特征子集中的特征個數,n是全部特征的個數。

3  數據介紹及實驗結論

3.1  實驗數據介紹

為了降低數據抽取過程中人為主觀因素的影響,本文從全國12358價格監管平臺中的行業分類編碼中進行了篩選,隨機抽取了“網絡購物”領域中201610月至20193月共25, 592條投訴舉報數據開展后續實驗,其中,每條數據包含標識號、舉報人性別、舉報人所在省份編號、舉報文本內容、舉報人手機號碼、案件所屬行業和接收舉報時間等數據字段。

同時邀請了3位在價格監管領域具有數據分析經驗的專家分別對所有數據進行打標,在每條數據的“是否為職業舉報人”一欄標注“是”或“否”。如果3位專家中有1位意見不同,則該條數據標注結果由3位專家共同商議評定。25,592條最終標注結果為:職業舉報人4,888條、正常消費者20,704條,二者數據樣本量比例為1:4.24,符合類不平衡數據特征。

考慮到平臺在2017年后數據字段相對更穩定、數據質量相對更成熟,因此,基礎實驗數據中2016年的數據相對較少,只抽取了3,132條,其它年份相對較均勻,每年大約抽取2016年的一倍,約為7,000余條。

2 全國12358價格監管平臺實驗數據年度分布

此外,不難發現,目前實驗數據已經覆蓋了1月至12月全部月份,此舉是為了降低時間周期性影響對實驗結果的干擾。

3 全國12358價格監管平臺實驗數據月度分布

3.2  利用Bootstrapping重采樣方法識別“職業舉報人”

本文選取了5種常見的分類模型對實驗數據進行測試,其中,各個模型均為默認參數設置(分別為:C4.5、BayesNet、NaiveBayes、AdaBoost、RandomFores),同時,選用了基于Bootstrapping的數據重采樣方法、Undersampling(欠采樣方法)和Oversampling(過采樣方法)三種方法進行對比實驗。此外,本文采用十折交叉驗證方法及2種常見的評價指標進行結果評估(F值F1-Measure和ROC曲線面積AUC)。

結合表1中的15個特征,不同數據重采樣方法及分類器下對“職業舉報人”的識別效果如圖4所示。

4 “職業舉報人”識別效果對比(全部特征)

從數據重采樣方法對比結果橫向角度看,相比UndersamplingOversampling方法而言,Bootstrapping數據重采樣方法在5種分類器下的F值得分明顯最高;關于 ROC曲線面積AUC,除C4.5RandomFores兩個分類器模型Oversampling方法的AUC值略高于Bootstrapping方法外(分別高出0.64%和0.79%),其他分類器模型下Bootstrapping方法的AUC值與UndersamplingOversampling方法相比均相對較平穩。此外,從Bootstrapping數據重采樣方法分析結果縱向角度看,采用Bootstrapping重采樣方法以及全部15個特征的方式對“職業舉報人”進行識別具有很高的準確性。在不同分類器下,F值均在93%至95%之間,同時ROC曲線面積均保持在87%至91%之間,此外,不同分類器對“職業舉報人”識別結果區分度不大,這也說明前文所述15個識別特征起到了非常關鍵的作用。

3.3  采用CFS方法和Best First策略進行特征選擇

為了減少識別方法在實際應用過程中的特征提取及建模時間,同時盡量去除不相關和冗余的特征從而達到對識別特征進行優化的效果,基于前文所述CFS方法和Best First策略,本文對表1中的15個特征進行了特征選擇,最終選定LENGTHLAW_NUMSORDER_NUMSINDEX_P為優化后的識別特征。

為了探究這些優化后的特征在“職業舉報人”識別中是否能夠起到更好的作用,本文針對上述5種分類器設計了相關對比實驗。在每組實驗中,分別采用全部15個特征和特征選擇出的4個優選特征進行“職業舉報人”識別對比。

5 識別效果對比(全部特征及特征選擇后的4個特征)

5為應用全部特性及特征選擇后的4個特征在“職業舉報人”識別效果的對比情況,其中,關于F值效果,RandomForest分類器下4個優選特征下的F值相比全部特征而言略有提高,其它分類器所對應的F值基本保持穩定或下降幅度并不明顯。此外,關于ROC曲線面積,C4.5分類器下全部特征及4個優選特征的ROC曲線面積基本保持一致,其它分類器下降不明顯(下降約0.6%至0.7%)。

從圖6能夠發現,如果在實際應用場景中只選取特征選擇后的4個特征進行“職業舉報人”識別,除能夠降低特征抽取的時間外,也能夠有效減少建模時間,例如:RandomForest分類器建模時間從4.54秒降至2.83秒,C4.5決策樹分類器建模時間從全部特征的1.05秒減至0.05秒(注:機器配置CPU Intel i5-8265U 1.6GHz,內存8G)。

6 建模時間對比(全部特征及特征選擇后的4個特征)

3.4  職業舉報人和正常消費者行為習慣對比

為了對比職業舉報人和正常消費者的行為習慣差異,本文選取了投訴舉報時間和投訴舉報文本長度兩個維度進行了分析。由于職業舉報人和正常消費者兩者數據量級存在不平衡問題,因此圖7和圖8兩組實驗分別選用各自類別數量占比開展分析。

7 投訴舉報時間對比(按小時統計)

7為職業舉報人和正常消費者的投訴舉報時間對比結果(按照小時進行統計),可以發現,職業舉報人更喜歡“夜間工作”,其晚8點至早7點之間的投訴舉報數據量占比明顯高于正常消費者。

8展示的是職業舉報人和正常消費者的投訴舉報文本長度對比結果,從圖8能夠明顯看出,職業舉報人的“話更多”,正常消費者投訴舉報文本長度大多均小于300個字符,而職業舉報人文本長度如圖8中方框所示,集中出現在4001000個字符之間。

8 投訴舉報文本長度對比

4  結束語

基于全國12358價格監管平臺真實數據,本文提出了一種面向類不平衡問題的“職業舉報人”識別方法,通過實驗分析發現,采用Bootstrapping重采樣方法,在不同分類器下,“職業舉報人”識別F值在93%至95%之間,ROC曲線面積均保持在87%至91%之間。為了減少識別方法在實際應用過程中的特征提取時間,本文通過實驗最終選定LENGTHLAW_NUMSORDER_NUMSINDEX_P為優化后的識別特征,分析發現只應用這4個優選特征也能夠保持較好的“職業舉報人”識別效果。最后,通過真實數據驅動的方式對比分析了“職業舉報人”和正常消費者的投訴舉報行為習慣,發現職業舉報人“話更多”,也更喜歡“夜間工作”。

未來工作中,一方面可以利用投訴舉報的時間序列數據研究職業舉報人的團伙演化規律,另一方面,可以研究職業舉報人的動態自反饋增量識別模型以應對職業舉報人的動態變化,此外,也可以進一步研究如何將此方法應用到其它投訴舉報平臺之中。


 

(本文原載于《計算機工程與應用》2019年第14期)

 

作者簡介:

易成岐,博士, 國家信息中心大數據發展部,研究領域為大數據、社會網絡分析、信息傳播。

黃倩倩,碩士,國家信息中心大數據發展部助理研究員,研究領域為機器學習、生物信息學。

王從余,清華大學心理學系博士研究生,研究領域為社會心理學、科技心理學。

張何燦,男,北京大學碩士研究生,研究領域為信息安全、區塊鏈。

靳曉錕,男,北京大學碩士研究生,研究領域為機器學習、金融統計.

王建冬,博士,副研究員,處長,研究領域為大數據分析、知識圖譜分析、互聯網用戶行為挖掘。

 

双色球字谜