1. 快捷導航

            集搜客分詞軟件情感分析算法升級通知

            2022-5-13 16:08| 發布者: Fuller| 查看: 2716| 評論: 9

            摘要: 用戶添加自定義情感詞的時候,可以加單字的情感詞、程度詞、否定詞,因為單字匹配到的概率大大提高,往往會與多字的詞發生重疊識別,老版本會分析出很不準確的結果。新版本對這種情況也做了改進。 ... ... ...

            升級時間:2022年5月13日

            重大提示:此前在集搜客官網和其他媒體上發布的關于情感分析的算法都將作廢,今后的軟件版本都將采用本文介紹的算法。


            1. 情感分析算法升級的原因

            用戶反饋老版本的情感分析不準確,主要出現在這些情形:

            1. 出現否定詞的時候,情感傾向反轉不對

            2. 出現程度詞的時候,情感打分不合適。

            3. 情感詞有重疊的時候

            這次升級以后,用戶添加自定義情感詞的時候,可以加單字的情感詞、程度詞、否定詞,因為單字匹配到的概率大大提高,往往會與多字的詞發生重疊識別,老版本會分析出很不準確的結果。新版本對這種情況也做了改進。

            2. 新舊版本沒有變化的方面

            情感分析的時候,會把一條正文切分成句子,先給每條句子打分,然后所有句子的結果加在一起就是一條正文的打分。根據下列標點符號切句子:

            1. 中文句號和英文點號

            2. 半角或全角問號

            3. 半角或全角感嘆號

            4. 半角或全角分號

            5. 豎線符號

            6. tab制表符

            如果用戶導入的內容存于excel中,那么excel的一個單元格的內容稱為一條正文;如果用戶導入的內容存于txt或者word中,通常一個文檔整體作為一條正文,但是,有可能會根據換行符等符號進行拆分,所以,如果要完全可控,應該使用excel格式。

            情感分析結束以后,能導出兩個結果文件,一個是句子情感分析結果,一個是正文情感分析結果。

            3. 新舊版本變化部分

            3.1 關于程度詞和否定詞的匹配

            舊版情感分析時,如果匹配到程度詞,那么對整個句子的情感得分進行倍乘,如果匹配到否定詞,就對整個句子的情感傾向進行反轉。這個簡單算法會造成分析結果不準確。新版進行了徹底的升級。

            首先,程度詞和否定詞只做局部的情感傾向和打分調整。

            1. 最常見的是否定詞和程度詞在左邊,情感詞在右邊,所以這種情況優先匹配
            2. 如果第一種情況沒有發現,就找情感詞在左邊的情況
            3. 如果兩種情況都沒有發現,就放棄這個程度詞和否定詞

            例如,下圖這個句子:

            首先提示一下,缺省的情感詞典中沒有單字否定詞,要得到上圖的結果,需要用戶加入否定詞“不”。

            可以看到,識別出兩個“不”字,都在情感詞右邊,符合第二種情況,那么,與“友好”這個詞比較更近的“不”字用于否定“友好”,造成極性反轉。而更遠的那個“不”并沒有相鄰的可進行反轉的情感詞,就被放棄了??傮w識別為負面。

            另外也應該意識到,本算法基于情感詞匹配,而不是基于語義分析,針對上述例句做的分析,結果看起來是對了,實際上跟真正的語義有偏離。

            3.2 怎樣設置權值

            無論是情感詞,還是程度詞,還是否定詞,都需要設置權值。

            情感詞的權值好理解

            1. 都是整數,正的表示正面,負的表示負面。
            2. 正面詞的權值的范圍:0
            3. 負面詞的權值的范圍:-10 <= N < 0,不同大小代表了負面傾向的程度

            本質上說,否定詞和程度詞雖然名字不一樣,實際上歸為同一類。

            1. 否定詞:權值應該是負數,推薦取-1,但是,沒有做限制,還可以取-2到-10,如果不是-1,那么,除了反轉情感傾向,程度還翻倍,跟負的程度詞的效果一樣了。如果權值為正,其作用就跟正的程度詞一樣了。
            2. 程度詞:權值通常是正數,表示對情感詞的程度進行翻倍。如果是負數,其作用就跟否定詞一樣了,除了翻倍,情感傾向還反轉了。所以取值范圍可以是:-10 <=N<0和0

            4. 情感分析得分的計算公式

            從上面文字可以看出,新版本的情感分析得分不再能用單個公式進行計算,而是需要一個算法,有以下步驟:

            1. 從一個句子中識別出來的情感詞、否定詞、程度詞按照出現的順序排序,形成一個詞序列
            2. 從詞序列的最右邊一個詞開始,循環執行第三步
            3. 如果是否定詞(或程度詞),先找左邊相鄰的情感詞,沒找到的話就找右邊相鄰的情感詞。如果找到了情感詞,就將這個情感詞的權值乘以否定詞(或程度詞)的權值,得到情感詞的新權值
            4. 循環完成后,將情感詞的權值相加,就是句子的情感得分。

            一句話概括新算法特點:很顯然,老算法的否定詞和程度詞是對整個句子進行情感反轉或加倍,而新算法的否定詞和程度詞只給相鄰情感詞反轉或加倍。

            5. 總結

            了解了情感分析算法以后,可以有針對性地添加自己的情感詞典,可以達到微調打分的目的。

            5

            鮮花
            1

            握手

            雷人

            路過

            雞蛋

            剛表態過的朋友 (6 人)

            發表評論

            最新評論

            評論 Fuller 2022-11-15 14:56
            Fuller: 集搜客自己積累整理的情感詞典
            如果覺得集搜客情感詞典不夠全面,可以把詞典刪除了,導入你的詞典,只要符合格式要求,可以把其他詞典導入進去
            評論 Fuller 2022-11-15 14:55
            LUOxinpeng: 想請問一下這個情感詞典是使用的哪一個情感詞典呢?比如知網、大連理工情感詞典
            集搜客自己積累整理的情感詞典
            評論 LUOxinpeng 2022-11-15 11:45
            想請問一下這個情感詞典是使用的哪一個情感詞典呢?比如知網、大連理工情感詞典
            評論 Fuller 2022-9-5 15:38
            我記錯了,以上面的文檔為準
            15964002091: 上面不是說是程度詞對情感詞進行翻倍嘛,
            評論 15964002091 2022-9-5 15:29
            上面不是說是程度詞對情感詞進行翻倍嘛,
            Fuller_fenci_8: 程度詞不匹配具體每個詞,而是對整個句子的分析結果翻倍
            評論 Fuller_fenci_8 2022-8-25 16:45
            15964002091: 我想問下這個算法是從右邊第一個詞開始,是先識別情感詞還是先識別程度詞,是以程度詞為中心向左右搜索還是以情感詞為中心呢。 ...
            程度詞不匹配具體每個詞,而是對整個句子的分析結果翻倍
            評論 15964002091 2022-8-24 19:49
            我想問下這個算法是從右邊第一個詞開始,是先識別情感詞還是先識別程度詞,是以程度詞為中心向左右搜索還是以情感詞為中心呢。
            評論 Fuller 2022-5-22 23:42
            王拉拉: 想問一下可以直接根據匹配出來的正面詞匯數量和負面詞匯數量計算語調嗎?(看到論文中都是根據這樣計算的)
            導出分析結果,就會看到已經把句子和正文的總調性都已經計算出來了
            評論 王拉拉 2022-5-22 23:17
            想問一下可以直接根據匹配出來的正面詞匯數量和負面詞匯數量計算語調嗎?(看到論文中都是根據這樣計算的)

            查看全部評論(9)

            GMT+8, 2022-11-23 10:27

            欧美一级午夜福利免费区