免费A级毛片无码专区网站-成人国产精品视频一区二区-啊 日出水了 用力乖乖在线-国产黑色丝袜在线观看下-天天操美女夜夜操美女-日韩网站在线观看中文字幕-AV高清hd片XXX国产-亚洲av中文字字幕乱码综合-搬开女人下面使劲插视频

PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

論文信息

論文標(biāo)題:Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks論文作者:Jiaying Wu、Bryan Hooi論文來源:2022, arXiv論文地址:download 論文代碼:download
Abstract開源的數(shù)據(jù)集存在虛假相關(guān)性 , 這種虛假相關(guān)性來自三個(gè)方面:
    • event-based data collection and labeling schemes assign the same veracity label to multiple highly similar posts from the same underlying event;
    • merging multiple data sources spuriously relates source identities to veracity labels;
    • labeling bias;
在  event-separated 的設(shè)置下 , 現(xiàn)有最先進(jìn)的模型準(zhǔn)確性下降了 40% 以上 , 和簡單的線性分類器差不多 。本文為解決這個(gè)問題 , 提出了 Publisher Style Aggregation(PSA) , 是一種通用的方法 , 可以聚合發(fā)布者的發(fā)布信息 , 以及寫作風(fēng)格和立場等 。
1 Introduction現(xiàn)有數(shù)據(jù)集的構(gòu)建過程中存在虛假的 屬性-標(biāo)簽相關(guān)性 ?;仡櫥谑录臄?shù)據(jù)集采集框架 , 首先對事實(shí)有價(jià)值的事件自動檢測 , 然后剔除大量包含相同事件關(guān)鍵詞高度相似的微博 。此外 , 一些基準(zhǔn)數(shù)據(jù)集還通過合并現(xiàn)有多個(gè)源的數(shù)據(jù)樣本 , 來平衡類分布 。
忽略虛假信息會導(dǎo)致不公平的過度預(yù)測 , 從而限制了模型的泛化和適應(yīng)性 。在情緒分類、參數(shù)推理理解 和 事實(shí)驗(yàn)證 等一些自然語言處理任務(wù)中也發(fā)現(xiàn)了類似的問題 , 但社交媒體謠言檢測的任務(wù)仍未得到充分的探索 。
2 Spurious Correlations in Event-Based Datasets2.1 Event-Based Data CollectionNewsworthy Event Selection
從具有權(quán)威的事實(shí)核查網(wǎng)絡(luò)收集事件 , 或由專業(yè)人士確定候選事件 。
Keyword-Based Microblog Retrieval
現(xiàn)有的數(shù)據(jù)集通常是基于事件的自動數(shù)據(jù)收集策略 , 即對每個(gè)事件:
    1. 從其 claim 中提取關(guān)鍵詞;
    2. 通過基于關(guān)鍵詞的搜索獲取微博;
    3. 選擇有影響力的微博;
事件關(guān)鍵字大多是中立的(例如 , 地點(diǎn)、人或?qū)ο螅?nbsp;, 攜帶很少或沒有立場 。
【PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》】Microblog Labeling Scheme
Event-level labeling assigns all source posts under an event with the same event-level factchecking label.
Post-level labeling annotates every source post independently.
2.2 Possible Causes of Spurious CorrelationsIntra-Event Textual Similarity在每個(gè) Event 下 , 基于自動關(guān)鍵字的微博檢索框架收集了大量具有相同標(biāo)簽的高度相似的關(guān)鍵詞共享樣本 , 甚至獲得了相同的微博文本(Fig.1) 。因此 , 事件關(guān)鍵字和類標(biāo)簽之間的相關(guān)性導(dǎo)致強(qiáng)文本線索 , 難以概括當(dāng)前 Event。
PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

文章插圖
根據(jù)現(xiàn)有工程所采用的 post-level data splitting scheme , 也就是使用關(guān)鍵詞相關(guān)性對帖子進(jìn)行收集 。
PSA 謠言檢測——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

文章插圖
具體來說 , 前 5 個(gè)最大的事件覆蓋了 PHEME 中 96.09% 的數(shù)據(jù)樣本 , 而大型事件(包含超過5個(gè)關(guān)鍵詞共享推文)覆蓋了 Twitter 15 和 Twitter16 中超過70% 的樣本 。大的事件規(guī)模導(dǎo)致特定事件的 keyword-label 相關(guān)性的流行 , 進(jìn)一步加劇了問題 。
Merge of Data Sources為了平衡標(biāo)簽 , Twitter 15 和 Twitter16 合并了來自包括[4,12,16] 在內(nèi)的多個(gè)來源的推文 , 并從經(jīng)過驗(yàn)證的媒體賬戶中提取其他新聞事件 。雖然不同的數(shù)據(jù)源所覆蓋的事件不重疊 , 但數(shù)據(jù)源和標(biāo)簽之間的直接相關(guān)性可能會導(dǎo)致數(shù)據(jù)源特征和標(biāo)簽之間的虛假相關(guān)性 。

經(jīng)驗(yàn)總結(jié)擴(kuò)展閱讀