ペンシルベニア州立大学の研究者は、Twitter上のdoxingを96%以上の精度で自動検出できるアプローチを特定しました。 Penn State researchers have identified an approach that was able to automatically detect doxing on Twitter with over 96% accuracy.
2022-12-09 ペンシルベニア州立大学(PennState)
doxingに関する研究は、所有者の許可なく共有された機密性の高い個人情報に対して、より迅速なフラグ付けと削除を行うことにつながる可能性があるとのことです。研究チームはこれまで、Twitterのみを研究対象としており、今回提案した斬新なアプローチでは、個人を特定できる情報を含むどのツイートが自己開示ではなく悪意を持って共有されているかを機械学習により区別しています。
研究チームは、Twitter上のDoxingを96%以上の精度で自動検出する手法を特定しました。この手法は、Twitterや他のソーシャルメディアプラットフォームにおいて、より迅速かつ容易にDoxingの事例を特定するのに役立つと考えられます。
彼らの研究では、研究者は、doxed情報を含む可能性が高い約18万件のツイートのデータセットを収集し、キュレーションしました。機械学習の手法を用いて、これらのデータを、個人の身元(社会保障番号)と個人の位置(IPアドレス)のいずれかに関連する個人情報を含むものとして分類し、いずれかの情報を含むことが判明したツイートのうち3,100件以上に手動でラベルを付けました。さらに、悪意のある情報公開と自己情報公開を区別するために、データを分類しました。次に、公開の背後にある共通の潜在的な動機についてツイートを調査し、その意図が防衛的であるか悪意があるかどうかを判断し、それがdoxingとして特徴づけられるかどうかを示しました。
次に、既存の自然言語処理手法やモデルをベースにした9種類のアプローチを用いて、収集したデータセットから社会保障番号とIPアドレスという最も機密性の高い2種類の個人情報に対するDoxingや悪意のある開示の事例を自動的に検出しました。その結果を比較し、最も高い精度を持つアプローチを特定し、11月に開催された第25回ACM Conference on Computer-Supported Cooperative Work and Social Computingでその成果を発表しています。
Karimi氏は、Frymoyer Chair in Information Sciences and TechnologyのAnna Squicciarini氏と、Shomir Wilson助教授と共同で論文を作成しました。
<関連情報>
- https://www.psu.edu/news/information-sciences-and-technology/story/researchers-propose-methods-automatic-detection-doxing/
- https://dl.acm.org/doi/10.1145/3555167
Twitter上でのDoxingの自動検出 Automated Detection of Doxing on Twitter
Younes Karimi,Anna Squicciarini,Shomir Wilson
the 25th ACM Conference on Computer-Supported Cooperative Published:11 November 2022
DOI:https://doi.org/10.1145/3555167
Abstract
Doxing refers to the practice of disclosing sensitive personal information about a person without their consent. This form of cyberbullying is an unpleasant and sometimes dangerous phenomenon for online social networks. Although prior work exists on automated identification of other types of cyberbullying, a need exists for methods capable of detecting doxing on Twitter specifically. We propose and evaluate a set of approaches for automatically detecting second- and third-party disclosures on Twitter of sensitive private information, a subset of which constitutes doxing. We summarize our findings of common intentions behind doxing episodes and compare nine different approaches for automated detection based on string-matching and one-hot encoded heuristics, as well as word and contextualized string embedding representations of tweets. We identify an approach providing 96.86% accuracy and 97.37% recall using contextualized string embeddings and conclude by discussing the practicality of our proposed methods.