機械学習を用いるとソースコードから個人を識別可能という研究結果

Dwhhjalxuwmgjinbwqki
2018年8月14日

機械学習を用いて、ソースコードのサンプルから個人を識別

ドレクセル大学のコンピューターサイエンス准教授であるレイチェル・グリーンシュタット氏と、ジョージ・ワシントン大学でコンピューターサイエンスの准教授を務めるアイリン・カルスキン氏は、プログラミング言語で書かれたコードは完全に匿名のものではなく、機械学習を用いて個人を識別可能だという研究結果を発表しました。
2人は機械学習のアルゴリズムにコードサンプルを分析させ、用いた言葉の選択やコードの長さ、コードのまとめ方といったあらゆる特徴を抽出しました。次に2人は抽出された特徴の中から、開発者個人を識別するのに役立つ特徴のみを選別し、コードから個人を特定する時に注目するべきリストを絞り込んだとのこと。コードの書き手は通常の文章と違い、一定の規則に従ってコードを書き進めなければならないという制約がありますが、それでもコードから個人を識別可能な特徴を抽出できるようです。 また、コードサンプルは非常に長いものである必要があるわけでもなく、グリーンシュタット氏らが発表した2017年の論文(PDF)によればGitHubに公開されたほんの短いコードの断片であっても、特定の開発者とそれ以外の開発者を識別できる

参照:
https://gigazine.net/news/20180813-machine-learning-identify-code-authors/

=====================
ウイルス開発者とか特定できるようになれば。

Minsala Balloonのトピック募集中!
Minsala Balloonで取り上げて欲しいトピックやまとめが欲しいなど要望については、こちらからご連絡ください!
お問い合わせフォームへ
#<Gretel::Renderer:0x0000000646fd88>