当前位置: 首页 > article >正文

【文献阅读】Unsupervised Machine Learning for Bot Detection on Twitter

Abstract

引入新特征,并降低所提模型的复杂性,从而提高基于聚类算法的机器人识别准确性。

最小化数据集维度和选择重要特征来实现的。

实验证明该方法的特征可以与四种不同的聚类技术(agglomerating、k-medoids、DBSCAN 和 K-means)结合使用,以解决由缺失标签和异常值引起的机器人识别问题。

通过选择排名靠前的特征并减少维度,达到了 0.99 的准确率。

Methodology

关键原理是识别给定聚类中账户之间的相似性。这些算法生成的预测效果取决于数据的准备情况以及关键特征的识别。

  1. 预处理阶段:数据清理和格式化等。
  2. 特征增强阶段:新特征被创建,并选择最佳特征以改进聚类算法。为了加快聚类过程,采用Principal Component Analysis(PCA)来减少数据维度。
  3. 特征实验与测试阶段:使用四种聚类算法(agglomerating、DBSCAN、K-Means 和 k-medoids),通过无监督学习方法有效处理特征。
  4. 评估阶段:评估系统的性能。
    在这里插入图片描述

dataset

在这里插入图片描述

new features

在这里插入图片描述在这里插入图片描述

在这里插入图片描述

Experiment

在这里插入图片描述
在这里插入图片描述


http://www.kler.cn/a/305046.html

相关文章:

  • c++写一个死锁并且自己解锁
  • Vector Optimization – Stride
  • Vue 项目打包后环境变量丢失问题(清除缓存),区分.env和.env.*文件
  • 并发基础:(淘宝笔试题)三个线程分别打印 A,B,C,要求这三个线程一起运行,打印 n 次,输出形如“ABCABCABC....”的字符串【举一反三】
  • Flink_DataStreamAPI_输出算子Sink
  • 数据结构与算法-前缀和数组
  • pytorch qwen2-vl自定义数据全量微调
  • SpringBoot万级并发-jemeter-Address already in use: connect
  • 三、Kubernetes中的控制器的使用
  • AI服务器,深度学习英特尔服务器主板和超微服务器主板哪个牌子好?
  • Rust 函数
  • 人工智能物联网的去中心化和分布式学习:全面综述、新兴挑战和机遇
  • 基于鸿蒙API10的RTSP播放器(七:亮度调节功能测试)
  • 太速科技-基于XC7Z100+AD9361的双收双发无线电射频板卡
  • 【2024】前端学习笔记6-容器标签div
  • QT实现TCP/UDP通信
  • 基于python+django+vue的农产品销售管理系统
  • django-admin自定义功能按钮样式
  • medium_socnet
  • 数据库与表的操作
  • 2024秋季云曦开学考
  • 商业预测 初识R
  • 数据结构基础详解:哈希表【理论计算篇】开放地址法_线性探测法_拉链法详解
  • 文件管理系统DCC与泛微OA系统集成案例
  • JVM面试真题总结(十)
  • HarmonyOS开发者基础认证试题