当前位置: 首页 > article >正文

【文献阅读】Unsupervised Machine Learning for Bot Detection on Twitter

Abstract

引入新特征,并降低所提模型的复杂性,从而提高基于聚类算法的机器人识别准确性。

最小化数据集维度和选择重要特征来实现的。

实验证明该方法的特征可以与四种不同的聚类技术(agglomerating、k-medoids、DBSCAN 和 K-means)结合使用,以解决由缺失标签和异常值引起的机器人识别问题。

通过选择排名靠前的特征并减少维度,达到了 0.99 的准确率。

Methodology

关键原理是识别给定聚类中账户之间的相似性。这些算法生成的预测效果取决于数据的准备情况以及关键特征的识别。

  1. 预处理阶段:数据清理和格式化等。
  2. 特征增强阶段:新特征被创建,并选择最佳特征以改进聚类算法。为了加快聚类过程,采用Principal Component Analysis(PCA)来减少数据维度。
  3. 特征实验与测试阶段:使用四种聚类算法(agglomerating、DBSCAN、K-Means 和 k-medoids),通过无监督学习方法有效处理特征。
  4. 评估阶段:评估系统的性能。
    在这里插入图片描述

dataset

在这里插入图片描述

new features

在这里插入图片描述在这里插入图片描述

在这里插入图片描述

Experiment

在这里插入图片描述
在这里插入图片描述

原文地址:https://blog.csdn.net/weixin_42726068/article/details/142108178
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/305046.html

相关文章:

  • 激活版,快速安装
  • CVPR 2024 无人机/遥感/卫星图像方向总汇(航空图像和交叉视角定位)
  • 九、CSS工程化方案
  • ray.rllib 入门实践-2:配置算法
  • 聊一聊 CSS 样式的导入方式
  • 常见的加密方式以及自定义加密工具
  • pytorch qwen2-vl自定义数据全量微调
  • SpringBoot万级并发-jemeter-Address already in use: connect
  • 三、Kubernetes中的控制器的使用
  • AI服务器,深度学习英特尔服务器主板和超微服务器主板哪个牌子好?
  • Rust 函数
  • 人工智能物联网的去中心化和分布式学习:全面综述、新兴挑战和机遇
  • 基于鸿蒙API10的RTSP播放器(七:亮度调节功能测试)
  • 太速科技-基于XC7Z100+AD9361的双收双发无线电射频板卡
  • 【2024】前端学习笔记6-容器标签div
  • QT实现TCP/UDP通信
  • 基于python+django+vue的农产品销售管理系统
  • django-admin自定义功能按钮样式
  • medium_socnet
  • 数据库与表的操作
  • 2024秋季云曦开学考
  • 商业预测 初识R
  • 数据结构基础详解:哈希表【理论计算篇】开放地址法_线性探测法_拉链法详解
  • 文件管理系统DCC与泛微OA系统集成案例
  • JVM面试真题总结(十)
  • HarmonyOS开发者基础认证试题