🏠 回到主页

基于AST语义分析和字符匹配技术的python文件查重软件

本科Python课程,课程设计。

本文相关的仓库地址:Python文件查重程序


一、程序目的

本程序旨在帮助用户检测指定文件夹中Python代码文件的相似度和重复情况。它提供了三种主要功能:

通过这些功能,用户可以更好地理解和优化代码库,发现潜在的代码冗余问题,提高代码质量。

同时,通过该程序批量检测python文件的功能,可以用作python作业批改,检查出抄袭的作业。

项目结构:

二、用户操作指南

(一)启动程序

运行打包后的程序

双击直接打开后缀为exe的文件运行。

运行python脚本

针对具有开发能力的用户,可以搭建开发环境运行脚本。

  1. 确保已安装Python环境(建议3.6及以上版本),并安装依赖库(如pandasseabornmatplotlib等)。

  2. 打开命令行或终端,导航到包含gui_main.py文件的目录。

  3. 运行命令python gui_main.py启动程序。

图形界面模式

命令行模式(需指定模块)

输出说明:结果文件统一生成在输出结果子目录

主程序模块

gui_main.py

核心功能模块

ast-check.py

code-token.py

sim-segment.py

工具模块

check-gui.py/py6-gui.py

使用说明

环境要求

(二)界面介绍

程序启动后将显示一个图形用户界面(GUI),包含以下主要部分:

1. 文件夹选择区

2. 功能按钮区

每个按钮旁边都有简短说明,解释其具体作用。

3. 输出信息区

(三)操作步骤

  1. 选择文件夹:点击“选择文件夹”按钮,选择包含多个Python文件的文件夹。

  2. 选择功能:根据需要点击相应的功能按钮(相似度检测/重复度检测/字符段重复匹配)。

  3. 等待处理完成:在输出信息区查看处理进度,直到任务完成。

  4. 查看结果:任务完成后,点击“打开输出文件夹”按钮,查看生成的结果文件。

image-20250113173309863

三、运行输出的结果

(一)相似度检测结果

(二)重复度检测结果

(三)字符段重复匹配结果

程序输出结果的部分展示: image-20250113173412794

image-20250113173523161

image-20250113173602804

image-20250113173624584

四、注意事项

🏠 我的博客