金融界 2024 年 7 月 23 日消息,天眼查知识产权信息显示,广州天懋信息系统股份有限公司申请一项名为“文本数据的去重方法、装置、存储介质及程序产品“,公开号 CN202410449511.5 ,申请日期为 2024 年 4 月。
专利摘要显示,本实施例公开了一种文本数据的去重方法、装置、存储介质及程序产品。其中,该方法包括:将待去重文本数据中的目标文本字段执行字段解析操作和字段转换操作,得到第一文本特征数据;将待去重文本数据中的目标文本字段执行文本分词处理和文本向量化处理,得到第二文本特征数据;将第一文本特征数据和第二文本特征数据按照预设权重进行加权融合处理,得到目标文本特征数据;利用快速聚类算法对目标文本特征数据进行聚类,并获取每个聚类簇中的相似文本;对相似文本执行去重处理,得到文本去重结果。该方法能够提高待去重的文本特征数据的完整性和准确性,从而在文本数据去重处理过程中提高文本数据的去重准确率和去重效率。
本文源自:金融界
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.