金融界 2024 年 12 月 24 日消息,国家知识产权局信息显示,北京奥维云网大数据科技股份有限公司申请一项名为“基于引擎搜索的 AI 语料数据获取方法、设备及存储介质”的专利,公开号 CN 119166835 A,申请日期为 2024 年 11 月。
专利摘要显示,本发明公开了基于引擎搜索的 AI 语料数据获取方法、设备及存储介质,涉及语料数据获取技术领域,包括如下步骤:确定与目标语料相关的关键词和术语,使用同义词和相关术语扩展关键词列表;基于关键词列表搜索得到搜索网页,并基于查重率提取出搜索网页中的有效网页;对抓取得到的网页内容进行数据清洗,去除无关信息以及重复信息;设置查重测试实验,通过样本网页分析样本查重率,结合数据清洗分析得到查重阈值;本发明用于解决现有的语料数据获取技术还存在对搜索网页的提取不够精准,导致经过长时间的复杂处理过程后,提取到的语料数据较少,形成资源浪费的问题。
本文源自:金融界
作者:情报员
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.