WebSight是由Hugging Face机构开发的一个网页截图转换为HTML代码的合成数据集。该数据集包含200万对HTML代码及其对应的截图,是开源社区中首次尝试将网页截图转换为可用HTML代码的重要资源。在构建过程中,研究人员首先使用一个小型语言模型来生成多样化的网站主题和设计,然后把这些网站主题和设计输入到一个代码大模型中生成最终的HTML代码,最后采用Playwright工具来可视化并捕获生成的HTML代码的输出。该数据集可用于训练视觉语言模型,使其能够基于网页截图生成对应的HTML代码,这对于无代码开发和提高UI开发效率具有重要意义。
详情请参见五号雷达:https://www.5radar.com/result?key=WebSight
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.