DeepSeek新专利公布:减少数据采集时网络资源消耗
清源|
IT之家| 2025-04-02
【流媒体网】摘要:DeepSeek公布网页数据采集专利,优化大模型训练数据质量,实现高效低耗网络爬取。
从国家知识产权局中国专利公布公告网获悉,DeepSeek 关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利于 4 月 1 日公布。
专利摘要显示:
该发明的有益效果在于:发现尽可能多的网页链接,并减少对网站的流量冲击;对已经下载的内容进行分析,对未下载的链接进行质量推断,通过择优下载分配额度的方式,减少低质量网页下载和重复下载,提高数据质量及下载效率,减少在数据采集过程中网络资源的消耗;采用单独的信息回灌队列,保证网页元信息库修改操作的原子性和稳定性。
背景技术称:近年来,随着人工智能技术的进展,NLP 自然语言领域取得了巨大的进步。许多大语言模型 (Large Language Models,LLMs) 被训练应用于自然语言处理领域,用于研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
大语言模型的训练需要构建一个高质量、多样化的大语言模型数据集,这需要将网页数据采集并处理后得到大量高质量的文本信息作为模型的输入,用于大语言模型进行训练。
然而,现有的数据采集技术存在诸多问题,比如对复杂站点进行采集时,无法获取完整链接;容易过量下载,造成对方网站崩溃;对下载页面不进行内容质量分析和推断,造成重复下载或低质下载、影响数据采集的效率。
因此,在大量网页数据获取的过程中,如何快速、精准、安全、高效地采集互联网数据变得至关重要。
责任编辑:凌美
版权声明:凡注明来源“流媒体网”的文章,版权均属流媒体网所有,转载需注明出处。非本站出处的文章为转载,观点供业内参考,不代表本站观点。文中图片均来源于网络收集整理,仅供学习交流,版权归原作者所有。如涉及侵权,请及时联系我们删除!
24小时热文
流 • 视界
专栏文章更多
- [常话短说] 【解局】超高清机遇要把握!胜利! 2025-04-06
- [常话短说] 【重磅】全国广电业务一体化迈出关键一步! 2025-04-03
- OTT月报|2025年2月智能电视大数据报告:月活终端3.06亿台 2025-04-01
- 勾正科技姜岚:跨界,破局——解码大屏如何全域增长 2025-03-31
- [常话短说] 【解密】全国广电工程公司 2025-03-26