网易首页 > 网易号 > 正文 申请入驻

专访庖丁科技罗平:做一把锋利的刀,切入投研市场

0
分享至

正如公司的名字一样,庖丁科技也是利用一把锋利的刀——基于自然语言处理与计算机视觉,实现金融文档结构化,从而切入金融市场。

中科院计算所副研究员兼博导、庖丁科技首席科学家罗平对雷锋网AI金融评论表示,作为一种应用科学,计算机在研究和应用阶段的目标和工作方式存在差异。“相较而言,实际应用可能会耗费更多的人力和工程量。若划分个百分比,前期研究是20%,应用产品化是80%。”而他一贯秉持着从实际需求中挖掘研究内容。

一方面是监管机构对金融文档有着真实、准确、完整要求,另一方面则是金融从业者面临着繁杂的文档数据处理、审核等困境。针对于此,庖丁科技专注于核心技术金融文档结构化的研究与工程化。简单而言,金融文档结构化就是提取出金融文档中的核心信息,转化为可供计算机搜索、比对、分析的结构化数据。而关键信息一般藏在两个地方:一是大量的表格,二是自然语言段落。

在去年7月雷锋网承办的第二届CCF-GAIR全球人工智能与机器人峰会上,罗平曾为观众展示了庖丁科技早期的产品——AutoDoc,主要能够复核金融文档表格及语言中的数字勾稽关系。

如下图所示,根据文档中的表格数据,机器可自动计算出“2016年主营收入较2015年下降的比例”应该为“12.43%”,但文字中的显示为“11.29%”。

当时,罗平还表示,出于教育市场的目的,他们预先发布了一版免费的AutoDoc软件,支持金融文档中数据勾稽关系的复核和笔误修改,复核重点是数字,后续将会增加自动撰写、智能分析,并增添人名、事件表述等复核功能。一年后,庖丁迭代了企业版本,据称目前已在券商内部测试使用。而那些后续功能将只在企业版本中提供。

除了AutoDoc企业版本的进展,他们还推出了一个新产品——PDFlux,将PDF电子文档转换成Excel表格。其中最关键的实现了无边框表格提取。据罗平介绍,企业财报中有一些出于美观考虑的无线框表格的存在,而一般使用pdf转化器后,表格数据会被打乱。通过预测表格的外框和内线,他们最终实现了数据提取。

北京银行年报无边框表格提取,210页大约用时7~8分钟

获得数据后即可直接拷贝到Excel或者word中使用。这项技术和产品的价值在哪儿呢?罗平表示,国内一些金融数据公司实质上就是卖数据的公司,从上深交所发布的报告中扒下数据,通过半自动化加人工的方式,提取报表数据。“可能需要好几百人,而录入一期财务报表至少需要3~5小时,而我们只需要几分钟。”

PDFlux也发布了一个免费版本,当前还未对速度进行优化。经雷锋网AI金融评论尝试,北京银行210页年报大约处理用时7~8分钟,杭州银行15页的2018一季度报只用了3分钟。

当然该产品并不包含图表的识别。罗平解释说,这是因为相较于表格,图表的的应用价值并不高。“在企业发布的业绩报告中,所有的关键信息都在表格中;而图表可能只有5%及以下,且理解难度也很高,从投入产出来看并不值当。”

据称,基于金融文档结构化技术,庖丁能够推出更多丰富的应用,比如合规、风控,甚至自动撰写。“坦率说,我们前期的主要工作都放在突破底层关键技术,建立技术壁垒;有了核心技术,我们会将精力转移到商业化产品端。 “

雷锋网AI金融评论还就公司与行业发展与罗平展开了更深入的对话:

雷锋网AI金融评论:庖丁的自我定位究竟是怎样的?曾有一家媒体将庖丁公司归类到智能投研,而在此之前也看到CEO接受采访时表示,庖丁对标美国大数据公司Palantir,也说“AI公司未来会是新的金融机构,未来庖丁科技要成为新的资产管理机构。”

罗平:我们是一家金融科技公司,智能投研只是该领域的一部分。另外,我们认为通过技术未来可以自然地转型成一个新型金融机构。换个角度,AutoDoc的目标是减少投行重复的投入,可能现在投行100个人,利用我们的工具后只需要10个人,也就是说相当于这个工具占到90%的工作量。那么从技术角度切入,未来延伸至业务层面,顺理成章。当然,还需要考虑到监管因素。

雷锋网AI金融评论:目前庖丁科技发布的产品实际为投研人员提供了便利。国内一些开发投研工具的公司已经不少,有推出企业知识图谱、金融搜索引擎等工具,相较起来庖丁科技的切入点更小更聚焦。

罗平:我明白你的意思,市场存在这样认知的从业者不在少数。但我想说的是,我们所做的金融文档结构化底层技术实际上都可以实现这些功能。这些工具说起来还是解决工程化的问题,并没有什么技术难度。

我们能够看到一些企业知识图谱展示,比如列出一家公司的前十大用户或者供应商名单。而事实上,后台数据库已经存储好了这些信息,相当于只是做了数据库查询,并把查询的内容可视化。

核心的技术门槛应该在如何实时的构建这样的数据库。也就是说,怎么知道这家公司的上下游公司在哪里?这些信息实际上都存在于披露的金融文档中,我们需要实时的抽取出来。这就需要自动化的表格理解和自然语言理解技术。

雷锋网AI金融评论:在没有自动化处理能力或者不成熟之前,同类公司如何为投资者提供足够多的数据?人工?

罗平:这就千差万别了。第一类是半自动化+人工实现的,比如万得。第二类则是通过不正当的手段直接获取结构化数据。

雷锋网AI金融评论:公司的商业化进展如何?在B端部署时数据如何处理?

罗平:除了C端试用产品,主要目标对象是国内券商等金融机构和监管单位。收费模式包括按次收费或者按软件收费。我们会到相关机构部署系统,数据也会存储在他们内部。

雷锋网AI金融评论:AutoDoc企业版本中有自动撰写功能,该工作的难点是什么?在此之前,我们确实有看到一些机器人自动撰写的简短的新闻。

罗平:大家不要对能够帮助投行从业者自动撰写的功能抱有太高的期望。比如一个IPO的招股书,我觉得自动撰写的比例会在50%以下,甚至更低。

我们首先需要明确撰写的内容,目前能够实现的是根据一张财务报表的数字进行自然语言描述,比如今年的指标,同比增长等,或者说可以叫做辅助撰写。

但如果出现一个异常增长率,一般监管都需要其作出解释。那么这个原因,不论是开拓的新业务或者是政策变化,机器是无法自动生成原因的,仍然需要人工撰写。

雷锋网AI金融评论:“庖丁科技未来的应用场景包括监管合规,目前的使用者上传了数万份金融市场信息报表。”怎么理解你们的作用,有什么实际应用吗?

罗平:监管有个最基本的需求就是复核年报或者IPO招股书的数据。另外,他们还希望对金融市场做到风控管理,也需要公司的底层财务和业务数据。金融文档结构化是一切后续应用的基础。实际上,我们已经与某发债监管单位签订了系统合约。

雷锋网AI金融评论:那么行业的竞争壁垒是在哪里?之前看到你接受采访时谈到在于“技术+金融数据理解。”

罗平:我觉得真正壁垒是如何获取金融数据,这是计算机的壁垒,是我们主要做的事情。获取的速度和精度,将体现出迥然不同的应用价值。

有了底层的金融数据,需要将金融以及行业知识融入计算机技术,这才是金融从业者发挥价值的广阔舞台。我们的策略是,先做计算机的事情;做好之后,金融的事情应该是一片蓝海。

雷锋网AI金融评论:近年来我们能看到许多新金融业态监管收严,比如智能投顾、网贷等,但你们所在的细分领域似乎并没有太多的监管压力。

罗平:我们所在的市场比较开放、健康。做监管科技,是为了稳定、管理金融市场。我觉得这块市场类似于传统的安防行业,用AI技术稳定金融市场,或者可以叫“金融安防市场。”

雷锋网AI金融评论:关于行业现状,你有感而发一句“鱼龙混杂”,这主要指什么问题?

罗平:鱼龙混杂主要指的是各公司的技术水平,含金量在于底下的数据来源,有些公司甚至会窃取他人数据。底层数据的来源也决定了是否能够真正构建“知识图谱”,一些所谓的AI公司充其量只是做了数据“展示”而已。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗副外长通报向美方提交的方案

伊朗副外长通报向美方提交的方案

每日经济新闻
2026-05-19 17:08:54
番禺万博堵成一锅粥,这次不怪电动车乱窜,全赖大型地下商城烂尾

番禺万博堵成一锅粥,这次不怪电动车乱窜,全赖大型地下商城烂尾

西莫的艺术宫殿
2026-05-19 16:33:56
上海交大调查541名糖尿病人士,吃惊发现:患糖尿病的人,有7共性

上海交大调查541名糖尿病人士,吃惊发现:患糖尿病的人,有7共性

宝哥精彩赛事
2026-05-19 13:11:28
河南一家三口被灭门惨案再起风波,没想到结局竟然是这样……

河南一家三口被灭门惨案再起风波,没想到结局竟然是这样……

脆皮先生
2026-03-24 19:58:30
就她了!神舟二十三号三人组预测,港产女载荷专家首秀将打破纪录

就她了!神舟二十三号三人组预测,港产女载荷专家首秀将打破纪录

Thurman在昆明
2026-05-19 18:52:09
普京第25次访华,排场不比特朗普差,关键时刻,美国送上考验

普京第25次访华,排场不比特朗普差,关键时刻,美国送上考验

梦亦沐歌
2026-05-19 19:28:18
她说我做的饭菜比不上外头卖的,宁愿高价买凉菜,婆婆心里堵得慌

她说我做的饭菜比不上外头卖的,宁愿高价买凉菜,婆婆心里堵得慌

捣蛋窝
2026-05-19 20:57:27
能活到85岁的老人,多数在50岁时,就已经不再做这些事了

能活到85岁的老人,多数在50岁时,就已经不再做这些事了

烙任情感
2026-05-18 20:15:31
弹劾失败,50万人大罢工!小马科斯为何突然对华示好?

弹劾失败,50万人大罢工!小马科斯为何突然对华示好?

爱史纪
2026-05-19 00:00:04
张本美和不再沉默!终于说出日乒不愿承认的事实,难怪马琳有底气

张本美和不再沉默!终于说出日乒不愿承认的事实,难怪马琳有底气

似水流年忘我
2026-05-13 05:32:27
哈珀:文班亚马绝平Logo三分一出手,我就知道要进了

哈珀:文班亚马绝平Logo三分一出手,我就知道要进了

懂球帝
2026-05-19 14:48:22
官方明确!南昌这23栋危房原拆原建!

官方明确!南昌这23栋危房原拆原建!

南昌楼市情报
2026-05-19 18:54:24
U17国足VS澳大利亚:4231出击 海归新星坐镇万顷领衔 赵松源冲锋

U17国足VS澳大利亚:4231出击 海归新星坐镇万顷领衔 赵松源冲锋

零度眼看球
2026-05-19 08:49:58
耿同学靠公开论文揪出造假者后,我担心的事还是发生了:高校官网开始“隐身”

耿同学靠公开论文揪出造假者后,我担心的事还是发生了:高校官网开始“隐身”

教育放大镜
2026-05-18 22:54:09
夫妻杀人后潜逃20年,各自另组家庭,妻子成公司高管丈夫成大老板

夫妻杀人后潜逃20年,各自另组家庭,妻子成公司高管丈夫成大老板

就一点
2026-05-19 11:34:38
20多年前《傻儿司令》那个只演了一部戏的幼儿园老师,成了多少川渝男人的白月光

20多年前《傻儿司令》那个只演了一部戏的幼儿园老师,成了多少川渝男人的白月光

阿废冷眼观察所
2026-05-18 14:13:14
4月经济数据出来了:中国经济真正的变化,已经藏不住了

4月经济数据出来了:中国经济真正的变化,已经藏不住了

深蓝夜读
2026-05-19 09:35:15
医生发现:早期脑梗不是眼模糊,而是频繁出现6个异常,要注意!

医生发现:早期脑梗不是眼模糊,而是频繁出现6个异常,要注意!

华庭讲美食
2026-05-19 12:53:04
受湖南地区暴雨影响,沪昆铁路部分列车停运或折返

受湖南地区暴雨影响,沪昆铁路部分列车停运或折返

界面新闻
2026-05-19 16:16:08
荨麻,不要读xún má,丢不起那个人!

荨麻,不要读xún má,丢不起那个人!

未央看点
2026-05-19 08:54:23
2026-05-19 21:39:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69372文章数 656128关注度
往期回顾 全部

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

体育要闻

文班亚马:没拿到MVP,就证明自己是MVP

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

从卖流量到卖Token,运营商算力生意破局

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

汽车要闻

焕新极氪009上市41.38万起 齐家版让MPV回归家庭

态度原创

时尚
数码
游戏
教育
家居

省油省钱的小电驴,正在掏空中女钱包

数码要闻

折叠屏iPad或将采用与首款折叠屏iPhone相同无折痕铰链设计

《极限竞速:地平线6》Steam在线峰值超20万

教育要闻

绵阳三台发布2026年义务教育招生公告(附划片范围)

家居要闻

观山隐秀 心灵沉淀

无障碍浏览 进入关怀版