点击这里给我发消息
 

您当前的位置:首页 > 产品中心 > 其他产品

 

对话豁达数据陈运文:咱们在打破文本智能处理的“真空地带”

发布时间:2024-04-27 08:38:17来源:刀锋电竞网页版 作者:刀锋电竞平台

  斯蒂芬·茨威格曾在《人类群星闪烁时》书中写道:一个人射中最大的走运,莫过于在他的人生半途,即在他年富力强的时分,发现了自己的任务。

  陈运文34岁那年,是2015年,他脱离任职多年的大厂,转而投身于“群众创业、万众立异”的年代浪潮中。从此,他成为豁达数据董事长兼CEO,他的任务是“扛起国内文本智能处理ToB事务这面大旗”。

  说到「文本智能处理」,外表了解起来倒不难,但背面的处理却有很高技能门槛,它是计算机科学、AI、言语学的穿插范畴,实质在于找出自然言语的规则。在国内,百度、搜狗、阿里、腾讯等互联网巨子运用的较早,如查找引擎正是根据该技能,人们在查找框敲出文字,文本智能处理在后台搞懂文字的意思,再从海量数据中把相关内容找出来。陈运文在创业之前,便是从事相似的技能研制作业,触摸的是许多C端用户。创业之后,他意外发现:“文本智能处理技能在ToB范畴的价值更高,且这在国内处于真空地带。”

  回望人工智能弯曲崎岖的60年间,人们从前热衷于各种人机大战,相较之下,「文本智能处理」——是又难又不易被感知到的“小事”。不过,陈运文兴办的豁达数据苦耕7年的作用证明了:无论是哪个赛道,技能最关键是要落地然后创造价值。

  本年3月,豁达数据完结了C轮5.8亿元融资,改写了我国自然言语处理与常识图谱范畴的融资纪录。材料显现,豁达数据专门为企业供给各类场景的智能文本机器人,包含作业流程自动化、文档智能审理、文字辨认、企业级笔直查找、智能引荐等产品,为许多500强企业的“才智作业”创造了价值。现在,豁达数据拿到我国人工智能范畴最高奖“吴文俊人工智能奖”,2021年被评为职业首家国家级“专精特新小伟人”企业,同年当选福布斯科技立异50强。此外,豁达现在已请求100 余项创造专利,经过国际权威机构的软件成熟度CMMI5的最高等级认证。

  同样在本年,豁达数据又当选了英特尔“AI百佳立异鼓舞方案”五期优异团队。在项目中,豁达数据的智能文本机器人根据英特尔至强渠道和Intel优化版TensorFlow,获得了1.45倍的功能提高。经过英特尔渠道优化后,豁达的解决方案在智能制作、才智城市、才智金融等企业数字化转型场景都能够发挥显着的作用。

  创业需求苦行僧的毅力,这在陈运文身上表现得酣畅淋漓。咱们的本次对谈,是陈运文在去赶高铁的路上进行的,他的时刻都像奶酪相同被一份份切割好,一部分对外面向客户、政府、媒体等,一部分对内谈战略、安排办理、和谐、招聘等,且这些事常常填满他的日常。他说,“脑子要常常切换。要把时刻更好的运用起来。”

  科技行者:豁达刚创建那会儿,AI范畴现已有点风生水起了,你是怎样决议要进入文本智能处理这个细分赛道的?

  陈运文:术业有专攻,人工智能是十分大的一个赛道,咱们要看自己拿手做哪块作业,那时分,“AI四小龙”现已兴办了,且现已逐渐锋芒毕露了。

  咱们看到,除了图画处理这些公司以外,做文本智能处理的,特别是书面文字材料处理的创业公司在其时几乎没有。一方面,咱们原先一直在国内大企里从事文本处理的技能研制作业;另一方面,咱们看到整个我国的企业服务版图里,文本智能处理范畴的ToB事务仍是真空地带,商场潜力巨大。

  所以,一是有十分好的商场窗口期,二是咱们又具有这样的技能才干,三是还有天使轮出资方真格基金鼓舞咱们创业。所以就抱着试一试的主意,期望能够扛起国内文本智能处理ToB事务这面大旗。

  科技行者:许多立异公司都会讲一个技能护城河的概念,文本智能处理的技能门槛高么?

  陈运文:这个技能主要有两方面难点:其一,文字十分笼统与凝练,短短几个字就能表达丰厚含义,计算机解读高度凝练的中文言语,难度很大;其二,言语文字处理是人类的高档认知,机器人要把握职业的“常识图谱”,具有专业的阅览才干,才干够阅览专业的文档材料。这些技能门槛,使得文本的自动化处理和运用存在许多难点。

  不过,文本自动化处理的运用场景十分宽广。文字材料遍及存在于每天的作业中,而文字材料的智能化处理技能可大幅提高日常文字作业的功率,为许多职业带来推翻。尽管很难,但很有价值,所以咱们下决心把它做好。

  首要,要有一个十分强壮的NLP(自然言语处理)算法模型,它能像人相同,了解文字背面所包含的杂乱语义。比方说,咱们练习计算机体系能看懂汉字、能了解汉字的意思、能运用汉字写作。这些都是需求具有的言语才干根底。

  一同,要有笔直职业的范畴常识,咱们一般称之为“domain knowledge”,也便是职业的know how。需求让计算机算法模型像一个职业专家,去解读职业术语,且能够灵活运用这些术语和才干,去完结作业事务。

  咱们常常讲“三百六十行,行行出状元”,每个职业都有自己的文字材料、写作规范、职业术语、事务审理逻辑等等,所以咱们要在每个职业里建立一个相似专家的常识图谱体系,再用这一体系结合咱们的通用言语模型,终究生成每个职业的文本智能处理事务体系。

  科技行者:作为一家立异型创业公司,不行逃避的作业还有商场前景。咱们的技能能够用在哪些场景?

  陈运文:主要有三类场景:第一类是许多的重复性作业。如财政作业,作业人员要理发票,并将发票内一切详细信息录入到体系中。再如海关报关作业,每个产品都要填报关单,作业量十分大,且繁琐重复,这些量大繁琐的作业就合适机器人完结。

  第二类是对准确率要求十分高的作业,常见于金融职业。银行、证券、基金、稳妥等范畴对文本数据的准确率要求十分高,由人来处理这些事务十分辛苦,所以咱们能够将复核等作业交给机器人做。别的,政务公函对准确率要求也十分高,姓名、职级、次序不能搞错,公函的阶段华章都有严厉的规范,机器人也能够完结稿件的复核或政府公函的复核作业。

  第三类是跨体系的作业。在作业进程中,咱们常常要在 A体系查询数据,B体系核验,再到C体系下载相关文档等,需求一同运用多个体系。智能文本机器人能够自动到各个体系完结数据的查验、读取、剖析、录入等作业,提高需求横跨多体系的作业的功率。

  咱们有个常见的评判规范,当你觉得这份作业十分单调,作业时觉得自己像个机器人,那这个作业其实就合适机器人完结,这是这些场景的共性地点。

  陈运文:金融便是一个典型的职业。像中信、招商、中信建投等等都是我国最闻名的证券公司,它们都是咱们的客户。证券公司的作业相关上市公司数亿数十亿的事务,十分重要,一同证券的投行部分加班十分多,十分辛苦。他们作业这么重要,对质量要求这么高,且作业量又这么大,能不能用一些智能化手法来缓解呢?所以证券公司找到咱们,收购豁达的智能文本处理体系,一用发现的确作用很好,大幅减轻作业担负,提高作业功率。

  有一家证券公司的保管事务,本来是靠许多人工审理保管协议,协议动辄上百页,有必要把一切的危险点找出来改掉,这是一件极细的活儿。交给咱们机器人,半年审理完结了挨近20万份协议,且保证百分百把危险点找出并改掉,这就大幅度提高了作业功率。

  陈运文:有两方面的计算,一是处理功率,咱们把一份协议的审理时刻从人工需求30分钟,压缩到机器只需2分钟内,功率提高15倍;二是审理质量,人工审理准确率约96%,会存在遗失状况,而机器能够做到准确率99.9%。

  还有一件有意思的事。咱们在本年C轮融资的出资方新增了证券公司,它们本来便是咱们的客户,十分认可咱们的产品和技能,觉得咱们的技能未来大有开展前途,它们决议未来还要出资咱们。

  科技行者:从买产品,开展到买股份,这应该是最大的认可了。别的,我在看咱们公司官网时,发现豁达的产品有许多,包含RPA、文档智能审理、智能查找、智能引荐、常识图谱等,这些产品背面的一致的技能逻辑应该便是智能语义处理渠道了。

  陈运文:是的,无论是让咱们体系帮你去搜材料,仍是审理文档,或是处理一个流程,底层逻辑都是让计算机能够说文解字,看得懂文字材料,且能够运用文字材料。豁达数据的智能语义渠道作为中心技能,承载了上面一切的运用场景。

  陈运文:本来是天上打雷,现在是地上下雨,把本来或许很高调宣扬的东西实实在在变成一个个落地的体系和产品,咱们也更乐意看到务实的产品,这是近几年显着的开展趋势。

  科技行者:许多人都喜爱听创业公司的生长故事,豁达数据这些年有哪些重要里程碑?

  前期拿到真格基金出资以及后边的一年多开展进程,叫「草创期」,对咱们来说需求调整心态,深入了解我国To B工业运转规则,一点点学习,怎样更好把咱们的产品和每个职业的运用场景嫁接到一同,去开发出有比赛力的产品,草创期是十分需求打根底的时分。

  从2017年到2020年,是「开展期」,进程中咱们完结了两轮融资,公司的规划每年都翻番增加。在职业里,咱们逐渐把豁达的品牌建立起来了,在国内特别是智能化文本处理范畴,咱们经过这几年开展期声名鹊起。

  第三个阶段是2020年往后至今,是咱们「练内功」的阶段。咱们经过多年开展,团队数量敏捷扩张,公司除了总部在上海以外,在北京、深圳、成都、姑苏、郑州都开设了分公司,每个分公司都有几十号职工,全国的职工数量加起来大几百人了,人数现已蛮多了。

  当安排不断开展壮大,怎样样让团队作业功率一直保持创业期的高功率,需求下功夫考虑。特别是异地协作,比方北京的客户,本来是北京分公司担任对接,但客户用了一些技能是咱们上海公司研制中心研制的,或许又一同用到了深圳分公司的一些经历,所以它需求咱们全国各地一盘棋。其中有许多应战,不同区域协作、不同团队安排文明等方面的应战等等。

  第三个阶段也是咱们的渠道开展期,咱们需求战胜开展进程中一些应战才干迈向下一个台阶。

  科技行者:公司苦练内功的时分,正是疫情忽然迸发的时分,这对团队协作是一个应战吧?

  陈运文:没错。疫情咱们都知道出差不如曾经方便了,曾经的项目协作,咱们能够随时出差,随时到客户现场,随时碰头开会。

  疫情今后,咱们都是线上沟通,人和人的沟通在网上和真实面对面感觉仍是隔了一层,这种状况下,究竟怎样能让团队拧成一股绳,打好协作,把一个杂乱的项目完结,这其实是有许多安排和文明方面的应战,这对咱们来说也是一个检测,咱们想了许多方法解决问题。

  陈运文:咱们安排了许多workshop(内部研讨会),这种研讨会是跨区域跨部分的,咱们组成一个虚拟团队,每次研讨会设一个主题,主题或许是某个技能论题、运营论题、或产品论题等,比方用三天时刻,让咱们会集在workshop里沟通磕碰。

  咱们安排得很频频,曩昔两年里,每周都安排一次,每次都是不同的论题,让不同团队搭档经过这样的充沛沟通,相互熟悉起来,在未来的作业中协同协作,仍是十分有用的。

  科技行者:方才说到的公司开展三个阶段,我从外部来看是两年一个台阶,一直在稳步前进,想必背面也有必定的酸楚。创业以来,有没有让你头疼的事?

  咱们需求的人才,往往来自于某个特定职业,或许他对某个职业有自己的共同了解,这样的人才关于创业公司十分可贵,由于咱们面临着来自大厂的人才比赛。从企业品牌的闻名度、号召力、薪资待遇方面,创业公司给提名人带来的光环是远不如大厂的,咱们显着处于下风。最困难的是,每次当咱们有一个优异的提名人,前期聊得特别好,在咱们和大厂之间二选一时,只能很舍不得丧失了这位提名人,每次都特别惋惜。

  包含咱们公司里许多主干,都是花了许多精力与之沟通,有的提名人到了大厂作业了一年两年后,咱们还跟他保持联系,两年后他总算觉得咱们还挺有诚心,做作业好像还挺靠谱,然后再脱离大厂来到咱们公司。

  这进程挺消耗人的心力,由于你需求压服一个人,需求去改动他的判别,需求很有耐性,咱们能看上的优异人才,他们挑选也多,咱们未必会成为他们终究挑选,所以这就特别苦楚。但咱们有耐性,期望继续呼唤优异的人才参加,咱们一同生长,一起共享作用。

  科技行者:一个公司的长时刻开展,一是要有长时刻的商业报答,二是要有中心比赛力。我想先问一下,在AI商业化方面,咱们有什么心得体会?

  陈运文:假如要把商业做好,仍是要俯下身去做实实在在的交给服务作业,即使有很巨大上的算法技能,最终落地的这一步是要走得比较扎实才行。

  咱们公司特别鼓舞工程师到客户一线去,假如不在客户现场做试验,做交给,让客户真实用起来,那么许多技能都在空转,并没有很好落地。所以咱们十分着重落地的作业,咱们要求公司办理干部每年至少有一半时刻在客户现场。

  我特别赏识华为任正非的一句话,“要让在一线听得到炮火的人来决议方案”,要在前哨才干知道客户究竟需求什么技能,真实往哪个方向去做技能研制,这才是最有价值的。

  科技行者:咱们再来谈谈中心比赛力。现在大环境很鼓舞立异,豁达也拿过许多中心技能认证和奖项,你以为提高一家公司中心技能比赛力的实质是什么?

  陈运文:首要要尊重人才。由于一家公司的技能,特别是杂乱的技能,不是一个人能做出来的,需求一个强有力的团队,且团队要不断吸收新鲜血液,新人会带着新主意、新视角、立异而来,公司要把这些原创的或共同的主意保护好,让他们乐意去测验,忍受他们立异的失利,鼓舞他们,这十分重要。说究竟,便是培育一个优异的文明氛围,让有立异火花的人才在里边发光发热。

  其次,一个正能量的企业文明也很重要。特别像咱们这样的科技创业公司里满是年青人,咱们期望从正能量的视点引导咱们,让咱们觉得公司是一个活跃向上的公司,是一个充满了人文关心的公司。

  在这方面,咱们安排了许多社会公益活动。比方每年安排搭档去贫困山区做责任支教,每年安排责任献血活动,公司还有残疾人职工,这些职工都十分优异,在咱们公司也开展得十分好,公司全体都是很有温度的文明。

  就拿责任支教来说,年青搭档都活跃报名,他们去贫困区域建爱心图书室,做短期的支教活动,回来都觉得特别有收成,更爱惜在大城市的日子,也更乐意在未来的公益中贡献爱心。我期望公司一直有这样一个正能量的规模,防止社会上一些负面心情或一些浮躁的丧文明等。这都是咱们在企业文明方面做的作业,还挺有作用的。

  陈运文:咱们企业文明浓缩成八个字“灵灵通观、务实求真”。“灵灵通观”是公司姓名的来历,期望咱们活跃向上,永久达观向前。“务实求真”是务实、接地气、脚踏实地解决问题,这样公司才干走得更久远。

  科技行者:方才说“要不断招引人才”,纳新是公司开展很重要的点,但这涉及到一个问题,大企业或许热衷于换血,你们不断纳新是否也会涉及到这个问题?

  陈运文:咱们倒没有太多这方面问题。大企业的事务相对安稳,人员团队相对饱满,或许需求用新鲜血液去替换。但咱们一直在生长,每年都在扩编,还忧虑人不够用。咱们既期望新鲜血液参加,也期望老职工生长,以承当更重要的责任,这也是咱们作为生长时刻的科技企业招引人才的当地。

  科技行者:创业之前,你在多家名企(隆重文学、腾讯文学、百度)任担任人。在大厂作业和自己创业比较,感触最大的差异是什么?

  陈运文:自己创业要操心的作业太多了,要把自己从技能专家变成一个十项全能的选手,是一个很不简单的进程。当然,这个进程对个人来说是全方位的训练和生长,咱们常常讲“痛并快乐着”,很辛苦但很有收成。

  陈运文:我自己挺爱读书的,比较引荐吴军教师的著作,他的每一本书都写得十分好。

  我在大学当校外研讨生导师,就给同学引荐《数学之美》,把十分艰深晦涩的数学原理用十分直观的比如讲清楚,写得十分好,且通俗易懂,今日咱们一切的所谓计算机、人工智能技能,底层全部都是数学模型,所以对数学的酷爱十分重要。

  吴军教师的《浪潮之巅》讲的是整个互联网或许IT科技工业的浪潮开展,里边的企业、产品、技能更迭等等,讲得十分好,十分深入。

  《文明之光》我也特别喜爱,里边讲到了人类文字的演进进程,咱们今日的数学技能来自于5000年前人类创造的这些符号,这些符号是怎样创造的,怎样样一步步变成今日的样貌,十分有意思。咱们公司搞了一面文明墙,把人类5000年来各种文字的开展进程和傍边一些里程碑事情展现出来,还搞了许多什物展品,像一个小型的文字博物馆,里边有来自埃及的文字,来自我国古代的甲骨文,刻在青铜器上的小篆等等,这些都是吴军教师各种书里的内容,我也常常买这些书送给身边的朋友,由于特别喜爱。

  复旦大学计算机博士,国家“万人方案”专家,2021年我国青年创业奖,我国五四青年奖章、上海市十大青年科技出色贡献奖获得者,上海市优异技能带头人,浦东十大出色青年;国际计算机学会(ACM)、电子电器工程师学会(IEEE)、我国计算机学会(CCF)、我国人工智能学会(CAAI)高档会员,上海市计算机学会多媒体分会副会长;第九届上海青年科技英才,浦东百人方案专家,张江优异人才;上海市浦东新区政协委员。在人工智能范畴具有丰厚研讨作用,是复旦大学、上海财经大学、上海外国语大学聘任的校外研讨生导师,在IEEE Transactions、SIGKDD等国际尖端学术期刊和会议上宣布数十篇高水平科研作用论文,出书有《智能RPA实战》、人工智能经典著作《智能Web算法》(第2版),并参加编撰《数据实践之美》等论著;曾多次摘取ACM KDD CUP、CIKM、EMI Hackathon等国际最顶尖的大数据比赛的冠亚军荣誉。曾担任隆重文学首席数据官、腾讯文学高档总监、百度中心技能研制工程师。在机器学习、自然言语处理、查找引荐等范畴有丰厚的研讨和工程经历。