人工智能刚上岗就“翻车” 培养一名合格的AI编辑总共分几步

2020-07-01 13:10:03

今朝阶段的编纂工作完全依靠AI是不实际的，让AI成为人类编纂的副手似乎更切实可行。双方协同起来，将使工作加倍高效有质量。

[原创文章：www.ii77.com]

日前，微软公布6月底拟裁撤近80名外包编纂，由AI编纂负责接下来的MSN网站的新闻抓取、排版和配图等工作。但没想到，刚到岗没多久，AI编纂就“翻车”了，并且犯了一个非常初级的错误。AI编纂在寻找配图的时候，把非裔歌手Leigh跟..裔歌手Jade弄混了。 [好文分享：www.ii77.com]

针对此次微软AI的配图错失事件，Jade也在社交媒体上表达了不满：“正常区分两个分歧肤色的人有那么难吗？”为何一贯以高识别率著称的AI，此次却“翻车”了？

视觉中国供图

解决脸盲问题需要络续扩大进修局限

人脸识别手艺是今朝AI范畴公认的对照成熟的手艺，圈内子士也热衷像刷分一般把人脸识别正确率屡屡刷出新高，最高的号称正确率可达99.9%。人脸识别手艺有如斯绚烂的战绩，为何此次AI编纂还会脸盲呢？

“人脸识别手艺的工作道理，首要是比对五官比例以及面部特征。”天津大学智能与较量学部传授韩亚洪注释，简洁说，就是基于人脸图像的大数据，先对看到的人脸图像进行预处理，提取面部各个方面的特征，并经由分层多次提取，寻找对于识别个别人脸最有效的特征表达。

人脸识别手艺这些年已经发生了重大的转变，传统的人脸识别方式已经被基于卷积神经收集的深度进修方式替代。深度进修方式的首要优势是它们可经由大规模数据集进行练习，从而进修到这些数据的最佳特征。

“固然能够使用大规模数据集进行练习，然则今朝99.9%的正确率，根基上是在一些基准的数据集上测试的究竟。这个数据集一定是有局限的，若是收集的数据是在数据集分布的局限内，便可获得对照高的正确率。”韩亚洪说。

据认识，今朝号称人脸识别正确率达到99%以上的，好多指的都是和全世界最权势的人脸数据库LFW（Labeled Faces in the Wild）进行比对测试的成就。LFW能够被认作一个考查深度进修系统人脸识别能力的题库。它从互联网上提取6000张分歧朝向、脸色和光照情况的人脸照片作为考题，能够让任何系统在里面“跑分”。“跑分”过程是LFW给出一对照片，扣问测试系统两张照片是不是统一小我，系统给出yes或no的谜底。

“解决特定的脸盲问题并不难，其实就是从新针对义务，收集这项义务范畴内的人脸图像，在原有算法模型上练习，或许从新设计新的算法模型进行练习，都邑提高人脸识别率，以知足实际应用的需求。”韩亚洪说，然则超出了特定义务，AI的“脸盲症”就会复发。今朝并没有哪个通用的模型算法能够解决所有的义务，然则AI能够经由络续地调整，大量的进修，从而提高人脸识其余正确性。

新华社结合搜狗在第五届世界互联网大会上发布全球首个合成新闻主播——“AI合成主播”，运用最新人工智能手艺，“克隆”出与真人主播拥有同样播报能力的“两全”。视觉中国供图

深度神经收集模型是进阶的需要前提

“今朝针对新闻文档的剖析和处理义务，AI编纂做起来相对轻车熟路。”韩亚洪介绍，具体地说，好比在一篇很长的报道中，让AI编纂把重点摘出来，这是没有问题的。如今是多媒体时代，大量的新闻报道会涉及图片和视频，AI编纂能够将图片或许视频主动提掏出来，再从大篇幅的文字报道中，拔取与之相成家的文字解说，这个工作AI是能够对照正确地做到的。

“解决特定范畴的问题，AI大多时候照样没问题的，然则要实现通用，就对照难了。”韩亚洪强调，实现这些功能需要用到天然说话处理、模式识别、图像视频懂得等范畴的手艺。

要培育一名AI编纂，首先需要收集大量的新闻报道和图片视频，再凭据收集到的数据设计一个针对这个义务的深度神经收集模型，收集模型里会有好多参数，然后经由数据把参数练习出来，它就具备了最初设定的各类编纂能力了。在使用过程中，跟着AI编纂进修了更多的新闻，它的买卖能力和机能也将络续提拔。

“不外今朝的新闻生产对于AI编纂来说还很难题。”韩亚洪说，要让AI学会写新闻，必需要针对某个特定新闻主题，进行大量资料汇集和模型练习。今朝AI手艺只能在气势相对固定、词汇量使用局限较小的范畴完成文本生成，好比天色预告等内容，AI能够很好地输出相关报道和新闻。但要生成人类创作的那种有立异要求、感情描述雄厚的文章，AI编纂的能力仍有待进一步提拔。

协作将使新闻生产加倍高效

“有趣的是，AI犯的错误大多是我们意想不到的初级错误，但在某些方面又强悍到让人类难望项背。”韩亚洪举例说，像给文章分类这种工作，人类编纂要进行大量阅读，反复性劳动耗时耗力，速度非常慢。但这项工作AI编纂做起来就非常简洁了，经由文字—文档的主题建模，AI能够对照正确地对文章按主题进行分类。此外，对于能够使用模板的短新闻，好比天色预告、证券信息等，AI编纂能够正确敏捷地将各类数字或许专有名词嵌套到模板中，从而完成必然的文档生成义务。

美联社曾使用AI系统主动编发企业财报。AI系统对数据进行主动抓取，将其嵌套在美联社预先设定的新闻模板中，几秒钟就能完成一篇150—300字的短新闻，该系统每季度能产出约4000篇新闻，与之比拟，美联社的人工编纂们每季度只能完成400篇。

做这些特定的工作，AI编纂比人类厉害的处所不光在于速度，正确率也可圈可点。“像分类或许是嵌套模板写短新闻这类的工作，因为义务明确，AI的正确率照样非常高的，很少显现错别字或许数据错误。”韩亚洪介绍。

在运用大数据剖析展望爆款方面，AI编纂或者比人类纯真从经验出发显得更“科学”。2015年，《..》使用AI机械人对社交..中的文章进行筛选和剖析，展望哪部门内容适合推广。凡是由它主动介绍的文章的点击量都大大增加，甚至达到了通俗文章的38倍。

“但在AI编纂的世界中，只有知道和不知道两种状况，是以处理的内容一旦超纲，它们就会马上犯好多初级到好笑的错误。”韩亚洪说，像此次AI编纂把非裔的Leigh跟..裔的Jade弄混了的如许的错误，对于人类来说，即使没见过Leigh ，但凭据常识，也不会把非洲裔和..裔弄混。

“今朝阶段的编纂工作完全依靠AI是不实际的，让AI成为人类编纂的副手似乎更切实可行。”韩亚洪说。美联社展望，AI介入媒体行业可以匡助新闻工作者释放20%摆布的时间，让后者能够将这部门时间更多地投入到内容创作方面，简洁的事实核查与调研方面的工作交给AI，有利于提高新闻质量。

“将来，人类应该把AI编纂看成合作伙伴，双方协同起来，使工作加倍高效有质量。”韩亚洪说，人类不该该感觉AI是来“抢饭碗”的，而应该为有AI如许的合作伙伴而感应幸运。

人工智能刚上岗就“翻车” 培养一名合格的AI编辑总共分几步

热门文章

小编推荐

推荐文章