“我们和b现在正在联合研发一款智能识别图片及视频的系统。
研发完成后,它将用于甄别、封禁油管平台上发布的仇恨、种族歧视、血腥、黄暴及其他违反各国法律规定的图片、视频。”
得知夏景行前来视察工作,吴恩达和李飞飞作为复兴工业美国人工智能研究院的正、副院长亲自带着大老板在各个实验室参观了起来。
一行人边走边聊。
夏景行笑着说道:“这段时间辛苦你们了,违禁视频一直是油管的一块心病。
因为这玩意儿,油管经常被社会各界抨击,快被形容成传播毒瘤的网站了。”
吴恩达笑道:“油管每个月有来自几十个国家的几亿人访问和上传视频,这种大型平台的管理确实是件令人头疼的事情
光依靠人工审核视频很难实现高效的审核,同时还会造成大量的人力支出。
拥有一款高识别精准率的审核系统,可以为油管省很多事。
不过现阶段的识别精准率很难达到完全不依赖人工审核的程度。
未来很长一段时间内,还是需要和人工一起搭配审核,为主,人工为辅。”
夏景行笑了一下“我明白人工智能也会出错,把正常视频判别成违禁视频。”
吴恩达点点头,道:“要想彻底解决这個问题,还需要继续训练我们的算法模型,才能使它的识别更精确。
怎么训练人工智能呢?我们需要更多的标注数据。”
李飞飞在一旁补充道:“我之前曾开发了一个数据库,下载了10亿张图片,为了找人标注这些图片,我使用了亚马逊的众包服务平台,但几年时间过去了,仅仅只标注了几百万张图片。”
夏景行微微点头,亚马逊,又名富土康。
顾名思义,这就是一个网上接单做兼职的平台,其中最多的任务就是标注数据。
怎么标注呢?很简单,坐在电脑前,对数据进行手工输入、分类,区分出一张照片中是否有“狗”,辨别语句中的“bss”到底是低音还是鲈鱼。
每标注一张图片、一段语音,可以挣3美分。
看起来挣得很少但积少成多外包业务发达的印度就有很多家庭妇女把这份兼职工作做成了全职工作,每天工作8小时,一个月能挣700美元。
听起来感觉好像还不错,但其实比工厂打螺丝还枯燥乏味。
不过毕竟是兼职工作,也没人站在旁边督促,想干就干,算是比较自由的工作。
夏景行问道:“我们开发的数据库,现在标注了多少张照片?”
吴恩达叹了口气,“就一百多万张,因为找不到那么多人干这活,亚马逊上面的活跃用户太少,很多人干着干着就不干了。”
夏景行皱起了眉头,“太少了,标注数据就是人工智能的饲料,要赶紧想个办法把标注数量提升上去。”
说到这,夏景行心中突然一动,脱口而出道:“哎,我们可以考虑把这个产业引入中国啊?
一个月挣四五千块,应该还是能吸引一些人当数据标注员的。”
夏景行一下子联想到了很多东西,西哥可以在老家办个外呼中心,自己也可以在老家办个数据标注中心啊!
找一帮有一定化基础的妇女,培训一下就可以上岗了,而且还可以在家里干活,相当于补贴家用了。
夏景行把自己的想法给吴恩达和李飞飞讲了一下。
李飞飞老家也是蓉城的,而且这是为妇女提供工作岗位,她对这件事很感兴趣,立马针对性的提出了不少建议。
吴恩达提出了不同意见:“选择众包模式,估计标注员只能标注一些简单的图片。
而视频标注和3标注有些复杂,每一帧画面都需要标注数据。
尤其是戴伦你提过的自动驾驶,想想都觉得数据量恐怖。”
夏景行记得前世涌现出了一些专业的数据标注公司,他们的主要服务对象就是自动驾驶技术公司。
为了完成一些高质量、高难度的标注,那些数据标注公司没少研究如何高效标注数据的小工具。
“我们可以开发辅助标注工具,把图像和视频进行分割,标注员只需要在每个物体框里面打钩打叉,或者选择绿色、红色就行了。”
吴恩达眼睛顿时一亮,“这是一个好办法啊,不然一个图像标注几百上千组数据,能够把人活活折磨死。”
夏景行笑了一下,这可不是他自己想出来的,而是前世那些数据标注公司总结设计出来的小方法。
众所周知,数据标注越多,投食越多,喂养出来的人工智能就越精准。
开启自动驾驶模式的汽车,需要行驶在复杂的城市路况,这就对人工智能、计算机视觉提出了更高的技术要求。
周边的汽车、道路、指示牌等等,全都需要经过数据标注员无数次的标注,然后将大量的数据汇集在一起,最终才能培养出能够安全上路的自动驾驶汽车。
不过自动驾驶是渐渐走向成熟、精准的一个发展过程,在此之前,估计少不了各种翻车事件。
假如某位车主运气不好,在自动驾驶模式下,遇到了一个没有收录