我被“非结构化数据包围了”,请求支援!
这种情况出现在大部分的非结构化数据的身上,实体和关系的分离,造成了场景分析的困难。如果我们单独看一张图片(可参考图:图片蕴含的信息),其蕴含的丰富的信息如果全部靠算法去处理,不仅耗费巨大的资源,而且无法追溯其来源、曝光、使用场景等,会造成大量精准信息的缺失。如果我们从结构化数据去看,却无法直接使用图片本身所包含的信息(图片的特点、图片包含的文字、图片包含的促销信息)等。实体和关系的分离,造成了非结构化数据使用的困难,降低了数据的完整性。 数据分散,未形成合力 无论是从ImageNet的例子还是从集团数据的角度去看,当前非结构化数据普遍存在数据分散的现象。而实际的生活中,数据不应该是分散的,而应该形成联动,更充分的发挥价值,便利我们的生活。 处理复杂,开发门槛高 现在对于非结构化数据的处理,离不开算法,依托于集团人工智能实验室、各个部门的算法团队,集团内智能化场景遍地开花,欣欣向荣。 但是,这并没有解决非结构化数据处理复杂,开发门槛高的问题。算法的高门槛和业务的高要求,制约了非结构化数据能力的释放。 随着5G时代的到来,各种新的应用产生的巨量非结构化数据,仅仅依托人工的合作形态,恐怕不足以很好的实现非结构化数据的使用。工具化、平台化、规模化将会成为将来的重点。 非结构化数据的思考经过前文的描述和分析,我们对非结构化数据进行了深入的思考。 构建完整的非结构化数据资产意义重大 “单丝不成线,孤木不成林”,构建非结构化数据资产意义重大。当我们将分散的非结构化数据汇集在一起,会形成完整的用户、商品、内容、品牌等的数据集,会形成完整的资产视图和商业视图。数据汇集后,各个BU看数据的视角不再是孤立的,不再是受限的。从广度上来讲,能够从整个集团甚至整个市场的层面去查看业务的全貌;从深度上来讲,能够深入行业,形成行业专业化的知识,将业务深耕进去。 集成通用及专用的算法能力至关重要 当非结构化数据遇到MIT、PAI等集团强大算法平台或工具后,将会充分降低算法的使用门槛,充分发挥数据的价值。届时,80%的非结构化数据不再是放在仓库中积灰的矿石,而是可以被加工成闪闪发光的金子;算法不再是针对具体业务去赋能的途径,而是可以被规模化使用的利器。 提供标准化、快速的非结构化数据服务前景可观 当前无论是AWS、Azure还是阿里云,对于非结构化处理主要提供工具、算法,并没有针对数据本身提供解决方案,不同的行业数据应该如何组织、如何训练、如何形成行业知识库。所谓,提供了“器”,却没有提供“术”。而市场上很多数据公司,则专注于某个领域的数据,如公安、电商、咨询等行业,提供行业性的解决方案,并且取得了可观的成果。如果我们能够与业务深度结合,提供标准化、快速的非结构化服务,前景将会非常可观,小到BU,大到集团乃至外部市场,具备极大的想象空间。 非结构化数据的价值还远未充分挖掘,未来:广阔天地,大有可为。 非结构化数据作为一种数据量大、类型丰富、与人工智能可以深度结合的数据类型,将会发挥越来越大的价值。然而如何管理、使用、快速价值化非结构化数据,当前并没有很好的解决方案,我们团队在综合分析市场上的产品和深度思考后结合DT强大的数据能力,提出了“非结构化数据体系”的设想和解决方案。
(编辑:常州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |