“大数据”模式的法律风险

　　继今年6月“今日头条”被诉侵犯网络版权之后，近日又传出“今日头条”被围剿的消息。6月24日某媒体高调起诉“今日头条”侵犯著作权和不正当竞争。同时，国家版权局宣布对“今日头条”立案调查。至此，作为新闻数据的聚集者与加工者的“今日头条”，命运堪忧！然而，该事件对有人士的思考不仅于此，“大数据”模式的法律风险才是更值得关注的问题！

　　“大数据”模式

　　所谓“大数据”模式，其实是将巨量的数据资料通过撷取、分析，从而提取有价值的规律性信息，以供政府、企业、个人等决策使用。换句话说，“大数据”模式本质上是巨量数据的“二次加工”。这种“二次加工”不仅存在于信息空间，也存在于传统世界。

　　在信息空间，“大数据”模式的加工对象是各种各样的“电子数据”。有人士认为，“今日头条”就是一种典型的“大数据”模式。“今日头条”并不生产新闻数据，而是将各个新闻媒体发布的巨量新闻数据进行撷取、分析，进而根据新闻数据的重要性和关注程度推送给用户阅读。这其实是“大数据”模式在新闻行业的应用。

　　传统领域也有“大数据”模式。曾经有人与其讨论一个商业案例，某零售企业对商业圈内的社区垃圾进行收集和数据分析，并以此判断社区居民的消费需求。这种“大数据”商业模式无疑是成功的。然而，该人更关心这种“大数据”模式是否侵犯社区居民的隐私权。

　　实际上，近日的“今日头条”事件，已经凸显了“大数据”模式的法律风险。

　　“大数据”模式的法律问题

　　“大数据”模式的首要法律问题是数据本身的法律属性。比如说，“今日头条”所撷取的新闻数据可能是不受著作权保护的时事新闻，也可能是享受著作权保护的文字作品。那么文字作品的著作权或者传播者权如何保护？如果“今日头条”以商业目的对文字作品进行使用，恐怕需要取得著作权人或传播者权人的“使用许可”。具体取得方式可以是“征求著作权人或传播者权人的同意”或者“支付著作权或传播者权的对价”。再如，前述商业案例中，社区垃圾的数据信息是否属于公民的个人信息，是否属于隐私权的保护范畴？这也是值得讨论的。

　　大数据的取得方式也关系到“大数据”模式的合法性问题。就互联网数据而言，目前主要的取得方式是利用“蜘蛛程序”（也叫“网络爬虫”）自动搜索并抓取数据。这种技术有一个专门的协议，即“robots协议”（也叫“爬虫协议”、“机器人协议”）。该协议要求所有网站在其站点的根目录下放置一个“robots.txt”文件。该文件告诉搜索者本站点哪些数据可以被“抓取”。如果站点根目录下没有这个文件，则被视为“本站点内所有没有口令保护的数据都可以被抓取”。这就意味着如果有人突破“robots协议”范围抓取网站数据就要承担“侵犯数据”的法律责任。同理，丢弃的社区垃圾是否意味着公民放弃社区垃圾的数据信息呢？

　　当然，“大数据”模式的使用目的不同，法律规制的要求也自然不同。企业以商业目的利用“大数据”模式进行生产、经营的，应当严格保护数据权利人的合法利益，不得随意侵犯数据所附有的著作权、隐私权等权利。而对于非商业目的利用“大数据”的行为，则应区别对待。比如，个人或科研部门以学习、研究为目的对“大数据”进行撷取、分析的，政府或司法机关以行政决策或打击犯罪为目的对“大数据”进行撷取、分析的，则需要对数据权利进行必要的限制。当然，这种限制是相对的，绝不是说相关部门和人员可以随意侵犯数据权利人的合法权益。

　　此外，像大数据的处理、分析这些“加工行为”如何定性，也是一个值得思考的法律问题。在“今日头条”事件中，“今日头条”只是对文字作品进行撷取、分析并重新整理，这像是文字作品的“汇编”行为。而前述商业案件中，零售企业在社区垃圾的数据信息基础上，提取出消费需求信息及用户消费规律，这更像是“大数据”的“创作”行为。