2026年01月22日/ 浏览 9
12月10-12日, 2015中国大数据技术大会将在北京召开。会议前夕,我们特采访了本次会议的大数据基础设施分论坛的演讲嘉宾李明宇,以期对其从事工作和演讲内容有进一步的了解。
李明宇先生于2008~2014年间在中科院软件所服务六年,开展分布式计算和云计算相关的科学研究和技术开发工作,带领团队完成多个云计算方面的工程项目。2015年联合创立企事录,为多家跨国企业和央企提供相关的技术咨询和培训服务。
他曾经应邀在OpenStack Summit、IEEE International Conference on Cloud Engineering等国际技术会议上发表演讲。在IEEE云计算学报(IEEE Transaction on Cloud Computing)等国际期刊担任审稿人。
同时他还是Open Cloud 2015大会组织者之一,2015年国内OpenStack技术大会主席,OpenStack Beijing Meetup Co-Organizer。2014年中国大数据技术大会程序委员会委员、大数据基础设施论坛Co-chair。
下为采访实录
CSDN:在大数据存储领域,目前一般用户是如何管理和存储自己的文件系统的,弊端在哪里?
李明宇:这个问题很好,因为问题里面的四个字“文件系统”本身就是这个问题的答案!传统的文件系统的接口和实现方式并不适用于大数据存储,这个问题十多年前在GFS的论文里就有讨论。当然,这些年来随着存储技术和大数据应用的发展,问题的重点有所转移,当初一些大数据存储系统设计的时候,比如谷歌的GFS和开源的HDFS在设计的时候就是针对超大文件存储问题的,而淘宝的TFS是为海量小文件存储设计的,但是,近年来随着技术的不断发展,我们看到有越来越多的存储系统能够很好地同时支持超大文件存储和海量小文件存储。我这次将以开源分布式存储系统OpenStack Swift为例,来分享如何针对超大文件和海量小文件并存的需求对存储系统进行测评和优化。
CSDN:建立超大文件存储和海量小文件存储的性能评价指标对用户的好处在哪里,对系统效率有哪些提升?
李明宇:主要原因是大文件存储和小文件存储的性能评价指标是不一样的,比如写入一个大文件的时候,最直接的指标是吞吐率,而对于小文件,更应当关注请求-响应延迟。这个问题深入思考又有一些其他问题需要考虑,比如,吞吐率的上限是受制于存储介质、网络还是软件实现?请求-响应延迟和并发数量的关系?解答这些问题需要对多个性能指标进行测试,包括系统内部的一些情况。对系统效率提升的意义在于用户根据多个指标的测试结果进行综合分析可以回答系统是否能线性扩展?它的瓶颈可能会出现在哪里?如果进行优化,应当采用什么样的方法?
CSDN:此种方法对用户的使用环境是否有要求,比如硬件系统和数据库环境
李明宇:目前我们主要研究的是基于商品硬件(commodity hardware)的分布式存储系统。可以是基于x86服务器的,也可以是基于ARM的。这次分享的话题中,暂不涉及数据库,企事录有另外一个项目在做基于x86服务器的数据库性能测试与调优,相关内容也已经公布了,大家可以关注一下我们的微信公众号:企事录。
CSDN:作为国内OpenStack技术大会主席,您简单介绍一下国内OpenStack的发展情况.
李明宇:OpenStack近两年在国内的发展很喜人,主要是三个方面:1) 人越来越多,我最近一年利用业余时间做过的OpenStack培训,参加者累计已接近一千人次,OpenStack社区的开发工程师和运维工程师越来越多,Meetup上讨论的话题也越来越深入了,最近还涌现出了几位Core和PTL;2)不断有项目落地,尤其是在所谓的传统行业,例如银行、电信、证券、制造等领域,一些以提供OpenStack产品和服务为主要业务的创业公司保持着良好的发展势头,说明这个市场在快速的增长;3) 越来越多的用户意识到OpenStack不仅仅可以用来管理虚机,而且也可以集成Docker等Container技术,对SDN和NFV的支持也很好,并且提供了一套完备的可扩展的API。
CSDN:非常感谢你的解答,更期待在分论坛上你的精彩讲解。
90+位讲师,16大分论坛,Databricks公司联合创始人、Apache Spark首席架构师辛湜,Hadoop、HBase和Thrift项目的PMC成员和Committer、Kudu的发明人Todd Lipcon等海外专家将亲临2015中国大数据技术大会。余票已然不多,预购从速。