
Após quase sete anos de desenvolvimento e ajustes, a plataforma Apache Hadoop, de análise de dados, está pronta para uso em ambiente de produção plena, anunciaram os programadores do software nesta quarta-feira, 04/01.
A equipe do projeto acaba de librerar para uso a versão 1.0 da sua plataforma. "Os usuários podem ter certeza de que este lançamento será apoiado pela comunidade open source", disse o vice-presidente do projecto Apache Hadoop, Arun Murthy. “Não há mais confusão sobre que versão da Hadoop usar para determinada finalidade”.
Três novas recursos, em especial, ajudaram a de designar essa versão como a 1.0, explicou Murthy. A segurança end-to-end é a principal característica. O uso da Hadoop agora pode ser garantidao através de uma rede inteira, usando o protocolo Kerberos de autenticação de rede. Como resultado, as empresas ter maior confiança na utilização de implantações Hadoop para dados confidenciais e pessoais.
A segunda característica merecedora de destaque, o webhdfs REST API (representação do estado de transferência de interface de programação de aplicativos), permite interagir com a Hadoop usando tecnologias de Web fáceis para administradores e programadores, tornando-o aplicável a um maior um número de organizações.
Por fim, esta versão é a primeira a funcionar inteiramente HBase, dando aos administradores de banco de dados uma estrutura familiar, de base de dados relacional, para armazenamento de dados.
O programador do Lucene, Doug Cutting, e Mike Cafarella, criaram a Hadoop em 2005 como uma implementação do algoritmo MapReduce do Google, uma técnica usada para análise de dados espalhados por vários servidores diferentes. Cutting viria mais tarde a trabalhar para a Yahoo, ajudando a empresa a usar a tecnologia nos seus serviços de busca. Essa implantação acabou por ser distribuída por 40 mil servidores. Desde então, a plataforma Hadoop tem sido apresentada como uma solução para lidar mais facilmente com o armazenamento e a análise de elevados volumes de dados, ou seja como o fenómeno dp Big Data.
Embora tenha sido originalmente concebida para auxiliar os serviços de busca de grande porte, a tecnologia está cada vez mais presente nas empresas, diz Murthy. Hoje o projeto tem pelo menos 35 editores de código, e centenas de outros contribuintes.
O uso do Hadoop para análise de dados pode ser particularmente útil para volumes de dados muito grandes em bancos de dados relacionais tradicionais, ou nos casos em que a organização recolhe muitos dados, mas não sabe que análises precisam ser feitas sobre esses dados.
A JPMorgan Chase, por exemplo, usa a tecnologia na detecção de fraudes e na gestão de risco. A eBay, para desenvolver um novo motor de busca para o seu serviço de leilões.
A tecnologia também tem tido um grande apoio comercial. As startups Cloudera, Hortonworks (spin-off da Yahoo) e MapR oferecem todas as distribuições comerciais do software. Já a IBM incorporou a Hadoop na sua plataforma de análise de dados InfoSphere BigInsights. E até a Microsoft tem uma cópia da Hadoop em execução no seu serviço de cloud computing, Windows Azure.
Compartilhe:

Como estar preparado para essa mudança?