Loading...

XML

Word

Printable

Type: Bug
Resolution: Obsolete
Priority: Critical
Fix Version/s: 7.2.0.GA.CR1
Affects Version/s: 7.1.0.ER1
Component/s: ActiveMQ
Labels:
None

CDW devel_ack:
CDW docs_ack:
CDW pm_ack:
CDW qa_ack:
CDW release:
Target Release:

7.1.z.GA
Steps to Reproduce:
Hide

This is not 100% reproducer, it seems that chance to hit the issue is rather low:

git clone git://git.app.eng.bos.redhat.com/jbossqe/eap-tests-hornetq.git cd eap-tests-hornetq/scripts/ git checkout master groovy -DEAP_VERSION=7.1.0.ER1 PrepareServers7.groovy export WORKSPACE=$PWD export JBOSS_HOME_1=$WORKSPACE/server1/jboss-eap export JBOSS_HOME_2=$WORKSPACE/server2/jboss-eap export JBOSS_HOME_3=$WORKSPACE/server3/jboss-eap export JBOSS_HOME_4=$WORKSPACE/server4/jboss-eap cd ../jboss-hornetq-testsuite/ mvn clean test -Dtest=ReplicatedColocatedClusterFailoverTestCase#testFailoverClientAckQueueShutDown -DfailIfNoTests=false -Deap=7x | tee log
Show
This is not 100% reproducer , it seems that chance to hit the issue is rather low: git clone git: //git.app.eng.bos.redhat.com/jbossqe/eap-tests-hornetq.git cd eap-tests-hornetq/scripts/ git checkout master groovy -DEAP_VERSION=7.1.0.ER1 PrepareServers7.groovy export WORKSPACE=$PWD export JBOSS_HOME_1=$WORKSPACE/server1/jboss-eap export JBOSS_HOME_2=$WORKSPACE/server2/jboss-eap export JBOSS_HOME_3=$WORKSPACE/server3/jboss-eap export JBOSS_HOME_4=$WORKSPACE/server4/jboss-eap cd ../jboss-hornetq-testsuite/ mvn clean test -Dtest=ReplicatedColocatedClusterFailoverTestCase#testFailoverClientAckQueueShutDown -DfailIfNoTests= false -Deap=7x | tee log

SFDC Cases Counter:
SFDC Cases Open:
SFDC Cases Links:

Customer impact: JMS consumer can hang after failover to backup server.

Test scenario:

Start 2 EAP 7.1 servers in colocated topology with replicated journal
Start sending messages to server1 to queue testQueue
Start consumer consuming messages from queue testQueue from server1
Cleanly shutdown server 1
Colocated backup on server 2 activates and clients failover
Stop producer and wait for consumer to receive all mesasges fromt testQueue
Pass criteria: Number of send and received messages is the same

Actual result: Sometimes after shutdown of server 1, backup on server 2 logs NPE:

11:54:34,743 TRACE [org.apache.activemq.artemis.core.journal.impl.JournalImpl] (Thread-10 (ActiveMQ-IO-server-org.apache.activemq.artemis.core.server.impl.ActiveMQServerImpl$4@64266722)) appendDeleteRecord::id=1
, usedFile = JournalFileImpl: (activemq-bindings-3.bindings id = 3, recordID = 3)
11:54:34,743 TRACE [org.apache.activemq.artemis.core.journal.impl.JournalImpl] (Thread-10 (ActiveMQ-IO-server-org.apache.activemq.artemis.core.server.impl.ActiveMQServerImpl$4@64266722)) appendDeleteRecord::id=1
, usedFile = JournalFileImpl: (activemq-bindings-3.bindings id = 3, recordID = 3)
11:54:34,744 ERROR [org.apache.activemq.artemis.core.journal.impl.JournalImpl] (Thread-10 (ActiveMQ-IO-server-org.apache.activemq.artemis.core.server.impl.ActiveMQServerImpl$4@64266722)) appendDeleteRecord:java.
lang.NullPointerException: java.lang.NullPointerException
        at org.apache.activemq.artemis.core.journal.impl.JournalImpl$3.run(JournalImpl.java:859) [artemis-journal-1.5.5.002-redhat-1.jar:1.5.5.002-redhat-1]
        at org.apache.activemq.artemis.utils.OrderedExecutorFactory$OrderedExecutor$ExecutorTask.run(OrderedExecutorFactory.java:101) [artemis-commons-1.5.5.002-redhat-1.jar:1.5.5.002-redhat-1]
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) [rt.jar:1.8.0_121]
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) [rt.jar:1.8.0_121]
        at java.lang.Thread.run(Thread.java:745) [rt.jar:1.8.0_121]

It happens during activation of backup on server 2. Producer continues sending messages but consumer hangs in consumer.receive(timeout) method:

Stack trace of thread: Thread[Thread-842,5,main]
---java.lang.Object.wait(Native Method)
---org.apache.activemq.artemis.core.client.impl.ClientConsumerImpl.receive(ClientConsumerImpl.java:261)
---org.apache.activemq.artemis.core.client.impl.ClientConsumerImpl.receive(ClientConsumerImpl.java:388)
---org.apache.activemq.artemis.jms.client.ActiveMQMessageConsumer.getMessage(ActiveMQMessageConsumer.java:211)
---org.apache.activemq.artemis.jms.client.ActiveMQMessageConsumer.receive(ActiveMQMessageConsumer.java:132)
---org.jboss.qa.hornetq.apps.clients.Receiver11.receiveMessage(Receiver11.java:140)
---org.jboss.qa.hornetq.apps.clients.ReceiverClientAck.run(ReceiverClientAck.java:81)

NPE is thrown from JournalImpl.appendDeleteRecord:859:

// record==null here could only mean there is a compactor
// computing the delete should be done after compacting is done
 if (record == null) {
                  compactor.addCommandDelete(id, usedFile); <- NPE is thrown here

There is comment that record by be null only if compactor is in progress but by checking trace logs, compactor was not in progress in the moment when NPE was thrown and is not responsible for NPE.

The problem is that the given record was deleted 2 times in quick succession and 2nd call failed as record was null. There are following traces:

11:54:34,741 TRACE [org.apache.activemq.artemis.core.journal.impl.JournalImpl] (AMQ119000: Activation for server ActiveMQServerImpl::serverUUID=null) scheduling appendDeleteRecord::id=1
11:54:34,741 TRACE [org.apache.activemq.artemis.core.journal.impl.JournalImpl] (AMQ119000: Activation for server ActiveMQServerImpl::serverUUID=null) scheduling appendDeleteRecord::id=1
...
11:54:34,743 TRACE [org.apache.activemq.artemis.core.journal.impl.JournalImpl] (Thread-10 (ActiveMQ-IO-server-org.apache.activemq.artemis.core.server.impl.ActiveMQServerImpl$4@64266722)) appendDeleteRecord::id=1
, usedFile = JournalFileImpl: (activemq-bindings-3.bindings id = 3, recordID = 3)
11:54:34,743 TRACE [org.apache.activemq.artemis.core.journal.impl.JournalImpl] (Thread-10 (ActiveMQ-IO-server-org.apache.activemq.artemis.core.server.impl.ActiveMQServerImpl$4@64266722)) appendDeleteRecord::id=1

I could not find why one record was scheduled twice for deletion. I should also point here that i'm not sure if this NPE is responsible for hanging consumer.

Assignee:: Bartosz Baranowski

Reporter:: Miroslav Novak

Votes:: 0 Vote for this issue

Watchers:: 5 Start watching this issue

Created:: 2017/06/15 7:26 AM

Updated:: 2024/09/17 7:17 PM

Resolved:: 2019/09/24 5:25 AM

Details

Description

Attachments

Easy Agile Planning Poker

Activity

People

Dates